분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Statistics_Jun, Private 8위 (35562.769), RandomForest
안녕하세요.
쇼핑몰 지점별 매출액 예측 경진대회 코드 공유합니다.
처음이라 다소 부족한 부분이 많습니다. 너그러이 봐주시면 감사하겠습니다:)
최종 모델링 개요는 다음과 같습니다.
1. 데이터 불러오기
2. 데이터 살펴보기
3. 데이터 전처리
4. 모델링
5. 리더보드 제출
다양한 전처리와 변수 선택 조합, 모델링 방법을 시도해본 결과,
- Date로부터 Year, Month, Day 변수 생성
- Promotion 결측치와 음수값 0으로 대체 후 로그변환
- 타겟변수 Weekly_Sales 로그변환
- IsHoliday, Year, Month, Day, Promotion3, Store, Weekly_Sales 사용
- 범주형 변수 Store, IsHoliday 원-핫 인코딩
- n_estimators = 200, 100인 모델 생성하여 두 개의 예측값 병합
위와 같은 과정을 거쳤을 때 리더보드 기준 성능이 가장 좋았습니다.
이번 경진대회를 통해 데이터 전처리와 좋은 변수 선택이 모델링 성능 향상에 가장 중요한 영향을 미친다고 느꼈습니다.
또한 데이콘 베이스라인 코드와 코드 공유를 통해서 다양한 시각화와 모델링 방법을 배울 수 있었습니다. 많은 도움이 되었습니다. 감사합니다.
모두 고생 많으셨습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
좋은 코드 공유 감사합니다!