분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Statistics_Jun, Private 8위 (35562.769), RandomForest
안녕하세요.
쇼핑몰 지점별 매출액 예측 경진대회 코드 공유합니다.
처음이라 다소 부족한 부분이 많습니다. 너그러이 봐주시면 감사하겠습니다:)
최종 모델링 개요는 다음과 같습니다.
1. 데이터 불러오기
2. 데이터 살펴보기
3. 데이터 전처리
4. 모델링
5. 리더보드 제출
다양한 전처리와 변수 선택 조합, 모델링 방법을 시도해본 결과,
- Date로부터 Year, Month, Day 변수 생성
- Promotion 결측치와 음수값 0으로 대체 후 로그변환
- 타겟변수 Weekly_Sales 로그변환
- IsHoliday, Year, Month, Day, Promotion3, Store, Weekly_Sales 사용
- 범주형 변수 Store, IsHoliday 원-핫 인코딩
- n_estimators = 200, 100인 모델 생성하여 두 개의 예측값 병합
위와 같은 과정을 거쳤을 때 리더보드 기준 성능이 가장 좋았습니다.
이번 경진대회를 통해 데이터 전처리와 좋은 변수 선택이 모델링 성능 향상에 가장 중요한 영향을 미친다고 느꼈습니다.
또한 데이콘 베이스라인 코드와 코드 공유를 통해서 다양한 시각화와 모델링 방법을 배울 수 있었습니다. 많은 도움이 되었습니다. 감사합니다.
모두 고생 많으셨습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
좋은 코드 공유 감사합니다!