월간 데이콘 2020 D CUP Google Analytics 데이터 경진대회

알고리즘 | 정형 | 회귀 | 행태심리 | RMSE

Prize : 총 100만원 + 데이콘 기념품
595명 마감

Closed

Overview Data Code (share) Talk Leaderboard

Submission

Private 14위, Private 5.47387점, LGBM

끼룩끼룩 기러기

2021.01.25 19:00 6,372 Views language

안녕하세요.
저희팀은 user, competition 데이터로부터 feature을 생성하여 LGBM 모델에 적용하였습니다.

모든 분석은 Jupyter notebook에서 실행하였고 2차 데이터를 활용하는 것 보다 1차 데이터로만 분석하였을 때 더 잘 예측되어 1차 데이터만 사용하였습니다.
XGB, RandomForest, ExtraTree, DNN, LSTM 등 다양한 방법을 시도하였고 그 중 LGBM에 적용하였을때가 가장 성능이 높았습니다.
코드에 대한 추가 설명은 주석과 마크다운을 통해 작성하였습니다.

시계열 분석은 처음이었는데 이번 대회를 통해 많이 배울 수 있었습니다.
감사합니다.

[목차]
1.  library 불러오기
2.  Data 불러오기
2.1 train 범위 수정
2.2 lag feature 생성
2.3 info_user feature 생성
2.4 info_competition feature 생성
2.5 Data 나누기
2.6 Data 스케일링
3.  model 생성 및 학습
4.  가중치
5.  예측파일 저장