월간 데이콘 2020 D CUP Google Analytics 데이터 경진대회

알고리즘 | 정형 | 회귀 | 행태심리 | RMSE

  • moneyIcon 상금 : 총 100만원 + 데이콘 기념품
  • 595명 마감
마감

 

Private 17위, Private 점수: 5.562, LGBM

2021.01.23 13:24 8,482 조회 language

안녕하세요.
저희팀은 최근 유행하는 LGBM에 하이퍼파라미터를 산출하여을 분석을 진행했습니다.

[목차]
1. library 불러오기
2. 데이터 불러오기
2.1 train 수정
2.2 info_competition 수정
2.3 info_login 수정
2.4 info_submission 수정
2.5 info_user 수정
3 모델
3.1 모델 생성
3.2 하이퍼파라미터 튜닝
4 예측
4.1 lgbm + k-ford 학습 및 예측

[주요 feature 생성]
본 대회의 예측은 일자를 기반으로 진행하기 때문에 일자 기반으로 상자그림, 히스토그램, T-test 등을 통해 생성한 피쳐들이 타겟을 유의미하게 분별할 수 있는지 추정했습니다.
## 데이터별 생성한 feature는 코드에 주석으로 설명 넣었습니다. ##

[모델]
모델은 LGBM을 적용하여 파라미터러를 튜닝하여 진행하였습니다. 처음 코드를 구축할 때는 랜덤시드를 고정하지 않아 best_params이 바뀌었었고, 그래서 베스트가 나온 값을 복사해서 해당값을 저장해서 사용했습니다.
(아마 직접 돌리실 때 나오시는 best_params와 코드에 저장한 값이 다른 이유는 그 차이입니다.)
파라미터의 튜닝은 본대회 평가방식인 수식 weighted RMSE를 사용했습니다.

[예측]
앞서 구축한 LGBM모델에 k-fold(5)를 적용하여 앙상블 형태로 최종값을 예측하였습니다.

[대회소감]
대회를 진행하면서 더 높은 순위를 목표로 재미난 시간을 보냈습니다. Public 순위가 꾸준히 상위권을 유지해서 방심했었던거 같습니다.
최종 Private 순위는 17위로 나와서 팀원과 저희의 문제점을 고민해보니 2차 데이터를 학습하고 예측했기 때문에 해당 파트가 오버피팅 문제가 발생한 것을 깨달았습니다.
지금도 다른 대회를 준비하고 있는데, 이번 대회에서 느낀점을 기반으로 같은 실수를 반복하지 않고 좋은 등수가 나올 수 있도록 노력해야겠습니다.

긴 글 읽어주셔서 정말 감사합니다.
2021년 새해 복 많이 받으세요!!! :)

코드
로그인이 필요합니다
0 / 1000
이대권
2021.03.30 08:06

친절한 설명 감사합니다.