커뮤니티 대회 교육

팔당댐 홍수 안전운영에 따른 한강 수위예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 시계열 | RMSE

  • moneyIcon 상금 : 총 1,100만원
  • 1,336명 마감

 

private score 16위 코드 공유

공동작성자

stroke
2022.09.13 22:00 699 조회 language

안녕하세요! 전문가 전문가 전문팀 입니다. 긴 대회에 참여하면서 사용해 보았던 아이디어들과 코드들을 공유하고자 합니다. 이번 대회의 경우 솔루션이 이미 공개되어 있어 data leakage 없이 모델을 만드는 것이 핵심이었는데요. 이에 따라 저희도 데이터 전처리를 하고, 마지막으로 모델을 앙상블 하는 데 대부분의 시간을 사용했습니다. 시도해본 내용들이 상당히 많아서 코드 위에 markdown 으로 조금 정리해보았습니다!

- 저희는 학습에 총 6개의 모델을 사용하였고, 모든 모델은 LGBM 모델을 사용했습니다.
- 하이퍼 파라미터 및 데이터 전처리를 계속 바꾸어가며 여러 번 실험하였습니다.

자세한 코드 설명과 EDA에 관한 내용은 개인 블로그에 더욱 상세하게 적어두었습니다!
더욱 궁금하신 내용이 있으시다면 블로그를 함께 봐주시면 감사하겠습니다.

<블로그 링크>
1. https://blog.naver.com/bwook00/222867648467
2. https://blog.naver.com/bwook00/222867689242
3. https://blog.naver.com/bwook00/222869706288
4. https://blog.naver.com/bwook00/222869786320
5. https://blog.naver.com/bwook00/222869792156

코드
matthew624
2022.09.15 13:01

안녕하세요 코드 잘 읽었습니다!!! 다름이 아니라 궁금한게 있어서 질문드립니다.  interpolate를 통해서 결측치를 없앨 때, train set부분은 상관이 없을 것 같은데, 
test set에서 보간법을 사용하여 결측치를 보완할 때 예를 들어 t-1시점에 값이 존재하고 t시점이 결측치이고 t+1에 값이 존재할 떄 t-1시점과 t+1시점을 이용하여 t시점의 결측치를 보완하는 것으로 알고있는데, 이 경우에는 t시점을 예측하기 위해 t+1시점을 이용한건데 data leakage를 위반하지 않나요? 제가 interpolate에 대해서 잘 이해하지 못한 걸 수도 있어서 질문드립니다. 

로그인이 필요합니다
0 / 1000