펭귄 몸무게 예측 AI 해커톤

정형 | RMSE

Prize : 참가시 최소 50 XP, 특별상 데이콘 후드
836명 마감

Practice

Overview Data Code (share) Talk Leaderboard

Submission

[Private 6위 305.36157] 첫 대회, 결측치 보간, 모델 튜닝, 앙상블을 이용

초밥좋아

2022.01.10 19:07 2,000 Views language

데이콘 첫 대회 참여입니다. 보시고 부족한 부분 피드백 해주시면 감사히받겠습니다!!

결측치의 경우 13C 15N은 중앙값으로, 성별의 경우 Train데이터를 학습하여 넣어주었습니다. (Test데이터 NA값을 채울 때 test데이터를 가지고 모델을 만들어 학습해도 되는지 궁금합니다.)

RMSE값이 낮게 나온 릿지, 라쏘, Linear, LGBM, XGB 모델을 사용하였습니다. 트리계열의 모델경우 Y 값에 log1p를 적용하고 예측 후 expm1을 통해 복구하였습니다.
트리계열 모델의 경우 Y값에 Log를 취해 학습을 하면 결과가 더 좋았습니다. 선형모델의 경우 별 차이가 없었습니다.

X 데이터의 경우, 정규화를 진행하지 않는 것이 효과가 더 좋았습니다.

모델 튜닝 시 LASSO와 RIDGE의 경우 Train데이터에 대해 RMSE값이 줄어들었지만 제출 시 public RMSE값이 줄지 않은것으로 보아 Train 데이터에 대해 과적합된 모델이 만들어 졌습니다. 저는 alpha값 으로만 튜닝을 하였는데 max_iter 파라메타에가 존재하는지 256점을 얻으신 wbpark님의 튜닝을 보고 처음 알게 되었습니다. alpha값으로만 튜닝을 하여 Train 데이터에 대해 과적합이 된 모델이 발생하였다 생각합니다. (실제로도 튜닝을 하지않은 기본 모델의 성능이 더 좋았습니다.)

트리 계열 모델은 튜닝을 하여 앙상블 하는데 집어 넣었습니다.

앙상블의 경우 가장 값이 높게 나온 Ridge Lasso Linear LGBM XGB 모델을 집어넣었으며 2.5 : 2 : 2 : 2 : 1.5 의 비율로 넣어주었습니다. (가장 낮게나온 XGB를 5% 낮추고 Ridge에 더 넣어주었습니다)

마지막에 젠투/비젠투 펭귄으로 구분하느라 이전 소스코드를 다 지워버려 하이퍼 파라메타값이 달라졌습니다. 따라서 제가 제출한 소스코드의 결과물과 제 점수가 완전히 일치 하지 않을 수 있지만 다음과 같은 형식으로 펭귄몸무게를 예측하며 첫 대회를 참여해 보았습니다.

Code