분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 6위 305.36157] 첫 대회, 결측치 보간, 모델 튜닝, 앙상블을 이용
데이콘 첫 대회 참여입니다. 보시고 부족한 부분 피드백 해주시면 감사히받겠습니다!!
결측치의 경우 13C 15N은 중앙값으로, 성별의 경우 Train데이터를 학습하여 넣어주었습니다. (Test데이터 NA값을 채울 때 test데이터를 가지고 모델을 만들어 학습해도 되는지 궁금합니다.)
RMSE값이 낮게 나온 릿지, 라쏘, Linear, LGBM, XGB 모델을 사용하였습니다. 트리계열의 모델경우 Y 값에 log1p를 적용하고 예측 후 expm1을 통해 복구하였습니다.
트리계열 모델의 경우 Y값에 Log를 취해 학습을 하면 결과가 더 좋았습니다. 선형모델의 경우 별 차이가 없었습니다.
X 데이터의 경우, 정규화를 진행하지 않는 것이 효과가 더 좋았습니다.
모델 튜닝 시 LASSO와 RIDGE의 경우 Train데이터에 대해 RMSE값이 줄어들었지만 제출 시 public RMSE값이 줄지 않은것으로 보아 Train 데이터에 대해 과적합된 모델이 만들어 졌습니다. 저는 alpha값 으로만 튜닝을 하였는데 max_iter 파라메타에가 존재하는지 256점을 얻으신 wbpark님의 튜닝을 보고 처음 알게 되었습니다. alpha값으로만 튜닝을 하여 Train 데이터에 대해 과적합이 된 모델이 발생하였다 생각합니다. (실제로도 튜닝을 하지않은 기본 모델의 성능이 더 좋았습니다.)
트리 계열 모델은 튜닝을 하여 앙상블 하는데 집어 넣었습니다.
앙상블의 경우 가장 값이 높게 나온 Ridge Lasso Linear LGBM XGB 모델을 집어넣었으며 2.5 : 2 : 2 : 2 : 1.5 의 비율로 넣어주었습니다. (가장 낮게나온 XGB를 5% 낮추고 Ridge에 더 넣어주었습니다)
마지막에 젠투/비젠투 펭귄으로 구분하느라 이전 소스코드를 다 지워버려 하이퍼 파라메타값이 달라졌습니다. 따라서 제가 제출한 소스코드의 결과물과 제 점수가 완전히 일치 하지 않을 수 있지만 다음과 같은 형식으로 펭귄몸무게를 예측하며 첫 대회를 참여해 보았습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
잘 봤습니다!!