펭귄 몸무게 예측 AI 해커톤

정형 | RMSE

  • moneyIcon Prize : 참가시 최소 50 XP, 특별상 데이콘 후드
  • 837명 마감

 

첫 참가, 쉬운 방법으로 SCORE: 275.71371 까지 끌어올리기 (앙상블의 힘)

2022.01.06 15:22 1,920 Views language

그렇게 어렵지 않은 방법으로 275.71371점까지 올려본 코드입니다.
적용된 기법은 결측치에 대한 보간법, One-Hot 인코딩, 모델 앙상블 등입니다.

이 중 모델 앙상블이 Score에 가장 큰 영향을 미쳤습니다.

결측치의 컬럼은 3개였는데, delta시리즈는 평균값으로 결측치를 대체해줬지만
성별과 몸무게와는 연관이 있을것이라 판단하여 성별에 대해서는 보간법을 이용해 값을 대체해주었습니다.

또한 이상치를 histogram과 boxplot으로 확인해보았을 때 별다른 이상치는 발견되지 않았습니다.

성별을 제외한 정형 데이터에 대해서는 One-Hot encoding기법을 적용시켜주었습니다.
모델에 대한 선택은 여러 개의 모델을 모두 학습시켜보고 그 중 좋은 성능을 가지는 모델 5가지를 선택했습니다.
그리고 그 5가지 모델에 대한 예측값의 평균값을 최종 예측값으로 저장하였습니다.
성능이 크게 향상되어 놀랐습니다.

자세한 설명은 아래 제 블로그 링크에 게시하였습니다! 더욱 깔끔하게 정리되어있으니 참고하셔도 좋을 것 같습니다!
https://sjkoding.tistory.com/7

아직 수준이 낮은 초보자입니다. 지적은 언제나 환영이며 추가적인 노하우 등을 댓글로 남겨주시면 보고 공부하도록 하겠습니다! 
글이 도움되었다면 좋아요 눌러주세요 ㅎㅎ 감사합니다.

Code
로그인이 필요합니다
0 / 1000
녹차짱조아
2022.01.07 00:23

감사합니다 !! 

성지코딩
2022.01.07 00:28

읽어주셔서 감사합니다!

sonjunyeung
2022.01.08 16:30

'SEX'열의 결측치를 채우는 과정에서 학습시키는 모델을 랜덤포레스트로 선정한 이유가 있으신가요??

성지코딩
2022.01.09 16:54

암컷과 수컷을 분류하는 분류 모델중에 가장 무난한 모델을 선택했습니다! 별 다른 사유는 없었습니다! 최소한 최빈값으로 결측치를 대체하는 것 보단 우수한 성능을 보인다는 취지입니다!

sonjunyeung
2022.01.09 17:02

감사합니다 잘 읽었습니다!