분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
첫 참가, 쉬운 방법으로 SCORE: 275.71371 까지 끌어올리기 (앙상블의 힘)
그렇게 어렵지 않은 방법으로 275.71371점까지 올려본 코드입니다.
적용된 기법은 결측치에 대한 보간법, One-Hot 인코딩, 모델 앙상블 등입니다.
이 중 모델 앙상블이 Score에 가장 큰 영향을 미쳤습니다.
결측치의 컬럼은 3개였는데, delta시리즈는 평균값으로 결측치를 대체해줬지만
성별과 몸무게와는 연관이 있을것이라 판단하여 성별에 대해서는 보간법을 이용해 값을 대체해주었습니다.
또한 이상치를 histogram과 boxplot으로 확인해보았을 때 별다른 이상치는 발견되지 않았습니다.
성별을 제외한 정형 데이터에 대해서는 One-Hot encoding기법을 적용시켜주었습니다.
모델에 대한 선택은 여러 개의 모델을 모두 학습시켜보고 그 중 좋은 성능을 가지는 모델 5가지를 선택했습니다.
그리고 그 5가지 모델에 대한 예측값의 평균값을 최종 예측값으로 저장하였습니다.
성능이 크게 향상되어 놀랐습니다.
자세한 설명은 아래 제 블로그 링크에 게시하였습니다! 더욱 깔끔하게 정리되어있으니 참고하셔도 좋을 것 같습니다!
https://sjkoding.tistory.com/7
아직 수준이 낮은 초보자입니다. 지적은 언제나 환영이며 추가적인 노하우 등을 댓글로 남겨주시면 보고 공부하도록 하겠습니다!
글이 도움되었다면 좋아요 눌러주세요 ㅎㅎ 감사합니다.
읽어주셔서 감사합니다!
'SEX'열의 결측치를 채우는 과정에서 학습시키는 모델을 랜덤포레스트로 선정한 이유가 있으신가요??
암컷과 수컷을 분류하는 분류 모델중에 가장 무난한 모델을 선택했습니다! 별 다른 사유는 없었습니다! 최소한 최빈값으로 결측치를 대체하는 것 보단 우수한 성능을 보인다는 취지입니다!
감사합니다 잘 읽었습니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합니다 !!