심장 질환 예측 AI 해커톤

알고리즘 | 정형 | 분류 | 질병 | Macro f1 score

  • moneyIcon Prize : 참가시 최소 50 XP, 특별상 데이콘 후드
  • 559명 마감

 

Private 0.92156 (#1) 코드 공유

2021.12.28 16:10 2,450 Views language

시간이 없어 급하게 기본만 하고 제출한 모델이 1위를 하여 당황스러우나, 
데이터가 깔끔하며 결측이 없고 수가 적어 기본 이상의 작업을 하면 오버피팅이 되는 것 같습니다. 

- 모델은 Logistic, RandomForest, Adaboost를 사용해 보았으며 최종적으로 가장 스코어가 높았던 RandomForest를 선택했습니다. 
- 변수는 R에서 stepwise selection으로 선택된 변수들만 사용해도 보았으나, 결과적으로는 모든 변수를 다 사용한 모델이 가장 성능이 좋았습니다. 
- 전처리의 경우 StandardScaler를 사용한 numerical 변수들의 scaling / binary 변수들의 one-hot encoding 이외의 다른 전처리는 추가적으로 하지 않았습니다. 

Code
로그인이 필요합니다
0 / 1000
백남진
2021.12.28 16:48

좋은 분석입니다! 감사합니다 :)

김지오 ZIO
2021.12.28 17:34

감사합니다 :) 

mkk4726
2021.12.29 11:08

1등 축하드립니다~~ 수고많으셨어요 ㅎㅎ

김지오 ZIO
2021.12.29 14:59

감사합니다 :)