중앙대학교 해커톤

중앙대학교 | 심리 테스트 분석 | AUC | 분류

  • moneyIcon 상금 : 1,000만원
  • 48명 마감
마감

 

Private 3위, Public 점수 : 0.98271, RandomForest

2020.12.01 14:40 3,181 조회 language

RandomForest Model을 사용하고 Hyperparameter tuning을 통해 정확도를 상승시켰습니다. (다만, 시간이 오래 걸린다는 단점이 있었습니다) 

country의 경우 종류가 160개밖에 되지 않기 때문에 텍스트를 Lable Encoding 대신 One-hot Encoding을 활용하여 처리하였습니다. 
(Major 값의 경우에도 One-hot Encoding을 하고싶었으나 오류가 났었고, 제가 오류의 원인을 제대로 파악하지 못하여 Label Encoding을 활용하였습니다)
그리고 country와 major 각각 Null값을 평균값으로 대체하여 정확도를 높이려 하였습니다. 
또한 screenh의 경우 nerdiness와 correlation을 확인하였을 때 그 상관관계가 매우 낮아 삭제하였습니다. 

DACON.ZERO님이 올려주신 "[코드] 베이스라인 코드 DecisionTreeClassifier"와 DACON.Dobby님이 올려주신 "baseline" 코드가 많은 도움이 되었습니다. 다시 한 번 감사드립니다. 

- [코드] 베이스라인 코드 DecisionTreeClassifier 주소 : https://dacon.io/competitions/open/235654/codeshare/1733?page=1&dtype=recent&ptype=pub 
 
- Baseline 주소 : https://dacon.io/competitions/open/235654/codeshare/1756?page=1&dtype=recent&ptype=pub

코드