중앙대학교 해커톤

중앙대학교 | 심리 테스트 분석 | AUC | 분류

  • moneyIcon 상금 : 1,000만원
  • 48명 마감
마감

 

Private 4위, Public 점수: 0.98215, RandomForest

2020.12.01 14:25 3,008 조회 language

*모든 코드는 colab으로 구동하였습니다.

이번 데이터 특강을 바탕으로 처음 시도해본 데이터분석입니다.
기본적인 전처리는 특강에 나온대로 
결측치가 있는 컬럼은 0 값을 넣고, RandomForest 모델을 도입하였습니다.

LogisticsRegression, LightGBM, DecisionTree 모델 역시 넣어서 값을 비교해보았으나
RF모델보다 더 나은 성과를 얻은 모델은 없었습니다.

교차검증 Stacking을 통해 여러 경우의 수를 도입해보았지만 RF단일모델보다 나은 경우가 나오지 않았었습니다.
조금 더 다양한 경우의 수를 생각하지 못해본 게 아쉽습니다.

이후 proba를 통해 nerdiness를 0과 1이 아닌 %로 나오도록 했고,
반복을 통해 최고의 점수를 도출했습니다.

앞으로 데이터 관련 학과목들이 보다 많이 개설되어 데이터 역량을 강화시킬 기회가 많아졌으면 좋겠습니다.
좋은 강의를 제공해주셔서 감사합니다.

코드