중앙대학교 해커톤

중앙대학교 | 심리 테스트 분석 | AUC | 분류

  • moneyIcon 상금 : 1,000만원
  • 48명 마감
마감

 

Private 2위, Public 점수: 0.98301, RandomForest

2020.12.01 17:28 3,753 조회 language

Google Colab을 이용하여 개발하였습니다.

파이썬과 데이터 분석이라는 것을 이번 대회와 특강을 통해 처음 접했습니다.
데이터 탐색과 전처리는 특강에 나온 그대로 따라했습니다. 
결측치가 있는 컬럼은 0 값을 넣고, RandomForest 모델을 도입하였습니다.

LogisticsRegression, LGBM, DecisionTree 을 모두 시도해보았는데, 
Random Forest가 월등히 높은 점수가 나왔습니다.

기본적으로 교육 받은(코드공유에 baseline으로 올라왔던)대로 알고리즘을 가져가되, 마지막에 proba기능으로
값을 0과1이 아닌 확률값으로 변환하여 점수를 상당히 올렸습니다. 

이후, 데이콘측에서 이메일로 대회 종료가 얼마 남지 않았음을 알리는 이메일에서 파라미터를 수정해보면 점수가 오를 수 있다는 힌트를 받았고,
여기에 영감을 받아 하이퍼 파리미터 튜닝법을 찾았습니다. 여러 기법 중 가장 단순하지만 오래 걸리는 scikit learn의 grid search를 사용하여 스스로 구상한 후보 몇 개를 넣어 최적의 파라미터를 찾는 방법을 택했습니다. 다만 n_estimators의 최적값만 구한 이유는 PC사양이 낮아 긴 시간이 소요되기 때문입니다.

이 과정을 통해 나온 값으로 튜닝 하여 정확도를 더욱 높일 수 있었습니다.  

학과에서 제공한 특강과 주최측에서 제공한 데이터분석 기본강의가도움되었습니다. 최대한 기본에 충실하고 여러 실험을 시도해보며 답을 찾았습니다.

코드