중앙대학교 해커톤

중앙대학교 | 심리 테스트 분석 | AUC | 분류

  • moneyIcon 상금 : 1,000만원
  • 48명 마감
마감

 

Private 6위, Public 점수 : 0.97924, RandomForest

2020.12.02 00:15 2,938 조회 language

수업 때 진행하였던 타이타닉, 베이스라인 코드를 토대로 작성하였습니다.
머신러닝과 코딩 자체가 처음이라 정말 많은 시도를 해보았습니다.

결측치 처리의 경우 수업 내용 토대로 코딩했습니다. 
'major'의 결측치가 너무 많아 제거해주고 'country'는 결측치가 상대적으로 적어서 숫자로 매핑하였습니다.

Feature Selection 부분에서는 타이타닉 수업자료에 있는 피어슨 상관계수를 통해 선택하였습니다.
(많은 검색을 통해 피어슨 상관계수에서 절댓값 0.1 미만일 경우 거의 관련이 없다는 정보를 얻었습니다.)

LogisticRegression, DecisionTree, RandomForeset, LightGBM, 교차검증, Stacking 모두 시도해보았으나
LightGBM, 교차검증, Stacking의 경우 튜닝이 어렵고 이해하기 쉽지 않아 비교적 쉽고 성능이 좋은 RandomForest를 사용하여 학습시켰습니다.

RandomForest의 튜닝의 경우 n_estimators의 숫자를 변경하였습니다. (하지만, 숫자가 너무 높아지면 학습 시간이 길어져 적정값인 1000을 선택하였습니다.)
 
끝으로 이번 대회를 통해 머신러닝과 데이터 분석 역량 강화에 많은 도움을 얻었습니다. 감사합니다.

코드
이전 글
이전 글이 존재하지 않습니다.
현재 글
Private 6위, Public 점수 : 0.97924, RandomForest
대회 - 중앙대학교 해커톤
좋아요 3
조회 2,938
댓글 0
3년 전
다음 글
Private 7위, Public 점수: 0.97716, RandomForest
대회 - 중앙대학교 해커톤
좋아요 3
조회 2,951
댓글 0
3년 전