분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
학습자 수료 예측 코드 공유
본 분석에서는 제공된 학습 데이터(train.csv)와 테스트 데이터(test.csv)를 기반으로 학습자의 수료 여부를 예측하는 모델을 구축하였다. 먼저 데이터 전처리 과정에서 결측치 비율이 80% 이상인 변수는 제거하였으며, 나머지 결측치는 각 변수의 최빈값으로 대체하였다. 이후 major_field 변수에서 ‘IT’ 관련 여부를 확인하여 새로운 파생 변수 'is_major_it' 를 생성하였다.
범주형 변수는 LabelEncoder를 사용하여 수치형으로 변환하였으며, 이때 테스트 데이터에 학습 데이터에 존재하지 않는 새로운 값이 포함될 경우에도 처리할 수 있도록 인코딩 과정을 보완하였다. 전처리를 마친 뒤에는 랜덤포레스트 모델을 적용하여 변수 중요도를 산출하였고, 이를 시각화하여 주요 변수를 확인하였다. 분석 결과, 상위 10개의 변수를 최종 입력 변수로 선택하였다.
본 분석에서는 여러 개의 결정트리를 무작위로 학습시킨 뒤 그 결과를 종합하여 최종 예측을 수행하는 앙상블 기법으로, 과적합에 강하고 변수 중요도를 제공한다는 장점이 있는 랜덤포레스트 모델을 활용하여 학습자의 수료 여부를 분류하였다.
선택된 변수를 바탕으로 StratifiedKFold 교차검증을 실시하였으며, 평가 지표로는 F1-score을 사용하였다. 교차검증 결과 각 분할별 점수와 평균 점수를 확인하여 모델의 안정성을 검토하였다. 이후 전체 학습 데이터를 활용하여 최종 모델을 학습시키고, 테스트 데이터에 대한 예측을 수행하였다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved