데이콘 x BDA 학습자 수료 예측 AI 경진대회

알고리즘 | 월간 데이콘 | 정형 | F1 Score

  • moneyIcon 데이스쿨 프로 구독권
  • 569명 마감

 

학습자 수료 예측 코드 공유

2025.09.15 20:37 712 조회 language

본 분석에서는 제공된 학습 데이터(train.csv)와 테스트 데이터(test.csv)를 기반으로 학습자의 수료 여부를 예측하는 모델을 구축하였다. 먼저 데이터 전처리 과정에서 결측치 비율이 80% 이상인 변수는 제거하였으며, 나머지 결측치는 각 변수의 최빈값으로 대체하였다. 이후 major_field 변수에서 ‘IT’ 관련 여부를 확인하여 새로운 파생 변수 'is_major_it' 를 생성하였다.

범주형 변수는 LabelEncoder를 사용하여 수치형으로 변환하였으며, 이때 테스트 데이터에 학습 데이터에 존재하지 않는 새로운 값이 포함될 경우에도 처리할 수 있도록 인코딩 과정을 보완하였다. 전처리를 마친 뒤에는 랜덤포레스트 모델을 적용하여 변수 중요도를 산출하였고, 이를 시각화하여 주요 변수를 확인하였다. 분석 결과, 상위 10개의 변수를 최종 입력 변수로 선택하였다.

본 분석에서는 여러 개의 결정트리를 무작위로 학습시킨 뒤 그 결과를 종합하여 최종 예측을 수행하는 앙상블 기법으로, 과적합에 강하고 변수 중요도를 제공한다는 장점이 있는 랜덤포레스트 모델을 활용하여 학습자의 수료 여부를 분류하였다.

선택된 변수를 바탕으로 StratifiedKFold 교차검증을 실시하였으며, 평가 지표로는 F1-score을 사용하였다. 교차검증 결과 각 분할별 점수와 평균 점수를 확인하여 모델의 안정성을 검토하였다. 이후 전체 학습 데이터를 활용하여 최종 모델을 학습시키고, 테스트 데이터에 대한 예측을 수행하였다. 

코드