데이콘 x BDA 학습자 수료 예측 AI 경진대회

알고리즘 | 월간 데이콘 | 정형 | F1 Score

  • moneyIcon 데이스쿨 프로 구독권
  • 569명 마감

 

[private 15th] bda 수료 예측 코드 공유

2025.09.18 10:12 780 조회 language

데이터 전처리 단계에서는 결측치가 80% 이상인 칼럼을 제거하고, 나머지 결측치는 변수 유형에 따라 처리했다. 수치형 변수는 중앙값으로, 범주형 변수는 공통된 문자 값으로 채워 넣어 데이터 손실을 최소화했다. 이후 범주형 변수는 학습 데이터와 테스트 데이터를 합쳐 변환기를 학습시킨 뒤 다시 나누는 방식으로 레이블 인코딩을 적용해 안정성을 확보했다. 
모델은 LightGBM을 사용했다. 이 모델은 빠른 학습 속도와 높은 성능을 제공하며, 불균형 데이터에도 강하고 범주형 변수까지 효과적으로 다룰 수 있다는 장점이 있다. 
학습 과정에서는 단순한 데이터 분할 대신 층화 K-fold 교차검증을 활용해 각 fold에서 클래스 비율이 유지되도록 했다. 예측 단계에서는 확률값을 단순히 0.5 기준으로 분류하지 않고, 다양한 임계값을 시도해 f1 점수가 가장 높은 지점을 선택했다. 이렇게 함으로써 평가 지표에 최적화된 분류 기준을 적용할 수 있었다.

코드