데이콘 x BDA 제 2회 학습자 수료 예측 AI 경진대회

알고리즘 | 월간 데이콘 | 정형 | F1 Score

  • moneyIcon 데이스쿨 프로 구독권
  • 1,222명 마감

 

코드 공유합니다

공동작성자

stroke
2026.02.23 18:31 418 조회 language

1. 독성 변수 제거 (Toxic Feature Drop)
앞선 적대적 검증(Adversarial Validation)을 통해 school1, generation 등 Train과 Test 간의 데이터 분포가 극심하게 달라 모델을 혼란스럽게 만드는 '과적합의 주범'을 찾아냈습니다. 이 변수들을 학습 전에 아예 삭제하여, 모델이 쓸데없는 패턴에 집착하지 않도록 원천 차단합니다.

2. 소프트 보팅 앙상블 (Soft Voting Ensemble)

비선형 패턴에 강한 트리 기반 모델(LightGBM, XGBoost)과 선형 패턴을 잘 잡는 로지스틱 회귀(Logistic Regression)를 결합합니다. 세 모델이 예측한 확률을 평균 내어, 특정 모델이 가질 수 있는 편향(Bias)이나 치명적인 오류를 서로 보완하게 만듭니다.

3. 수도 라벨링 (Pseudo-Labeling, 가짜 정답 달기)

이 코드의 핵심 무기입니다. 정답이 없는 Test 데이터 중, 앞서 만든 앙상블 모델(Teacher)이 95% 이상(수료) 또는 5% 이하(미수료)로 강력하게 확신하는 데이터만 핀셋으로 추출합니다. 이 데이터들에 예측값을 가짜 정답(Pseudo-label)으로 달아준 뒤 기존 Train 데이터에 병합합니다. 모델이 평가받을 Test 데이터의 실제 분포를 간접적으로 미리 학습(Data Augmentation)하게 되어 실전 성능이 대폭 상승합니다.

4. 재학습 및 임계값 튜닝 (Retrain & Tuning)
Test 데이터가 섞여 들어가 정보량이 풍부해진(Augmented) 새로운 데이터셋으로 학생 모델(Student Model)을 처음부터 다시 학습시킵니다. 이후 검증 데이터(Validation)를 통해 F1 Score가 최고점을 찍는 최적의 확률 기준선(Threshold)을 계산하고, 이 기준을 적용해 최종 예측을 수행합니다.

PDF
로그인이 필요합니다
0 / 1000
데구르르
2026.02.25 08:41

3. 수도 라벨링.... 이 부분이 좀 이상한데, 최종 평가용 데이터인 test set을 사용하신거라면 Data Leakage에 해당하지 않나요? 
대회 규정 상  Data Leakage는 금지되어 있어서 Pseudo Labeling을 사용할 데이터라면 test 나 val set과는 무관한 별개의 dataset이 필요한 것으로 알고 있습니다.