Dacon x BDA 2nd Student Completion Prediction AI Challenge

Algorithm | Montly Dacon | Tabular | F1 Score

  • moneyIcon 데이스쿨 프로 구독권
  • 1,222 Users Completed

 

[Private 1st] CatBoost Rescue–Demote

2026.02.24 12:36 610 Views language

 - Preprocessing

학습/평가 간 분포·구조가 다른 컬럼이 많고 범주 수가 과도해 신호가 약한 변수가 많았습니다.
복잡 대비 효과가 낮은 컬럼은 제거하고, OHE를 위해 희소 범주는 ‘기타’로 통합해 범주 수를 줄였습니다.
최종적으로 LR용 OHE 피처(고정 피처 셋)와 CatBoost용 범주형 피처를 분리해 전처리를 정리했습니다.

 - Modeling

F1은 FN을 줄일수록 유리하다고 보고, 기본 예측을 전부 1로 둔 뒤 1일 확률이 낮은 순서로 고정 비율만 0으로 뒤집는(flip-rate 고정) 전략을 사용했습니다. 평가 데이터 확률이 특정 구간에 촘촘히 몰려 있어 threshold 기반보다 비율 고정이 더 안정적이었습니다.
여러 모델(LR, XGB, LGBM, RF, SVM 등)을 비교한 결과, LR이 LB가 가장 높고 확률 분산도 커 Base Model로 채택했습니다.

 - Stage 1 — Rescue/Demote (CatBoost)

CatBoost는 LR의 OOF/Test 확률(lr_oof_prob)을 입력 피처로 포함해 LR 예측을 보정했습니다. 또한 flip 경계 근처 샘플에 가중치를 부여해 경계 판단을 강화했습니다.
LR이 0으로 뒤집은 샘플 중 CB가 1 가능성이 높다고 본 샘플은 Rescue(0→1) 하고, LR이 1로 둔 샘플 중 CB가 1 가능성이 낮다고 본 샘플은 Demote(1→0) 하여 예측을 교정했습니다.

 - Stage 2 — Multi-CB Correction

Stage 2는 서로 다른 목표로 튜닝된 4개 CatBoost를 조합해 Stage 1 결과를 추가 보정했습니다.
Rescue는 A/B의 교집합으로 보수적으로 수행하고, Demote는 A/B/C를 결합해 확대하되 C11 기반 veto와 추가 규칙으로 과도한 Demote를 통제했습니다.
이 과정에서 FN 증가 리스크를 관리하면서 FP를 줄이는 방향(Demote 강화)으로 최종 F1을 극대화하는 데 집중했습니다.

PDF
Code