분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
코드 공유합니다
공동작성자
1. 독성 변수 제거 (Toxic Feature Drop)
앞선 적대적 검증(Adversarial Validation)을 통해 school1, generation 등 Train과 Test 간의 데이터 분포가 극심하게 달라 모델을 혼란스럽게 만드는 '과적합의 주범'을 찾아냈습니다. 이 변수들을 학습 전에 아예 삭제하여, 모델이 쓸데없는 패턴에 집착하지 않도록 원천 차단합니다.
2. 소프트 보팅 앙상블 (Soft Voting Ensemble)
비선형 패턴에 강한 트리 기반 모델(LightGBM, XGBoost)과 선형 패턴을 잘 잡는 로지스틱 회귀(Logistic Regression)를 결합합니다. 세 모델이 예측한 확률을 평균 내어, 특정 모델이 가질 수 있는 편향(Bias)이나 치명적인 오류를 서로 보완하게 만듭니다.
3. 수도 라벨링 (Pseudo-Labeling, 가짜 정답 달기)
이 코드의 핵심 무기입니다. 정답이 없는 Test 데이터 중, 앞서 만든 앙상블 모델(Teacher)이 95% 이상(수료) 또는 5% 이하(미수료)로 강력하게 확신하는 데이터만 핀셋으로 추출합니다. 이 데이터들에 예측값을 가짜 정답(Pseudo-label)으로 달아준 뒤 기존 Train 데이터에 병합합니다. 모델이 평가받을 Test 데이터의 실제 분포를 간접적으로 미리 학습(Data Augmentation)하게 되어 실전 성능이 대폭 상승합니다.
4. 재학습 및 임계값 튜닝 (Retrain & Tuning)
Test 데이터가 섞여 들어가 정보량이 풍부해진(Augmented) 새로운 데이터셋으로 학생 모델(Student Model)을 처음부터 다시 학습시킵니다. 이후 검증 데이터(Validation)를 통해 F1 Score가 최고점을 찍는 최적의 확률 기준선(Threshold)을 계산하고, 이 기준을 적용해 최종 예측을 수행합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
3. 수도 라벨링.... 이 부분이 좀 이상한데, 최종 평가용 데이터인 test set을 사용하신거라면 Data Leakage에 해당하지 않나요?
대회 규정 상 Data Leakage는 금지되어 있어서 Pseudo Labeling을 사용할 데이터라면 test 나 val set과는 무관한 별개의 dataset이 필요한 것으로 알고 있습니다.