분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
가중치 학습과 Pseudo-Labeling을 활용한 지연 예측
1. 핵심 전략 (Key Strategy)
단순 정확도(Accuracy)의 착시에서 벗어나, 실제 지연을 잡아내는 **재현율(Recall)**을 극대화하는 데 초점을 맞췄습니다.
Cyclic Encoding: 시간 데이터의 연속성을 반영하기 위해 Sin/Cos 변환 적용
Cost-Sensitive Learning: CatBoost의 scale_pos_weight를 통한 클래스 불균형 해소
Threshold Optimization: F1-Score 기준 최적 임계값(0.4866) 도출
Pseudo-Labeling: 확신도 높은 결측 데이터를 학습에 재투입하여 모델 일반화 성능 강화
2. 분석 파이프라인 (Pipeline)
본 코드는 다음과 같은 순서로 구성되어 있습니다.
데이터 로드 및 메모리 최적화: 대용량 데이터 처리를 위한 데이터 타입 경량화
피처 엔지니어링: Estimated_Departure_Time 기반 주기성 피처 생성
베이스라인 학습: 가중치를 적용한 CatBoost 모델 구축
성능 평가 및 최적화: Precision-Recall Curve 분석 및 임계값 튜닝
준지도 학습(Pseudo-Labeling): Labeled 데이터와 Unlabeled 데이터를 결합한 최종 모델 완성
결과 생성: 대회 표준 양식에 맞춘 확률 기반 Submission 생성
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved