분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
가중치 학습과 Pseudo-Labeling을 활용한 지연 예측
1. 핵심 전략 (Key Strategy)
단순 정확도(Accuracy)의 착시에서 벗어나, 실제 지연을 잡아내는 **재현율(Recall)**을 극대화하는 데 초점을 맞췄습니다.
Cyclic Encoding: 시간 데이터의 연속성을 반영하기 위해 Sin/Cos 변환 적용
Cost-Sensitive Learning: CatBoost의 scale_pos_weight를 통한 클래스 불균형 해소
Threshold Optimization: F1-Score 기준 최적 임계값(0.4866) 도출
Pseudo-Labeling: 확신도 높은 결측 데이터를 학습에 재투입하여 모델 일반화 성능 강화
2. 분석 파이프라인 (Pipeline)
본 코드는 다음과 같은 순서로 구성되어 있습니다.
데이터 로드 및 메모리 최적화: 대용량 데이터 처리를 위한 데이터 타입 경량화
피처 엔지니어링: Estimated_Departure_Time 기반 주기성 피처 생성
베이스라인 학습: 가중치를 적용한 CatBoost 모델 구축
성능 평가 및 최적화: Precision-Recall Curve 분석 및 임계값 튜닝
준지도 학습(Pseudo-Labeling): Labeled 데이터와 Unlabeled 데이터를 결합한 최종 모델 완성
결과 생성: 대회 표준 양식에 맞춘 확률 기반 Submission 생성
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved