Dacon Monthly Flight Delay Prediction AI Competition

Algorithm | Tabular | Classification | Semi-Supervised Learning | Airline | LogLoss

Certification
1,620 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

Submission

가중치 학습과 Pseudo-Labeling을 활용한 지연 예측

최호림

2026.04.02 01:19 292 Views language

1. 핵심 전략 (Key Strategy)
단순 정확도(Accuracy)의 착시에서 벗어나, 실제 지연을 잡아내는 **재현율(Recall)**을 극대화하는 데 초점을 맞췄습니다.

Cyclic Encoding: 시간 데이터의 연속성을 반영하기 위해 Sin/Cos 변환 적용

Cost-Sensitive Learning: CatBoost의 scale_pos_weight를 통한 클래스 불균형 해소

Threshold Optimization: F1-Score 기준 최적 임계값(0.4866) 도출

Pseudo-Labeling: 확신도 높은 결측 데이터를 학습에 재투입하여 모델 일반화 성능 강화

2. 분석 파이프라인 (Pipeline)
본 코드는 다음과 같은 순서로 구성되어 있습니다.

데이터 로드 및 메모리 최적화: 대용량 데이터 처리를 위한 데이터 타입 경량화

피처 엔지니어링: Estimated_Departure_Time 기반 주기성 피처 생성

베이스라인 학습: 가중치를 적용한 CatBoost 모델 구축

성능 평가 및 최적화: Precision-Recall Curve 분석 및 임계값 튜닝

준지도 학습(Pseudo-Labeling): Labeled 데이터와 Unlabeled 데이터를 결합한 최종 모델 완성

결과 생성: 대회 표준 양식에 맞춘 확률 기반 Submission 생성