Real Estate Fraud Detection Hackathon: Spot the Fakes!

Dacon Hackathon | Algorithm | Tabular | Classification | Fake List | Macro F1 Score

  • moneyIcon Prize : DASCHOOL Pro Subscription
  • 1,065 Users Completed

 

Private 순위 95등 XGBoost, LightGBM 원-핫 인코딩 사용

2025.03.05 23:26 1,008 Views language

데이터 전처리:
중앙값(median)을 사용하여 수치형 변수의 결측치 처리
최빈값(mode)을 사용하여 범주형 변수의 결측치 처리
날짜 데이터를 이용한 새로운 특성 생성 (게재년도, 게재월, 게재일차, 게재요일)
기존 특성을 활용한 새로운 특성 엔지니어링 (면적당월세, 층수비율, 보증금_월세_비율 등)
One-Hot Encoding을 통한 범주형 변수 처리

모델 학습:
다양한 모델을 사용한 앙상블 접근 (XGBoost, LightGBM, CatBoost, RandomForest, ExtraTrees)
StratifiedKFold (5-Fold) 교차검증 사용
StandardScaler를 사용한 특성 스케일링
SMOTE를 사용하여 데이터 불균형 해결
VotingClassifier를 통한 소프트 보팅 앙상블 적용

예측 및 평가:
ROC AUC Score를 사용한 모델 성능 평가
Out-of-Fold (OOF) 예측을 통한 과적합 방지
F1 Score 최적화를 위한 최적 임계값 탐색

테스트 데이터에 대한 최종 예측 및 CSV 파일 저장

Code