웹 광고 클릭률 예측 AI 경진대회

알고리즘 | 정형 | 시계열 | 분류 | 웹 로그 | AUC

  • moneyIcon 상금 : 인증서 + 데이스쿨
  • 931명 마감

 

[Private 6위, 0.78882] Boosting Stacked Generalization

2024.06.07 20:34 698 조회 language

안녕하세요 :)

Boosting(XGBoost, LightGBM, CatBoost)을 활용한 Stacked Generalization 예측 모형입니다.

1. Preprocessing
  - 범주형 변수는 고차원 데이터로 Count Encoder를 활용한 Frequency Encoding을 진행함.
  - 수치형 변수는 최빈값인 0으로 결측치를 대체함.
  - 데이터는 전처리 후 Parquet 파일로 저장 후 사용함.
2. Feature Extraction
  - 변수 중요도가 높은 변수를 기준으로 범주형 변수에 대한 수치형 변수의 평균 등 기초 통계량 파생 변수를 생성함.
3. Modeling
  - 총 3개의 Boosting 예측 모형을 Stacking 함.
  - Level 0 model : XGBoost, LightGBM, Catboost
  - Level 1 model : Logistic Regression

자세한 내용은 github를 참고해 주시기 바랍니다.
https://github.com/GNOEYHEAT/CTR_stacking

감사합니다.

PDF
코드