축구선수의 유망 여부 예측 AI 해커톤

[Private 2위] Pycaret 활용 GBC, ETC 앙상블 + 간단한 전처리

2022.11.30 23:20 1,363 Views language

AutoML 모듈 중 Pycaret을 활용해 (Gradient Boosting Classifier, Extra Tree Classifier) 블렌딩해(모델 가중치 반반) 최종 모델로 사용했습니다.
실험과정에서 (Gradient Boosting Blassifier // Catboost // LightGBM // Random Forest // Extra Tree Classifier, XGBoost, Adaboost)활용해 실험했습니다.
모델 튜닝과정에서 사이킷런의 RandomGrid, Optuna, Tune-sklearn 모듈 3가지로 튜닝하며 AUC, F1 스코어 중심으로 모델 선정했습니다.

전처리는 포지션 15개를 공격수/미드필더/수비수/골키퍼 4가지 항목으로 압축했고, (High-Medium-Low)항목을 수치형으로 변환해 사용했습니다.
'Age'항목은 카테고리 변수로 시도해봤으나, 수치형으로 테스트 했을 때 성능이 더 좋았고, 
전체적인 수치형 데이터는 단순 zscore로 정규화 해서 사용했습니다. (추가로 사이킷런의 minmax, maxabs, robust 스케일러 테스트) 
또한 'Yeo-Johnson' 변환도 성능이 떨어져 제외하였습니다.

Code