분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 2위] Pycaret 활용 GBC, ETC 앙상블 + 간단한 전처리
AutoML 모듈 중 Pycaret을 활용해 (Gradient Boosting Classifier, Extra Tree Classifier) 블렌딩해(모델 가중치 반반) 최종 모델로 사용했습니다.
실험과정에서 (Gradient Boosting Blassifier // Catboost // LightGBM // Random Forest // Extra Tree Classifier, XGBoost, Adaboost)활용해 실험했습니다.
모델 튜닝과정에서 사이킷런의 RandomGrid, Optuna, Tune-sklearn 모듈 3가지로 튜닝하며 AUC, F1 스코어 중심으로 모델 선정했습니다.
전처리는 포지션 15개를 공격수/미드필더/수비수/골키퍼 4가지 항목으로 압축했고, (High-Medium-Low)항목을 수치형으로 변환해 사용했습니다.
'Age'항목은 카테고리 변수로 시도해봤으나, 수치형으로 테스트 했을 때 성능이 더 좋았고,
전체적인 수치형 데이터는 단순 zscore로 정규화 해서 사용했습니다. (추가로 사이킷런의 minmax, maxabs, robust 스케일러 테스트)
또한 'Yeo-Johnson' 변환도 성능이 떨어져 제외하였습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved