분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 5위] XGBoost, 이상치 처리
여러 시도를 해보았지만 자체적으로 정의한 validation set 에서는 성능향상을 이끌었지만 리더보드 상 성능 향상이 잘 맞지 않았던 것을 보아하니 저는 validation set 구축에 조금 더 신경을 써야했을 듯 합니다.
또한 도메인에 기반한 데이터 분석을 충분히 하지 못해 아쉽네요.
대회 참여하신 모든 분들 수고 많으셨고 코드 공유해주신분들 덕분에 많이 배우고 있습니다.
### 시도했으나 잘 되지 않았던 점
- EDA 를 통해 범주형 변수 및 각종 통계량을 활용한 피처 엔지니어링을 시도했으나 성능 향상을 보인 변수는 몇가지 없었습니다.
- Soft/Hard Voting 방식의 앙상블을 시도했지만 단일 모델(XGBoost) 보다 좋은 성능을 보이지 못했습니다.
- Random / SMOTE / ADAYSN 기반의 리샘플링 알고리즘을 통해 불균형을 해결하려 했지만 성능이 좋지 못했습니다.
- XGBoost 의 학습 시 class weight 을 조절하여 불균형을 해결하려 했지만 성능이 좋지 못했습니다.
- Optuna 를 활용한 하이퍼파라미터 튜닝을 진행했으나 성능이 좋지 못했습니다.
### 유의미한 성능 향상을 이끈 점
- EDA + 통계 검정 등을 통한 데이터 전처리(극단값, 특이값 처리 등)를 통해 성능 향상을 이끌어냈습니다.
- Permutation Imporatnce / Shap Value 를 기반으로 한 변수 중요도를 통해 유의미한 파생변수를 생성해냈습니다.
- 왜도 / 첨도가 매우 큰 변수들에 대해 로그 변환을 통해 성능 향상을 이끌어냈습니다.
- 여러 모델에 대한 실험을 통해 XGBoost 가 다른 모델에 비해 높은 성능을 보였습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
이상치 처리 부분 인상적이네요! 잘 봤습니다👍