분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 43위] 데이터 접근방식 +XGBoost 활용한 Knowledge Distillation
이번이 대회 첫참여입니다. 해당 코드를 작성할때에 딥러닝을 알지 못하여 당시 공부하고 있었던 xgboost를 활용하여 knowledge distillation 방식을 따라 구현해보았습니다.
1.데이터 EDA
- 데이터간 correlation, 결측치, 분포 등 확인하였습니다
-모든 feature에서 outlier의 개수가 지나치게 많고, AL을 제외하면 해당 feature로 레이블을 딱히 구별할 수 있는 데이터가 없었습니다.
-outlier가 비정상적으로 많아 결측치를 보간하여 사용하기는 부적절하고 판단하였습니다.
2.데이터 전처리
-EDA하면서 결론낸 방향으로 전처리 진행하였습니다( 결측치 있는 feature완전제거)
3.teacher 모델
-xgbclassifier이용하고 gridcv 활용하여 parameter 최적화하였습니다
4.student 모델
-xgbregressor이용하고 gridcv 활용하여 parameter 최적화하였습니다
코드에 대해 사소한 의견이라도 남겨주시면 감사하겠습니다.
대회 수고하셨습니다
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved