분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 43위] 데이터 접근방식 +XGBoost 활용한 Knowledge Distillation
공동작성자
이번이 대회 첫참여입니다. 해당 코드를 작성할때에 딥러닝을 알지 못하여 당시 공부하고 있었던 xgboost를 활용하여 knowledge distillation 방식을 따라 구현해보았습니다.
1.데이터 EDA
- 데이터간 correlation, 결측치, 분포 등 확인하였습니다
-모든 feature에서 outlier의 개수가 지나치게 많고, AL을 제외하면 해당 feature로 레이블을 딱히 구별할 수 있는 데이터가 없었습니다.
-outlier가 비정상적으로 많아 결측치를 보간하여 사용하기는 부적절하고 판단하였습니다.
2.데이터 전처리
-EDA하면서 결론낸 방향으로 전처리 진행하였습니다( 결측치 있는 feature완전제거)
3.teacher 모델
-xgbclassifier이용하고 gridcv 활용하여 parameter 최적화하였습니다
4.student 모델
-xgbregressor이용하고 gridcv 활용하여 parameter 최적화하였습니다
코드에 대해 사소한 의견이라도 남겨주시면 감사하겠습니다.
대회 수고하셨습니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved