건설기계 오일 상태 분류 AI 경진대회

알고리즘 | 정형 | 건설기계 | 분류 | Macro f1 score

  • moneyIcon 상금 : 1,000 만원
  • 1,442명 마감

 

[Private 43위] 데이터 접근방식 +XGBoost 활용한 Knowledge Distillation

공동작성자

stroke
2022.12.30 16:48 2,367 조회 language

이번이 대회 첫참여입니다. 해당 코드를 작성할때에 딥러닝을 알지 못하여 당시 공부하고 있었던 xgboost를 활용하여 knowledge distillation 방식을 따라 구현해보았습니다.

1.데이터 EDA
- 데이터간 correlation, 결측치, 분포 등 확인하였습니다
-모든 feature에서 outlier의 개수가 지나치게 많고, AL을 제외하면 해당 feature로 레이블을 딱히 구별할 수 있는 데이터가 없었습니다.
-outlier가 비정상적으로 많아 결측치를 보간하여 사용하기는 부적절하고 판단하였습니다.
2.데이터 전처리
-EDA하면서 결론낸 방향으로 전처리 진행하였습니다( 결측치 있는 feature완전제거)
3.teacher 모델
-xgbclassifier이용하고 gridcv 활용하여 parameter 최적화하였습니다
4.student 모델
-xgbregressor이용하고 gridcv 활용하여 parameter 최적화하였습니다

코드에 대해 사소한 의견이라도 남겨주시면 감사하겠습니다.
대회 수고하셨습니다

코드