건설기계 오일 상태 분류 AI 경진대회

현타온 1인..

2022.11.29 00:51 2,117 조회

안녕하세요.

12시가 지나가고 있는데.. 입상은 꿈도 못꾸겠고.. 또 F1 Score가 0.53 이상이 안나오네요 ㅎㅎ..(리더보드 제출기준)

그리고 제 코드에서 M1 Score 계산해서 0.55이상나와서 제출하면 0.49 해윙~ ㅠ

사실 이 글의 목적은 지나가던 머신러닝 초짜가.. 답답한 나머지 올리는 질문글이에요..

혹시나 저와 같은 처지시거나 ㅠ 실력자분들의 심플한 조언 부탁드리겠습니다..


우선 제 코드는 대략적으로

1) Kmeans SMOTE : 데이터 오버 샘플링 (train 데이터)

2) StandardScaler  : 데이터 스케일링

1) Teacher Model : 앙상블

2) Student Model : Lgbm, Dicision Tree Regressor.. (M1 score 잘나오는 걸로)

큰 굴지는 이렇게 구성되어 있습니다.

처음에 log 변환 뭐 어쩌고 하다보니까 weight에 왜곡이 생기는것 같아서 빼고 빼서 위와 같이 남아있습니다.

돌려보면 Macro F1 score가 0.53, Acc가 0.90정도 나옵니다.


어떤 실력자 분의글을 보다보니 ML으로 Teacher Model의 rain 데이터에 predict_proba를 하고

그걸 부분 feature를 가진 student 회귀 모델에 (regressor 모델)에 적합시키면 실제 knowledge distillation의 일종이다해서

(부분 feature의 train값과 TeacherModel에서 전체 feature에 대한 예측값을 regressor 모델에 fit)

최종 예측해보니.. 0.526? 정도가 현재까지 가장 높게 나오더라구요.. (제출기준)

지금 제가 가고있는길이 맞는지도 모르겠고.. 무엇보다

52개의 feature를 가진 Teacher Model을 predict_proba로 확률값을 구한 후

그 확률값을 regressor 모델의 18개 feature의 X_train과 Teacher Model의 확률값을 fit하는게 맞는지 입니다.

ㅠ 그냥 18개 Feature를 학습시키고 이진분류시키는거랑 비슷하게 나와서 knowledge distillation가 맞는지에 대한 근본적인

물음이 생기기도 하고요.. 아무쪼록 다들 건승하시고.. ㅠ 지나가다가 아무 조언이나 주시면 감사하겠습니다.




로그인이 필요합니다
0 / 1000
WOONGSONVI
2022.11.29 11:03

Teacher Model에서 변수 52개를 모두 사용하셨다면, 변수 개수를 줄여보시는 것도 좋을 것 같습니다!

RyanKang
2022.11.29 11:17

소중한 의견 감사합니다.. 한번 시도해보겠습니다 :)