월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

데이터의 불균형 처리, 어떻게 하고 계신가요...?

2021.04.10 14:41 5,994 Views
안녕하세요 :)
ML을 공부하고 있는 학부생 입니다.
시험 기간과 겹치게 되어 가벼운 마음으로 이 대회를 참여하고 있습니다.

간단한 EDA를 하던 중 궁금증이 생겼습니다.
데이터를 뜯어보던 중 데이터가 어느 정도 불균형함을 알게 되었습니다.

처음에는 단순하게 One-Hot-Encoding을 하려고 했었습니다.
모든 Categorical Feature들을 One-hot Encoding하면 너무 Sparse하면서도 0으로 채워진 데이터를 생성하게 됩니다.
즉, 어떤 Feature는 거의 1로 채워져 있으나, 나머지 Feature들은 0으로 채워져 있을 것입니다.


이렇게 되면 linear-based 모형에서는 학습이 잘 안될 것 같다는 생각이 들었습니다.
물론 Tree-Based 모형에서는 Feature를 좁혀나가며 선택하니 학습이 잘 될 수도 있을 것이라고 생각합니다.
그럼에도 너무 심한 불균형은 과적합을 불러올 수도 있다고 생각합니다..

Mean-Encoding을 하기에는 target이 Multiclass이기에 조금 더 고려해야 하는 부분도 존재하고,
Label-Encoding으로 진행했더니 오히려 성능이 떨어진 것을 확인할 수 있었습니다.

이런 Imbalanced Data에 대해서 처리하는 과정에서 어떤 방법을 사용할 수 있는지 궁금합니다!
그리고 제 생각이 잘못되었다면 가르쳐주시면 감사하겠습니다!

이상 학부생 나부랭이였습니다 :)



아래에는 관련 이미지를 첨부하겠습니다!
Income_Type
Family Type
House Type


로그인이 필요합니다
0 / 1000
shki
2021.04.10 21:50

멋있으십니다 재성님...와드 박고 갑니다

Jay Hong
2021.04.11 01:20

감사합니다 >__< 

jee_p0
2021.05.11 11:41

두분다 멋있으십니다,,,

Jung chanyoung
2021.04.15 15:54

저라면 차원 축소해서 dense vector를 사용하는 것을 고려해볼 것 같습니다

Rrohchan
2021.04.19 15:13

smote를 해보는 것은 어떨까요??

Q Branch
2021.07.29 10:51

윗분 말처럼 SMOTE 좋은것같습니다.
덧 붙이자면 불균형 처리로
Under sampling
Over sampling 써도 좋을것같긴합니다.