데이터의 불균형 처리, 어떻게 하고 계신가요...?

월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

Jay Hong

2021.04.10 14:41 8,428 Views

안녕하세요 :)

ML을 공부하고 있는 학부생 입니다.

시험 기간과 겹치게 되어 가벼운 마음으로 이 대회를 참여하고 있습니다.

간단한 EDA를 하던 중 궁금증이 생겼습니다.

데이터를 뜯어보던 중 데이터가 어느 정도 불균형함을 알게 되었습니다.

처음에는 단순하게 One-Hot-Encoding을 하려고 했었습니다.

모든 Categorical Feature들을 One-hot Encoding하면 너무 Sparse하면서도 0으로 채워진 데이터를 생성하게 됩니다.

즉, 어떤 Feature는 거의 1로 채워져 있으나, 나머지 Feature들은 0으로 채워져 있을 것입니다.

이렇게 되면 linear-based 모형에서는 학습이 잘 안될 것 같다는 생각이 들었습니다.

물론 Tree-Based 모형에서는 Feature를 좁혀나가며 선택하니 학습이 잘 될 수도 있을 것이라고 생각합니다.

그럼에도 너무 심한 불균형은 과적합을 불러올 수도 있다고 생각합니다..

Mean-Encoding을 하기에는 target이 Multiclass이기에 조금 더 고려해야 하는 부분도 존재하고,

Label-Encoding으로 진행했더니 오히려 성능이 떨어진 것을 확인할 수 있었습니다.

이런 Imbalanced Data에 대해서 처리하는 과정에서 어떤 방법을 사용할 수 있는지 궁금합니다!

그리고 제 생각이 잘못되었다면 가르쳐주시면 감사하겠습니다!

이상 학부생 나부랭이였습니다 :)

아래에는 관련 이미지를 첨부하겠습니다!

Income_Type

Family Type

House Type

6 Comments

comment

0 / 1000

비회원

2021.04.10 21:50

멋있으십니다 재성님...와드 박고 갑니다

Jay Hong

2021.04.11 01:20

감사합니다 >__<

jee_p0

2021.05.11 11:41

두분다 멋있으십니다,,,

Jung chanyoung

2021.04.15 15:54

저라면 차원 축소해서 dense vector를 사용하는 것을 고려해볼 것 같습니다

Rrohchan

2021.04.19 15:13

smote를 해보는 것은 어떨까요??

Q Branch

2021.07.29 10:51

윗분 말처럼 SMOTE 좋은것같습니다.
덧 붙이자면 불균형 처리로
Under sampling
Over sampling 써도 좋을것같긴합니다.

📣 The comment input field has been moved to the top of the comment list!

List

여러분이 생각하시는 적절한 추론 속도는 몇 초인가요?

Competition - 카메라 이미지 품질 향상 AI 경진대회

Current

데이터의 불균형 처리, 어떻게 하고 계신가요...?

Competition - 월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

Likes 16

Comments 6

4yr ago

코로나 19 데이터 소스 주소가 연결오류됩니다.

Competition - 2021 빅데이터 통신 플랫폼 경진대회