월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

알고리즘 | 정형 | 분류 | 금융 | LogLoss

  • moneyIcon 상금 : 100만원
  • 3,777명 마감

 

어떤 가정으로 시작하시나요? (중복데이터)

2021.04.13 20:37 6,932 조회

이번 대회는 index, begin_month를 제외하고 중복되는 데이터가 많습니다.

따라서, 한사람이 여러개의 카드를 발급받았다고 가정하였습니다.



begin_month까지 중복(타깃값을 제외한 모든 데이터가 동일)되지만 credit이 다른 row들이 상당히 많은 부분 차지하는 것을

발견할 수 있었습니다.(같은 달에도 여러번 신용등급이 변할 수 있을까요?)



test set에서도 index를 제외, train data와 모든 행이 일치하는 데이터가 약 1700건이 존재합니다.

base모델을 통해 예측 후 train과 일치하는 test row는 train의 credit 값을 매핑하였지만 결과는 매우 안좋네요...




로그인이 필요합니다
0 / 1000
두껍
2021.04.13 21:32

저도 이부분에 대해 의문의 많은데 중복을 제거하고 모델을 돌리니 오히려 성능이 안좋게 나와버리더라구요

그래서 일단은 중복제거를 안하고 하되 중복제거를 하고도 모델성능을 개선시킬 수 있는 방법을 찾는 중입니다.

taegu
2021.04.20 08:33

작성하신 EDA보고 알 수 있었습니다. 화이팅하세요 ㅎㅎ

psystat
2021.04.17 23:28

만약 저렇게 묶은게 동일인이라고 가정한다면 DAYS_BIRTH가 같은데 credit이 다른게 좀 이상합니다. DAYS_BIRTH가 데이터 수집일로부터 경과일수인데 DAYS_BIRTH가 같으면 데이터 수집일이 동일하다는 것이고 그러면 credit도 동일해야 하는게 맞지 않을까요?

윤기석
2021.04.18 15:48

DAYS_BIRTH가 동일하기 때문에 수집일이 같은데 begin_month만 다르다면..... 그렇담 지금까지 동일인물이라 가정했던 것이 틀린 것일 수도 있는 거군요?

taegu
2021.04.20 08:40

네 그럴 수 있습니다.

다만 begin_month 제외 후 중복되는 row 중 갯수가 30 이상인 데이터가 있습니다.
이부분의 경우  동일인이 아니라는 것이  확률적으로 매우 낮다고 생각합니다.

taegu
2021.04.20 08:37

삭제된 댓글입니다

taegu
2021.04.21 12:28

- 데이콘측 답변입니다. 참고하시기 바랍니다.

안녕하세요 **님

제공된 데이터에서 같은 사용자여도 index는 다를 수 있습니다. (ex) 같은 사람이 복수의 카드를 발급할 경우)

이 점 참고하여 대회 참여해주시면 감사하겠습니다.

감사합니다.

당쇠
2021.04.21 14:22

taegu님 적극적인 답변 감사합니다.^^