월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

전처리, EDA하면서 발생한 의문점 공유드립니다.

2021.04.09 16:20 3,848 Views language

밑에 코드와 같이 train과 test각각 동일인물이 여러명인 것으로 보이는데 다른 분들은 어떻게 생각하시는지 궁급하네요.

그리고 어떻게 처리하실건지에 대해서도 이야기 나누고 싶습니다.

밑에 말을 좀 애매하게 쓴 감이 있는데 20375행이 한 행으로 중복된다는 의미가 아닌 20375 행이 중복 이슈가 있다는 것으로 이해해주시면 될 것같습니다.

* 환이님의 말씀을 참고하여 데이터를 다시 살펴보니 동일인물은 모두 같은 credit을 가진 것이 아님이 확인되었습니다.
( begin_month에 따라 credit이 변경되는 사례 확인)
* 아래 주피터 노트북에 반영했습니다.

Code
로그인이 필요합니다
0 / 1000
삼삼
2021.04.09 20:44

오.. 생각지도 못한 큰 이슈네요..! 공유 감사합니다! 

두껍
2021.04.09 21:43

봐주셔서 감사합니다~

taegu
2021.04.09 20:58

begin_month 행과 index행만 다르다면 한사람이 다수의 신용카드를 발급받았다고 생각할 수 있을까요? 
예를 들어 3개의 중복된 행이 있을 경우(begin_month 와 index 제외 후 ) 이 사람은 3개의 신용카드를 발급.

두껍
2021.04.09 21:42

네 저도 한사람이 여러개의 신용카드를 발급받았다고 생각하고있습니다.

마공빅토르
2021.04.10 02:22

큰 이슈를 찾아주셔서 감사합니다. train 데이터를 보면 17978, 19792의 경우 위의 중복사례에 해당하나 credit이 다른 경우도 있는 것 같습니다.

두껍
2021.04.10 09:25

오 그렇군요 알려주셔서 감사합니다!
확인해보니 credit까지 제외하고 중복체크를 하면 23208행이 중복이슈가 있는 것으로 나오네요

Saturday.K
2021.04.12 22:16

생각보다 중복 데이터가 엄청 많네요. 중복이슈를 어떻게 처리할지가 핵심이 되겠네요. 좋은 인사이트 감사합니다.

록시땅
2021.04.14 10:00

앞서 다른분들이 말씀해주신 것처럼 begin month만 다른 동일한 조건의 인물이라면 카드 재발급이라는 부분으로 이해할 수 있지 않을까 합니다.

좋은 이슈 공유해주셔서 감사합니다 : )

korever
2021.04.21 19:52

내용 감사합니다.

깍구
2021.05.09 12:37

좋은 내용 감사합니다! 많은 참고가 되었습니다!!

블메소리
2021.05.12 22:20

좋은 인사이트 감사드립니다.!!

이전 글
plotnine을 활용한 부동산 데이터 시각화
Competition - 월간 데이콘 한국 부동산 데이터 시각화 경진대회
Likes 11
Views 2,586
Comments 1
3년 전
현재 글
전처리, EDA하면서 발생한 의문점 공유드립니다.
Competition - 월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회
Likes 25
Views 3,848
Comments 11
3년 전
다음 글
33444
Competition - 전력사용량 예측 AI 경진대회
Likes 0
Views 49
Comments 0
3년 전