분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회
전처리, EDA하면서 발생한 의문점 공유드립니다.
밑에 코드와 같이 train과 test각각 동일인물이 여러명인 것으로 보이는데 다른 분들은 어떻게 생각하시는지 궁급하네요.
그리고 어떻게 처리하실건지에 대해서도 이야기 나누고 싶습니다.
밑에 말을 좀 애매하게 쓴 감이 있는데 20375행이 한 행으로 중복된다는 의미가 아닌 20375 행이 중복 이슈가 있다는 것으로 이해해주시면 될 것같습니다.
* 환이님의 말씀을 참고하여 데이터를 다시 살펴보니 동일인물은 모두 같은 credit을 가진 것이 아님이 확인되었습니다.
( begin_month에 따라 credit이 변경되는 사례 확인)
* 아래 주피터 노트북에 반영했습니다.
봐주셔서 감사합니다~
begin_month 행과 index행만 다르다면 한사람이 다수의 신용카드를 발급받았다고 생각할 수 있을까요?
예를 들어 3개의 중복된 행이 있을 경우(begin_month 와 index 제외 후 ) 이 사람은 3개의 신용카드를 발급.
네 저도 한사람이 여러개의 신용카드를 발급받았다고 생각하고있습니다.
큰 이슈를 찾아주셔서 감사합니다. train 데이터를 보면 17978, 19792의 경우 위의 중복사례에 해당하나 credit이 다른 경우도 있는 것 같습니다.
오 그렇군요 알려주셔서 감사합니다!
확인해보니 credit까지 제외하고 중복체크를 하면 23208행이 중복이슈가 있는 것으로 나오네요
생각보다 중복 데이터가 엄청 많네요. 중복이슈를 어떻게 처리할지가 핵심이 되겠네요. 좋은 인사이트 감사합니다.
앞서 다른분들이 말씀해주신 것처럼 begin month만 다른 동일한 조건의 인물이라면 카드 재발급이라는 부분으로 이해할 수 있지 않을까 합니다.
좋은 이슈 공유해주셔서 감사합니다 : )
내용 감사합니다.
좋은 내용 감사합니다! 많은 참고가 되었습니다!!
좋은 인사이트 감사드립니다.!!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
오.. 생각지도 못한 큰 이슈네요..! 공유 감사합니다!