분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
어떤 가정으로 시작하시나요? (중복데이터)
이번 대회는 index, begin_month를 제외하고 중복되는 데이터가 많습니다.
따라서, 한사람이 여러개의 카드를 발급받았다고 가정하였습니다.
begin_month까지 중복(타깃값을 제외한 모든 데이터가 동일)되지만 credit이 다른 row들이 상당히 많은 부분 차지하는 것을
발견할 수 있었습니다.(같은 달에도 여러번 신용등급이 변할 수 있을까요?)
test set에서도 index를 제외, train data와 모든 행이 일치하는 데이터가 약 1700건이 존재합니다.
base모델을 통해 예측 후 train과 일치하는 test row는 train의 credit 값을 매핑하였지만 결과는 매우 안좋네요...
작성하신 EDA보고 알 수 있었습니다. 화이팅하세요 ㅎㅎ
만약 저렇게 묶은게 동일인이라고 가정한다면 DAYS_BIRTH가 같은데 credit이 다른게 좀 이상합니다. DAYS_BIRTH가 데이터 수집일로부터 경과일수인데 DAYS_BIRTH가 같으면 데이터 수집일이 동일하다는 것이고 그러면 credit도 동일해야 하는게 맞지 않을까요?
DAYS_BIRTH가 동일하기 때문에 수집일이 같은데 begin_month만 다르다면..... 그렇담 지금까지 동일인물이라 가정했던 것이 틀린 것일 수도 있는 거군요?
네 그럴 수 있습니다.
다만 begin_month 제외 후 중복되는 row 중 갯수가 30 이상인 데이터가 있습니다.
이부분의 경우 동일인이 아니라는 것이 확률적으로 매우 낮다고 생각합니다.
삭제된 댓글입니다
- 데이콘측 답변입니다. 참고하시기 바랍니다.
안녕하세요 **님
제공된 데이터에서 같은 사용자여도 index는 다를 수 있습니다. (ex) 같은 사람이 복수의 카드를 발급할 경우)
이 점 참고하여 대회 참여해주시면 감사하겠습니다.
감사합니다.
taegu님 적극적인 답변 감사합니다.^^
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저도 이부분에 대해 의문의 많은데 중복을 제거하고 모델을 돌리니 오히려 성능이 안좋게 나와버리더라구요
그래서 일단은 중복제거를 안하고 하되 중복제거를 하고도 모델성능을 개선시킬 수 있는 방법을 찾는 중입니다.