어떤 가정으로 시작하시나요? (중복데이터)

월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

taegu

2021.04.13 20:37 10,137 조회

이번 대회는 index, begin_month를 제외하고 중복되는 데이터가 많습니다.

따라서, 한사람이 여러개의 카드를 발급받았다고 가정하였습니다.

begin_month까지 중복(타깃값을 제외한 모든 데이터가 동일)되지만 credit이 다른 row들이 상당히 많은 부분 차지하는 것을

발견할 수 있었습니다.(같은 달에도 여러번 신용등급이 변할 수 있을까요?)

test set에서도 index를 제외, train data와 모든 행이 일치하는 데이터가 약 1700건이 존재합니다.

base모델을 통해 예측 후 train과 일치하는 test row는 train의 credit 값을 매핑하였지만 결과는 매우 안좋네요...

댓글 8개

로그인이 필요합니다

comment

0 / 1000

두껍

2021.04.13 21:32

저도 이부분에 대해 의문의 많은데 중복을 제거하고 모델을 돌리니 오히려 성능이 안좋게 나와버리더라구요

그래서 일단은 중복제거를 안하고 하되 중복제거를 하고도 모델성능을 개선시킬 수 있는 방법을 찾는 중입니다.

taegu

2021.04.20 08:33

작성하신 EDA보고 알 수 있었습니다. 화이팅하세요 ㅎㅎ

psystat

2021.04.17 23:28

만약 저렇게 묶은게 동일인이라고 가정한다면 DAYS_BIRTH가 같은데 credit이 다른게 좀 이상합니다. DAYS_BIRTH가 데이터 수집일로부터 경과일수인데 DAYS_BIRTH가 같으면 데이터 수집일이 동일하다는 것이고 그러면 credit도 동일해야 하는게 맞지 않을까요?