중복 데이터/ 오류 데이터 관련해서 이야기를 꺼내봅니다.

월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

2021.05.15 00:04 5,001 조회 language

안녕하세요.
다소 정리가 미흡한 부분이 있지만 정리하다 보니 어떤 부분을 어떻게 설명하며 정리할까 많은 고민이 되어
그냥 최대한 원상태 대로 업로드합니다.

중복 데이터에 대해서 기본적으로 저는 begin_month와 credit을 제외하고 다 같다면
같은 사람의 데이터다 라고 생각하고 진행하였습니다.

구글 colab에서 실행하였고
잘못된 부분/ 개선점에 대한 의견은 언제나 환영입니다.

코드

댓글 6개

로그인이 필요합니다

comment

0 / 1000

jee_p0

2021.05.15 10:54

감사합니다

졸업하자

2021.05.15 15:00

credit이 다른 중복 데이터에 관해 어떻게 처리하실 생각이신지 여쭤봐도 될까요??

하르딘

2021.05.16 10:15

begin_month까지 같고 credit만 다른 데이터들은 모델 입장에서 학습하기 굉장히 어려울 것 같습니다.
똑같은 특징값들에 대해 같은 결과를 냈더니 언제는 틀린 경우가 되고 언제는 맞는 경우가 됩니다.

이런 경우가 빈번히 발생하지 않는다고 생각하면 무시해도 되겠지만 그렇지 않다면
트리가 잘 분기할 수 있도록 돕기 위해 credit만 다른 중복 데이터를 구분할 수 있는 특징을 찾아서
새로운 파생변수를 붙여주어야 하지 않을까 생각합니다.

그런데 알 수 있는 정보들이 한정적이고
그렇다고 시계열처럼 접근 가능할까에 대한 의문도 들어서
만약 효과적인 파생변수를 생성하지 못하겠다 하면
이러한 데이터들의 sample_weight을 줄여서 효과를 적게하거나
그냥 없애거나 아니면 그냥 아무것도 하지 않거나

그럴 것 같습니다.