분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
중복 데이터/ 오류 데이터 관련해서 이야기를 꺼내봅니다.
안녕하세요.
다소 정리가 미흡한 부분이 있지만 정리하다 보니 어떤 부분을 어떻게 설명하며 정리할까 많은 고민이 되어
그냥 최대한 원상태 대로 업로드합니다.
중복 데이터에 대해서 기본적으로 저는 begin_month와 credit을 제외하고 다 같다면
같은 사람의 데이터다 라고 생각하고 진행하였습니다.
구글 colab에서 실행하였고
잘못된 부분/ 개선점에 대한 의견은 언제나 환영입니다.
credit이 다른 중복 데이터에 관해 어떻게 처리하실 생각이신지 여쭤봐도 될까요??
begin_month까지 같고 credit만 다른 데이터들은 모델 입장에서 학습하기 굉장히 어려울 것 같습니다.
똑같은 특징값들에 대해 같은 결과를 냈더니 언제는 틀린 경우가 되고 언제는 맞는 경우가 됩니다.
이런 경우가 빈번히 발생하지 않는다고 생각하면 무시해도 되겠지만 그렇지 않다면
트리가 잘 분기할 수 있도록 돕기 위해 credit만 다른 중복 데이터를 구분할 수 있는 특징을 찾아서
새로운 파생변수를 붙여주어야 하지 않을까 생각합니다.
그런데 알 수 있는 정보들이 한정적이고
그렇다고 시계열처럼 접근 가능할까에 대한 의문도 들어서
만약 효과적인 파생변수를 생성하지 못하겠다 하면
이러한 데이터들의 sample_weight을 줄여서 효과를 적게하거나
그냥 없애거나 아니면 그냥 아무것도 하지 않거나
그럴 것 같습니다.
되게 좋은 글이네요. 감사합니다.
잘 봤습니다
중복 제거를 조금 다양하게 적용해봐야될꺼같네요 ㅠㅠ
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합니다