분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회
데이터 중복 이슈에 대한 데이터 분석 초보의 고찰
동일인물에 대한 데이터 중복 이슈에 대해 저의 고찰을 작성해 보았습니다.
감사합니다.
앜ㅋㅋ 감사합니다 :-)
현재 학습에 활용하는 데이터를 수집한 표본의 크기나 성질을 좀 알면 저런 5개의 값으로 동일인물임을 추측하는데에 거부감이 없겠는데, 표본 크기도 모르겠고 수집한 기간이나 지역도 모르겠어서 쉽지가 않네요. 시계열 데이터의 특징이 있다고 감안하고 처리해보는게 좋은 생각일 수도 있겠습니다.
답글이 늦어 죄송합니다 ㅎ.. 좋은 말씀 남겨주셔서 감사합니다!
좋은 접근법인것 같습니다. 저도 EDA를 하면서 begin_month에 대한 변수를 어떻게 처리하느냐가 결과를 좌우할 과제라 느꼈습니다. 하지만 역시 데이터를 두개로 나누어 모델을 적용한다는 것은 학습에 너무 큰 손실이라고 생각합니다. 오히려 begin_month 변수 처리에 집중해봅시다. 좋은 시도 통해 좋은 결과 있길 바라겠습니다. 화이팅합시다!~!
(학습모델 2개 -> 추정해야할 모수 약 2배 -> BAD result, 하지만 완전히 다른 성격의 데이터를 분할해주는 것이라면 맞는 방법이겠죠)
답글이 늦어 죄송합니다 ㅎ.. 좋은 의견 감사했습니다 ! :-)
중복데이터 검증 정말로 고마왔습니다.
답글이 늦어졌습니다 ㅎㅎ .. 저도 댓글 남겨주셔서 감사했습니다 !
좋은 EDA 감사드립니다.
힘나는 댓글 감사합니다 ~!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
멋져용 ㅎㅎㅎ