분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회
중복데이터와 확률에 대해서
2만명중에 생년월일이 같은 사람이 있을 확률이 상당히 높은건 맞는데, 2만명중에 천명 넘게 그것도 다른 레이블과 중복되는 것도 포함하는 것은 분명 무언가가 좀 이상한 것 같긴 합니다.
만약 모든 데이터가 중복되었는데 순전히 우연에 의해서 그렇게 될 확률이 얼마나 될지 계산해보려 했는데, 여러모로 까다로운 것 같습니다.
데이터가 균일하지 않아서 균일하다고 가정하고 시뮬레이션 하거나 수식을 세우는 것도 나이와 생일 분포가 고르지 않으니 잘 맞지 않는 것 같고, 그렇다고 순전히 수학적으로 파티션을 나누어 전부 개수를 카운팅하는 것도 어떻게 보면 이미 왜곡되어 있을지도 모르는 데이터의 평균을 모집단의 평균으로 가정해야 하다보니 정확하지가 않습니다. 어떻게 생각하시나요?
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
참고로 이 문제를 해결해보려고 나이와 생일 분포를 가져와보려고 했습니다만, 인종별 국가별 데이터가 다르고 그것이 데이터에 표기되어있지 않아 데이터의 원래 모집단이 어떤 것인지 알기가 참 까다로운 부분이 있는 것 같습니다.