월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

알고리즘 | 정형 | 분류 | 금융 | LogLoss

상금 100만 원
3,963명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

중복데이터와 확률에 대해서

논논노눈누난나

2021.05.16 14:05 8,497 조회

2만명중에 생년월일이 같은 사람이 있을 확률이 상당히 높은건 맞는데, 2만명중에 천명 넘게 그것도 다른 레이블과 중복되는 것도 포함하는 것은 분명 무언가가 좀 이상한 것 같긴 합니다.

만약 모든 데이터가 중복되었는데 순전히 우연에 의해서 그렇게 될 확률이 얼마나 될지 계산해보려 했는데, 여러모로 까다로운 것 같습니다.

데이터가 균일하지 않아서 균일하다고 가정하고 시뮬레이션 하거나 수식을 세우는 것도 나이와 생일 분포가 고르지 않으니 잘 맞지 않는 것 같고, 그렇다고 순전히 수학적으로 파티션을 나누어 전부 개수를 카운팅하는 것도 어떻게 보면 이미 왜곡되어 있을지도 모르는 데이터의 평균을 모집단의 평균으로 가정해야 하다보니 정확하지가 않습니다. 어떻게 생각하시나요?