분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2025 SW중심대학 디지털 경진대회 : AI부문
테스트 데이터 리키지 질문
테스트 데이터의 문장 길이 분포를 확인하고 예를 들어 테스트 데이터의 최대 문단길이가 1만자라는 점을 인지한 상태에서 학습 데이터 중 1만자 이상을 넘어가는 데이터를 제거하는 것도 리키지에 해당하나요?
그러면 test 데이터가 문단 단위이기 때문에 train 데이터를 문단 단위로 잘라서 학습하는 것도 data leakage인가요?
Test 데이터가 문단 단위의 샘플로 제공된다는 것은 이미 문제에서 '제공된 정보'이기 때문에 활용해도 문제없습니다.
Deleted Comment
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
네, 테스트 데이터 샘플 Text의 최대 길이가 1만자라는 값은 결국 테스트 데이터 셋의 통계 정보를 활용하여 학습에 적용한 것이므로 명백한 Data Leakage에 해당합니다.
즉, 모델 학습을 위한 학습 데이터 전처리의 인사이트가 테스트 데이터의 통계 정보를 통해 도출되었기 때문입니다.