2025 SW중심대학 디지털 경진대회 : AI부문

테스트 데이터 리키지 질문

2025.07.01 12:07 1,211 Views

테스트 데이터의 문장 길이 분포를 확인하고 예를 들어 테스트 데이터의 최대 문단길이가 1만자라는 점을 인지한 상태에서 학습 데이터 중 1만자 이상을 넘어가는 데이터를 제거하는 것도 리키지에 해당하나요?

Login Required
0 / 1000
DACON.GM
2025.07.01 12:11

네, 테스트 데이터 샘플 Text의 최대 길이가 1만자라는 값은 결국 테스트 데이터 셋의 통계 정보를 활용하여 학습에 적용한 것이므로 명백한 Data Leakage에 해당합니다.
즉, 모델 학습을 위한 학습 데이터 전처리의 인사이트가 테스트 데이터의 통계 정보를 통해 도출되었기 때문입니다.

이제동
2025.07.01 14:44

그러면 test 데이터가 문단 단위이기 때문에 train 데이터를 문단 단위로 잘라서 학습하는 것도 data leakage인가요?

DACON.GM
2025.07.01 14:49

Test 데이터가 문단 단위의 샘플로 제공된다는 것은 이미 문제에서 '제공된 정보'이기 때문에 활용해도 문제없습니다.

daddun
2025.07.08 10:27

Deleted Comment