월간 데이콘 한국어 문장 관계 분류 경진대회

[데이콘 답변 희망] Data Leakage 관련 문의

2022.02.07 16:12 3,417 조회
leakage_example_code.zip

안녕하세요 다름 아니라 공개해주신 데이터와 일부 pretrained 모델의 Data Leakage 관련해 몇 가지 여쭤보고자 합니다.


데이터 출처에서 원본으로 공개한 데이터 중 일부 데이터가 데이콘 test 데이터 일부와 겹치는걸 확인했습니다.

이 경우 해당 데이터를 사용했을 때 leakage가 발생할텐데 해당 데이터에 대한 제한은 없는지 궁금합니다.


일부 사전학습 모델 중 이미 KLUE 데이터를 활용해 pre-training 또는 fine-tuning이 완료된 모델이 있습니다.

위에서 KLUE 데이터가 test 데이터와 겹치는 점을 볼 때, 해당 데이터를 활용해 학습된 모델을 이번 경진대회에서 사용하는 것이 leakage에 영향이 있을 것으로 보입니다. 이에 대한 제한은 없는지 궁금합니다.


항상 양질의 주제와 데이터로 새로운 대회와 경험을 제공해주시는 데이콘에 감사드립니다.

로그인이 필요합니다
0 / 1000
장어
2022.02.07 16:32

검사해보려다 시간 없어서 못 해봤는데 역시 겹치는 데이터가 있나보네요.. 

DACONIO
2022.02.07 17:35

안녕하세요, Bixby님.

이번 대회에서는 참가자 분들께서 최대한 다양한 사전학습 모델을 사용하실 수 있는 기회를 제공하고자
test data "Hypothesis"의 labeling을 직접 진행했습니다.

일부 원본 데이터와 겹치는 데이터가 있을 수 있으나 이는 극소수입니다.
따라서 본 대회에서는 klue 데이터를 사전학습한 모델에 대해서도 제한을 두지 않을 계획입니다.

다만, hand_labeling(답안 수기작성)이 의심되는 경우에만 해당 코드를 요청하여 검증을 진행할 예정입니다.

감사합니다.

Bixby
2022.02.07 17:44

네 알겠습니다. 빠르고 정확한 답변 감사드립니다.