분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[데이콘 답변 희망] Data Leakage 관련 문의
안녕하세요 다름 아니라 공개해주신 데이터와 일부 pretrained 모델의 Data Leakage 관련해 몇 가지 여쭤보고자 합니다.
데이터 출처에서 원본으로 공개한 데이터 중 일부 데이터가 데이콘 test 데이터 일부와 겹치는걸 확인했습니다.
이 경우 해당 데이터를 사용했을 때 leakage가 발생할텐데 해당 데이터에 대한 제한은 없는지 궁금합니다.
일부 사전학습 모델 중 이미 KLUE 데이터를 활용해 pre-training 또는 fine-tuning이 완료된 모델이 있습니다.
위에서 KLUE 데이터가 test 데이터와 겹치는 점을 볼 때, 해당 데이터를 활용해 학습된 모델을 이번 경진대회에서 사용하는 것이 leakage에 영향이 있을 것으로 보입니다. 이에 대한 제한은 없는지 궁금합니다.
항상 양질의 주제와 데이터로 새로운 대회와 경험을 제공해주시는 데이콘에 감사드립니다.
안녕하세요, Bixby님.
이번 대회에서는 참가자 분들께서 최대한 다양한 사전학습 모델을 사용하실 수 있는 기회를 제공하고자
test data "Hypothesis"의 labeling을 직접 진행했습니다.
일부 원본 데이터와 겹치는 데이터가 있을 수 있으나 이는 극소수입니다.
따라서 본 대회에서는 klue 데이터를 사전학습한 모델에 대해서도 제한을 두지 않을 계획입니다.
다만, hand_labeling(답안 수기작성)이 의심되는 경우에만 해당 코드를 요청하여 검증을 진행할 예정입니다.
감사합니다.
네 알겠습니다. 빠르고 정확한 답변 감사드립니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
검사해보려다 시간 없어서 못 해봤는데 역시 겹치는 데이터가 있나보네요..