데이스쿨 할인 리턴즈
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
train/test 데이터 관련 data leakage
안녕하세요. 경진대회 진행 규정과 관련하여 문의드립니다.
일부 대회의 경우 train 데이터와 test 데이터를 함께 사용하는 data leakage 관련하여
부정행위로 간주하는 것으로 알고 있습니다.
해당 대회의 경우, 사전 학습 언어 모델의 성능이 매우 중요한 역할을 할 것으로 사료되어
사전 학습 모델을 구축하기 위해 트레인 데이터와 테스트 데이터를 모두 사용하고자 합니다.
이때 해당 data leakage가 부정행위로 간주되는지 궁금합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 작성자님.
사전 학습 모델 구축을 위해 테스트 데이터를 사용하는 것은 data leakage에 해당합니다.
테스트 데이터는 말 그대로 전혀 모르는 데이터라고 생각하시면 될 것 같습니다.
감사합니다.
데이콘 드림.