DASCHOOL! Fall Special Discount
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
train/test 데이터 관련 data leakage
안녕하세요. 경진대회 진행 규정과 관련하여 문의드립니다.
일부 대회의 경우 train 데이터와 test 데이터를 함께 사용하는 data leakage 관련하여
부정행위로 간주하는 것으로 알고 있습니다.
해당 대회의 경우, 사전 학습 언어 모델의 성능이 매우 중요한 역할을 할 것으로 사료되어
사전 학습 모델을 구축하기 위해 트레인 데이터와 테스트 데이터를 모두 사용하고자 합니다.
이때 해당 data leakage가 부정행위로 간주되는지 궁금합니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 작성자님.
사전 학습 모델 구축을 위해 테스트 데이터를 사용하는 것은 data leakage에 해당합니다.
테스트 데이터는 말 그대로 전혀 모르는 데이터라고 생각하시면 될 것 같습니다.
감사합니다.
데이콘 드림.