Natural Language-based Climate Technology Classification

Algorithm | NLP | Classification | Environment | Macro f1 score

  • moneyIcon Prize : KRW 6M
  • 1,062 Users Completed

 

train/test 데이터 관련 data leakage

Anonymous
2021.07.01 17:04 1,965 Views

안녕하세요. 경진대회 진행 규정과 관련하여 문의드립니다.

일부 대회의 경우 train 데이터와 test 데이터를 함께 사용하는  data leakage 관련하여

부정행위로 간주하는 것으로 알고 있습니다.

해당 대회의 경우, 사전 학습 언어 모델의 성능이 매우 중요한 역할을 할 것으로 사료되어

사전 학습 모델을 구축하기 위해 트레인 데이터와 테스트 데이터를 모두 사용하고자 합니다.

이때 해당 data leakage가 부정행위로 간주되는지 궁금합니다.

Login Required
0 / 1000
DACONIO
2021.12.21 16:28

안녕하세요 작성자님.

사전 학습 모델 구축을 위해 테스트 데이터를 사용하는 것은 data leakage에 해당합니다.
테스트 데이터는 말 그대로 전혀 모르는 데이터라고 생각하시면 될 것 같습니다.

감사합니다. 
데이콘 드림.