월간 데이콘 뉴스 토픽 분류 AI 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon 500,000 D-point
  • 1,905명 마감

 

klue/bert pretrain사용시 test leakage 관련 문의

작성자 비공개
2021.07.19 21:15 1,948 조회

안녕하세요. 항상 좋은대회 열어주셔서 감사합니다.

다름이 아니라 이 대회의 데이터셋은 모두 오픈된 데이터 셋인건 다들 아실겁니다.

그리고 klue/xxmodel pretrain 모델들 또한 이미 공개가 되어있습니다.

하지만 이 pretrain 모델들은 논문상에서 공개한 ynat-v1_train.json , klue 데이터로 학습한 모델이고, 이 train 파일에는 이 대회의 test가 모두 포함되어 있습니다.

결국 이 klue pretrain을 사용했을 경우 보통의 bert모델에 비해 뛰어난 성능 향상을 보일 뿐만 아니라 test data leakage에 해당하고, 실격사유가 될것이라 생각합니다.

이에 대한 조치를 확실하게 해주시면 감사하겠습니다.

로그인이 필요합니다
0 / 1000
DACONIO
2021.07.21 01:59

삭제된 댓글입니다