뉴스 그룹 분류 AI 해커톤

NLP | Accuracy

  • moneyIcon Prize : 참가시 최소 50 XP, 특별상 데이콘 후드
  • 437명 마감

 

[필독] Data Leakage 부정행위

2022.04.01 10:59 484 Views

안녕하세요 데이콘입니다.


3. 부정 행위

 

  • 아래 사항들은 모두 부정행위로 간주합니다.
  • 주어진 학습 데이터(train.csv) 이외의 데이터를 학습에 사용
  • 테스트 데이터(test.csv)를 학습에 사용 (* 제출 파일 생성에만 사용해주세요)
  • 외부에 공개된 원본 데이터를 사용
  • 사전 학습(pretrained) 모델 사용
  • 반드시 데이콘에서 받은 데이터만을 사용해주세요.


대회 규정 중 "테스트 데이터를 학습에 사용" 한다는 규정에 대한 부가 설명을 하고자 합니다.

"테스트 데이터를 학습에 사용" 한다는 것은 어떠한 형태의 테스트 데이터 셋을 학습 하는 행위를 포함합니다.

따라서 Model 학습을 포함한 Encoder 를 테스트 데이터를 활용하여 학습 시키는 행위, Scaler 를 테스트 데이터를 활용하여 학습 시키는 행위 또한 포함됩니다.

Encoder, Sclaer 뿐만이 아닌 테스트 데이터를 학습 시키는 모든 행위는 Data Leakage 부정행위에 해당합니다.



감사합니다.

데이콘 드림.