자연어 기반 기후기술분류 AI 경진대회

알고리즘 | NLP | 분류 | 환경 | Macro f1 score

  • moneyIcon 상금 : 총 600만원
  • 1,062명 마감

 

dataleakage의 관해

작성자 비공개
2021.08.08 09:12 2,032 조회

이 대회는 광범위한 주제를 다루고 있습니다.

문득 드는 생각인데 공공데이터 이용시에도 dataleakage가 일어날 가능성이 있다고 생각합니다.

예를 들어 test셋에서 'R-FSSW 기술 적용 경량 차체 부품 개발 및 품질 평가를 위한 64채널 C-SCAN 무선검사 시스템 개발'

라는 과제의 데이터가 있습니다.

그런데 만약 이 주제를 바탕으로 한 test셋과 다른 내용의 공공데이터가 있다고 칩시다.

그리고 이 공공데이터를 사용시

Dataleakage일까요? 아닐까요?

로그인이 필요합니다
0 / 1000
DACONIO
2021.12.21 16:26

안녕하세요 작성자님.

동일한 주제라도 내용이 다르다면 data leakage는 아닙니다.
만일 data leakage가 의심되는 데이터셋이 있다면 모델을 학습시키기 전에
dacon@dacon.io 계정으로 해당 데이터셋을 보내주시면 확인한 후 답변 드리겠습니다.

감사합니다. 
데이콘 드림.