DASCHOOL! Fall Special Discount
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
dataleakage의 관해
이 대회는 광범위한 주제를 다루고 있습니다.
문득 드는 생각인데 공공데이터 이용시에도 dataleakage가 일어날 가능성이 있다고 생각합니다.
예를 들어 test셋에서 'R-FSSW 기술 적용 경량 차체 부품 개발 및 품질 평가를 위한 64채널 C-SCAN 무선검사 시스템 개발'
라는 과제의 데이터가 있습니다.
그런데 만약 이 주제를 바탕으로 한 test셋과 다른 내용의 공공데이터가 있다고 칩시다.
그리고 이 공공데이터를 사용시
Dataleakage일까요? 아닐까요?
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 작성자님.
동일한 주제라도 내용이 다르다면 data leakage는 아닙니다.
만일 data leakage가 의심되는 데이터셋이 있다면 모델을 학습시키기 전에
dacon@dacon.io 계정으로 해당 데이터셋을 보내주시면 확인한 후 답변 드리겠습니다.
감사합니다.
데이콘 드림.