분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Data Leakage 규칙 관련 상세 설명
안녕하세요, LG Aimers 오프라인 해커톤 진출자 여러분!
AI 해커톤(경진대회)을 진행하다 보면, 가장 빈번하게 실격되는 이유 중 하나가 바로 Data Leakage입니다.
이로 인한 불이익을 받는 일이 없도록, Data Leakage의 개념과 사례에 대해 소개해 드리고자 합니다.
Data Leakage(데이터 누수, 정보 누설)란
미래에 대한 전혀 알 수 없는 대한 정보가 모델 학습에서 사용된 경우를 말합니다.
즉 test 데이터가 모델의 학습에 이용된 경우입니다.
해커톤(경진대회) 특성 상, 리더보드 제출을 위해 추론에 사용될 test 데이터들이 사전에 주어지지만, 실제 모델을 서비스하는 환경에서는 test 데이터들이 어떠한 데이터들이 몇개가 입력으로 들어올 지 전혀 알 수 없습니다.
따라서 해커톤(경진대회) 역시, Test 데이터들을 '전혀 알 수 없고, 볼 수 없다' 라고 가정하고 진행해야합니다.
즉, Test 데이터들의 모든 정보는 모두 '미래'로 간주하여 모델의 학습에 관여, 활용 할 수 없습니다.
대표적인 Data Leakage에 해당하는 사례
대표적인 Data Leakage에 해당하지 않는 사례
대회를 진행하면서 본인이 진행하는 방법이 Data Leakage에 해당하는지 햇갈리는 경우에는 꼭 사전에 현장에 있는 데이콘 관계자에게 문의 혹은 댓글로 문의하여 불이익을 받는 일이 없도록 부탁드리겠습니다.
데이콘은 앞으로도 투명하고 공정한 대회 운영을 위해 더욱 노력하겠습니다.
감사합니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved