스마트 공장 제품 품질 상태 분류 AI 오프라인 해커톤

채용 | 알고리즘 | 정형 | 스마트 공장 | LG Aimers | 분류 | Macro F1 Score

마감

제출

Data Leakage 규칙 관련 상세 설명

2023.03.24 13:18 2,180 조회

안녕하세요, LG Aimers 오프라인 해커톤 진출자 여러분!

AI 해커톤(경진대회)을 진행하다 보면, 가장 빈번하게 실격되는 이유 중 하나가 바로 Data Leakage입니다.

이로 인한 불이익을 받는 일이 없도록, Data Leakage의 개념과 사례에 대해 소개해 드리고자 합니다.

Data Leakage(데이터 누수, 정보 누설)란

미래에 대한 전혀 알 수 없는 대한 정보가 모델 학습에서 사용된 경우를 말합니다.

즉 test 데이터가 모델의 학습에 이용된 경우입니다.

해커톤(경진대회) 특성 상, 리더보드 제출을 위해 추론에 사용될 test 데이터들이 사전에 주어지지만, 실제 모델을 서비스하는 환경에서는 test 데이터들이 어떠한 데이터들이 몇개가 입력으로 들어올 지 전혀 알 수 없습니다.

따라서 해커톤(경진대회) 역시, Test 데이터들을 '전혀 알 수 없고, 볼 수 없다' 라고 가정하고 진행해야합니다.

즉, Test 데이터들의 모든 정보는 모두 '미래'로 간주하여 모델의 학습에 관여, 활용 할 수 없습니다.

대표적인 Data Leakage에 해당하는 사례

대표적인 Data Leakage에 해당하지 않는 사례

독립적인 샘플(행(row)) 내에서의 모든 연산 혹은 파생 변수 생성
예를 들어, Test['C'] = Test['A'] + Test['B']와 같이 독립적인 샘플 내에서 A Column과 B Column을 더한 새로운 파생 변수 C Column을 생성하는 경우
Train 데이터의 통계 정보를 Test 데이터에 적용하여 전처리하는 경우 혹은 파생 변수를 생성하는 경우
Test 데이터의 결측치를 Train 데이터의 통계 정보를 바탕으로 보간하는 경우 등등

대회를 진행하면서 본인이 진행하는 방법이 Data Leakage에 해당하는지 햇갈리는 경우에는 꼭 사전에 현장에 있는 데이콘 관계자에게 문의 혹은 댓글로 문의하여 불이익을 받는 일이 없도록 부탁드리겠습니다.

데이콘은 앞으로도 투명하고 공정한 대회 운영을 위해 더욱 노력하겠습니다.

감사합니다.