스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤

Data leak 관련 질문입니다.

2023.02.22 14:15 1,724 조회

train data에는 존재하는 column이 test data에는 존재하지 않는 경우가 있는데 학습전 전처리단계에서 해당 column을 찾고 제거하는 과정이 dataleak에 해당하는지 궁금합니다!!

예를들면 train의 x_100에는 value값이 있지만 test의 x_100에는 value값이 존재하지 않는경우 제거하는 과정입니다.

로그인이 필요합니다
0 / 1000
DACON.GM
2023.02.22 14:51

안녕하세요 욱십수님,
학습전 전처리 단계에서 Test Data의 정보를 활용하여 Train Data를 전처리하는 방식은 Data Leakage에 해당합니다.
말씀해주신 방법은 사전에 'Test Data 모든 샘플에서 모두 결측치로 구성된 Column'을 찾아 Train Data에서도 해당 Column을 Drop 후 모델 학습을 진행하려는 것으로 보입니다. 그러나 이런 방법은 사전에 Test Data가 어떤 Data로 들어왔는지 알 수 있어야만 가능한 방법이며, 실제 Test Data는 사전에 절대 알 수 없다 라는 가정하에 진행되어야하며 'Test Data 중에서 특정 Column이 모두 결측치로 이루어져있는가'는 사전에 알 수 없는 정보입니다.
감사합니다.