서두르세요! "데이스쿨 40% 할인" 12월 2일까지!
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤
Data leak 관련 질문입니다.
train data에는 존재하는 column이 test data에는 존재하지 않는 경우가 있는데 학습전 전처리단계에서 해당 column을 찾고 제거하는 과정이 dataleak에 해당하는지 궁금합니다!!
예를들면 train의 x_100에는 value값이 있지만 test의 x_100에는 value값이 존재하지 않는경우 제거하는 과정입니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 욱십수님,
학습전 전처리 단계에서 Test Data의 정보를 활용하여 Train Data를 전처리하는 방식은 Data Leakage에 해당합니다.
말씀해주신 방법은 사전에 'Test Data 모든 샘플에서 모두 결측치로 구성된 Column'을 찾아 Train Data에서도 해당 Column을 Drop 후 모델 학습을 진행하려는 것으로 보입니다. 그러나 이런 방법은 사전에 Test Data가 어떤 Data로 들어왔는지 알 수 있어야만 가능한 방법이며, 실제 Test Data는 사전에 절대 알 수 없다 라는 가정하에 진행되어야하며 'Test Data 중에서 특정 Column이 모두 결측치로 이루어져있는가'는 사전에 알 수 없는 정보입니다.
감사합니다.