서두르세요! "데이스쿨 40% 할인" 12월 2일까지!
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤
Data Leakage 관련 문의
안녕하십니까, Data Leakage 관련 문의 드립니다.
결측치 처리 과정 중,
train data에선 'Y_Class', 'LINE', 'PRODUCT_CODE' 별로 데이터를 분할하여 각 열의 평균값으로 결측치를 대체했고,
test data에선 'LINE', 'PRODUCT_CODE' 별로 데이터를 분할하여 결측치를 대체했습니다.
위 방식이 Data Leakage가 발생하는 경우인지 궁금합니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 장동언님,
'LINE'과 'PRODUCT_CODE'는 데이터 명세와 같이, Train / Test 모두 사전에 들어올 수 있는 범위 내에서 입력이 들어오기 때문에
말씀해주신 방법으로 진행하셔도 Data Leakage에 해당하지 않습니다.
단, 'LINE'과 'PRODUCT'의 조합은 Train에 존재하는 조합과 Test로 들어올 수 있는 조합이 다를 수 있기 때문에 이점 유의하여 진행 부탁드립니다.
감사합니다.