스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤

Data Leakage 관련 문의

2023.02.19 21:31 1,511 Views

안녕하십니까, Data Leakage 관련 문의 드립니다.

결측치 처리 과정 중,

train data에선 'Y_Class', 'LINE', 'PRODUCT_CODE' 별로 데이터를 분할하여 각 열의 평균값으로 결측치를 대체했고,

test data에선 'LINE', 'PRODUCT_CODE' 별로 데이터를 분할하여 결측치를 대체했습니다.

위 방식이 Data Leakage가 발생하는 경우인지 궁금합니다.

감사합니다.

로그인이 필요합니다
0 / 1000
DACON.GM
2023.02.20 09:04

안녕하세요 장동언님,
'LINE'과 'PRODUCT_CODE'는 데이터 명세와 같이, Train / Test 모두 사전에 들어올 수 있는 범위 내에서 입력이 들어오기 때문에
말씀해주신 방법으로 진행하셔도 Data Leakage에 해당하지 않습니다.
단, 'LINE'과 'PRODUCT'의 조합은 Train에 존재하는 조합과 Test로 들어올 수 있는 조합이 다를 수 있기 때문에 이점 유의하여 진행 부탁드립니다.
감사합니다.