데이스쿨 할인 리턴-즈!
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤
Data Leakage 관련 문의
예를 들어 get_dummy와 같이 train데이터셋에 나와있는 PRODUCT_CODE칼럼의 값인 A_31, O_31 ,T_31들을
train데이터셋에 3개의 칼럼을 추가한 뒤 0,1로 표현하고
test데이터같은 경우 A_31, O_31 ,T_31 칼럼만 추가하여 만약 train데이터셋에 없는 값인 경우 A_31, O_31 ,T_31 칼럼 모두 0값을 가지도록
test데이터셋을 처리할 경우 Data Leakage로 판단 되는지 궁금합니다.
예시
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 학점부도의날님,
['LINE', 'PRODUCT_CODE'는 Train / Test 모두 동일한 종류가 존재합니다] 라고 사전에 안내를 드렸기 때문에,
Test 데이터에도 A_31, O_31, T_31 외의 값은 입력으로 들어오지 않습니다.
따라서 말씀해주신 방법은 Data Leakage에 해당하지 않습니다.
감사합니다.