분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤
Data Leakage 관련 문의
예를 들어 get_dummy와 같이 train데이터셋에 나와있는 PRODUCT_CODE칼럼의 값인 A_31, O_31 ,T_31들을
train데이터셋에 3개의 칼럼을 추가한 뒤 0,1로 표현하고
test데이터같은 경우 A_31, O_31 ,T_31 칼럼만 추가하여 만약 train데이터셋에 없는 값인 경우 A_31, O_31 ,T_31 칼럼 모두 0값을 가지도록
test데이터셋을 처리할 경우 Data Leakage로 판단 되는지 궁금합니다.
예시
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 학점부도의날님,
['LINE', 'PRODUCT_CODE'는 Train / Test 모두 동일한 종류가 존재합니다] 라고 사전에 안내를 드렸기 때문에,
Test 데이터에도 A_31, O_31, T_31 외의 값은 입력으로 들어오지 않습니다.
따라서 말씀해주신 방법은 Data Leakage에 해당하지 않습니다.
감사합니다.