서두르세요! "데이스쿨 40% 할인" 12월 2일까지!
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤
Data Leakage 관련 문의
train과 test의 전처리를 동일하게 적용하기 위해서 두 데이터셋을 먼저 합친 후 전처리 과정을 진행하려고 합니다.
이때 train과 test가 합쳐진 상태에서 모든 값이 NULL인 컬럼을 삭제하는건 데이터 누수에 해당하나요?
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 망공님,
전처리는 각각 Train 데이터셋에 적용 후 Test 데이터셋에 동일하게 적용되어야합니다.
두 데이터셋을 합친다는 뜻이 concat을 말씀하시는 것이라면, 올바른 전처리 방법이 아니며, data leakage가 발생할 우려가 있습니다.
예를 들어, 두 데이터셋을 concat 후 일괄 컬럼 별 통계정보를 활용하는 것은 data leakage입니다.
또한 말씀해주신 train과 test가 합쳐진 상태에서 모든 값이 NULL인 컬럼을 삭제하는 것은 data leakage에 해당합니다.
이는 2개 이상의 test 데이터 샘플에서 어떤 컬럼이 모두 NULL인지 사전에 알 수 있다는 정보를 활용하기 때문입니다.
감사합니다.