분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤
Data Leakage 관련 문의
train과 test의 전처리를 동일하게 적용하기 위해서 두 데이터셋을 먼저 합친 후 전처리 과정을 진행하려고 합니다.
이때 train과 test가 합쳐진 상태에서 모든 값이 NULL인 컬럼을 삭제하는건 데이터 누수에 해당하나요?
답변 감사합니다 :)
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 망공님,
전처리는 각각 Train 데이터셋에 적용 후 Test 데이터셋에 동일하게 적용되어야합니다.
두 데이터셋을 합친다는 뜻이 concat을 말씀하시는 것이라면, 올바른 전처리 방법이 아니며, data leakage가 발생할 우려가 있습니다.
예를 들어, 두 데이터셋을 concat 후 일괄 컬럼 별 통계정보를 활용하는 것은 data leakage입니다.
또한 말씀해주신 train과 test가 합쳐진 상태에서 모든 값이 NULL인 컬럼을 삭제하는 것은 data leakage에 해당합니다.
이는 2개 이상의 test 데이터 샘플에서 어떤 컬럼이 모두 NULL인지 사전에 알 수 있다는 정보를 활용하기 때문입니다.
감사합니다.