스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤

Data Leakage 관련 문의

2023.02.14 00:19 1,818 조회

train과 test의 전처리를 동일하게 적용하기 위해서 두 데이터셋을 먼저 합친 후 전처리 과정을 진행하려고 합니다.

이때 train과 test가 합쳐진 상태에서 모든 값이 NULL인 컬럼을 삭제하는건 데이터 누수에 해당하나요?


로그인이 필요합니다
0 / 1000
DACON.GM
2023.02.14 09:11

안녕하세요 망공님,
전처리는 각각 Train 데이터셋에 적용 후 Test 데이터셋에 동일하게 적용되어야합니다.
두 데이터셋을 합친다는 뜻이 concat을 말씀하시는 것이라면, 올바른 전처리 방법이 아니며, data leakage가 발생할 우려가 있습니다.
예를 들어, 두 데이터셋을 concat 후 일괄 컬럼 별 통계정보를 활용하는 것은 data leakage입니다.
또한 말씀해주신 train과 test가 합쳐진 상태에서 모든 값이 NULL인 컬럼을 삭제하는 것은 data leakage에 해당합니다.
이는 2개 이상의 test 데이터 샘플에서 어떤 컬럼이 모두 NULL인지 사전에 알 수 있다는 정보를 활용하기 때문입니다.
감사합니다.

망공
2023.02.14 11:40

답변 감사합니다 :)

이전 글
YEAH
대회 - 보스턴 집값 예측 경진대회
좋아요 14
조회 1,196
댓글 0
2년 전
현재 글
Data Leakage 관련 문의
대회 - 스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤
좋아요 9
조회 1,818
댓글 2
2년 전
다음 글
설문조사 화면 오류
대회 - 음악 장르 분류 AI 해커톤
좋아요 1
조회 622
댓글 4
2년 전