스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤

Data Leakage 관련 문의

2023.02.21 00:10 1,144 Views

예를 들어 get_dummy와 같이 train데이터셋에 나와있는  PRODUCT_CODE칼럼의   값인 A_31, O_31 ,T_31들을

train데이터셋에 3개의 칼럼을 추가한 뒤 0,1로 표현하고

test데이터같은 경우 A_31, O_31 ,T_31 칼럼만 추가하여 만약 train데이터셋에 없는 값인 경우 A_31, O_31 ,T_31 칼럼 모두 0값을 가지도록

test데이터셋을 처리할 경우 Data Leakage로 판단 되는지 궁금합니다.


예시

로그인이 필요합니다
0 / 1000
DACON.GM
2023.02.21 09:05

안녕하세요 학점부도의날님,
['LINE', 'PRODUCT_CODE'는 Train / Test 모두 동일한 종류가 존재합니다] 라고 사전에 안내를 드렸기 때문에,
Test 데이터에도 A_31, O_31, T_31 외의 값은 입력으로 들어오지 않습니다.
따라서 말씀해주신 방법은 Data Leakage에 해당하지 않습니다.
감사합니다.

이전 글
전화해지여부 대회가 어디갔을까용? ㅠㅠ
Competition -
Likes 3
Views 799
Comments 3
2년 전
현재 글
Data Leakage 관련 문의
Competition - 스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤
Likes 7
Views 1,144
Comments 1
2년 전
다음 글
계정 관련 문의
Competition -
Likes 3
Views 976
Comments 1
2년 전