HD현대 AI Challenge

범주형 변수 관련 인코딩 질문

2023.10.23 20:11 1,655 조회

안녕하세요, 대회에 참가하는 학생입니다.

다름 아니라 대회 규정에 아래와 같은 규정을 보고 의문이 생겨 문의 드립니다.

  • Test 데이터에 pandas의 get_dummies() 함수를 적용하는 경우

주어진 데이터 중 범주형 변수에 대한 원핫인코딩이 금지된 것인지, Baseline에 제시된 것처럼 라벨인코딩만 가능한 것인지 궁금합니다.

감사합니다.

로그인이 필요합니다
0 / 1000
DACON.GM
2023.10.24 09:12

안녕하세요 edwinjungwoo님,
문의에 대한 답변입니다. Test 데이터에 직접 pd.get_dummies() 함수를 사용하는 것이 금지되는 이유는 이 방법이 Data Leakage를 일으킬 수 있기 때문입니다. 
특히, 학습 데이터에 없는 새로운 카테고리가 테스트 데이터에 포함된 경우, 이 새 카테고리에 대한 정보가 자동으로 모델에 반영되어 버리기 때문에 이러한 상황이 발생합니다. 
따라서, 범주형 변수 처리 시 학습 데이터에서 사용한 동일한 전처리 방식을 테스트 데이터에도 적용하는 Label-Encoding과 같은 방식을 적용해야합니다.
감사합니다.

edwinjungwoo
2023.10.24 19:55

답변 감사합니다! 참고해서 작성하겠습니다.