분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
범주형 변수 관련 인코딩 질문
안녕하세요, 대회에 참가하는 학생입니다.
다름 아니라 대회 규정에 아래와 같은 규정을 보고 의문이 생겨 문의 드립니다.
주어진 데이터 중 범주형 변수에 대한 원핫인코딩이 금지된 것인지, Baseline에 제시된 것처럼 라벨인코딩만 가능한 것인지 궁금합니다.
감사합니다.
답변 감사합니다! 참고해서 작성하겠습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 edwinjungwoo님,
문의에 대한 답변입니다. Test 데이터에 직접 pd.get_dummies() 함수를 사용하는 것이 금지되는 이유는 이 방법이 Data Leakage를 일으킬 수 있기 때문입니다.
특히, 학습 데이터에 없는 새로운 카테고리가 테스트 데이터에 포함된 경우, 이 새 카테고리에 대한 정보가 자동으로 모델에 반영되어 버리기 때문에 이러한 상황이 발생합니다.
따라서, 범주형 변수 처리 시 학습 데이터에서 사용한 동일한 전처리 방식을 테스트 데이터에도 적용하는 Label-Encoding과 같은 방식을 적용해야합니다.
감사합니다.