[1주년 기념] 데이스쿨 최대 40% 할인 🎁
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
HD현대 AI Challenge
범주형 변수 관련 인코딩 질문
안녕하세요, 대회에 참가하는 학생입니다.
다름 아니라 대회 규정에 아래와 같은 규정을 보고 의문이 생겨 문의 드립니다.
주어진 데이터 중 범주형 변수에 대한 원핫인코딩이 금지된 것인지, Baseline에 제시된 것처럼 라벨인코딩만 가능한 것인지 궁금합니다.
감사합니다.
답변 감사합니다! 참고해서 작성하겠습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 edwinjungwoo님,
문의에 대한 답변입니다. Test 데이터에 직접 pd.get_dummies() 함수를 사용하는 것이 금지되는 이유는 이 방법이 Data Leakage를 일으킬 수 있기 때문입니다.
특히, 학습 데이터에 없는 새로운 카테고리가 테스트 데이터에 포함된 경우, 이 새 카테고리에 대한 정보가 자동으로 모델에 반영되어 버리기 때문에 이러한 상황이 발생합니다.
따라서, 범주형 변수 처리 시 학습 데이터에서 사용한 동일한 전처리 방식을 테스트 데이터에도 적용하는 Label-Encoding과 같은 방식을 적용해야합니다.
감사합니다.