분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
범주형 변수 인코딩 시
안녕하세요.
범주형 변수 인코딩 시 get_dummies 혹은 one hot encoding을 테스트 데이터에는 사용하면 안된다는 내용인가요 ?
음..사용해도 되지 않나요? train 데이터에 대한 feature engineering을 한 경우, test_data에 대해서 적용할 때는 똑같이 데이터 전처리만 동일하게 하고 적용해도 되는거 아닌가 해서요..!
예를 들어드리면 0,1,2,3,4,5를 갖는 범주형 데이터가 있는데 train data에 0,1,2,3,5의 경우만 존재해서 get_dummies()를 쓰면 4가 반영되지 않습니다. 그런데 만약 test data에는 0,1,2,3,4,5가 전부 존재한다면 input data shape이(데이터의 열 개수) train data의 경우와 test data의 경우가 다르게 됩니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
그냥 get_dummies는 아예 못쓴다고 생각하시면 편할 것 같아요. get_dummies를 사용하면 어쩔 수 없이 test 데이터의 범주형 변수도 파악을 해야 한다는 전제가 깔려서 train과정에서 test데이터의 정보를 쓰기 때문에 그렇습니다. train data에 OneHotEncoder를 적용해서 사용하는건 괜찮습니다.