분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
범주형 변수 인코딩 시
안녕하세요.
범주형 변수 인코딩 시 get_dummies 혹은 one hot encoding을 테스트 데이터에는 사용하면 안된다는 내용인가요 ?
음..사용해도 되지 않나요? train 데이터에 대한 feature engineering을 한 경우, test_data에 대해서 적용할 때는 똑같이 데이터 전처리만 동일하게 하고 적용해도 되는거 아닌가 해서요..!
예를 들어드리면 0,1,2,3,4,5를 갖는 범주형 데이터가 있는데 train data에 0,1,2,3,5의 경우만 존재해서 get_dummies()를 쓰면 4가 반영되지 않습니다. 그런데 만약 test data에는 0,1,2,3,4,5가 전부 존재한다면 input data shape이(데이터의 열 개수) train data의 경우와 test data의 경우가 다르게 됩니다
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
그냥 get_dummies는 아예 못쓴다고 생각하시면 편할 것 같아요. get_dummies를 사용하면 어쩔 수 없이 test 데이터의 범주형 변수도 파악을 해야 한다는 전제가 깔려서 train과정에서 test데이터의 정보를 쓰기 때문에 그렇습니다. train data에 OneHotEncoder를 적용해서 사용하는건 괜찮습니다.