Learning Platform User Subscription Renewal Predictions AI Hackathon

Algorithm | Tabular | Classification | Web | Macro F1

  • moneyIcon Prize : 인증서
  • 740 Users Completed

 

범주형 변수 인코딩 시

2023.12.06 22:40 1,193 Views

안녕하세요.

범주형 변수 인코딩 시 get_dummies 혹은 one hot encoding을 테스트 데이터에는 사용하면 안된다는 내용인가요 ?

Login Required
0 / 1000
bjw0813
2023.12.07 11:13

그냥 get_dummies는 아예 못쓴다고 생각하시면 편할 것 같아요. get_dummies를 사용하면 어쩔 수 없이 test 데이터의 범주형 변수도 파악을 해야 한다는 전제가 깔려서 train과정에서 test데이터의 정보를 쓰기 때문에 그렇습니다. train data에 OneHotEncoder를 적용해서 사용하는건 괜찮습니다.  

aksofl
2023.12.07 14:37

음..사용해도 되지 않나요? train 데이터에 대한 feature engineering을 한 경우, test_data에 대해서 적용할 때는 똑같이 데이터 전처리만 동일하게 하고 적용해도 되는거 아닌가 해서요..! 

bjw0813
2023.12.07 15:40

예를 들어드리면 0,1,2,3,4,5를 갖는 범주형 데이터가 있는데 train data에 0,1,2,3,5의 경우만 존재해서 get_dummies()를 쓰면 4가 반영되지 않습니다. 그런데 만약 test data에는 0,1,2,3,4,5가 전부 존재한다면 input data shape이(데이터의 열 개수) train data의 경우와 test data의 경우가 다르게 됩니다