건설기계 오일 상태 분류 AI 경진대회

Baseline code에서 YEAR feature는 순서형으로 본건가요?

2022.12.11 00:42 1,130 조회

for col in train_X.columns:


  if col not in categorical_features:

    scaler = StandardScaler()

    train_X[col] = scaler.fit_transform(get_values(train_X[col]))

    val_X[col] = scaler.transform(get_values(val_X[col]))


    if col in test.columns:

      test[col] = scaler.transform(get_values(test[col]))


le = LabelEncoder()

for col in categorical_features:   

  train_X[col] = le.fit_transform(train_X[col])

  val_X[col] = le.transform(val_X[col])

  if col in test.columns:

    test[col] = le.transform(test[col])


코드를 뜯어보면

YEAR 2007~2022는 결국

0~15로 encoding되는데..

딥러닝은 categorical feature을 이렇게 넣어도 상관없나요?? 궁금하네요

로그인이 필요합니다
0 / 1000
코딩하는 멍멍이
2022.12.11 22:39

아무래도 categorical feature 특성상 양적인 의미는 없기 때문에 차라리 categorical feature에 대해서는 one-hot encoding을 하고 모델에 넣는게 좋을 것 같아요

길동이
2022.12.12 07:41

저도 그렇게 생각해서 year 변수를 더미변수화 하였습니다. 그런데 16변수를 추가하기엔 부담스러워서 유의성을 보고 2007~2010, 2011~2022 두 그룹으로 묶었습니다!