분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
건설기계 오일 상태 분류 AI 경진대회
Baseline code에서 YEAR feature는 순서형으로 본건가요?
for col in train_X.columns:
if col not in categorical_features:
scaler = StandardScaler()
train_X[col] = scaler.fit_transform(get_values(train_X[col]))
val_X[col] = scaler.transform(get_values(val_X[col]))
if col in test.columns:
test[col] = scaler.transform(get_values(test[col]))
le = LabelEncoder()
for col in categorical_features:
train_X[col] = le.fit_transform(train_X[col])
val_X[col] = le.transform(val_X[col])
if col in test.columns:
test[col] = le.transform(test[col])
코드를 뜯어보면
YEAR 2007~2022는 결국
0~15로 encoding되는데..
딥러닝은 categorical feature을 이렇게 넣어도 상관없나요?? 궁금하네요
저도 그렇게 생각해서 year 변수를 더미변수화 하였습니다. 그런데 16변수를 추가하기엔 부담스러워서 유의성을 보고 2007~2010, 2011~2022 두 그룹으로 묶었습니다!
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
아무래도 categorical feature 특성상 양적인 의미는 없기 때문에 차라리 categorical feature에 대해서는 one-hot encoding을 하고 모델에 넣는게 좋을 것 같아요