분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
건설기계 오일 상태 분류 AI 경진대회
Baseline code에서 YEAR feature는 순서형으로 본건가요?
for col in train_X.columns:
if col not in categorical_features:
scaler = StandardScaler()
train_X[col] = scaler.fit_transform(get_values(train_X[col]))
val_X[col] = scaler.transform(get_values(val_X[col]))
if col in test.columns:
test[col] = scaler.transform(get_values(test[col]))
le = LabelEncoder()
for col in categorical_features:
train_X[col] = le.fit_transform(train_X[col])
val_X[col] = le.transform(val_X[col])
if col in test.columns:
test[col] = le.transform(test[col])
코드를 뜯어보면
YEAR 2007~2022는 결국
0~15로 encoding되는데..
딥러닝은 categorical feature을 이렇게 넣어도 상관없나요?? 궁금하네요
저도 그렇게 생각해서 year 변수를 더미변수화 하였습니다. 그런데 16변수를 추가하기엔 부담스러워서 유의성을 보고 2007~2010, 2011~2022 두 그룹으로 묶었습니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
아무래도 categorical feature 특성상 양적인 의미는 없기 때문에 차라리 categorical feature에 대해서는 one-hot encoding을 하고 모델에 넣는게 좋을 것 같아요