데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
데이터 전처리
기준이 조금 이해가 안 가서 그럼 test data set에는 아예 label encoding, one-hot encoding, data scaling 등을 하지 말라는건가요..??
삭제된 댓글입니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
제 생각에도 조금 모호하긴한데
label encoding, one-hot encoding 시 test 데이터 셋 활용이니까 테스트셋에 적용하는 것은 문제가 없어보입니다.
파이프라인을 확인해보시면
# 수치형 데이터에 대해 스케일링 적용
train_data[numerical_cols] = scaler.fit_transform(train_data[numerical_cols])
test_data[numerical_cols] = scaler.transform(test_data[numerical_cols])
# 레이블 인코딩을 위한 LabelEncoder 인스턴스 생성 및 적용
label_encoders = {}
for col in categorical_cols:
label_encoders[col] = LabelEncoder()
train_data[col] = label_encoders[col].fit_transform(train_data[col])
test_data[col] = label_encoders[col].transform(test_data[col])
이렇게 작성되어 있는데
파이프라인에서도 테스트셋에 라벨, 원핫인코딩을 적용했으므로 하셔도 문제가 없어보입니다.