분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
한글 Label encoding 방법
윈도우 환경에서 라벨 인코딩하실때 문제가 생기는 경우가 있는 것 같습니다
저 같은 경우는 sklearn.preprocessing.LabelEncoder 사용하면 운영체제 관계없이 잘 되는 것을 확인했습니다
이렇게 하면 Label encoding 개수 (len(encoder.classes_))로 dense layer num_class를 적용하면 되기 때문에 다른 task에서 Label 수 달라져도 바로바로 적용 가능합니다
일단 분류별로 디렉토리가 따로 있는데 이걸 한 디렉토리에 모으시고 그걸 정리한 데이터프레임(df)를 만드셔야 합니다
이건 코드로 공유하였습니다 (https://dacon.io/competitions/official/236082/codeshare/8159)
Training 시에는 training이나 전체 df 불러와서
encoder = LabelEncoder()
encoder.fit(sorted((df)['label'].unique())) # training에 반드시 모든 Label이 들어오게 주의. 전체 데이터셋으로 해도 상관없습니다.
Inference 시에는 같은 encoder를 활용하여
pred_list = encoder.inverse_transform(pred_test.cpu().numpy())
sub_df['label'] = pred_list
sub_df.to_csv(os.path.join(file_path, 'sub_cv.csv'), index = False)
감사합니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved