분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
제2회 코스포 x 데이콘 도서 추천 알고리즘 AI경진대회 채용
영어 외 특정 언어(ex. 프랑스어)가 깨져있는 현상
안녕하세요. train.csv 파일의 Book-Title 컬럼 내 일부 영어가 아닌 데이터가 깨져있는 현상을 발견하여 문의 드립니다.
아래 그림은 위 언급한 현상과 관련된 데이터 입니다. (pandas read_csv 함수를 사용해 데이터를 loading하였고, encoding은 utf-8 사용)
해당 현상은 raw data 자체가 깨져서 그러한 것으로 보이는데, 혹시 해당 부분을 수정하여 데이터를 재업로드 가능한지 여쭙고자 합니다. (NLP 모델 input으로 활용하기 위함)
혹은 제가 미처 알지 못하는 부분으로 인해 데이터 loading 방법이 잘못되어 해당 현상처럼 보이는 것이라면 이대로 진행하겠습니다. (혹시 아시는 분은 알려주시면 감사드리겠습니다.)
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 Cafelatte님,
해당 예시와 같이 노이즈로 판단되는 경우가 있다면, 보정 작업과 같은 전처리 과정을 통해 진행 하실 수 있습니다.
단, 외부 데이터의 활용은 금지되어 있기 때문에 유의하여 진행 부탁드립니다.
감사합니다.