제2회 코스포 x 데이콘 도서 추천 알고리즘 AI경진대회 채용

영어 외 특정 언어(ex. 프랑스어)가 깨져있는 현상

2023.04.21 16:42 1,502 Views

안녕하세요. train.csv 파일의 Book-Title 컬럼 내 일부 영어가 아닌 데이터가 깨져있는 현상을 발견하여 문의 드립니다.

아래 그림은 위 언급한 현상과 관련된 데이터 입니다. (pandas read_csv 함수를 사용해 데이터를 loading하였고, encoding은 utf-8 사용)

해당 현상은 raw data 자체가 깨져서 그러한 것으로 보이는데, 혹시 해당 부분을 수정하여 데이터를 재업로드 가능한지 여쭙고자 합니다. (NLP 모델 input으로 활용하기 위함)

혹은 제가 미처 알지 못하는 부분으로 인해 데이터 loading 방법이 잘못되어 해당 현상처럼 보이는 것이라면 이대로 진행하겠습니다. (혹시 아시는 분은 알려주시면 감사드리겠습니다.)


감사합니다.


로그인이 필요합니다
0 / 1000
DACON.GM
2023.04.24 10:13

안녕하세요 Cafelatte님,
해당 예시와 같이 노이즈로 판단되는 경우가 있다면, 보정 작업과 같은 전처리 과정을 통해 진행 하실 수 있습니다.
단, 외부 데이터의 활용은 금지되어 있기 때문에 유의하여 진행 부탁드립니다.
감사합니다.