AI 기반 회의 녹취록 요약 경진대회

알고리즘 | NLP | 생성요약 | 자연어 | ROUGE-N

  • moneyIcon 상금 : 총 1,000만원
  • 1,034명 마감
마감

 

JSON 데이터 이용관련

2021.10.02 08:25 3,769 조회

안녕하세요. DACON에 처음 방문하여 자료를 좀 보고 있는 중입니다. 훌륭한 자료들이 많은 것 같습니다. :)

하지만 처음이라 많이 생소하네요. 먼저 예제 코드를 사용하여 JSON파일을 읽는 중에 다음과 같은 에러가 뜨고, JSON을 열어봤을 때 예제와 같이 완주군에 대한 한글자료가 뜨지 않고 두번째 그림과 같이 뜨는데

질문: 원래 공유한 데이터가 두번째 그림과 같은 형태이고, 이용할 자료는 참여자가 온라인상에서 찾아서 이용해야 하는건가요? 아니면 한국어 Language와 같이 언어를 인식하기 위해 뭔가를 추가적으로 설치해야 하나요?

감사합니다.


로그인이 필요합니다
0 / 1000
실명전사김동혁
2021.10.03 20:30

대회에서 주어진 데이터는 유니코드 16진수로 저장되어 있기때문에, 두번째 그림처럼 \uXXXX 형태로 저장되는게 맞습니다. 즉, 한글 하나가 \uXXXX 형태로 저장된 것입니다.
그런데 해당 json 파일이 깨졌거나 특정 이유로 인해서 41944304번째 문자가 \uXXXX의 형태를 지키지 못해 발생하는 에러 같습니다.
데이터를 새로 다운로드 받으신 후 다시 로드하시면 좋을 것 같네요 😁

LukeLuke
2021.10.04 10:51

답변 감사합니다. colab에 데이터를 upload하는데 시간이 좀 거리는데 모르고 폴더에 파일이 보이길래 다 upload된 줄 알고 파일을 사용하려고 했네요.
파일이 upload완료되고 하니 잘 됩니다. 감사합니다.