AI야 , 진짜 뉴스를 찾아줘! AI 경진대회

알고리즘 | 텍스트 | 분류 | 금융 | Accuracy + Time

상금 : 총 5,000만원(League1,2 통합)
627명 마감

마감

대회안내 데이터 코드 공유 토크 리더보드

제출

훈련, 테스트 데이터 품질 관련 질문드립니다.

Metalchaos8527

2020.12.04 13:51 3,818 조회

안녕하세요, 모델 설정을 위해 훈련, 테스트 데이터를 탐구하다가 다음과 같은 문제가 보여서 질문드립니다.

sentencepiece 기반 토크나이저로 토큰화를 한 후 1 case마다 문장 길이를 측정했습니다.

그 결과 다음과 같이 길이가 매우 긴 case들이 나타났습니다.

1.훈련 데이터셋 경우

2.테스트 데이터셋 경우

대부분의 케이스들이 한문장 단위로 수집되어 있는데 위와 같이 한 문장을 넘어서는 거의 한 문서 단위로 수집된 데이터 들이 다수 존재합니다.

이런 경우 해당 데이터들을 어떻게 처리해야 하는지 궁금합니다.

해당 데이터들을 문장 기준으로 재분리 하기에는 info정보를 매핑할 수 없어서 그렇습니다.

혹시 데이터 수집의 품질 문제가 존재한다면 다시 데이터를 올려주실 수 있는지도 궁금합니다.

댓글 2개

로그인이 필요합니다

comment

0 / 1000

DACONIO

2020.12.09 15:09

안녕하세요
현재 띄어쓰기 기준으로 분리하였을 경우 길이가 100이 넘어가는 경우는 총 25건이며 최대 길이는 593입니다.
info 여부는 담겨있는 content 자체에 대한 info여부이기 때문에 이 점 참고하시어 진행해주시면 감사하겠습니다.
(즉, 현재 올려주신 예시 또한 기록되어 있는 info 정보를 따라주시면 됩니다.)

Metalchaos8527

2020.12.09 16:03

답변 감사합니다!

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동하였습니다!