[신규 오픈 기념] 데이스쿨 최대 40% 할인 🎁
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
훈련, 테스트 데이터 품질 관련 질문드립니다.
안녕하세요, 모델 설정을 위해 훈련, 테스트 데이터를 탐구하다가 다음과 같은 문제가 보여서 질문드립니다.
sentencepiece 기반 토크나이저로 토큰화를 한 후 1 case마다 문장 길이를 측정했습니다.
그 결과 다음과 같이 길이가 매우 긴 case들이 나타났습니다.
1.훈련 데이터셋 경우
2.테스트 데이터셋 경우
대부분의 케이스들이 한문장 단위로 수집되어 있는데 위와 같이 한 문장을 넘어서는 거의 한 문서 단위로 수집된 데이터 들이 다수 존재합니다.
이런 경우 해당 데이터들을 어떻게 처리해야 하는지 궁금합니다.
해당 데이터들을 문장 기준으로 재분리 하기에는 info정보를 매핑할 수 없어서 그렇습니다.
혹시 데이터 수집의 품질 문제가 존재한다면 다시 데이터를 올려주실 수 있는지도 궁금합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요
현재 띄어쓰기 기준으로 분리하였을 경우 길이가 100이 넘어가는 경우는 총 25건이며 최대 길이는 593입니다.
info 여부는 담겨있는 content 자체에 대한 info여부이기 때문에 이 점 참고하시어 진행해주시면 감사하겠습니다.
(즉, 현재 올려주신 예시 또한 기록되어 있는 info 정보를 따라주시면 됩니다.)