분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[한국어 문서 요약 AI 경진대회] 데이터 EDA 파일 공유 드립니다.
대회는 끝났지만 텍스트요약 과업 수행을 위해
본 대회 데이터 특성을 살펴보고자 하시는 분들이 계실 것 같아
대회 기간 동안 수행했던 데이터 EDA 파일을 공유합니다.
https://github.com/uoneway/PreSumm_ko/blob/master/tutorials/EDA.ipynb
살펴본 주요 데이터 특성은 다음과 같습니다.
- media 분포
- 원문(article_original), 생성요약 정답(abstractive), 추출요약 정답(extractive) 각각에 대한 sentence/word 분포
- 원문 대비 생성요약 정답과 추출요약 정답 각각의 Novel N-gram 비율 분포
- 원문, 생성요약 정답, 추출요약 정답 내 키워드 bi-gram 분포
안녕하세요. 혹시 jsonl 파일들을 어떻게 다운받을 수 있나요?
다운로드는 csv파일로만 가능한것 같아서요.
https://dacon.io/competitions/official/235671/data
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
수고하셨습니다. 감사합니다