한국어 문서 추출요약 AI 경진대회

알고리즘 | 텍스트 | 생성요약 | 언어 | ROUGE-N

  • moneyIcon 상금 : 총 1,000만원
  • 1,175명 마감

 

[한국어 문서 요약 AI 경진대회] 데이터 EDA 파일 공유 드립니다.

2020.12.22 08:52 8,651 조회 language

대회는 끝났지만 텍스트요약 과업 수행을 위해 
본 대회 데이터 특성을 살펴보고자 하시는 분들이 계실 것 같아
대회 기간 동안 수행했던 데이터 EDA 파일을 공유합니다.
https://github.com/uoneway/PreSumm_ko/blob/master/tutorials/EDA.ipynb

살펴본  주요 데이터 특성은 다음과 같습니다.
- media 분포
- 원문(article_original), 생성요약 정답(abstractive), 추출요약 정답(extractive) 각각에 대한 sentence/word 분포
- 원문 대비 생성요약 정답과 추출요약 정답 각각의 Novel N-gram 비율 분포
- 원문, 생성요약 정답, 추출요약 정답 내 키워드 bi-gram 분포

코드
로그인이 필요합니다
0 / 1000
당쇠
2020.12.22 10:02

수고하셨습니다. 감사합니다 

takschoi
2023.01.09 14:12

안녕하세요. 혹시 jsonl 파일들을 어떻게 다운받을 수 있나요?
다운로드는 csv파일로만 가능한것 같아서요.
https://dacon.io/competitions/official/235671/data

이전 글
이전 글이 존재하지 않습니다.
현재 글
[한국어 문서 요약 AI 경진대회] 데이터 EDA 파일 공유 드립니다.
대회 - 한국어 문서 추출요약 AI 경진대회
좋아요 14
조회 8,651
댓글 2
3년 전
다음 글
다음 글이 존재하지 않습니다.