한국어 문서 생성요약 AI 경진대회

알고리즘 | 텍스트 | 생성요약 | 언어 | ROUGE-N

  • moneyIcon 상금 : 총 1,000만원
  • 616명 마감

 

[한국어 문서 요약 AI 경진대회] 데이터 EDA 파일 공유합니다.

2020.12.22 09:02 5,857 조회 language

대회는 끝났지만 텍스트요약 과업 수행을 위해 
본 대회 데이터 특성을 살펴보고자 하시는 분들이 계실 것 같아
대회 기간 동안 수행했던 데이터 EDA 파일을 공유합니다.
https://github.com/uoneway/PreSumm_ko/blob/master/tutorials/EDA.ipynb

살펴본  주요 데이터 특성은 다음과 같습니다.
- media 분포
- 원문(article_original), 생성요약 정답(abstractive), 추출요약 정답(extractive) 각각에 대한 sentence/word 분포
- 원문 대비 생성요약 정답과 추출요약 정답 각각의 Novel N-gram 비율 분포
- 원문, 생성요약 정답, 추출요약 정답 내 키워드 bi-gram 분포

코드
로그인이 필요합니다
0 / 1000
당쇠
2020.12.23 06:55

어려운 대회였는데 수고하셨습니다.

tmtmaj
2020.12.24 18:21

좋은 자료 감사합니다. 

이전 글
이전 글이 존재하지 않습니다.
현재 글
[한국어 문서 요약 AI 경진대회] 데이터 EDA 파일 공유합니다.
대회 - 한국어 문서 생성요약 AI 경진대회
좋아요 8
조회 5,857
댓글 2
3년 전
다음 글
다음 글이 존재하지 않습니다.