한국어 문서 추출요약 AI 경진대회

알고리즘 | 텍스트 | 생성요약 | 언어 | ROUGE-N

  • moneyIcon 상금 : 총 1,000만원
  • 1,175명 마감

 

[Dacon 답변 요청] 평가방식에 대한 문의

2020.11.21 18:49 2,556 조회

안녕하세요. 몇 가지 질문이 있어 올립니다.


1) 평가방식에 대해 모델이 예측한 추출 요약문 3개와 사람이 생성한 생성 요약문 사이의 rouge n 점수를 내는 것이 맞나요?

예를들어, 모델이 예측한 "요약1\n요약2\n요약3"(a)과 "정답1\n정답2\n정답3"(b) 사이의 점수가 아닌 "사람이 생성한 생성 요약문"(c)와의 점수를 내는 것이 맞나요? 즉, a와 b사이가 아닌 a와 c사이의 점수를 내는 것이 맞을까요?


2) 만약 사람이 생성한 생성 요약문 사이와 점수를 내는 것이라면 태스크가 가진 의미를 잘 모르겠습니다. 생성요약 AI 경진대회의 경우 생성을 잘 하는 모델을 연구하는 것이기 때문에 생성 요약문 사이끼리 점수를 내는 것이 타당하다고 생각하는데, 추출요약에서 모델이 예측한 추출문과 실제 정답 추출문 사이의 점수가 아닌, 생성문 사이의 점수를 내는 이유가 있을까요?


항상 좋은 대회 열어주셔서 감사합니다.

로그인이 필요합니다
0 / 1000
DACONIO
2021.12.22 14:19

안녕하세요 작성자님.

추출요약의 경우 모델이 추출한 요약문과 사람이 생성한 생성요약문과의 ROUGE 스코어를 계산합니다. 
현재 대표적인 영어 벤치마크 데이터셋인 CNN/DM 경우에도 위와 같은 방식으로 스코어를 계산하고 있습니다. 
만약 정답 추출요약문과의 스코어를 계산한다면 단순히 classification에 해당하는 스코어(accuracy) 와 같은 다른 지표를 사용하는 것이 더 낫다고 생각합니다. 
해당 태스크는 요약에 관한 것이기 때문에 사람이 생성한 요약문과 비교하는것이 더 타당하다고 판단됩니다.

감사합니다.
데이콘 드림.

Ynot
2020.11.23 17:51

넵 감사합니다. 한가지 더 궁금한점이 있는데요.
이렇게 되면 추출요약과 생성요약 별개의 대회에 추출요약 결과만 내면 점수가 동일하게 나올텐데 이런식으로 제출해도 되는 것인가요? 아니면 평가할 때 생성요약인지 추출요약인지 구분하는 프로세스가 있을까요?

DACONIO
2020.11.23 19:12

submission 제출단계에서 자동확인은 안되나 최종 평가 단계에서 추출요약 결과를 생성요약 제출했을 경우 수상에서 제외되며 반대의 경우도 제외됩니다.

Ynot
2020.11.24 14:24

넵 이해했습니다. 감사합니다.