AI 기반 회의 녹취록 요약 경진대회

알고리즘 | NLP | 생성요약 | 자연어 | ROUGE-N

  • moneyIcon Prize : 총 1,000만원
  • 1,034명 마감
Closed

 

longformer_kobart

2021.10.28 18:02 6,127 Views language

개인적으로 두번 째 참가인데 성장에 많은 도움이 된 대회였습니다.
대회기간 동안 pytorch로 transformer 구현, koelectra에 decoder 달아보기, kobart에 longformer 적용 등에 도전해볼 수 있었고 그 과정에서 huggingface사용에 더 익숙해질 수 있었고 다양한 모델들의 소스코드들을 보고  많이 배울 수 있었습니다.

아쉽게도 시간이 부족하여 longformer_kobart 코드가 늦어져서 아직 제출을 해보지는 못 했습니다. 11월 1일 이후 다시 제출이 가능해지면 제출해볼 예정입니다.

longformer는 CNN의 컨볼루션과 비슷하게 attention window를 이용하는 방식을 사용하여 더 긴 인풋길이를 가져올 수 있다는 장점이 있습니다. 메모리 사용량 개선을 포함하여 다른 장점이 있지만 longformer에 관심이 있으신 분들은 리뷰들을 찾아보시면 좋을 것 같습니다. 기존 longformer를 bart에 적용시킨 자료들은 트랜스포머 3점대 버전이 많고 kobart에 적용할 수가 없었기 때문에 다른 코드들을 참고하면서 kobart의 transformers 버전에 맞게 직접 수정하여 돌렸습니다.

혹시 참고가 되었다면 좋아요 눌러주시면 감사하겠습니다!

Code
로그인이 필요합니다
0 / 1000
Kerry
2021.10.28 20:05

코드 잘봤습니다. 저도 LongformerBart를 구현해보다가 계속 에러가 나서 결국 못했는데, 해내셨군요.
혹시 본대회에서 제출시 사용하신 모델은 어떤걸 쓰셨는지 여쭤봐도될까요?

NLP취준생/제안 환영
2021.10.28 20:31

LongformerBart 구현이 개인적으로 이번 대회에서 도전해보고 싶은 주제였고 구현 과정에서 공부가 많이 됐었네요.

kobart에 여러가지 전처리하면서 테스트해보다가 특별히 성능 개선을 많이 못 하고 제출했었습니다. 이번 대회 데이터 특성상 확실히 뭔가 수가 필요해 보였는데 그걸 못 찾았었네요. 순위도 public때보다 꽤 떨어졌었고요 ㅎㅎ Kerry님 께서는 혹시 어떤 모델 사용하셨었는지 질문드려도 될까요?

Kerry
2021.10.28 20:51

저 역시 kobart를 사용했습니다. 처음에는 전처리에 집중해서 어떻게든 input  길이를 줄여보려고 노력했지만 확실히 한계가있더군요ㅠ 위에 type_case 나눠주신것처럼 저도 정규표현식으로 여러가지 케이스를 구분해서 잘학습할 수 있도록 명료화시켰었습니다. 또한 bertsum을 사용해서 evidence_text를 추출한뒤 bart를 사용하는 것을 생각했는데, 결국 못썻습니다..

NLP취준생/제안 환영
2021.10.28 21:00

evidence_text를 사용해서 2단계로 추론하는 방법도 개인적으로는 좀 시도해봤었는데 몇몇 유형에서는 evidence_text가 거의 의미가 없었고 전체적으로 데이터 숫자가 적어서 포기했었습니다. 의원 발언 요약쪽은 특히 사람이봐도 좀 어렵다는 느낌이어서 테스트셋에서 비율이 적긴 했지만 인사이트가 필요한 대회라고 느꼈었네요. 개인적으로는 그래도 공부가 많이 됐던 대회였습니다 ㅎㅎ 대회 끝나고 상위권 분들이 좋은 코드 공유해주시면 더 공부가 될 거 같네요. 댓글 달아주셔서 감사합니다!

Kerry
2021.10.28 21:13

넵:)) 다음에 NLP대회때 기회있으면 같이할수있으면 좋겠네요! 고생하셨습니다.

NLP취준생/제안 환영
2021.10.28 21:37

넵 다음에 기회되면 같이 해볼 수 있으면 좋을 거 같네요. 고생 많으셨습니다!

Jay 윤
2021.10.29 01:38

끝나고도 공부하셔서 완성하셨네요 ㅎㅎ 수고많으셨습니다.

다음에도 대회 재밌는 거 있음 같이 나가시죠 ;) 

NLP취준생/제안 환영
2021.10.29 06:48

안 해봤던 작업이라 고생도 많이하긴 했지만 공부도 많이 됐었네요. 처음에 참고 자료 같이 주셔서 더 수월하게 도전할 수 있었습니다. 감사합니다! 다음에도 또 같이 해볼 수 있으면 좋을 것 같네요 :)

affjljoo3581
2021.10.31 11:50

삭제된 댓글입니다

잠은죽어서잔다
2021.11.01 18:55

감사합니다. 공부할 때 도움이 많이 될 것 같습니다. 덕분에 입문자인데 가이드라인이 제시 된 것 같습니다!

바비보약
2022.07.13 14:38

와... 대단하십니다ㅎㅎ
회사에서 자연어처리 담당한지 몇 개월 안되서 아직 배울 것이 많은데 큰 도움이 되었습니다ㅎㅎ
summarization 분야를 알아야 하다 보니 할게 많은데 감사합니다ㅎ

김가애현
2023.05.23 01:46

삭제된 댓글입니다