AI-powered Meeting Transcript Summary Contest

Algorithm | NLP | Abstractive text summarization | Natural Language | ROUGE-N

Prize : Total 1,000만원
2021.09.27 ~ 2021.10.25 18:00 + Google Calendar
1,033 Users Completed

Closed

Overview Data Code (share) Talk Leaderboard

Submission

KoBigBird_with_Decoder(수정)

NLP취준생/제안 환영

2021.11.10 01:06 9,078 Views language

메모리 문제로
인코더 레이어 6개(default 12)
인코더 레이어 6개(default 12)
길이 1024(defalut 최대길이 4096)
배치사이즈 4로 돌렸습니다.

레이어 수 8/8도 학습 시작은 할 수 있었습니다.
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

11월 8일에 감사하게도 monologg님께서 KoBigBird를 공개해주셔서 Bart Deocder를 연결해서 돌려봤습니다.

Transformer base BigBird의 경우에는 디코더가 포함되어 있지만 허깅페이스를 통해서 사용할 수 있는 KoBigBird모델은 Bert base모델이라 디코더가 포함되어 있지 않아 Bart 디코더를 붙여서 사용하였습니다.

BigBird도 Longformer와 비슷하게 기존 모델들의 입력 길이 제한을 해결하기 위해 제안되었는데,
BigBird논문에서는 Longformer보다 더 나은 결과값을 보여주었습니다.

관심 있으신 분들은 참고하시어 여러가지 시도해보시는 것도 좋을 것 같습니다.

코드 중 수정이 필요한 부분이 있으면 편하게 피드백 주시면 감사하겠습니다!
혹시 참고가 되었다면 좋아요도 눌러주시면 감사하겠습니다!

참고:
https://github.com/monologg/KoBigBird
https://huggingface.co/transformers/model_doc/bigbird.html#
https://dacon.io/competitions/official/235813/codeshare/3374?page=1&dtype=recent

Code

7 Comments

comment

0 / 1000

yuseok_Jeong

2021.12.02 21:46

코드 잘 봤습니다. 혹시 kobigbird decoder를 붙이고 새로 pretrain을 시킨 코드인가요?!

NLP취준생/제안 환영

2021.12.02 22:57

기존 모델에 decoder만 붙여서 돌린 코드라 별도로 pretrain한 코드는 아닙니다!

yuseok_Jeong

2021.12.03 00:36

아 그러면 kobigbird 기존 모델 config를 이용해 decoder를 만들어서 fine-tuning만 진행했다고 생각하면 될까요??!

NLP취준생/제안 환영

2021.12.03 00:48

encoder 부분은 pretrained 된걸 사용했고 decoder 부분을 말씀하신대로 config로 추가한 후에 fine-tuning했다고 생각하시면 될 거 같습니다!

yuseok_Jeong

2021.12.03 00:56

빠른 답변 너무 감사합니다!! :) 아직 제가 많이 미숙해서 여러 코드나 huggingface 보면서 응용을 시도하려는데 decoder 부분에 Bart decoder 시도하신 부분도 코드가 github이나 다른 곳에 있다면 구경할 수 있을까요..?! ㅎㅎ

NLP취준생/제안 환영

2021.12.03 10:26

저도 공부하면서 한번 도전해봤었는데 결과가 생각보다 안 좋았어서 방향을 틀었었네요. 아무래도 실패했던 코드라 아마 큰 의미는 없을 거 같습니다. 원래 encoder 모델에 cross attention을 추가하면서 디코더 만드시는 방향으로 가시면 아마 차근차근 진행하실 수 있을 거 같네요. transformer랑 bart쪽 encoder, decoder 코드차이랑 허깅페이스 소스 코드가 도움이 많이 됐었습니다!

yuseok_Jeong

2021.12.03 13:13

좋은 말씀 너무 감사합니다! : )

📣 The comment input field has been moved to the top of the comment list!

List

No Previous Post

Current

KoBigBird_with_Decoder(수정)

Competition - AI 기반 회의 녹취록 요약 경진대회

Likes 18

Comments 7