분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
KoBigBird_with_Decoder(수정)
메모리 문제로
인코더 레이어 6개(default 12)
인코더 레이어 6개(default 12)
길이 1024(defalut 최대길이 4096)
배치사이즈 4로 돌렸습니다.
레이어 수 8/8도 학습 시작은 할 수 있었습니다.
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
11월 8일에 감사하게도 monologg님께서 KoBigBird를 공개해주셔서 Bart Deocder를 연결해서 돌려봤습니다.
Transformer base BigBird의 경우에는 디코더가 포함되어 있지만 허깅페이스를 통해서 사용할 수 있는 KoBigBird모델은 Bert base모델이라 디코더가 포함되어 있지 않아 Bart 디코더를 붙여서 사용하였습니다.
BigBird도 Longformer와 비슷하게 기존 모델들의 입력 길이 제한을 해결하기 위해 제안되었는데,
BigBird논문에서는 Longformer보다 더 나은 결과값을 보여주었습니다.
관심 있으신 분들은 참고하시어 여러가지 시도해보시는 것도 좋을 것 같습니다.
코드 중 수정이 필요한 부분이 있으면 편하게 피드백 주시면 감사하겠습니다!
혹시 참고가 되었다면 좋아요도 눌러주시면 감사하겠습니다!
참고:
https://github.com/monologg/KoBigBird
https://huggingface.co/transformers/model_doc/bigbird.html#
https://dacon.io/competitions/official/235813/codeshare/3374?page=1&dtype=recent
기존 모델에 decoder만 붙여서 돌린 코드라 별도로 pretrain한 코드는 아닙니다!
아 그러면 kobigbird 기존 모델 config를 이용해 decoder를 만들어서 fine-tuning만 진행했다고 생각하면 될까요??!
encoder 부분은 pretrained 된걸 사용했고 decoder 부분을 말씀하신대로 config로 추가한 후에 fine-tuning했다고 생각하시면 될 거 같습니다!
빠른 답변 너무 감사합니다!! :) 아직 제가 많이 미숙해서 여러 코드나 huggingface 보면서 응용을 시도하려는데 decoder 부분에 Bart decoder 시도하신 부분도 코드가 github이나 다른 곳에 있다면 구경할 수 있을까요..?! ㅎㅎ
저도 공부하면서 한번 도전해봤었는데 결과가 생각보다 안 좋았어서 방향을 틀었었네요. 아무래도 실패했던 코드라 아마 큰 의미는 없을 거 같습니다. 원래 encoder 모델에 cross attention을 추가하면서 디코더 만드시는 방향으로 가시면 아마 차근차근 진행하실 수 있을 거 같네요. transformer랑 bart쪽 encoder, decoder 코드차이랑 허깅페이스 소스 코드가 도움이 많이 됐었습니다!
좋은 말씀 너무 감사합니다! : )
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
코드 잘 봤습니다. 혹시 kobigbird decoder를 붙이고 새로 pretrain을 시킨 코드인가요?!