Tunib Electra에 대한 사전학습된 모델 질문입니다.

문장 유형 분류 AI 경진대회

2022.12.17 00:09 3,546 조회

아래의 글은 Tunib 블로그에서 발췌한 내용입니다.

"TUNiB Electra를 제작하게 된 두 가지 동기가 있습니다.

첫 번째 동기는 현재 공개된 한국어 사전학습 인코더 모델들은 대부분 monolingual 모델이여서 한국어에 한정된 지식만을 가지고 있다는 점입니다. 이러한 한계점 극복을 위해 가장 널리 쓰이는 언어인 영어를 추가한 한-영 bilingual 모델을 제작하게 됐습니다.

두 번째 동기는 현재 공개된 한국어 사전학습 인코더 모델들보다 전반적으로 더 좋은 성능을 가지는 모델을 공개하고 싶었습니다. 그래서 저희는 블로그 게시물, 댓글, 뉴스, 웹소설 등의 다양한 형식의 데이터로 학습 데이터셋을 구성했으며, 충분히 많은 양의 데이터로 학습하기 위해 100GB에 달하는 한글 텍스트를 수집했습니다."

해당 Electra 사전학습 모델에서는 데이터의 출처가 특정되지 않고 블로그 게시물, 댓글, 뉴스, 웹소설 등등으로 설명이 되어있는데 해당 모델을 사용할 수 있을까요??

사전학습 모델의 학습된 데이터의 출처라고 하기에는 개인적인 판단으로 딱 명확하게 나와있다고 판단이 되지 않아서 여쭤봅니다.