문장 유형 분류 AI 경진대회

사전학습 모델 규칙에 대하여

2022.12.14 18:27 2,226 Views

사전학습 모델 규칙이 다른 대회랑 살짝 다르네요.


  • 사용에 법적 제약이 없으며 논문으로 공개된 사전 학습 모델(Pre-trained Model) 사용 가능


'논문으로 공개된'이라는 말이 중요한 것 같네요. 사실 이러면 한국어 사전학습 모델 쓸 수 있는게 KLUE 밖에 없을 겁니다. SKT, 튜닙 등에서 공개한 모델은 따로 논문으로 공개한게 아니라 쓰면 실격처리를 당하지 않을까 싶네요.

(혹시나 다른 모델이 있으면 공유하면 좋을거 같아요)


모델은 사실상 KLUE Roberta 모델로 고정된 상태에서 아이디어랑 엔지니어링 싸움이라 공정성이 좋아지긴 하겠네요.

로그인이 필요합니다
0 / 1000
DACON.GM
2022.12.14 18:48

안녕하세요 HJOK님,
논문으로 공개된 사전 학습 모델에서 논문의 범위는 해당 모델 아키텍쳐에 대한 논문까지는 허용을 하고 있으며,
사전학습모델에 대한 추가 구체적인 출처를 기재해야 합니다.
예를 들어, KoBigBird와 같은 모델들도 사용 가능합니다. (BigBird 모델 논문 링크 기재)
감사합니다.

HJOK
2022.12.14 18:50

음 그럼 이전 규칙과 크게 달라진 것 없어 보이는데 맞게 이해한걸까요?

DACON.GM
2022.12.14 18:57

네 맞습니다. 논문 베이스로 공개된 아키텍쳐의 모델과, 어떠한 데이터셋으로 사전학습되어있는 지 확실히 확인할 수 있는 구체적 출처만 기재할 수 있으면 사용 가능합니다.
논문으로 공개된 모델로 기재한 이유는 어떠한 데이터셋으로 사전학습되었는 지 아예 알 수 없거나, 사용할 수 없는 데이터셋으로부터 커스텀하게 사전학습된 모델을 사용하는 경우와 직접 커스텀하게 모델링을 진행하고 일부 데이터로의 사전학습 후 사용하는 등의 행위를 방지하기 위해서 입니다.
감사합니다.