자연어 기반 기후기술분류 AI 경진대회

알고리즘 | NLP | 분류 | 환경 | Macro f1 score

  • moneyIcon 상금 : 총 600만원
  • 1,049명 마감

 

[private 17위] BERT 이용

2021.08.17 14:31 5,678 조회 language

BERT의 bert-base-multilingual-uncased 모델을 이용하였습니다. 코드가 짧은데 bert-sklearn 라이브러리를 이용해서 학습을 하였습니다. 다양한 전처리와 모델을 실험하지 못한게 조금 아쉽네요. 코드를 보면 정말 단순합니다.

코드
로그인이 필요합니다
0 / 1000
HJOK
2021.08.17 22:58

궁금한게 있어서 질문드립니다.
1. 현재 리더보드 스코어가 이 단일모델로 나온 스코어인가요? pretrained모델보다 성능이 매우 높아서 신기하네요
2. epochs=50이면 학습을 50번이나 진행한건가요? 아니면 라이브러리가 알아서 학습하다가 overfit을 예상하면 멈추는 라이브러리인가요?
3. 다른 모델을 써보신게 있으신가요? 다른 모델도 이와 비슷한 스코어가 나왔었는지 궁금합니다.
읽어주셔서 감사합니다!

filot
2021.08.17 23:41

private 순위가 변경이 되었네요.. 16이었는데 다시 보니 17로...
1. 네 하나의 모델로만 학습한 결과입니다. 클래스 불균형 때문에 focal loss를 적용했는데 라이브러리의 소스를 직접 수정했습니다.
2. 50번까지 진행했습니다. loss가 50번 수행될 때까지도 계속 줄어드는 걸로 봐서는 시간과 충분하면 epoch를 늘려도 되어도 되지 않았을까 생각도 듭니다. 정확한 수행시간을 측정안했는데 50 epoch 수행하는데 24시간정도 걸린듯했습니다. 
3.  초반에는 TF-IDF 모델로 했는데 public score가 대략 75~6점이었던 듯 합니다. BERT로는 bert-base-multilingual-cased 모델을 해봤는데 loss가 안줄어들었습니다. cased 모델이 더 최신이고 권고한다고 되어져 있는데 성능이 안좋더라구요. 그래서 uncased로 했습니다.

HJOK
2021.08.18 00:32

답변 감사합니다. 덕분에 좋은 라이브러리 하나 알고갑니다

NLP취준생/제안 환영
2021.08.18 09:14

불균형 데이터를 loss쪽에서 접근해서 개선 방법을 고민하고 있었는데 focal loss에 대해서 이번에 하나 배우고 갑니다. 감사합니다! 

인디고
2021.08.18 09:22

bert_sklearn  이라는게 있군요, 좋은 라이브러리 배워갑니다. 감사합니다!

Q Branch
2022.12.21 15:46

혹시 문장이 엄청 길어도 상관없나요?