자연어 기반 기후기술분류 AI 경진대회

알고리즘 | NLP | 분류 | 환경 | Macro f1 score

상금 : 총 600만원
1,059명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[private 17위] BERT 이용

filot

2021.08.17 14:31 6,957 조회 language

BERT의 bert-base-multilingual-uncased 모델을 이용하였습니다. 코드가 짧은데 bert-sklearn 라이브러리를 이용해서 학습을 하였습니다. 다양한 전처리와 모델을 실험하지 못한게 조금 아쉽네요. 코드를 보면 정말 단순합니다.

코드

댓글 6개

로그인이 필요합니다

comment

0 / 1000

HJOK

2021.08.17 22:58

궁금한게 있어서 질문드립니다.
1. 현재 리더보드 스코어가 이 단일모델로 나온 스코어인가요? pretrained모델보다 성능이 매우 높아서 신기하네요
2. epochs=50이면 학습을 50번이나 진행한건가요? 아니면 라이브러리가 알아서 학습하다가 overfit을 예상하면 멈추는 라이브러리인가요?
3. 다른 모델을 써보신게 있으신가요? 다른 모델도 이와 비슷한 스코어가 나왔었는지 궁금합니다.
읽어주셔서 감사합니다!

filot

2021.08.17 23:41

private 순위가 변경이 되었네요.. 16이었는데 다시 보니 17로...
1. 네 하나의 모델로만 학습한 결과입니다. 클래스 불균형 때문에 focal loss를 적용했는데 라이브러리의 소스를 직접 수정했습니다.
2. 50번까지 진행했습니다. loss가 50번 수행될 때까지도 계속 줄어드는 걸로 봐서는 시간과 충분하면 epoch를 늘려도 되어도 되지 않았을까 생각도 듭니다. 정확한 수행시간을 측정안했는데 50 epoch 수행하는데 24시간정도 걸린듯했습니다.
3. 초반에는 TF-IDF 모델로 했는데 public score가 대략 75~6점이었던 듯 합니다. BERT로는 bert-base-multilingual-cased 모델을 해봤는데 loss가 안줄어들었습니다. cased 모델이 더 최신이고 권고한다고 되어져 있는데 성능이 안좋더라구요. 그래서 uncased로 했습니다.

HJOK

2021.08.18 00:32

답변 감사합니다. 덕분에 좋은 라이브러리 하나 알고갑니다