자연어 기반 기후기술분류 AI 경진대회

알고리즘 | NLP | 분류 | 환경 | Macro f1 score

  • moneyIcon Prize : 총 600만원
  • 1,035명 마감

 

[private 7위] BERT, XLM-RoBERTa, Logistic, LGBM

2021.08.19 20:28 5,581 Views language

jupyter-notebook의 Markdown으로 전부 설명하였습니다. 또한 코드가 길어 코드 앞부분에 도식화된 그림으로 요약하였습니다. 

더 실험할 가설들이 많이 남아있었는데 시간이 부족하여 팀원끼리 아쉬워 했지만, 이번 대회로 많이 배웠습니다. 도움이 되셨으면 좋겠습니다. 

Public : 0.8187504465
Private : 0.8116321681

Code
로그인이 필요합니다
0 / 1000
kobi2000
2021.08.19 20:36

고맙습니다. ensemble 전 단일 모델들의 f1 값이 어느 정도였는지요?

hotorch
2021.08.19 20:37

bert쪽은 0.77~8정도나왔고 ML쪽은 0.75정도 나와던 걸로 기억이 납니다. 모델들 서로 찍은 내용들이 다양하게 나와 앙상블 했을 때 많이 올라간 것 같습니다. 

kobi2000
2021.08.19 21:30

삭제된 댓글입니다

DimensionSTP
2021.08.20 09:12

여러가지 실험을 많이 하셨네요.
저는 너무 늦게 참여해서 klue 데이터셋 기반 pretrained model만 사용해봤는데 결과가 썩 좋지 않더라구요.
혹시 XLM-roberta와 google multilingual을 선택하신 이유가 있을까요?
고생하셨습니다.

hotorch
2021.08.20 14:43

저도 이 부분에 대해 이유는 자세히는 모르겠지만 토큰 별 셀프어텐션 스코어 등을 보고 잠정적으로 내린 결론은 
어체가 다른 부분(해당 데이터가 문어체, 구어체와 또 다른 형태)이라 판단하여 multilingual을 활용하였습니다. 

kobi2000
2021.08.20 15:47

저도 bert-multilingual 와 xlm-roberta를 사용해서 비슷한 싱글 모델 f1 score 를 얻었습니다. 
저의 경우는 huggingface 에서 제공되는 multi-lingual pertained model이 이 2가지 종류 밖에 없었기 때문에 사용하게 되었습니다.
'bert-base-multilingual-cased' 와 'xlm-roberta-base'

레오레오
2021.09.29 10:34

감사합니다!