자연어 기반 기후기술분류 AI 경진대회

알고리즘 | NLP | 분류 | 환경 | Macro f1 score

  • moneyIcon Prize : 총 600만원
  • 1,035명 마감

 

EDA 공유

2021.08.01 14:24 7,702 Views language

안녕하세요

단순히 의식의 흐름 대로 진행해 본 EDA 내용들을 공유합니다.
NLP 분야가 아직 익숙하진  않아서 맞는 방법들로 진행했는지 잘 모르겠네요.

colab으로 진행했고 마지막에 tokenizer는 koBERT Tokenizer를 활용했습니다.
(https://github.com/SKTBrain/KoBERT)
koBERT는 torch 기반인 것 같은데 text처리 메서드들은 keras가 더 익숙해서 keras로 사용했습니다.

데이콘 베이스라인 참고해서 시작했습니다.
(https://dacon.io/competitions/official/235744/codeshare/2861?page=1&dtype=recent)

Code
로그인이 필요합니다
0 / 1000
배가_고파졌다
2021.08.01 22:05

EDA 감사합니다 :)
Label = 0 은 기후기술이 아닌 항목입니다.
질환극복기술개발(R&D) 등과 같은 사업은 기후기술이 아니라서 모두 0으로 분류된 것 같습니다.