자연어 기반 기후기술분류 AI 경진대회

알고리즘 | NLP | 분류 | 환경 | Macro f1 score

Prize : 총 600만원
1,035명 마감

Practice

Overview Data Code (share) Talk Leaderboard

Submission

[private 14위]형태소 토크나이저 튜닝 전처리, 1D CNN 비사전학습 모델

NLP취준생/제안 환영

2021.08.17 15:09 4,916 Views language

독학 비중이 높은 비전공자 코드다보니 아직 리팩터링이 미흡한 부분이 있는 점 양해바랍니다. 코드 공유에 올려주신 Jay Hong님의 글이 많은 참고가 되었습니다.

이번에는 논문에 관한 내용이라는 데이터 특성상 띄어쓰기가 없는 긴 길이의 단어가 많고, 한국어는 서브워드 토크나이징에 있어서 띄어쓰기가 다른 언어에 비해 어려운 점이 많아 형태소 토크나이징을 해주는 것이 도움이 되는 경우가 많다고 알고 있습니다. 또한 전문용어 특성상 등장빈도가 높지 않은 경우도 있기 때문에 이러한 부분들에 있어서도 조금 더 형태소 단위로 나누는 작업을 해보고 싶었습니다. 이번에 했던 작업은 데이터 외에도 논문이나 전문용어가 많이 나오는 데이터에서 형태소 토크나이저를 사용할 시에 비슷한 방식으로 전처리를 하는데 활용할 수 있다고 생각합니다.

이번 도메인에서는 전문용어와 띄어쓰기가 일반적인 텍스트들과 다른 점이 많아 생각보다 형태소 토크나이저의 성능이 더 좋지 못했습니다.

Mecab의 경우에는 속도가 매우 빠르지만 Okt에 비해 단어들을 더 쪼개서 토큰화를 하고, 작게 자르는 것은 어차피 서브워드 토크나이징에서도 해준다고 생각했기 때문에 합성어를 더 쪼개기보다 하나의 토큰으로 나누는 경우가 많은 Okt를 사용했습니다.

전체 프로세스를 다 경험해보고 싶어 개인으로 참가하여 시간이 부족하여 전처리 이후 서브워드 토크나이징 활용한 사전 학습 모델들은 이번에 많이 다루지 못하였고 추후 여러가지 모델들을 더 테스트해볼 생각입니다.
public 0.803767006
private 0.7915946491

Code