영화 리뷰 감성분석 AI해커톤

NLP | Accuracy

참가시 최소 50 XP, 특별상 데이콘 후드
687명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

Tensorflow LSTM 모델 (public score : 0.848)

동화책

2022.01.12 13:26 8,001 조회 language

안녕하세요 🙂

TF LSTM 모델로 만든 영화 리뷰 감정 분석 모델입니다. public score : 0.848 달성하였습니다!
자연어처리는 처음이다보니 해당 대회에 적용할 수 있는 모델이 무엇이 있을까 찾아보던 중 적합한 자료를 발견해서 비슷하게 구현해보았습니다.
링크에 자세한 설명이 나와있으니 저처럼 초보자이신 분들은 함께 따라가보셔도 좋겠네요.
피드백은 언제나 환영입니다.

* 본 포스팅은 데이콘 서포터즈 “데이크루" 1기 활동의 일환입니다.

코드

댓글 5개

로그인이 필요합니다

comment

0 / 1000

일거양득

2022.01.12 14:36

테스트데이터 파일에 있는 영어 리뷰가 없어진것 아닌가요 ?>

동화책

2022.01.12 16:20

안녕하세요 🙂
train과 test셋 모두 전처리 시에 영어 문자를 제거하지 않았습니다.
전체 데이터셋에 영어 샘플이 많지 않기 때문에 단어 임베딩 및 학습이 잘 이루어지는 것에 대한 질문이시라면.... 더 설명드리겠습니다.

텍스트를 벡터로 바꿔주는 tokenzier는 train셋에 대해서만 학습하기 때문에 'train 셋에는 없지만 test 셋에는 있는' 단어의 경우에 0 벡터로 임베딩이 수행됩니다. 이러한 데이터 샘플은 총 8개 있고, 내용과는 상관없이 모델이 모두 0(부정)으로 예측하는 것을 확인하였습니다. 이 부분을 후처리해주면 성능이 조금 향상될 수도 있겠네요.

말이 길었는데... 결론적으로는 영어 리뷰에 대해서 적절한 임베딩과 모델 학습이 수행된 것으로 보여집니다.
질문이 해결되었는지 모르겠네요. 혹시라도 더 궁금한 사항이 있다면 알려주세요.
감사합니다.