분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Tensorflow LSTM 모델 (public score : 0.848)
안녕하세요 🙂
TF LSTM 모델로 만든 영화 리뷰 감정 분석 모델입니다. public score : 0.848 달성하였습니다!
자연어처리는 처음이다보니 해당 대회에 적용할 수 있는 모델이 무엇이 있을까 찾아보던 중 적합한 자료를 발견해서 비슷하게 구현해보았습니다.
링크에 자세한 설명이 나와있으니 저처럼 초보자이신 분들은 함께 따라가보셔도 좋겠네요.
피드백은 언제나 환영입니다.
* 본 포스팅은 데이콘 서포터즈 “데이크루" 1기 활동의 일환입니다.
안녕하세요 🙂
train과 test셋 모두 전처리 시에 영어 문자를 제거하지 않았습니다.
전체 데이터셋에 영어 샘플이 많지 않기 때문에 단어 임베딩 및 학습이 잘 이루어지는 것에 대한 질문이시라면.... 더 설명드리겠습니다.
텍스트를 벡터로 바꿔주는 tokenzier는 train셋에 대해서만 학습하기 때문에 'train 셋에는 없지만 test 셋에는 있는' 단어의 경우에 0 벡터로 임베딩이 수행됩니다. 이러한 데이터 샘플은 총 8개 있고, 내용과는 상관없이 모델이 모두 0(부정)으로 예측하는 것을 확인하였습니다. 이 부분을 후처리해주면 성능이 조금 향상될 수도 있겠네요.
말이 길었는데... 결론적으로는 영어 리뷰에 대해서 적절한 임베딩과 모델 학습이 수행된 것으로 보여집니다.
질문이 해결되었는지 모르겠네요. 혹시라도 더 궁금한 사항이 있다면 알려주세요.
감사합니다.
자연어 처리를 처음한 만큼, 노력하신 게 보입니다 :)
감사합니다 🙂
감사합니다. 많은 도움 되었습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
테스트데이터 파일에 있는 영어 리뷰가 없어진것 아닌가요 ?>