분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Lp알고리즘과 Sentence Transformer를 활용한 키워드 및 문맥 기반 감성사전 구축
공동작성자
안녕하세요. 어쩌다모인팀입니다.
### 목표:
뉴스, 게시판글, 댓글 등 다양한 매체에서 문맥을 고려한 감성 분석을 가능하게 하는 감성사전을 구축하려고 합니다.
### 배경:
최근 8개월 간의 금융 관련 뉴스를 크롤링하여, 금리 조정 및 양적 완화/긴축과 관련된 키워드와 문장을 추출하였습니다. 이 데이터는 TF-IDF, SO-PMI, Word2Vec, 코사인 거리 측정, LP 알고리즘, 그리고 Sentence Transformer를 통해 처리되었으며, 이 과정을 통해 단어와 말뭉치에 대한 극성 점수를 부여할 수 있었습니다.
### 데이터 수집 + 감성 사전 구축:
1. 먼저, TF-IDF를 이용하여 뉴스에서 중요한 키워드와 문장을 추출합니다.
2. SO-PMI를 통해 말뭉치를 생성하고, 유사한 단어들 간의 집합을 만들어 극성 점수 부여를 용이하게 합니다.
3. 생성된 말뭉치를 Word2Vec에 넣어 단어를 벡터화시킵니다.
4. 벡터화된 단어들 간의 유사성을 코사인 거리 측정을 통해 확인합니다.
5. LP 알고리즘을 통해 키워드에 극성 점수를 부여합니다.
6. Sentence Transformer를 사용하여 말뭉치에도 극성 점수를 부여합니다.
### 테스트 :
최근 나온 텍스트들을 통해 키워드기반 감성사전과 말뭉치 기반 감성사전을 돌려 테스트하고, 이때 키워드 기반의 감성사전은 코사인 유사도를 토대로 기존의 감성사전속 단어와 매칭합니다. 말뭉치 기반의 경우 Sentence Transformer를 토대로 판단합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved