2023 NH 투자증권 빅데이터 경진대회, “블룸버그, 나스닥과 함께 세계속으로!”

아이디어 | 정형 | 언어 | 해외주식 분석 | 금융 | 정성평가

  • moneyIcon 상금 : 5,000만 원
  • 1,093명 마감

 

Lp알고리즘과 Sentence Transformer를 활용한 키워드 및 문맥 기반 감성사전 구축

공동작성자

stroke
2023.10.12 10:14 1,677 조회 language

안녕하세요. 어쩌다모인팀입니다.   

### 목표:
뉴스, 게시판글, 댓글 등 다양한 매체에서 문맥을 고려한 감성 분석을 가능하게 하는 감성사전을 구축하려고 합니다.

### 배경:
최근 8개월 간의 금융 관련 뉴스를 크롤링하여, 금리 조정 및 양적 완화/긴축과 관련된 키워드와 문장을 추출하였습니다. 이 데이터는 TF-IDF, SO-PMI, Word2Vec, 코사인 거리 측정, LP 알고리즘, 그리고 Sentence Transformer를 통해 처리되었으며, 이 과정을 통해 단어와 말뭉치에 대한 극성 점수를 부여할 수 있었습니다.

### 데이터 수집 + 감성 사전 구축:

1. 먼저, TF-IDF를 이용하여 뉴스에서 중요한 키워드와 문장을 추출합니다.
2. SO-PMI를 통해 말뭉치를 생성하고, 유사한 단어들 간의 집합을 만들어 극성 점수 부여를 용이하게 합니다.
3. 생성된 말뭉치를 Word2Vec에 넣어 단어를 벡터화시킵니다.
4. 벡터화된 단어들 간의 유사성을 코사인 거리 측정을 통해 확인합니다.
5. LP 알고리즘을 통해 키워드에 극성 점수를 부여합니다.
6. Sentence Transformer를 사용하여 말뭉치에도 극성 점수를 부여합니다.

### 테스트 :

최근 나온 텍스트들을 통해 키워드기반 감성사전과 말뭉치 기반 감성사전을 돌려 테스트하고, 이때 키워드 기반의 감성사전은 코사인 유사도를 토대로 기존의 감성사전속 단어와 매칭합니다. 말뭉치 기반의 경우 Sentence Transformer를 토대로 판단합니다. 

코드