2023 NH 투자증권 빅데이터 경진대회, “블룸버그, 나스닥과 함께 세계속으로!”

아이디어 | 정형 | 언어 | 해외주식 분석 | 금융 | 정성평가

  • moneyIcon 상금 : 5,000만 원
  • 1,134명 마감

 

Bert 모델을 활용한 sentiment 신뢰도 분석과 sentiment를 이용한 LSTM 시계열 예측

공동작성자

stroke
2023.10.13 19:22 1,940 조회 language

안녕하세요. 팀분석왕입니다.

<분석배경>
언어모델의 발전과 데이터양의 증가에 따라 opensource로 공개된 bertmodel이 활발히 개발되고 있고, 이를 활용해 financial sentiment 분석에 많은 도움을 주고 있습니다. 그러나 이러한 sentiment 분석이 모델별로 얼마나 정확하며 어떤 의미를 가지는가에 대해서는 아직도 연구중에 있습니다. 저희팀은 이러한 배경속에 sentiment에 대한 신뢰도와 검증 방법과 이에 대한 활용방안을 다음과 같은 방법으로 제시하고자 합니다.

1.뉴스데이터 수집
2.뉴스데이터에 대한 여러모델을 이용한 sentiment 분석
3. 모델간 뉴스에 대한 sentiment라벨 개수 확인 (모델간 추측한 sentiment들이 얼마나 일치하는지 알 수 있습니다)
4. negative와 postive 로 판단한 문서의 주요 토픽 확인 (모델이 추측한 Sentiment에 어떤 주요한 topic이 있는지 알 수 있습니다)
5.negativ logit과 sentiment label을 활용한 시계열 예측 ( 모델이 추측한 sentiment 특징들이 시계열 예측에 어떤 도움을 줄 수있는지 알 수 있습니다.)

외부데이터 및 학습데이터 : https://drive.google.com/drive/folders/1_JpnJHgx27JIc1YoatEWahE_zLQzYUZq?usp=drive_link
외부데이터 finhub 링크: https://finnhub.io
*해당환경은 colab으로 실행가능하며, 데이터양이 많아 GPU를 사용하시는 것을 권해드립니다.
*추가적으로 requirements.txt가 드라이브에 내장되어있으며 설치하셔서 사용하시면됩니다. colab에서 사용하실 경우 numpy version 업데이트를 해야하니 install 후 런타임을 재시작하셔야합니다.

코드