2023 NH 투자증권 빅데이터 경진대회, “블룸버그, 나스닥과 함께 세계속으로!”

아이디어 | 정형 | 언어 | 해외주식 분석 | 금융 | 정성평가

  • moneyIcon 상금 : 5,000만 원
  • 1,134명 마감

 

DFS Grouping과 Mistral-7B를 활용한 나스닥 데일리 레포트

공동작성자

stroke
2023.10.16 05:31 2,236 조회 language

저희 뉴욝 가즈악 팀은 투자자들의 시간을 절약해주고자, 뉴스 기사 유사도 분석을 통해 전날 나온 뉴스 중 가장 중요한 뉴스들과 기사와 연관된 투자 정보를 제공받을 수 있게 하고자 했습니다. Mistral-7B를 이용하여 뉴스를 요약하여 향후 단계인 클러스터링 분석에 가장 적합한 데이터를 구축하였습니다. 그 후 TF-IDF 임베딩을 적용 후 코사인 유사도의 임계값을 기준으로 DFS(Depth First Search) 알고리즘을 통해 일일 뉴스 기사를 grouping하였습니다. 그룹 별로 엣지가 가장 많은 노드에 해당하는 뉴스를 대표 뉴스로 정하고 해당 뉴스의 요약본과 관련 기업의 설명 및 주가 그래프를 첨부하여 투자를 위한 인사이트를 제공을 하였습니다.

<크롤링>
1. NASDAQ_RSS_IFO의 뉴스 데이터 crawling
2. stockanalysis.com에서 기업 및 ETF 설명 crawling
3. yfinance 라이브러리를 통해 주가 데이터 crawling

<분석 flow>
1. Mistral-7B LLM 모델을 통한 클러스터링 분석 최적화 데이터 구축
2. TF-IDF 임베딩
3. 코사인 유사도의 임계값 기준 DFS grouping 알고리즘
4. 그룹 별로 엣지가 가장 많은 노드에 해당하는 뉴스를 대표 뉴스 지정

<서비스 기획 flow>
1. 하루치 뉴스 중 분석결과 그룹별 대표 뉴스의 요약본 불러오기
2. 대표 기사 내용과 연관된 기업·ETF의 정보 불러오기. 웹크롤링 해둔 stockanalysis.com의 데이터 사용.
3.  yfinance 라이브러리를 통해 전날 종가와 해당 종목 일간, 주간, 월간 주가차트 불러오기
4. 위 내용을 블로그로 종합하여 매일 자동으로 갱신되도록 자동화 코드 구축 

코드