분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
DFS Grouping과 Mistral-7B를 활용한 나스닥 데일리 레포트
공동작성자
저희 뉴욝 가즈악 팀은 투자자들의 시간을 절약해주고자, 뉴스 기사 유사도 분석을 통해 전날 나온 뉴스 중 가장 중요한 뉴스들과 기사와 연관된 투자 정보를 제공받을 수 있게 하고자 했습니다. Mistral-7B를 이용하여 뉴스를 요약하여 향후 단계인 클러스터링 분석에 가장 적합한 데이터를 구축하였습니다. 그 후 TF-IDF 임베딩을 적용 후 코사인 유사도의 임계값을 기준으로 DFS(Depth First Search) 알고리즘을 통해 일일 뉴스 기사를 grouping하였습니다. 그룹 별로 엣지가 가장 많은 노드에 해당하는 뉴스를 대표 뉴스로 정하고 해당 뉴스의 요약본과 관련 기업의 설명 및 주가 그래프를 첨부하여 투자를 위한 인사이트를 제공을 하였습니다.
<크롤링>
1. NASDAQ_RSS_IFO의 뉴스 데이터 crawling
2. stockanalysis.com에서 기업 및 ETF 설명 crawling
3. yfinance 라이브러리를 통해 주가 데이터 crawling
<분석 flow>
1. Mistral-7B LLM 모델을 통한 클러스터링 분석 최적화 데이터 구축
2. TF-IDF 임베딩
3. 코사인 유사도의 임계값 기준 DFS grouping 알고리즘
4. 그룹 별로 엣지가 가장 많은 노드에 해당하는 뉴스를 대표 뉴스 지정
<서비스 기획 flow>
1. 하루치 뉴스 중 분석결과 그룹별 대표 뉴스의 요약본 불러오기
2. 대표 기사 내용과 연관된 기업·ETF의 정보 불러오기. 웹크롤링 해둔 stockanalysis.com의 데이터 사용.
3. yfinance 라이브러리를 통해 전날 종가와 해당 종목 일간, 주간, 월간 주가차트 불러오기
4. 위 내용을 블로그로 종합하여 매일 자동으로 갱신되도록 자동화 코드 구축
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved