2024 NH 투자증권 빅데이터 경진대회

빅데이터 | NH | 분석 | AI | ETF | Microsoft | Tableau | 시각화 | 아이디어

  • moneyIcon 상금 : 6,300만원
  • 880명 마감

 

🤖나만의 투자 비서, RAG 기반 ETF 추천 챗봇🤖

공동작성자

stroke
2024.10.11 07:08 318 조회 language

-ETF 텍스트 데이터 수집 및 Z-점수 기반 클러스터링
yfinance의 ETF 설명을 크롤링하여, 기존 데이터로는 파악할 수 없는 ETF의 특징과 상장배경, 또는 분류에 관한 정보를 파악하고자 했다. 이를 벡터DB에 저장하여 추후 LLM에게 미국ETF의 정보를 주입한다.
ETF를 여러 Z-점수를 기준으로 K-Means 군집화함으로써, 변동성, 수익성과 같은 지표를 통해 ETF를 구분지었다. 앞서 수집한 ETF 설명 데이터와 LLM을 활용하여 군집별 특징을 추출하고, 이를 토대로 Z-점수가 없는 ETF를 유사한 집단으로 군집화시켰고, 챗봇 구현의 기초가 되는 데이터셋을 완성하였다.
-RAG 기반 LLM 챗봇 구현 및 프롬프트 엔지니어링
이미 대부분의 증권사에서 사용중인 '투자성향 진단' 결과를 미리 입력하는 것은 초석부터 질 좋은 추천을 제공할 수 있는 방법이다. 또한 이는 증권 계좌를 개설할 때 무조건 거치는 테스트로, NH증권에 이미 존재하는 고객 데이터를 활용하여 서비스를 개발하는데 이점이 있다.
앞선 입력값 투자성향정보를 가장 적합한 군집에 매칭하고, 좋은 퍼포먼스와 가치를 갖는 ETF를 추천한다. 이때, NH증권에서 매달 제공하는 월별 글로벌 ETF 리포트는 앞으로의 트렌드를 반영하기에 가장 좋은 자료이다. 따라서 리포트도 DB에 저장하여, LLM이 미처 파악하지 못한 미래의 트렌드 정보를 보완해주었다. 이로써 챗봇은 분산 투자의 가능성을 염두에 두어, 매칭된 군집에서 3개, 이 외 군집에서 각 1개의 ETF를 추천한다. 
여기서 더 챗봇을 고도화하는 방향으로, 대시보드를 함께 출력한다. 추천된 ETF를 변동성, 수익성, 대중성, 유동성 4가지 지표를 기반한 레이더 차트, '일별 시가/종가'를 기반한 캔들 차트를 제공함으로써 투자자가 직관적으로 ETF를 파악하고 합리적인 선택을 하도록 돕는다.
시연영상: https://drive.google.com/file/d/1LExjDIv25JibHowSilEF9y8q0Uj5Wyjn/view?usp=sharing

코드