2024 NH 투자증권 빅데이터 경진대회

빅데이터 | NH | 분석 | AI | ETF | Microsoft | Tableau | 시각화 | 아이디어

  • moneyIcon 상금 : 6,300만원
  • 885명 마감

 

주식 및 ETF 데이터 교차분석기반 투자 NHTI 성향에 따른 Chatbot형태의 ETF 추천 큐레이션

공동작성자

stroke
2024.10.11 05:10 1,298 조회 language

주식과 etf 데이터를 활용해서 투자자들의 새로운 유형의 투자 성향을 성립하고 분류하여 etf를 추천하고 큐레이션하는 서비스를 제공하고자 했습니다.

1. 분류 기준에 사용하기 위한 변수 선정
NTHI(투자 MBTI)를 구성하기 위한 4가지 분류 기준과 대표성을 가지는 컬럼을 하나씩 선정해 상관관계 분석, p-value 등 여러 기법을 활용하여 분류에 활용할 수 있는 다른 컬럼들을 추가적으로 선별하였습니다.

2. 분류에 활용하기 위한 데이터 전처리
대부분의 데이터들이 시계열적인 특성을 가지는 것을 알고 이를 분류에 활용하기 위해 각 컬럼 별로 특정 기간(1일, 5일, 14일)동안의 변화량을 계산하여 사용하였고 분류 스케일 차이의 따른 편향을 개선하기 위해 정규화를 진행하였습니다.
또한 시가총액의 경우 일별 데이터가 없어 종가와 주식수량을 곱하여 일별 데이터로 만들었습니다.
3. NHTI결과를 활용하기 위한 ETF 전처리
앞서 분류에 사용된 데이터들은 단일 주식종목에 관련된 데이터이기 때문에 ETF데이터 중 구성 상품 중 주식이 포함되어있는 ETF만을 가져와 사용하였습니다.
각 ETF별로 ETF를 구성하고 있는 주식에 대한 위의 데이터를 가져와 병합하여 사용하였습니다.
병합 후 여러 주식으로 구성되어 있는 경우 각 주식의 비율을 가중치로 사용하여 주식 데이터의 컬럼에 곱해서 데이터를 처리해주었습니다.
4. Vector DB에 저장하기 위한 전처리(RAG사용할 DB)
사용자의 투자 정보를 입력으로 받을 것이기 때문에 최종 데이터에서 종목코드, 날짜, 그 외 컬럼 값으로 나누어 딕셔너리 형태로 저장하였습니다.
5. 생성형 ai(이 코드는 colab 환경에서 작성했습니다.)
생성형 ai가 NHTI를 분류하기 위해 프롬프트에 투자 성향 판별 기준 가이드를 작성하였고 one-shot 기법을 사용하였습니다.
모델은 금융 특화 모델인 Alpha-ko를 사용하였고 프로토타입이기에 완벽히 구현하진 않았습니다.
추후 ETF 추천 및 큐레이션도 제공할 예정

코드