2023 NH 투자증권 빅데이터 경진대회, “블룸버그, 나스닥과 함께 세계속으로!”

아이디어 | 정형 | 언어 | 해외주식 분석 | 금융 | 정성평가

  • moneyIcon 상금 : 5,000만 원
  • 1,137명 마감

 

바이오 기사 감성분석을 통한 주가 예측 Prophet 모델 개선

공동작성자

stroke
2023.10.16 03:31 1,598 조회 language

<코드 전반 요약>
본 프로젝트는 해외 뉴스 데이터를 이용하여 감성분석과 Prophet 모델을 결합한 프로젝트임 본래 Prophet 모델의 한계를 극복하여 주식 예측 정확도 향상을 목표로 함 Prophet의 빠른 구현과 높은 연산 속도 장점을 유지하면서 뉴스 반응에 더 정확한 예측 모델을 만듦

<분석 과정>
-Prophet 모델의 이점을 살려 날짜와 종가만을 이용하여 모델 제작
-1월은 온전히 학습의 용도로 사용하고 2월부터는 학습 세트를 해당 날짜의 전날까지 1일씩 늘려가며 예측 진행
-실제 값과 예측 값과의 차이를 새로운 칼럼으로 정의
-뉴스 제목와 내용을 하나의 열로 합쳐서 분석 진행
-뉴스데이터에서 각 문장을 소문자로 변환
-감정 분석에 사용되지 않는 불용어를 최대한 제거
-Word_tokenize 함수를 사용하여 단어 토큰화
-Word2Vec 모델을 초기화하고, 토큰화한 단어 데이터를 사용하여 Word2Vec 모델 학습
-단어 간의 의미적 관계를 고려한 워드 임베딩을 생성하여 유사한 단어들이 비슷한 임베딩 벡터 생성
-원본 텍스트 데이터에 비해 상대적으로 낮은 차원의 임베딩 벡터를 생성하여 고차원 데이터의 차원 감소
-생성된 임베딩 벡터를 사용하여 단어 유사성을 계산하는 자연어 처리 작업 진행
-단어별 감정 점수를 계산하여 감정 점수 합산
-대량의 텍스트 데이터에서 텍스트에 포함된 감정을 자동 분석 가능
-각 단어의 감정 점수를 계산하고, 이를 조합하여 문장 또는 문서의 감정 특성 추출
-텍스트 데이터의 감정 수치를 쉽게 파악할 수 있는 감정 분석 모델 개발

<오차 보완>
해당 감정 점수에 파라미터 조정을 통해 얻은 상수 값을 곱한뒤 예측값에 더해주었을 때, 성능 향샹이 가능하다는 것을 rmse를 통해 증명

<결과>
RMSE의 차이: 0.004
수치는 작지만 주어진 기사데이터의 수가 종가 데이터의 수에 비해 굉장히 적은 것을 감안하면 정확도 향상의 측면에서 의의가 있음 기사정보를 반영하는 prophet모델로 활용 가능함

코드