분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
바이오 기사 감성분석을 통한 주가 예측 Prophet 모델 개선
공동작성자
<코드 전반 요약>
본 프로젝트는 해외 뉴스 데이터를 이용하여 감성분석과 Prophet 모델을 결합한 프로젝트임 본래 Prophet 모델의 한계를 극복하여 주식 예측 정확도 향상을 목표로 함 Prophet의 빠른 구현과 높은 연산 속도 장점을 유지하면서 뉴스 반응에 더 정확한 예측 모델을 만듦
<분석 과정>
-Prophet 모델의 이점을 살려 날짜와 종가만을 이용하여 모델 제작
-1월은 온전히 학습의 용도로 사용하고 2월부터는 학습 세트를 해당 날짜의 전날까지 1일씩 늘려가며 예측 진행
-실제 값과 예측 값과의 차이를 새로운 칼럼으로 정의
-뉴스 제목와 내용을 하나의 열로 합쳐서 분석 진행
-뉴스데이터에서 각 문장을 소문자로 변환
-감정 분석에 사용되지 않는 불용어를 최대한 제거
-Word_tokenize 함수를 사용하여 단어 토큰화
-Word2Vec 모델을 초기화하고, 토큰화한 단어 데이터를 사용하여 Word2Vec 모델 학습
-단어 간의 의미적 관계를 고려한 워드 임베딩을 생성하여 유사한 단어들이 비슷한 임베딩 벡터 생성
-원본 텍스트 데이터에 비해 상대적으로 낮은 차원의 임베딩 벡터를 생성하여 고차원 데이터의 차원 감소
-생성된 임베딩 벡터를 사용하여 단어 유사성을 계산하는 자연어 처리 작업 진행
-단어별 감정 점수를 계산하여 감정 점수 합산
-대량의 텍스트 데이터에서 텍스트에 포함된 감정을 자동 분석 가능
-각 단어의 감정 점수를 계산하고, 이를 조합하여 문장 또는 문서의 감정 특성 추출
-텍스트 데이터의 감정 수치를 쉽게 파악할 수 있는 감정 분석 모델 개발
<오차 보완>
해당 감정 점수에 파라미터 조정을 통해 얻은 상수 값을 곱한뒤 예측값에 더해주었을 때, 성능 향샹이 가능하다는 것을 rmse를 통해 증명
<결과>
RMSE의 차이: 0.004
수치는 작지만 주어진 기사데이터의 수가 종가 데이터의 수에 비해 굉장히 적은 것을 감안하면 정확도 향상의 측면에서 의의가 있음 기사정보를 반영하는 prophet모델로 활용 가능함
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved