분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
GRU를 바탕으로 한 뉴스 감성분석과 기술지표를 이용한 매수/매도 결정 방법
공동작성자
1. 1~8월 뉴스 데이터를 병합해 감성분석을 실시한다. 데이터 전처리 방법은 다음과 같다.
- 뉴스 제목과 요약 정보를 합친 열을 생성한다. 해당 열에서 HTML 태그, 숫자, 특수문자, nltk가 정의한 불용어의 일부, 길이가 짧으면서 빈도가 낮은 단어 등 감성분석에 영향을 미치지 않을 것이라고 판단되는 문자들을 제거한다. 그리고 기업명의 풀네임을 티커코드로 변환하고 괄호로 둘러싸인 부분을 제거하여 길이를 최소화한다.
2. 주가 데이터는 1월부터 8월까지의 데이터가 저장되어 있다. 각 종목의 1월에 대한 기술지표를 구하기 위해서는 전달(12월)의 주가 데이터가 필요하다. 따라서 각 종목의 12월 데이터(종목시가, 종목종가, 종목고가, 종목저가)를 추가로 불러온다. 또한 NASDAQ_RSS_IFO 데이터에는 있지만 NASDAQ_DT_FC_STK_QU.csv 데이터에는 없는 종목의 12월부터 8월까지의 주가 데이터를 추가로 불러온다.
3. 5개의 기술지표(RSI, BOP, STOCH_fastk, CMO, WILLR )를 사용해 각 종목과 날짜에 대한 기술지표 값을 구한다. 각각의 기술지표에 대하여 매수 타이밍이면 1, 매도 타이밍이면 0, 둘 다 아닐 경우 2(중립)로 분류한다.
4. 다섯 가지 지표 중 가장 많은 숫자를 해당 종목, 날짜의 최종 값으로 설정한다. 만약 중복된다면 중립으로 판단한다.
5. 뉴스 데이터의 타겟값은 다음과 같이 정의한다. 만약 뉴스가 호재일 경우 다음 날 관련 종목의 주가가 상승해 매수 신호가 나올 것으로 예상한다. 뉴스가 악재일 경우 다음 날 관련 종목의 주가가 하락해 매도 신호가 나올 것으로 예상한다. 따라서 구한 기술지표를 전 날 뉴스와 매칭해 타겟값으로 간주한다.
6. 중립인 뉴스를 제외하고 전체 데이터 중 70%의 데이터를 GRU 모델에 학습시킨다.
나머지 30%의 데이터에 대해 정확도 약 70%를 얻어냈으며, 해당 모델이 뉴스를 이용한 단기 주식 투자에 도움이 될 수 있을 것이라고 생각한다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved