2023 NH 투자증권 빅데이터 경진대회, “블룸버그, 나스닥과 함께 세계속으로!”

아이디어 | 정형 | 언어 | 해외주식 분석 | 금융 | 정성평가

  • moneyIcon 상금 : 5,000만 원
  • 1,137명 마감

 

<의료 IT 기업을 중심으로> - 감성분석을 활용한 뉴스 키워드 분석 및 실제 종가 데이터와의 비교

공동작성자

stroke
2023.10.16 01:51 1,858 조회 language

안녕하세요, 저희는 팀 오디세이의 양주원, 서지윤 입니다. 
저희는 해외 주식 종목 중에서도 '의료 IT' 종목에 집중하여 분석 및 비교해보았습니다. 

분석 환경: Google Colab / 사용한 외부 데이터: Yahoo Finance

Part 1. 분석 목표
실제 종가 데이터(외부)를 활용하여, 감성분석한 뉴스 키워드와 비교합니다.
(1) 키워드 추출: 해외 뉴스 데이터에서 키워드 추출을 하여 핵심 내용을 파악합니다.
(2) 감성 분석: 뉴스 데이터에는 긍정/부정 감성 정보가 포함될 수 있으므로, 해당 뉴스 키워드의 긍/부정 정도를 수치화하여 나타냅니다.
(3) 데이터 정규화: 감성분석한 데이터의 긍/부정 수치와 실제 종가 데이터의 가격정보를 log 와 차분을 통해 정규화하고, 비교합니다.

Part 2. 분석 방법
 1) 데이터 전처리
  (1) 정보를 담고 있는 단어만 추출하기 위해 nltk 라이브러리 사용
  (2) 주어진 데이터 중 의료 IT와 관련된 종목 5개만 추려서 진행 
    (2) -1 전체 데이터 중 티커코드 등장 횟수가 중앙값 미만인 것은 제거
    (2) -2 필터링 된 데이터 중 가장 많이 등장한 티커코드는 ‘CCLDO’ 로, 의료 IT 관련 회사인 것을 확인. 
     이를 포함하여 관련 종목 5개 (‘CCLDO’, ‘REGN’, LLY’, ‘UNH’, ‘HUM’) 로 진행하기로 결정.

Part 3. 분석 결과 
 1) Wordcloud를 활용한 단어의 분포 시각화
   의료 IT 종목만 필터링 한 결과, 'medical', 'health', 'system' 등 의료와 IT에 관련한 키워드가 빈번하게 나타남.
 2) 데이터 정규화
 감성분석한 데이터와 야후 파이낸스 데이터를 log화 및 차분을 통해 정규화를 진행한 후 결과를 비교함.
 -감성분석 데이터) 그래프의 x축: 날짜 / y축: 뉴스 키워드의 수치화된 긍/부정 정도
-야후 파이낸스 데이터) 그래프의 x축: 날짜 / y축: 주식 거래일의 종가

코드
로그인이 필요합니다
0 / 1000
츄1101
2023.10.16 01:55

헉 너무 멋져요!