분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
<의료 IT 기업을 중심으로> - 감성분석을 활용한 뉴스 키워드 분석 및 실제 종가 데이터와의 비교
공동작성자
안녕하세요, 저희는 팀 오디세이의 양주원, 서지윤 입니다.
저희는 해외 주식 종목 중에서도 '의료 IT' 종목에 집중하여 분석 및 비교해보았습니다.
분석 환경: Google Colab / 사용한 외부 데이터: Yahoo Finance
Part 1. 분석 목표
실제 종가 데이터(외부)를 활용하여, 감성분석한 뉴스 키워드와 비교합니다.
(1) 키워드 추출: 해외 뉴스 데이터에서 키워드 추출을 하여 핵심 내용을 파악합니다.
(2) 감성 분석: 뉴스 데이터에는 긍정/부정 감성 정보가 포함될 수 있으므로, 해당 뉴스 키워드의 긍/부정 정도를 수치화하여 나타냅니다.
(3) 데이터 정규화: 감성분석한 데이터의 긍/부정 수치와 실제 종가 데이터의 가격정보를 log 와 차분을 통해 정규화하고, 비교합니다.
Part 2. 분석 방법
1) 데이터 전처리
(1) 정보를 담고 있는 단어만 추출하기 위해 nltk 라이브러리 사용
(2) 주어진 데이터 중 의료 IT와 관련된 종목 5개만 추려서 진행
(2) -1 전체 데이터 중 티커코드 등장 횟수가 중앙값 미만인 것은 제거
(2) -2 필터링 된 데이터 중 가장 많이 등장한 티커코드는 ‘CCLDO’ 로, 의료 IT 관련 회사인 것을 확인.
이를 포함하여 관련 종목 5개 (‘CCLDO’, ‘REGN’, LLY’, ‘UNH’, ‘HUM’) 로 진행하기로 결정.
Part 3. 분석 결과
1) Wordcloud를 활용한 단어의 분포 시각화
의료 IT 종목만 필터링 한 결과, 'medical', 'health', 'system' 등 의료와 IT에 관련한 키워드가 빈번하게 나타남.
2) 데이터 정규화
감성분석한 데이터와 야후 파이낸스 데이터를 log화 및 차분을 통해 정규화를 진행한 후 결과를 비교함.
-감성분석 데이터) 그래프의 x축: 날짜 / y축: 뉴스 키워드의 수치화된 긍/부정 정도
-야후 파이낸스 데이터) 그래프의 x축: 날짜 / y축: 주식 거래일의 종가
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
헉 너무 멋져요!