분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
뉴스데이터 감성분석을 통한 악재/호재 분류 및 키워드 추출
공동작성자
주제 : 뉴스데이터 감성분석을 통한 악재/호재 분류 및 키워드 추출
분석방법
1. 데이터 수집 및 전처리 : NASDAQ 홈페이지에 Stock Screener페이지를 활용하여 RSS피드에 나오는 회사의 부가적인 정보를 획득하였으며 Stock Screener 페이지의 섹터를 활용하여 RSS피드 데이터를 각각의 섹터로 구분한 후 섹터 안 산업군을 임의로 분류하여 적용하였습니다. 또한 RSS 데이터의 URL 컬럼을 통해 뉴스 본문을 크롤링하여 감성분석에 활용하기 위해 소문자 변환, punctuation제거, 토큰화, 불용어 제거 등을 적용하여 전처리를 진행하였습니다.
2. 워드 클라우드를 활용한 뉴스별 주요 단어 확인하기 : 감성분석을 적용하기 전 크롤링한 뉴스에서 어떤 단어들이 주로 사용되었는지를 확인할 수 있도록 해당 코드에 확인하고 싶은 회사의 티커 코드와 해당 날짜를 입력하면 그날 발행된 뉴스의 많이 사용된 단어들을 워드클라우드 형태로 확인할 수 있습니다.
3. 감성분석과 주가변동 확인 : 크롤링한 뉴스 데이터를 감성분석을 진행하여 각각의 뉴스 데이터에 대해 긍정점수가 부정점수보다 높다면 해당 뉴스는 긍정으로 처리하였으며 긍정인 뉴스가 발행된 그다음 날과 당일의 주식 종가를 비교하여 해당 뉴스는 호재/악재인지 확인해 보았습니다.
외부데이터 링크 : https://drive.google.com/drive/folders/13hzAkY4o6C8SAfJX656Geahu0DLvfgiI?usp=sharing
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved