2023 NH 투자증권 빅데이터 경진대회, “블룸버그, 나스닥과 함께 세계속으로!”

아이디어 | 정형 | 언어 | 해외주식 분석 | 금융 | 정성평가

  • moneyIcon 상금 : 5,000만 원
  • 1,093명 마감

 

뉴스데이터 감성분석을 통한 악재/호재 분류 및 키워드 추출

공동작성자

stroke
2023.10.15 22:38 1,324 조회 language

주제 : 뉴스데이터 감성분석을 통한 악재/호재 분류 및 키워드 추출 

분석방법
1. 데이터 수집 및 전처리 : NASDAQ 홈페이지에 Stock Screener페이지를 활용하여 RSS피드에 나오는 회사의 부가적인 정보를 획득하였으며 Stock Screener 페이지의 섹터를 활용하여 RSS피드 데이터를 각각의 섹터로 구분한 후 섹터 안 산업군을 임의로 분류하여 적용하였습니다. 또한  RSS 데이터의 URL 컬럼을 통해 뉴스 본문을 크롤링하여 감성분석에 활용하기 위해 소문자 변환, punctuation제거, 토큰화, 불용어 제거 등을 적용하여 전처리를 진행하였습니다. 
2. 워드 클라우드를 활용한 뉴스별 주요 단어 확인하기 : 감성분석을 적용하기 전 크롤링한 뉴스에서 어떤 단어들이 주로 사용되었는지를 확인할 수 있도록  해당 코드에 확인하고 싶은 회사의 티커 코드와 해당 날짜를 입력하면 그날 발행된 뉴스의 많이 사용된 단어들을 워드클라우드 형태로 확인할 수 있습니다. 
3. 감성분석과 주가변동 확인 : 크롤링한 뉴스 데이터를 감성분석을 진행하여 각각의 뉴스 데이터에 대해 긍정점수가 부정점수보다 높다면 해당 뉴스는 긍정으로 처리하였으며 긍정인 뉴스가 발행된 그다음 날과 당일의 주식 종가를 비교하여 해당 뉴스는 호재/악재인지 확인해 보았습니다. 

외부데이터 링크 : https://drive.google.com/drive/folders/13hzAkY4o6C8SAfJX656Geahu0DLvfgiI?usp=sharing

코드