분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
토픽모델링과 토픽트렌드를 활용한 LSTM 딥러닝 정확도 개선
[실행툴 및 실행환경]
실행툴: Google Colab (구글 코랩)
실행환경: Windows 11, RAM16, CPU
[분석 프로세스]
1. 증권뉴스 웹크롤링(팍스넷)
2. 한국어 텍스트 데이터 전처리 및 한국어 형태소 분석기
3. LDA 토픽모델링을 활용한 문서별 토픽 분석 -> 최종 토픽 6개 선정!
4. 토픽별 일일 트렌드 수치화
5. 주가 데이터와 일일 토픽트렌드를 활용한 LSTM 딥러닝 주가 예측모델 구성
6. 기존 LSTM 모델과 예측결과 비교
--> 토픽을 포함한 예측 모델의 그래프 개형이 더 유연하고 정확하게 예측함.
삭제된 댓글입니다
멋져요!!
싱기하네요
증권 뉴스 분석을 통해 주가를 예측하는 모델 너무 멋져요!!
본선진출 꼭 성공하셨으면 합니다..! 응원할게요 :)
불용어를 너무 쉽게 정의하고 처리한 것 아닌가요? 불용어 그룹의 기준이 뭔지 의아합니다. 대개 자연어처리에서 불용어를 테크니컬하게 임의로 처리하는데 본래 불용어는 언어학의 개념이라 신중을 기할 필요가 있습니다. 오히려 불용어 리스트의 단어(요소)들은 대개 형태소분석의 오류로부터 나온 결과물 같아 보이네요. 따라서, 형태소분석과 전처리에 더 신경을 써야 할 것 같습니다. 최종 데이터를 육안으로 봐도 걸러지지 않은 단어들이 제법 있습니다. 이런 노이즈가 어느 정도 모델에 영향을 미칠 것 같습니다.
우와 뉴스분석을 통한 분석이라니 생각도 못했는데 완전 멋지네요!!!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
멋있어요!!