분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
토픽모델링과 토픽트렌드를 활용한 LSTM 딥러닝 정확도 개선
[실행툴 및 실행환경]
실행툴: Google Colab (구글 코랩)
실행환경: Windows 11, RAM16, CPU
[분석 프로세스]
1. 증권뉴스 웹크롤링(팍스넷)
2. 한국어 텍스트 데이터 전처리 및 한국어 형태소 분석기
3. LDA 토픽모델링을 활용한 문서별 토픽 분석 -> 최종 토픽 6개 선정!
4. 토픽별 일일 트렌드 수치화
5. 주가 데이터와 일일 토픽트렌드를 활용한 LSTM 딥러닝 주가 예측모델 구성
6. 기존 LSTM 모델과 예측결과 비교
--> 토픽을 포함한 예측 모델의 그래프 개형이 더 유연하고 정확하게 예측함.
Deleted Comment
멋져요!!
싱기하네요
증권 뉴스 분석을 통해 주가를 예측하는 모델 너무 멋져요!!
본선진출 꼭 성공하셨으면 합니다..! 응원할게요 :)
불용어를 너무 쉽게 정의하고 처리한 것 아닌가요? 불용어 그룹의 기준이 뭔지 의아합니다. 대개 자연어처리에서 불용어를 테크니컬하게 임의로 처리하는데 본래 불용어는 언어학의 개념이라 신중을 기할 필요가 있습니다. 오히려 불용어 리스트의 단어(요소)들은 대개 형태소분석의 오류로부터 나온 결과물 같아 보이네요. 따라서, 형태소분석과 전처리에 더 신경을 써야 할 것 같습니다. 최종 데이터를 육안으로 봐도 걸러지지 않은 단어들이 제법 있습니다. 이런 노이즈가 어느 정도 모델에 영향을 미칠 것 같습니다.
우와 뉴스분석을 통한 분석이라니 생각도 못했는데 완전 멋지네요!!!
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
멋있어요!!