제1회 KRX 금융 빅데이터 활용 아이디어 경진대회

알고리즘 | 정형 | 회귀 | 금융 | 정성평가

상금 2,000만 원
834명 마감

마감

대회안내 데이터 코드 공유 토크 리더보드

제출

토픽모델링과 토픽트렌드를 활용한 LSTM 딥러닝 정확도 개선

코딩가

2022.07.11 00:31 25,521 조회 language

[실행툴 및 실행환경]
실행툴: Google Colab (구글 코랩)
실행환경: Windows 11, RAM16, CPU

[분석 프로세스]
1. 증권뉴스 웹크롤링(팍스넷)
2. 한국어 텍스트 데이터 전처리 및 한국어 형태소 분석기
3. LDA 토픽모델링을 활용한 문서별 토픽 분석 -> 최종 토픽 6개 선정!
4. 토픽별 일일 트렌드 수치화
5. 주가 데이터와 일일 토픽트렌드를 활용한 LSTM 딥러닝 주가 예측모델 구성
6. 기존 LSTM 모델과 예측결과 비교
--> 토픽을 포함한 예측 모델의 그래프 개형이 더 유연하고 정확하게 예측함.

PDF

코드

댓글 7개

로그인이 필요합니다

comment

0 / 1000

미니언즈

2022.07.23 22:46

멋있어요!!

툴툴이

2022.07.24 11:49

삭제된 댓글입니다

툴툴이

2022.07.24 11:49

멋져요!!
싱기하네요

sml0103

2022.07.24 14:21

증권 뉴스 분석을 통해 주가를 예측하는 모델 너무 멋져요!!

sml0103

2022.07.24 14:29

본선진출 꼭 성공하셨으면 합니다..! 응원할게요 :)

3cultures

2023.07.10 12:55

불용어를 너무 쉽게 정의하고 처리한 것 아닌가요? 불용어 그룹의 기준이 뭔지 의아합니다. 대개 자연어처리에서 불용어를 테크니컬하게 임의로 처리하는데 본래 불용어는 언어학의 개념이라 신중을 기할 필요가 있습니다. 오히려 불용어 리스트의 단어(요소)들은 대개 형태소분석의 오류로부터 나온 결과물 같아 보이네요. 따라서, 형태소분석과 전처리에 더 신경을 써야 할 것 같습니다. 최종 데이터를 육안으로 봐도 걸러지지 않은 단어들이 제법 있습니다. 이런 노이즈가 어느 정도 모델에 영향을 미칠 것 같습니다.