2023 NH 투자증권 빅데이터 경진대회, “블룸버그, 나스닥과 함께 세계속으로!”

아이디어 | 정형 | 언어 | 해외주식 분석 | 금융 | 정성평가

상금 5,000만 원
1,155명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

뉴스 내용을 기반으로 산업, 세부 산업, 종목을 예측하는 딥러닝 모델 제작

최강전설어승규

공동작성자

2023.10.16 07:34 2,095 조회 language

Contents
1  데이터 전처리
    1.0.1  ifo와 screener,qut 데이터 합치기
    1.0.2  학습할 데이터 만들기
2  자연어처리
    2.0.1  불용어 처리하기
3  "티커종목코드" 별로 "Tokenized_뉴스요약정보"의 단어 빈도를 딕셔너리 형태로 저장
    3.1  result_df로 단어의 빈도 만들기
        3.0.2  result_df에서 티커종목코드에 대한 단어의 빈도수 정규화하기.
        3.0.3  각 티커 종목코드에 대한 문장을 수치화하는 normalized_dict로 요약
    3.1  같은 방식으로 "세부 산업분야"에 대한 뉴스요약문장을 수치화하기
    3.2  같은 방식으로 "산업분야"에 대한 뉴스요약문장을 수치화하기
4  뉴스 내용을 기반으로 산업, 세부 산업, 종목을 예측하는 딥러닝 모델 제작
    4.0.1  종목별 학습
    4.0.2  세부 산업분야별 학습
    4.0.3  산업별 학습
5  '제목정보'를 모델에 넣어서 학습이 이뤄지는지 확인하기
    5.0.1  종목
    5.0.2  세부 산업분야
    5.0.3  산업분야
6  최종 결과물