분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[NLP 언제까지 미룰래? 일단 들어와!!] #5. Modeling(완)
자연어 처리를 시작하고 싶었는데 어떻게 시작할지 막막하셨던 분
공부는 조금 했지만 정리가 필요하신 분
알고 있는 내용에 대해 복습이 필요하신 분
5회차의 튜토리얼 노트북을 통해 NLP를 쉽고 빠르게 정복하세요!!
#python #machinelearing #deeplearning #baseline #code #data #datascience #ai #dacon #competiton #tableu #jupyternotebook #code #randomforest #Regression #ML #DL #NLP
안녕하세요 허니비님
vocabulary는 고유한 토큰들을 담고 있는 리스트라고 생각하시면 됩니다.
즉, 데이터에서 "데이콘"이 여러번 나왔더라도 vocabulary에는 하나의 "데이콘"이 담겨있게 됩니다.
아하 감사합니다!!
안녕하세요. 혹시 vocabulary는 따로 생성한 리스트 이신가요?
안녕하세요 SensitiveBro 님
네 vocabulary는 훈련 데이터의 고유 토큰들로 이루어진 리스트입니다.
fit 시킬때 어떻게 형태소분석기나 vetorizer 를 집어넣는건가요 ㅠㅠ..?
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
embeding에서 말하는 vocabulary는 데이터 토큰화시킨 리스트를 말한다고 생각하면 될까요??!