분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[NLP 언제까지 미룰래? 일단 들어와!!] #5. Modeling(완)
자연어 처리를 시작하고 싶었는데 어떻게 시작할지 막막하셨던 분
공부는 조금 했지만 정리가 필요하신 분
알고 있는 내용에 대해 복습이 필요하신 분
5회차의 튜토리얼 노트북을 통해 NLP를 쉽고 빠르게 정복하세요!!
#python #machinelearing #deeplearning #baseline #code #data #datascience #ai #dacon #competiton #tableu #jupyternotebook #code #randomforest #Regression #ML #DL #NLP
안녕하세요 허니비님
vocabulary는 고유한 토큰들을 담고 있는 리스트라고 생각하시면 됩니다.
즉, 데이터에서 "데이콘"이 여러번 나왔더라도 vocabulary에는 하나의 "데이콘"이 담겨있게 됩니다.
아하 감사합니다!!
안녕하세요. 혹시 vocabulary는 따로 생성한 리스트 이신가요?
안녕하세요 SensitiveBro 님
네 vocabulary는 훈련 데이터의 고유 토큰들로 이루어진 리스트입니다.
fit 시킬때 어떻게 형태소분석기나 vetorizer 를 집어넣는건가요 ㅠㅠ..?
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io | Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
embeding에서 말하는 vocabulary는 데이터 토큰화시킨 리스트를 말한다고 생각하면 될까요??!