분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[NLP 언제까지 미룰래? 일단 들어와!!] #4. word embedding
자연어 처리를 시작하고 싶었는데 어떻게 시작할지 막막하셨던 분
공부는 조금 했지만 정리가 필요하신 분
알고 있는 내용에 대해 복습이 필요하신 분
5회차의 튜토리얼 노트북을 통해 NLP를 쉽고 빠르게 정복하세요!!
#python #machinelearing #deeplearning #baseline #code #data #datascience #ai #dacon #competiton #tableu #jupyternotebook #code #randomforest #Regression #ML #DL #NLP
안녕하세요
vocabulary는 train['new_article']에 있는 고유한 토큰들의 집합을 의미합니다. 자세한 사항은 세번째 노트북에서 살펴보실 수 있습니다.
질문있습니다..! 사전학습된 임베딩모델을 불러와서 벡터화시키는 코드에서 else 부분에 모두 print("~~에 존재하지 않는 단어입니다.") 와 break를 넣으셨는데, 존재하지 않는단어는 어떻게 처리하고 임베딩 시켜야 할까요?
안녕하세요 Sun261님
데이콘 입니다.
다양한 방법들이 존재하지만 크게 다음의 방법들을 이용합니다.
1.해당 토큰을 vocab에서 제외한다.
2.나의 데이터에 맞게 pre-trained 모델을 추가 학습시킨다.
3.similarity를 계산하여 가장 근접한 토큰의 임베딩으로 대체한다.
감사합니다.
혹시 죄송하지만, 추가 학습하는 코드도 공유가능할까요,,,
그리고 좋은 글 감사합니다 ㅎㅎ..!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
코드에있는 vocabulary는 이전에 만든 train['new_article']을 뜻하는 건가요?