AI야 , 진짜 뉴스를 찾아줘! AI 경진대회

알고리즘 | 텍스트 | 분류 | 금융 | Accuracy + Time

상금 2,500만 원
626명 마감

마감

대회안내 데이터 코드 공유 토크 리더보드

제출

[NLP 언제까지 미룰래? 일단 들어와!!] #4. word embedding

DACONIO

2020.11.26 16:16 16,647 조회 language

자연어 처리를 시작하고 싶었는데 어떻게 시작할지 막막하셨던 분
공부는 조금 했지만 정리가 필요하신 분
알고 있는 내용에 대해 복습이 필요하신 분

5회차의 튜토리얼 노트북을 통해 NLP를 쉽고 빠르게 정복하세요!!

#python #machinelearing #deeplearning #baseline #code #data #datascience #ai #dacon #competiton #tableu #jupyternotebook #code #randomforest #Regression #ML #DL #NLP

코드

댓글 6개

로그인이 필요합니다

comment

0 / 1000

delluna

2020.12.05 19:46

코드에있는 vocabulary는 이전에 만든 train['new_article']을 뜻하는 건가요?

DACONIO

2020.12.06 01:45

안녕하세요

vocabulary는 train['new_article']에 있는 고유한 토큰들의 집합을 의미합니다. 자세한 사항은 세번째 노트북에서 살펴보실 수 있습니다.

Sun261

2020.12.26 16:45

질문있습니다..! 사전학습된 임베딩모델을 불러와서 벡터화시키는 코드에서 else 부분에 모두 print("~~에 존재하지 않는 단어입니다.") 와 break를 넣으셨는데, 존재하지 않는단어는 어떻게 처리하고 임베딩 시켜야 할까요?

DACONIO

2020.12.28 09:48

안녕하세요 Sun261님
데이콘 입니다.

다양한 방법들이 존재하지만 크게 다음의 방법들을 이용합니다.

1.해당 토큰을 vocab에서 제외한다.
2.나의 데이터에 맞게 pre-trained 모델을 추가 학습시킨다.
3.similarity를 계산하여 가장 근접한 토큰의 임베딩으로 대체한다.

감사합니다.

Sun261

2020.12.28 13:34

혹시 죄송하지만, 추가 학습하는 코드도 공유가능할까요,,,

Sun261

2020.12.26 16:45

그리고 좋은 글 감사합니다 ㅎㅎ..!

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!