분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
메뉴를 임베딩하여 모델의 피처로 이용하기 (Word2Vec, LGBM Baseline)
영양사가 식단을 짤 때 궁합이 잘 맞는 음식끼리 조합할거라고 생각하여, 단어 임베딩 하듯 train / test 셋의 모든 메뉴를 vocab으로 간주하여 Word2Vec 을 이용해 학습시켰습니다. Sentence 임베딩 처럼 메뉴별 임베딩을 평균내어 feature 로 넣어줬습니다.
우선 빠른 제출을 위해 다른 부분에서의 튜닝은 최소화하고 공유해봅니다!
* 아무생각없이 제목에 분류기라고 잘못 표기해놔서ㅜㅜㅋㅋ 수정했습니다
훌륭한 코드 공유 감사드립니다. 혹시 train, test 데이터를 합쳐서 임베딩을 하게 되면 test data leakage 문제가 발생하지 않을까요?
네 위 방법대로 vocabulary를구축하게되면 말씀하신 문제가 생길것같습니다. 제 경우 컴피티션용 전략이라고 생각하여 위와 같이 진행하였습니다. 일반화를 위해선 최소등장 빈도 세팅과 트레인 데이터만 이용한 w2v를 사용하셔 test데이터 기준으로 튜닝해나가시면 좋을것 같습니다! 저도 아직 미숙한 부분이라 고수님들의 조언을 구해보겠습니다~~
혹시 'food_embedding.model'은 Word2vec내에 있는건지 개주인님께서 만드신건지 여쭤볼 수 있을까요?
word2vec으로 학습한 모델을 저장하는거에요.
try: 에서 food_embedding.model 파일이 이미 존재하는 경우(이미 word2vec으로 학습해서 save한 경우) 학습을 생략합니다. 해당 파일이 없을 경우 except:구문으로 넘어가서 학습을 진행합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
🍱감사합니다.