분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회
[Dacon 답변 요청] 임베딩 모델을 꼭 픽스해서 사용해야 하는지?
특히 512 차원의 Embedding Vector로 변환에 사용하는 Sentence Transformer 모델은 반드시 예시 코드와 동일한 모델을 사용해야 정상적인 평가가 가능합니다.
model = SentenceTransformer('distiluse-base-multilingual-cased-v1') - '주최자 설명'
질문드립니다.
하지만, 최종 결과는 distiluse-base-multilingual-cased-v1를 통해 측정되는것은 아닌가요?
@두산
최종결과는 말씀주신 모델이 측정하지만, 동일 모델을 개선하거나, 이보다 더 나은 적합한 모델을 찾을 수도 있을 겁니다.
예를 들어 최종 임베딩 결과에서 전체 값을 0.1올리거나 낮추는 방법으로 LB를 높일 수 있겠죠.
근데 이게 쉽지는 않을 겁니다.
1. 개인적인 실험으로는 다른 임베딩 모델을 사용했을 때 CV와 LB갭이 심하게 납니다.
2. 본인의 제출 횟수를 며칠 동안 더 나은 모델을 찾기 위해서 소비해야합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 HyunsooLee님,
만약, 권장하는 방법 보다 더 좋은 퍼포먼스의 Embedding Vector를 얻을 수 있는 방법이 있다면 해당 방법으로 진행하여도 문제는 없습니다.
감사합니다.