도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회

[Dacon 답변 요청] 임베딩 모델을 꼭 픽스해서 사용해야 하는지?

2024.02.11 08:37 1,407 조회
특히 512 차원의 Embedding Vector로 변환에 사용하는 Sentence Transformer 모델은 반드시 예시 코드와 동일한 모델을 사용해야 정상적인 평가가 가능합니다.
model = SentenceTransformer('distiluse-base-multilingual-cased-v1') - '주최자 설명'


질문드립니다.

  1. 만약 현 주최자가 공식적으로 추천하는 모델 `'distiluse-base-multilingual-cased-v1'` 이 아닌, 다른 모델을 사용했을 경우 더 좋은 퍼포먼스가 나온 것을 확인했을 때, 해당 모델로 사용해도 되는지. (임베딩 모델 트레이닝도 고려 대상)



로그인이 필요합니다
0 / 1000
DACON.GM
2024.02.13 09:17

안녕하세요 HyunsooLee님,
만약, 권장하는 방법 보다 더 좋은 퍼포먼스의 Embedding Vector를 얻을 수 있는 방법이 있다면 해당 방법으로 진행하여도 문제는 없습니다.
감사합니다.

두산
2024.02.13 10:47

 하지만, 최종 결과는 distiluse-base-multilingual-cased-v1를 통해 측정되는것은 아닌가요?

HyunsooLee
2024.02.13 17:15

@두산 
최종결과는 말씀주신 모델이 측정하지만, 동일 모델을 개선하거나, 이보다 더 나은 적합한 모델을 찾을 수도 있을 겁니다.
예를 들어 최종 임베딩 결과에서 전체 값을 0.1올리거나 낮추는 방법으로 LB를 높일 수 있겠죠.

근데 이게 쉽지는 않을 겁니다. 
1. 개인적인 실험으로는 다른 임베딩 모델을 사용했을 때 CV와 LB갭이 심하게 납니다.
2. 본인의 제출 횟수를 며칠 동안 더 나은 모델을 찾기 위해서 소비해야합니다.