도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회

알고리즘 | 언어 | LLM | MLOps | QA | Cosine Similarity

  • moneyIcon 상금 : 1000만 원
  • 1,375명 마감

 

생성문의 Embedding Vector 변환과 평가 산식

2024.01.29 09:31 3,465 조회 language

본 대회는 질의에 대한 답변을 생성하고, 생성된 답변을 채점을 위해 512 차원의 Embedding Vector로 변환하여 제출해야합니다.
아래의 코드에는 해당 과정과 평가 산식(Cosine Similarity)에 대한 예시 코드가 담겨 있으니 반드시 참고 부탁드립니다.
특히 512 차원의 Embedding Vector로 변환에 사용하는 Sentence Transformer 모델은 반드시 예시 코드와 동일한 모델을 사용해야 정상적인 평가가 가능합니다.

코드
로그인이 필요합니다
0 / 1000
첫번째
2024.01.29 12:58

감사합니다

파이썬초보만
2024.02.04 21:17

제출할 Embedding Vector를 생성하는데는 무조건 distiluse-base-multilingual-cased-v1 을 사용해야하나요?

DACON.GM
2024.02.05 09:09

Ground Truth 역시, 해당 모델로 임베딩 벡터를 추출하여 평가에 활용되기 때문에 정확한 평가를 위해서는 해당 모델을 사용해야합니다.

파이썬초보만
2024.02.22 13:58

https://dacon.io/competitions/official/236216/talkboard/410894?page=1&dtype=recent
여기서의 답변과 조금 다른것 같습니다.

DACON.GM
2024.02.22 14:33

평가에 활용되는 Ground Truth의 Embedding Vector가 'distiluse-base-multilingual-cased-v1'에서 추출되었기 때문에,
참가자의 예측(생성) 결과 역시 동일한 모델로 Embedding Vector를 추출하는 것이 이론적이고 객관적으로는 가장 정확하고 안전한 방법이기에 가급적 이 방법을 사용하도록 하고 있습니다.
그러나, 이 방법보다 더 Ground Truth의 Embedding Vector와 유사한 Vector를 얻을 수 있는 방법이 있다면 그 방법을 사용하여도 좋습니다.

자몽맛쥬스
2024.02.12 01:17

혹시 RAG 방식에서 활용하는 임베딩을 이 모델로 사용해도 될까요?

이전 글
pubilc [0.63588] LLM 파인튜닝 전 학습없는 아이디어 빌드 ( 1/ 2 )
대회 - 도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회
좋아요 25
조회 2,391
댓글 4
3달 전
현재 글
생성문의 Embedding Vector 변환과 평가 산식
대회 - 도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회
좋아요 16
조회 3,465
댓글 6
3달 전
다음 글
다음 글이 존재하지 않습니다.