건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 생성 AI 경진대회

한국어에서 Jaccard는 얼마나 정확한가

2025.03.07 18:22 1,076 조회

이미 아는 분들도 많겠지만, 이번 대회의  Jaccard 점수는 큰 의미가 없다고 봅니다.


대회 metric으로 jaccard를 측정하는데, 단순 공백으로 split을 하다 보니 그 의미가 많이 퇴색되는 경향이 있습니다.


다음과 같은 예시를 보면 사실상 동일한 의미의 문장입니다.

jaccard는 아예 0이 나오는 걸 볼 수 있죠.


물론 영어도 그런 경우가 아예 없다고 할 순 없지만, 한국어는 특히 더 영향이 있습니다.


tokenizing이 중요한 이유도 그런 부분이고요.


제가 올렸던 코드에서 cosine similarity 만 확인한 것도 그런 이유가 있습니다.



로그인이 필요합니다
0 / 1000
henize
2025.03.08 01:11

답변을 하나로 쭉 밀어도 0.5가 넘는 경우가 있더라구요 ㅎㅎ

snaiws
2025.03.09 17:48

감사합니다 선생님