분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 생성 AI 경진대회
한국어에서 Jaccard는 얼마나 정확한가
이미 아는 분들도 많겠지만, 이번 대회의 Jaccard 점수는 큰 의미가 없다고 봅니다.
대회 metric으로 jaccard를 측정하는데, 단순 공백으로 split을 하다 보니 그 의미가 많이 퇴색되는 경향이 있습니다.
다음과 같은 예시를 보면 사실상 동일한 의미의 문장입니다.
jaccard는 아예 0이 나오는 걸 볼 수 있죠.
물론 영어도 그런 경우가 아예 없다고 할 순 없지만, 한국어는 특히 더 영향이 있습니다.
tokenizing이 중요한 이유도 그런 부분이고요.
제가 올렸던 코드에서 cosine similarity 만 확인한 것도 그런 이유가 있습니다.
감사합니다 선생님
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
답변을 하나로 쭉 밀어도 0.5가 넘는 경우가 있더라구요 ㅎㅎ