분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 생성 AI 경진대회
한국어에서 Jaccard는 얼마나 정확한가
이미 아는 분들도 많겠지만, 이번 대회의 Jaccard 점수는 큰 의미가 없다고 봅니다.
대회 metric으로 jaccard를 측정하는데, 단순 공백으로 split을 하다 보니 그 의미가 많이 퇴색되는 경향이 있습니다.
다음과 같은 예시를 보면 사실상 동일한 의미의 문장입니다.
jaccard는 아예 0이 나오는 걸 볼 수 있죠.
물론 영어도 그런 경우가 아예 없다고 할 순 없지만, 한국어는 특히 더 영향이 있습니다.
tokenizing이 중요한 이유도 그런 부분이고요.
제가 올렸던 코드에서 cosine similarity 만 확인한 것도 그런 이유가 있습니다.
감사합니다 선생님
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
답변을 하나로 쭉 밀어도 0.5가 넘는 경우가 있더라구요 ㅎㅎ