분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
PDF 마크다운 OCR 결과 공유
https://drive.google.com/file/d/1GNKpb6VIiQ3pCwYbuzvbh45SibAYqSKO/view
로컬 모델로 PDF OCR 해서 마크다운으로 바꾼 결과 좀 공유드려요. 이미지 부분은 안 나오고, 표는 꽤 잘 추출됩니다. 일단은 RAG가 제대로 작동하는지 테스트하는 게 먼저라서 이 정도로 공유해봅니다.
저는 임베딩 모델 먼저 파인튜닝하고 그다음에 LLM 파인튜닝했는데, 평가지표에서는 별로 좋은 결과가 안 나오네요. 좀 늦게 대회에 참여해서 앞으로 열심히 실험해봐야겠어요!
https://olmocr.allenai.org
아 제가 모델명을 뺏군요 ㅠ 죄송합니다
이거인데, 논문이랑 모델, ft 데이터셋 모두 공개되어 있습니다
qwen2.5vl-7b 베이스 모델로 파인튜닝 된 모델입니다
처음에 ocr 잘못한 줄 알았는데, 알고보니 문서에 오타들이 좀 있더라구여 ㅎㅎ
와.. 좋은 정보 정말 감사합니다!! 좋은 성적 거두시길 바랄게요!
성능 정말 좋네요👍
좋은 OCR 모델 알려주셔서 감사합니다!
https://github.com/allenai/olmocr
맞아요 ㅎㅎ
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
혹시 ocr 모델 어떤 거 쓰셨는지 알 수 있을까요? 성능 되게 좋아보이네요!