건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 AI 경진대회

알고리즘 | NLP | 생성형 AI | LLM | MLOps | 유사도

 

PDF 마크다운 OCR 결과 공유

2025.03.14 12:26 1,139 조회 language

https://drive.google.com/file/d/1GNKpb6VIiQ3pCwYbuzvbh45SibAYqSKO/view

로컬 모델로 PDF OCR 해서 마크다운으로 바꾼 결과 좀 공유드려요. 이미지 부분은 안 나오고, 표는 꽤 잘 추출됩니다. 일단은 RAG가 제대로 작동하는지 테스트하는 게 먼저라서 이 정도로 공유해봅니다.

저는 임베딩 모델 먼저 파인튜닝하고 그다음에 LLM 파인튜닝했는데, 평가지표에서는 별로 좋은 결과가 안 나오네요. 좀 늦게 대회에 참여해서 앞으로 열심히 실험해봐야겠어요!

코드
로그인이 필요합니다
0 / 1000
Price_hunter
2025.03.15 21:12

혹시 ocr 모델 어떤 거 쓰셨는지 알 수 있을까요? 성능 되게 좋아보이네요!

ingbeeeded
2025.03.15 21:25

https://olmocr.allenai.org
아 제가 모델명을 뺏군요 ㅠ 죄송합니다
이거인데, 논문이랑 모델, ft 데이터셋 모두 공개되어 있습니다
qwen2.5vl-7b 베이스 모델로 파인튜닝 된 모델입니다

처음에 ocr 잘못한 줄 알았는데, 알고보니 문서에 오타들이 좀 있더라구여 ㅎㅎ

Price_hunter
2025.03.15 21:49

와.. 좋은 정보 정말 감사합니다!! 좋은 성적 거두시길 바랄게요!

geminii01
2025.03.16 03:19

성능 정말 좋네요👍
좋은 OCR 모델 알려주셔서 감사합니다!
https://github.com/allenai/olmocr

ingbeeeded
2025.03.16 22:10

맞아요 ㅎㅎ