분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Public 58등, private 94등 미천한 대학생의 코드 공유
공동작성자
RAG 모르는 상태에서 자연어처리 책 한 권 읽고 참여한 대회라 많이 부족한 코드이지만 혹시라도 초보자분들과 공유하며 성장할 수 있지 않을까 하는 마음에 공유해봅니다.
ingbeeeded님의 코드 공유에서 Markdown 파싱 후 Recursive splitting하는 기법 참고했고, 앙상블 모델 쓰는 것도 참고했습니다.
초반에는 LLM 문제인가 싶어서 계속 이것저것 바꾸고 파인튜닝 했는데 결국에는 데이터 전처리가 제일 효과 좋더군요.
제 코드에서 공유해드릴만한 인사이트(?)는 표 데이터를 따로 추출한 후에 pdf에서 표 데이터를 읽지 못하도록 redaction을 적용했다는 점과 표 데이터는 llm을 이용하여 자연어로 다시 정리했다는 점입니다. 대회 점수로는 조금밖에 안 올랐지만 답변을 검수할 때는 확실히 품질이 좋아졌다고 느꼈습니다. 그리고 reranker도 효과가 꽤 좋았던 것으로 기억합니다. 모델은 sh2orc/Llama-3.1-Korean-8B-Instruct 썼습니다.
미천한 성적이지만 저도 공유된 코드로 많이 배웠기에 이런 선순환이 많이 일어났으면 하는 마음에 코드 공유해봅니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
reranker 사용한 팀(유료 사용 불가인 이유로 사실상 bge 하나겠지만...) 이 있는지 꽤나 궁금했는데 역시나 있었군요 코드공유감사합니다