재정정보 AI 검색 알고리즘 경진대회

알고리즘 | NLP | 생성형 AI | LLM | 질의응답 | F1 Score

  • moneyIcon Prize : 1,000만원
  • 1,070명 마감

 

[public - 0.71238/ private - 0.68749] 코드공유

공동작성자

stroke
2024.09.25 18:55 1,907 Views language

재정정보 AI 검색 알고리즘 경진대회
- public 기준 최대 score는 0.71을 기록

- 목표
   - ‘열린재정’의 중앙정부 재정 정보를 바탕으로 한 Retrieval-Augmented Generation(RAG) 기반 Chatbot을 개발하여 재정 정보 질의응답에 대한 정확한 답변을 제공하는 알고리즘을 구현하는 것을 목표

- 데이터로드
   - PDF 형식의 데이터를 다루기 위해 ‘pdfplumber’ 라이브러리를 사용
   - 일부 문서는 가로 형식으로 두 페이지가 하나로 묶여 있어 텍스트 추출 시 데이터 손상이 발생했다. 이를 해결하기 위해 페이지를 분할해 처리

- 임베딩 모델 
   - ‘intfloat/multilingual-e5-large’

- 벡터 데이터베이스(VectorDB)
   - FAISS

- LLM(대형 언어 모델)
   -  ‘meta-llama/Meta-Llama-3.1-8B-Instruct’

Code
로그인이 필요합니다
0 / 1000
c4big2
2024.09.27 18:55

코드 & 접근방법 공유 감사합니다. :)