분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[public - 0.71238/ private - 0.68749] 코드공유
공동작성자
재정정보 AI 검색 알고리즘 경진대회
- public 기준 최대 score는 0.71을 기록
- 목표
- ‘열린재정’의 중앙정부 재정 정보를 바탕으로 한 Retrieval-Augmented Generation(RAG) 기반 Chatbot을 개발하여 재정 정보 질의응답에 대한 정확한 답변을 제공하는 알고리즘을 구현하는 것을 목표
- 데이터로드
- PDF 형식의 데이터를 다루기 위해 ‘pdfplumber’ 라이브러리를 사용
- 일부 문서는 가로 형식으로 두 페이지가 하나로 묶여 있어 텍스트 추출 시 데이터 손상이 발생했다. 이를 해결하기 위해 페이지를 분할해 처리
- 임베딩 모델
- ‘intfloat/multilingual-e5-large’
- 벡터 데이터베이스(VectorDB)
- FAISS
- LLM(대형 언어 모델)
- ‘meta-llama/Meta-Llama-3.1-8B-Instruct’
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
코드 & 접근방법 공유 감사합니다. :)