분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[public - 0.71238/ private - 0.68749] 코드공유
재정정보 AI 검색 알고리즘 경진대회
- public 기준 최대 score는 0.71을 기록
- 목표
- ‘열린재정’의 중앙정부 재정 정보를 바탕으로 한 Retrieval-Augmented Generation(RAG) 기반 Chatbot을 개발하여 재정 정보 질의응답에 대한 정확한 답변을 제공하는 알고리즘을 구현하는 것을 목표
- 데이터로드
- PDF 형식의 데이터를 다루기 위해 ‘pdfplumber’ 라이브러리를 사용
- 일부 문서는 가로 형식으로 두 페이지가 하나로 묶여 있어 텍스트 추출 시 데이터 손상이 발생했다. 이를 해결하기 위해 페이지를 분할해 처리
- 임베딩 모델
- ‘intfloat/multilingual-e5-large’
- 벡터 데이터베이스(VectorDB)
- FAISS
- LLM(대형 언어 모델)
- ‘meta-llama/Meta-Llama-3.1-8B-Instruct’
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
코드 & 접근방법 공유 감사합니다. :)