재정정보 AI 검색 알고리즘 경진대회

알고리즘 | NLP | 생성형 AI | LLM | 질의응답 | F1 Score

상금 : 1,000만원
1,038명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

Public 58등, private 94등 미천한 대학생의 코드 공유

Jake00

공동작성자

2024.08.23 12:31 542 조회 language

RAG 모르는 상태에서 자연어처리 책 한 권 읽고 참여한 대회라 많이 부족한 코드이지만 혹시라도 초보자분들과 공유하며 성장할 수 있지 않을까 하는 마음에 공유해봅니다.
ingbeeeded님의 코드 공유에서 Markdown 파싱 후 Recursive splitting하는 기법 참고했고, 앙상블 모델 쓰는 것도 참고했습니다.
초반에는 LLM 문제인가 싶어서 계속 이것저것 바꾸고 파인튜닝 했는데 결국에는 데이터 전처리가 제일 효과 좋더군요.
제 코드에서 공유해드릴만한 인사이트(?)는 표 데이터를 따로 추출한 후에 pdf에서 표 데이터를 읽지 못하도록 redaction을 적용했다는 점과 표 데이터는 llm을 이용하여 자연어로 다시 정리했다는 점입니다. 대회 점수로는 조금밖에 안 올랐지만 답변을 검수할 때는 확실히 품질이 좋아졌다고 느꼈습니다. 그리고 reranker도 효과가 꽤 좋았던 것으로 기억합니다. 모델은 sh2orc/Llama-3.1-Korean-8B-Instruct 썼습니다.
미천한 성적이지만 저도 공유된 코드로 많이 배웠기에 이런 선순환이 많이 일어났으면 하는 마음에 코드 공유해봅니다.

코드