SW중심대학 디지털 경진대회_SW와 생성 AI의 만남 : SW 부문

SW중심대학 | Software | AI·SW개발 | 생성AI | Generate AI

Prize : 12,200,000 KRW
2024.07.01 ~ 2024.07.19 09:59 + Google Calendar
269 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

인생책장

bunju20

공동작성자

2024.07.07 21:14 817 Views language

SW중심대학 디지털 경진대회_SW와 생성AI의 만남 : SW 부문

(1) 예선 최종 산출물 : 하단 파일 업로드 완료

(2) 시연영상 (개발한 앱 서비스 구동 영상) : 하단 URL 링크
https://youtu.be/uhhbthGaKGc?si=6ZmWxVybKPniW7uN

(3) 데모버전 (생성형 인공지능 평가용 AI 배포 웹 링크) : 하단 URL링크 및 설명
https://app.promptfoo.dev/eval/f:770b7c0b-2548-468a-8c09-659f0c6f17a8

저희는 Promptfoo라는 LLM Prompt 평가 도구를 이용하여 프롬프트를 평가하고 그에 따라 다시 프롬프트를 수정하는 과정을 거쳐 높은 정확성과 context를 보장할 예정입니다.이 도구는 원하는 평가 기준에 따라, 직접 평가 지표를 작성하고, 예시 데이터와 프롬프트를 통해 실제로 프롬프팅을 실행하여 원하는 output이 도출되는 지를 평가합니다.

첨부하는 링크는 이를 활용하는 예시이며, 아래와 같은 평가 기준과 지표에 따라 평가된 결과입니다.

1. output이 유효한 JSON 형태이며, 문자열 데이터임을 검증합니다.
2. output에 담긴 질문의 개수가 최소 4개 이상임을 검증합니다.
3. 알맞은 질문의 형식임을 검증합니다. 예를 들어, 문장의 끝맺음이 물음표인지 확인합니다.
4. 생성된 질문의 품질을 평가합니다. 여기서는 평가 메트릭으로 llm-rubric을 사용하여, 다음과 같은 기준들에 대해 각각 1~5점 척도로 평가하였습니다.
- 근거성: 모델이 생성한 답변이 입력 소스의 정보와 얼마나 잘 일치하는지 평가.
- 관련성: 생성된 응답이 사용자의 질문이나 입력 프롬프트와 얼마나 관련이 있는지 측정.
- 일관성: 생성된 텍스트가 얼마나 자연스럽고 읽기 쉬운지 평가.
- 유창성: 생성된 텍스트가 문법 규칙과 언어구조를 얼마나 잘 따르는지 평가.
- 유사성: AI 모델이 생성한 응답과 주어진 ground truth 사이의 유사성을 측정.