2025 금융 AI Challenge : 금융 AI 모델 경쟁

알고리즘 | 금융보안원 | 금융 | 생성형 AI | LLM | FSKU

  • moneyIcon 상금 3,300만 원
  • 1,129명 마감

 

대회 규칙 안내

2025.08.01 14:35 1,353 조회

아래의 대회 규칙을 반드시 숙지 후 진행할 것을 부탁드립니다.


2. 대회 규칙

1) LLM 기반 텍스트 생성 요건

  • 최종 답변은 생성형 언어 모델(LLM)에 의해 생성된 텍스트여야 하며, 단순한 룰 기반 출력이나 사전 정의된 정답 목록에서의 선택만으로 구성된 응답은 허용되지 않습니다.
  • 검색 증강 생성(RAG) 방식은 허용되나, 검색된 내용을 그대로 반환하는 방식은 불가하며, 생성 모델을 활용한 조합, 요약, 재구성 등의 가공이 반드시 포함되어야 합니다.


2) 사전 학습 모델 사용 가능 범위

  • 2025년 8월 1일 전(~2025.07.31)에 공식적으로 가중치가 공개되었으며, 최소한 비상업적 이용이 허용된 오픈소스 라이선스(MIT, Apache 2.0 등)로 배포된 사전 학습 모델만 사용할 수 있습니다. 해당 조건을 충족하지 않는 모델은 사용이 불가능합니다.


3) API 사용 제한

  • OpenAI API, Gemini API 등과 같이 원격 서버를 통해 응답을 받는 형태의 API 기반 모델은 사용할 수 없습니다. 모든 모델은 로컬 환경(CPU 또는 GPU 기반)에서 직접 실행 가능한 형태로만 사용해야 하며, 외부 서버(클라우드 등)에 의존하는 방식은 허용되지 않습니다.


4) 외부 데이터 사용 가능

  • 2025년 8월 1일 전(~2025.07.31)에 공식적으로 공개되었으며, 최소한 비상업적 이용이 허용된 라이선스(CC BY-NC, CC0, CC-BY-SA, CC-BY-NC-SA 등)로 배포된 외부 데이터만 사용할 수 있습니다. 해당 조건을 충족하지 않는 외부 데이터는 사용이 불가능합니다.
  • 직접 수집한 데이터(예: 수기 작성, 자체 크롤링)는 사용할 수 없습니다. 외부 데이터는 반드시 공식적으로 공개되어 있으며, 라이선스가 명확하게 부여된 경우에만 사용 가능합니다.
  • 데이터 증강은 허용되며, 코드 상 구현이 가능한 방식으로 사용해야 합니다. 단, 증강에 활용된 원천 데이터와 사용된 모델 역시 대회 규칙을 충족해야 합니다.

※ 데이터 증강 예시: Rule-Based 기반 Text 증강, 로컬에서 구동되는 생성AI 모델을 활용한 데이터 생성 등

🔹모든 외부 데이터는 출처, 사용 방식, 데이터 파일 등 증빙이 가능해야 하며, 이에 대한 확인이 이루어지지 않거나 라이센스가 저작권 침해 등 법적 문제가 있는 경우 실격 처리됩니다.

🔹모든 데이터 증강 과정은 관련 코드와 함께 제출되어야합니다.


5) 추론 코드는 제시된 리소스 내에서 제한 시간 내 작동할 수 있어야함

  • 리더보드 결과를 재현할 수 있는 추론 코드는 아래 리소스 조건 내에서 작동할 수 있어야합니다.

🔹제한 시간 : 전체 평가 데이터셋(FSKU)에 대하여 4시간 30분(270분)을 초과할 수 없습니다. (샘플 당 약 30초 내 추론)

추론 시간은 운영진이 직접 추론 코드를 5번 실행하여 소요된 시간의 평균으로 측정합니다.

🔹추론 환경(리소스) [Runpod 링크]

GPU: RTX 4090 24GB VRAM

CPU: 6 vCPU 41GB RAM

DISK: 40GB

주요 환경: Python 3.10, CUDA 11.8, Pytorch 2.1.0, Ubuntu 22.04

🔹추론 코드 내에는 모델 입력을 위한 데이터 전처리, 모델 로드, 모델 추론, 최종 출력 생성의 모든 과정이 포함되어 있어야 합니다.

🔹추론 코드는 인터넷 연결이 차단된 오프라인 환경 서버에서 진행되며, 추론 과정에서 인터넷 통신 과정이 포함될 수 없습니다.


6) 추론 모델은 반드시 단일 LLM 모델이어야함

  • 추론은 반드시 단일 LLM 모델로 수행해야 하며, 복수의 LLM을 앙상블하거나 입력 유형(4지선다, 5지선다, 주관식)에 따라 다른 LLM을 사용하는 것은 허용되지 않습니다.


로그인이 필요합니다
0 / 1000
david06
2025.08.01 18:05

안녕하세요. 외부 데이터 관련하여 질문이 있습니다.

'국가법령정보센터' 등 정부 기관에서 법령 문서와 같은 공공데이터 등을 직접 다운로드 받아 파싱하여 활용하는 것은 가능한가요? 아니면 이또한 '활용 불가능한 직접 수집한 데이터'로 취급되나요?

DACON.GM
2025.08.01 18:06

해당 기관에서 직접 배포하는 외부 데이터이고, 라이센스 사용 조건에 부합한다면 가능합니다.

david06
2025.08.01 18:08

답변 감사합니다!

BG01882
2025.08.01 21:56

huggingface같은곳에서 일반인이 mit 등 license-free에 public으로 공개한 데이터의 경우 사용 가능할까요?

DACON.GM
2025.08.04 12:04

라이센스가 적합하다면 사용 가능합니다.

우진봇
2025.08.04 11:49

RAG를 위한 PDF 전처리 과정도 제한시간 내에 들어가는건가요? 전처리하는 시간도 꽤 소요가 될 것으로 예상됩니다.

DACON.GM
2025.08.04 12:04

전처리는 자유롭게 구성하실 수 있습니다.
제한 시간 측정은 제출하신 추론 코드 실행 시간을 기준으로 합니다.

Seohyunnn
2025.08.14 12:10

삭제된 댓글입니다

ROKO
2025.08.15 04:11

최종 답변과 관련하여 궁금한 점이 있습니다.
답변이 반드시 생성형 언어 모델(LLM)에 의해 직접 생성된 텍스트여야 하는 것으로 이해하고 있는데,
생성된 답변에 후처리나 필터링 과정을 추가하여 수정하거나 걸러낸 후에 최종적으로 제출하는 것도 허용되는지 확인 부탁드립니다.
즉, 답변 생성 직후 바로 제출해야 하는지, 아니면 생성 이후 필터링 등 추가 가공 과정이 포함되어도 괜찮은지 알고 싶습니다.