2025 금융 AI Challenge : 금융 AI 모델 경쟁

알고리즘 | 금융보안원 | 금융 | 생성형 AI | LLM | FSKU

1. 참여

  • 개인 또는 팀을 이루어 참여할 수 있습니다.
  • 개인 참가 방법 : 팀 신청 없이, 자유롭게 제출탭에서 제출 가능
  • 팀 참가 방법 : 팀 탭에서 가능, 상세 내용은 팀 탭에서 팀 병합 정책 확인
  • 팀 구성 방법: 팀 페이지에서 팀 구성 안내 확인
  • 팀 최대 인원: 4명
  • 동일인이 개인 또는 복수팀에 중복하여 등록 불가

 

2. 대회 규칙

1) LLM 기반 텍스트 생성 요건

  • 최종 답변은 생성형 언어 모델(LLM)에 의해 생성된 텍스트여야 하며, 단순한 룰 기반 출력이나 사전 정의된 정답 목록에서의 선택만으로 구성된 응답은 허용되지 않습니다.
  • 검색 증강 생성(RAG) 방식은 허용되나, 검색된 내용을 그대로 반환하는 방식은 불가하며, 생성 모델을 활용한 조합, 요약, 재구성 등의 가공이 반드시 포함되어야 합니다.

2) 사전 학습 모델 사용 가능 범위

  • 2025년 8월 1일 전(~2025.07.31)에 공식적으로 가중치가 공개되었으며, 최소한 비상업적 이용이 허용된 오픈소스 라이선스(MIT, Apache 2.0 등)로 배포된 사전 학습 모델만 사용할 수 있습니다. 해당 조건을 충족하지 않는 모델은 사용이 불가능합니다.

3) API 사용 제한

  • OpenAI API, Gemini API 등과 같이 원격 서버를 통해 응답을 받는 형태의 API 기반 모델은 사용할 수 없습니다. 모든 모델은 로컬 환경(CPU 또는 GPU 기반)에서 직접 실행 가능한 형태로만 사용해야 하며, 외부 서버(클라우드 등)에 의존하는 방식은 허용되지 않습니다.

4) 외부 데이터 사용 가능

  • 2025년 8월 1일 전(~2025.07.31)에 공식적으로 공개되었으며, 최소한 비상업적 이용이 허용된 라이선스(CC BY-NC, CC0, CC-BY-SA, CC-BY-NC-SA 등)로 배포된 외부 데이터만 사용할 수 있습니다. 해당 조건을 충족하지 않는 외부 데이터는 사용이 불가능합니다.
  • 직접 수집한 데이터(예: 수기 작성, 자체 크롤링)는 사용할 수 없습니다. 외부 데이터는 반드시 공식적으로 공개되어 있으며, 라이선스가 명확하게 부여된 경우에만 사용 가능합니다.
  • 데이터 증강은 허용되며, 코드 상 구현이 가능한 방식으로 사용해야 합니다. 단, 증강에 활용된 원천 데이터와 사용된 모델 역시 대회 규칙2), 3)을 충족해야 합니다.

※ 데이터 증강 예시: Rule-Based 기반 Text 증강, 로컬에서 구동되는 생성AI 모델을 활용한 데이터 생성 등

🔹모든 외부 데이터는 출처, 사용 방식, 데이터 파일 등 증빙이 가능해야 하며, 이에 대한 확인이 이루어지지 않거나 라이센스가 저작권 침해 등 법적 문제가 있는 경우 실격 처리됩니다.

🔹모든 데이터 증강 과정은 관련 코드와 함께 제출되어야합니다.

5) 추론 코드는 제시된 리소스 내에서 제한 시간 내 작동할 수 있어야함

  • 리더보드 결과를 재현할 수 있는 추론 코드는 아래 리소스 조건 내에서 작동할 수 있어야합니다.

🔹제한 시간 : 전체 평가 데이터셋(FSKU)에 대하여 4시간 30분(270분)을 초과할 수 없습니다. (샘플 당 약 30초 내 추론)

추론 시간은 운영진이 직접 추론 코드를 5번 실행하여 소요된 시간의 평균으로 측정합니다.

🔹추론 환경(리소스) [Runpod 링크]

GPU: RTX 4090 24GB VRAM

CPU: 6 vCPU 41GB RAM

DISK: 40GB

주요 환경: Python 3.10, CUDA 11.8, Pytorch 2.1.0, Ubuntu 22.04

🔹추론 코드 내에는 모델 입력을 위한 데이터 전처리, 모델 로드, 모델 추론, 최종 출력 생성의 모든 과정이 포함되어 있어야 합니다.

🔹추론 코드는 인터넷 연결이 차단된 오프라인 환경 서버에서 진행되며, 추론 과정에서 인터넷 통신 과정이 포함될 수 없습니다.

6) 추론 모델은 반드시 단일 LLM 모델이어야함

  • 추론은 반드시 단일 LLM 모델로 수행해야 하며, 복수의 LLM을 앙상블하거나 입력 유형(4지선다, 5지선다, 주관식)에 따라 다른 LLM을 사용하는 것은 허용되지 않습니다.


3. 코드 및 결과 보고서 제출 규칙

  • 예선 종료 후 본선 평가 대상자는 아래의 양식에 맞추어 코드와 모델 체크포인트, 코드 실행 방법이 담긴 자료를 dacon@dacon.io 메일로 기한 내에 제출
  • 제출한 코드는 대회 규칙을 준수하고 Private Score 복원이 가능해야 코드 검증 과정을 통과할 수 있습니다.

[제출 코드 관련]

🔹코드에 데이터 입/출력 경로를 상대 경로로 표기

🔹코드와 주석 인코딩: UTF-8

🔹모든 코드는 대회 규칙에서 제시된 리소스 환경에서 오류 없이 설치되고 실행될 수 있어야함

🔹라이브러리 버전 기재 (requirement.txt)

🔹모델에 활용한 모든 외부 데이터와 전처리 코드를 필수로 포함 (외부 데이터 출처 증빙 포함)

🔹추론(Inference) 코드는 반드시 별도의 코드 파일로 작성(예시: inference.py 혹은 inference.ipynb)해야 하며, 추론에 활용하는 모델 가중치(Weight) 파일을 필수로 포함

[제출 파일 목록]

            🔹Private Score 복원이 가능한 코드 (추론 코드는 반드시 별도로 구성)

            🔹Private Score 복원이 가능한 모델 가중치(Weight) 파일

🔹사용한 외부 데이터 관련 증빙 자료

            🔹결과 보고서


4. 유의 사항

  • 1일 최대 제출 횟수: 3회
  • 사용 가능 언어: Python
  • 모든 csv 형식의 데이터와 제출 파일은 UTF-8 인코딩을 적용합니다.
  • 모델 학습과 추론에서 평가 데이터셋 정보 활용(Data Leakage)시 수상 제외
  • 대회 기간 내 팀 외의 모든 인사이트 및 코드 공유는 데이콘 플랫폼 내에서 공개적으로만 이루어져야하며 이 밖의 모든 비공식적인 공유 행위는 Private Sharing으로 간주합니다.
  • 모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.
  • 최종 순위는 선택된 파일 중에서 채점되므로 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일 1개를 선택해야 함
  • 대회 직후 공개되는 Private 랭킹은 최종 순위가 아니며 코드 검증 후 수상자가 결정됨
  • 데이콘은 부정 제출 행위를 엄격히 금지하고 있으며, 데이콘 대회 부정 제출 이력이 있는 경우 평가가 제한됩니다.
  • 자세한 사항은 링크를 참고해 주시기 바랍니다.


5. 문의

  • 데이콘은 대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않고 있습니다. 기타 질문은 토론 페이지를 통해 자유롭게 토론해 주시기 바랍니다.
  • 데이콘 답변을 희망하는 경우 [토크] 페이지 대회 문의 게시글에 댓글을 올려 주시기 바랍니다.

대회 주요 일정

  1. 07.14

    참가 신청 시작

  2. 08.01

    예선 시작

  3. 08.22

    팀 병합 마감

  4. 08.29

    예선 종료

  5. 09.12

    코드 및 결과보고서 제출 마감

  1. 09.26

    코드 검증 및 본선 평가

  2. 09.29

    최종 평가 대상자 안내

  3. 10.23

    오프라인 발표 평가

  4. 10.31

    최종 수상자 발표

  5. 11.20

    오프라인 시상식

1. 참여

  • 개인 또는 팀을 이루어 참여할 수 있습니다.
  • 개인 참가 방법 : 팀 신청 없이, 자유롭게 제출탭에서 제출 가능
  • 팀 참가 방법 : 팀 탭에서 가능, 상세 내용은 팀 탭에서 팀 병합 정책 확인
  • 팀 구성 방법: 팀 페이지에서 팀 구성 안내 확인
  • 팀 최대 인원: 4명
  • 동일인이 개인 또는 복수팀에 중복하여 등록 불가

 

2. 대회 규칙

1) LLM 기반 텍스트 생성 요건

  • 최종 답변은 생성형 언어 모델(LLM)에 의해 생성된 텍스트여야 하며, 단순한 룰 기반 출력이나 사전 정의된 정답 목록에서의 선택만으로 구성된 응답은 허용되지 않습니다.
  • 검색 증강 생성(RAG) 방식은 허용되나, 검색된 내용을 그대로 반환하는 방식은 불가하며, 생성 모델을 활용한 조합, 요약, 재구성 등의 가공이 반드시 포함되어야 합니다.

2) 사전 학습 모델 사용 가능 범위

  • 2025년 8월 1일 전(~2025.07.31)에 공식적으로 가중치가 공개되었으며, 최소한 비상업적 이용이 허용된 오픈소스 라이선스(MIT, Apache 2.0 등)로 배포된 사전 학습 모델만 사용할 수 있습니다. 해당 조건을 충족하지 않는 모델은 사용이 불가능합니다.

3) API 사용 제한

  • OpenAI API, Gemini API 등과 같이 원격 서버를 통해 응답을 받는 형태의 API 기반 모델은 사용할 수 없습니다. 모든 모델은 로컬 환경(CPU 또는 GPU 기반)에서 직접 실행 가능한 형태로만 사용해야 하며, 외부 서버(클라우드 등)에 의존하는 방식은 허용되지 않습니다.

4) 외부 데이터 사용 가능

  • 2025년 8월 1일 전(~2025.07.31)에 공식적으로 공개되었으며, 최소한 비상업적 이용이 허용된 라이선스(CC BY-NC, CC0, CC-BY-SA, CC-BY-NC-SA 등)로 배포된 외부 데이터만 사용할 수 있습니다. 해당 조건을 충족하지 않는 외부 데이터는 사용이 불가능합니다.
  • 직접 수집한 데이터(예: 수기 작성, 자체 크롤링)는 사용할 수 없습니다. 외부 데이터는 반드시 공식적으로 공개되어 있으며, 라이선스가 명확하게 부여된 경우에만 사용 가능합니다.
  • 데이터 증강은 허용되며, 코드 상 구현이 가능한 방식으로 사용해야 합니다. 단, 증강에 활용된 원천 데이터와 사용된 모델 역시 대회 규칙2), 3)을 충족해야 합니다.

※ 데이터 증강 예시: Rule-Based 기반 Text 증강, 로컬에서 구동되는 생성AI 모델을 활용한 데이터 생성 등

🔹모든 외부 데이터는 출처, 사용 방식, 데이터 파일 등 증빙이 가능해야 하며, 이에 대한 확인이 이루어지지 않거나 라이센스가 저작권 침해 등 법적 문제가 있는 경우 실격 처리됩니다.

🔹모든 데이터 증강 과정은 관련 코드와 함께 제출되어야합니다.

5) 추론 코드는 제시된 리소스 내에서 제한 시간 내 작동할 수 있어야함

  • 리더보드 결과를 재현할 수 있는 추론 코드는 아래 리소스 조건 내에서 작동할 수 있어야합니다.

🔹제한 시간 : 전체 평가 데이터셋(FSKU)에 대하여 4시간 30분(270분)을 초과할 수 없습니다. (샘플 당 약 30초 내 추론)

추론 시간은 운영진이 직접 추론 코드를 5번 실행하여 소요된 시간의 평균으로 측정합니다.

🔹추론 환경(리소스) [Runpod 링크]

GPU: RTX 4090 24GB VRAM

CPU: 6 vCPU 41GB RAM

DISK: 40GB

주요 환경: Python 3.10, CUDA 11.8, Pytorch 2.1.0, Ubuntu 22.04

🔹추론 코드 내에는 모델 입력을 위한 데이터 전처리, 모델 로드, 모델 추론, 최종 출력 생성의 모든 과정이 포함되어 있어야 합니다.

🔹추론 코드는 인터넷 연결이 차단된 오프라인 환경 서버에서 진행되며, 추론 과정에서 인터넷 통신 과정이 포함될 수 없습니다.

6) 추론 모델은 반드시 단일 LLM 모델이어야함

  • 추론은 반드시 단일 LLM 모델로 수행해야 하며, 복수의 LLM을 앙상블하거나 입력 유형(4지선다, 5지선다, 주관식)에 따라 다른 LLM을 사용하는 것은 허용되지 않습니다.


3. 코드 및 결과 보고서 제출 규칙

  • 예선 종료 후 본선 평가 대상자는 아래의 양식에 맞추어 코드와 모델 체크포인트, 코드 실행 방법이 담긴 자료를 dacon@dacon.io 메일로 기한 내에 제출
  • 제출한 코드는 대회 규칙을 준수하고 Private Score 복원이 가능해야 코드 검증 과정을 통과할 수 있습니다.

[제출 코드 관련]

🔹코드에 데이터 입/출력 경로를 상대 경로로 표기

🔹코드와 주석 인코딩: UTF-8

🔹모든 코드는 대회 규칙에서 제시된 리소스 환경에서 오류 없이 설치되고 실행될 수 있어야함

🔹라이브러리 버전 기재 (requirement.txt)

🔹모델에 활용한 모든 외부 데이터와 전처리 코드를 필수로 포함 (외부 데이터 출처 증빙 포함)

🔹추론(Inference) 코드는 반드시 별도의 코드 파일로 작성(예시: inference.py 혹은 inference.ipynb)해야 하며, 추론에 활용하는 모델 가중치(Weight) 파일을 필수로 포함

[제출 파일 목록]

            🔹Private Score 복원이 가능한 코드 (추론 코드는 반드시 별도로 구성)

            🔹Private Score 복원이 가능한 모델 가중치(Weight) 파일

🔹사용한 외부 데이터 관련 증빙 자료

            🔹결과 보고서


4. 유의 사항

  • 1일 최대 제출 횟수: 3회
  • 사용 가능 언어: Python
  • 모든 csv 형식의 데이터와 제출 파일은 UTF-8 인코딩을 적용합니다.
  • 모델 학습과 추론에서 평가 데이터셋 정보 활용(Data Leakage)시 수상 제외
  • 대회 기간 내 팀 외의 모든 인사이트 및 코드 공유는 데이콘 플랫폼 내에서 공개적으로만 이루어져야하며 이 밖의 모든 비공식적인 공유 행위는 Private Sharing으로 간주합니다.
  • 모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.
  • 최종 순위는 선택된 파일 중에서 채점되므로 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일 1개를 선택해야 함
  • 대회 직후 공개되는 Private 랭킹은 최종 순위가 아니며 코드 검증 후 수상자가 결정됨
  • 데이콘은 부정 제출 행위를 엄격히 금지하고 있으며, 데이콘 대회 부정 제출 이력이 있는 경우 평가가 제한됩니다.
  • 자세한 사항은 링크를 참고해 주시기 바랍니다.


5. 문의

  • 데이콘은 대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않고 있습니다. 기타 질문은 토론 페이지를 통해 자유롭게 토론해 주시기 바랍니다.
  • 데이콘 답변을 희망하는 경우 [토크] 페이지 대회 문의 게시글에 댓글을 올려 주시기 바랍니다.

대회 주요 일정

  1. 07.14

    참가 신청 시작
  2. 08.01

    예선 시작
  3. 08.22

    팀 병합 마감
  4. 08.29

    예선 종료
  5. 09.12

    코드 및 결과보고서 제출 마감
  6. 09.26

    코드 검증 및 본선 평가
  7. 09.29

    최종 평가 대상자 안내
  8. 10.23

    오프라인 발표 평가
  9. 10.31

    최종 수상자 발표
  10. 11.20

    오프라인 시상식