재정정보 AI 검색 알고리즘 경진대회

알고리즘 | NLP | 생성형 AI | LLM | 질의응답 | F1 Score

  • moneyIcon 상금 : 1,000만원
  • 1,083명 마감

1. 리더보드

  • 평가 산식 : 문자 단위의 F1 Score
(n : 샘플 개수)
  • Public Score : 전체 테스트 데이터 중 사전 샘플링된 50%
  • Private Score : 전체 테스트 데이터 100%


2. 평가

  • 1차 평가 : 리더보드 Private Score
  • 2차 평가 : 2차 평가 희망팀 코드 및 PPT 제출 후 코드 검증 및 2차 평가 진행
  • Private 상위 10팀은 필수 제출 대상
  • 2차 평가는 PPT 서면평가로 구성됩니다.
  • 2차 평가 기준


3. 참여

  • 개인 또는 팀을 이루어 참여할 수 있습니다.
  • 개인 참가 방법: 팀 신청 없이, 자유롭게 제출 창에서 제출 가능
  • 팀 구성 방법: 팀 페이지에서 팀 구성 안내 확인
  • 팀 최대 인원: 5명

                   * 동일인이 개인 또는 복수팀에 중복하여 등록 불가.

  • 1일 제출 가능 횟수: 5회

 

4. API, 외부 데이터 및 사전 학습 모델

  1. 외부 데이터 사용 금지: 경진대회 제공 데이터 외에는 사용할 수 없습니다.
  2. 학습 데이터 증강 가능: 제공된 훈련 데이터를 증강할 수 있지만, ChatGPT, Claude 등과 같은 모델의 코드와 가중치 파일이 공개되지 않은 LLM(또는 사전 학습 모델)은 사용할 수 없습니다. 이는 증강 뿐만 아니라 데이터 전처리에도 동일한 규칙이 적용됩니다.
  3. 공식 공개 사전 학습 모델 사용 가능: 가중치 파일이 공식적으로 공개되고 사용에 법적 제약이 없는 사전 학습 모델은 사용할 수 있습니다.
  4. 유료 LLM 모델 API 사용 금지: 유료 LLM 모델의 API를 이용한 모델 학습 및 추론은 금지됩니다. (데이터 조작 포함)
  5. 허용된 기법 : 순수 프롬프팅, RAG (Retriever Augmented Generation), 파인튜닝(Fine-tuning) 기법 등을 사용할 수 있습니다.


5. 코드 및 PPT 제출 규칙

  • 대회 종료 후 2차 평가 대상자는 아래의 양식에 맞추어 코드와 PPT를 dacon@dacon.io 메일로 기한 내에 제출
  • 제출한 코드는 Private Score 복원이 가능해야 함

o  코드에 데이터 입/출력 상대 경로 포함

o  코드 파일 확장자: .py, .ipynb

o  코드와 주석 인코딩: UTF-8

o  모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함)

o  개발 환경(OS) 및 라이브러리 버전 기재

  • 제출 파일 목록

o Private Score 복원이 가능한 전처리, 학습, 추론 코드 파일 (필수)

o Private Score 복원이 가능한 모델 weight 파일 (필수)

o  추론(Inference) 코드 파일 (필수, 중요)

-> 평가 샘플들을 Input으로 받아 모델 입력 형태에 맞게 전처리가 이루어지고, Model Checkpoint(weight) 파일을 불러와 추론(Inference)을 진행하여 제출 CSV파일이 생성되는 코드

o 서면 평가 PPT 자료 (필수)

-> 2차 평가 기준(2. 평가 방식 -> 2차 평가 기준)에 맞춰 자유 양식으로 작성

-> 팀 구성원들의 성명, 소속, 소속 정보 기재

Ex) 학생인 경우 : 홍길동, OO대학교, 석사과정 O학년

Ex) 직장인인 경우 : 홍길동, OOO, 2년차 재직중

Ex) 소속이 없는 경우 : 홍길동, 소속 없음



6. 유의 사항

  • 1일 최대 제출 횟수: 5회
  • 사용 가능 언어: Python, R 등
  • 대회 기간 내 팀 외의 모든 인사이트 및 코드 공유는 데이콘 플랫폼 내에서 공개적으로만 이루어져야하며 이 밖의 모든 비공식적인 공유 행위는 Private Sharing으로 간주합니다.
  • 모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.
  • 평가 데이터셋 정보를 학습에 활용하는 행위는 Data Leakage에 해당하며, 적발 시 규칙 위반에 해당합니다.
  • 평가 데이터셋을 학습시키는 Pseudo Labeling 또한 규칙 위반에 해당합니다.
  • 최종 순위는 선택된 파일 중에서 채점되므로 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일 1개를 선택해야 함
  • 대회 직후 공개되는 Private 랭킹은 최종 순위가 아니며 코드 검증 후 수상자가 결정됨
  • 데이콘은 부정 제출 행위를 엄격히 금지하고 있으며, 데이콘 대회 부정 제출 이력이 있는 경우 평가가 제한됩니다.
  • 자세한 사항은 링크를 참고해 주시기 바랍니다.


7. 문의

  • 대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않고 있습니다. 기타 질문은 토론 페이지를 통해 자유롭게 토론해 주시기 바랍니다.
  • 데이콘 답변을 희망하는 경우 [토크] 페이지 대회 문의 게시글에 댓글을 올려 주시기 바랍니다.


대회 주요 일정

  1. 07.15

    참가 신청 시작

  2. 07.29

    대회 시작

  3. 08.16

    팀 병합 마감

  4. 08.22

    참가 신청 마감

  5. 08.23

    대회 종료

  1. 08.30

    코드 및 PPT 제출 마감

  2. 09.13

    코드 검증 및 2차 평가

  3. 09.30

    최종 수상자 발표

1. 리더보드

  • 평가 산식 : 문자 단위의 F1 Score
(n : 샘플 개수)
  • Public Score : 전체 테스트 데이터 중 사전 샘플링된 50%
  • Private Score : 전체 테스트 데이터 100%


2. 평가

  • 1차 평가 : 리더보드 Private Score
  • 2차 평가 : 2차 평가 희망팀 코드 및 PPT 제출 후 코드 검증 및 2차 평가 진행
  • Private 상위 10팀은 필수 제출 대상
  • 2차 평가는 PPT 서면평가로 구성됩니다.
  • 2차 평가 기준


3. 참여

  • 개인 또는 팀을 이루어 참여할 수 있습니다.
  • 개인 참가 방법: 팀 신청 없이, 자유롭게 제출 창에서 제출 가능
  • 팀 구성 방법: 팀 페이지에서 팀 구성 안내 확인
  • 팀 최대 인원: 5명

                   * 동일인이 개인 또는 복수팀에 중복하여 등록 불가.

  • 1일 제출 가능 횟수: 5회

 

4. API, 외부 데이터 및 사전 학습 모델

  1. 외부 데이터 사용 금지: 경진대회 제공 데이터 외에는 사용할 수 없습니다.
  2. 학습 데이터 증강 가능: 제공된 훈련 데이터를 증강할 수 있지만, ChatGPT, Claude 등과 같은 모델의 코드와 가중치 파일이 공개되지 않은 LLM(또는 사전 학습 모델)은 사용할 수 없습니다. 이는 증강 뿐만 아니라 데이터 전처리에도 동일한 규칙이 적용됩니다.
  3. 공식 공개 사전 학습 모델 사용 가능: 가중치 파일이 공식적으로 공개되고 사용에 법적 제약이 없는 사전 학습 모델은 사용할 수 있습니다.
  4. 유료 LLM 모델 API 사용 금지: 유료 LLM 모델의 API를 이용한 모델 학습 및 추론은 금지됩니다. (데이터 조작 포함)
  5. 허용된 기법 : 순수 프롬프팅, RAG (Retriever Augmented Generation), 파인튜닝(Fine-tuning) 기법 등을 사용할 수 있습니다.


5. 코드 및 PPT 제출 규칙

  • 대회 종료 후 2차 평가 대상자는 아래의 양식에 맞추어 코드와 PPT를 dacon@dacon.io 메일로 기한 내에 제출
  • 제출한 코드는 Private Score 복원이 가능해야 함

o  코드에 데이터 입/출력 상대 경로 포함

o  코드 파일 확장자: .py, .ipynb

o  코드와 주석 인코딩: UTF-8

o  모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함)

o  개발 환경(OS) 및 라이브러리 버전 기재

  • 제출 파일 목록

o Private Score 복원이 가능한 전처리, 학습, 추론 코드 파일 (필수)

o Private Score 복원이 가능한 모델 weight 파일 (필수)

o  추론(Inference) 코드 파일 (필수, 중요)

-> 평가 샘플들을 Input으로 받아 모델 입력 형태에 맞게 전처리가 이루어지고, Model Checkpoint(weight) 파일을 불러와 추론(Inference)을 진행하여 제출 CSV파일이 생성되는 코드

o 서면 평가 PPT 자료 (필수)

-> 2차 평가 기준(2. 평가 방식 -> 2차 평가 기준)에 맞춰 자유 양식으로 작성

-> 팀 구성원들의 성명, 소속, 소속 정보 기재

Ex) 학생인 경우 : 홍길동, OO대학교, 석사과정 O학년

Ex) 직장인인 경우 : 홍길동, OOO, 2년차 재직중

Ex) 소속이 없는 경우 : 홍길동, 소속 없음



6. 유의 사항

  • 1일 최대 제출 횟수: 5회
  • 사용 가능 언어: Python, R 등
  • 대회 기간 내 팀 외의 모든 인사이트 및 코드 공유는 데이콘 플랫폼 내에서 공개적으로만 이루어져야하며 이 밖의 모든 비공식적인 공유 행위는 Private Sharing으로 간주합니다.
  • 모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.
  • 평가 데이터셋 정보를 학습에 활용하는 행위는 Data Leakage에 해당하며, 적발 시 규칙 위반에 해당합니다.
  • 평가 데이터셋을 학습시키는 Pseudo Labeling 또한 규칙 위반에 해당합니다.
  • 최종 순위는 선택된 파일 중에서 채점되므로 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일 1개를 선택해야 함
  • 대회 직후 공개되는 Private 랭킹은 최종 순위가 아니며 코드 검증 후 수상자가 결정됨
  • 데이콘은 부정 제출 행위를 엄격히 금지하고 있으며, 데이콘 대회 부정 제출 이력이 있는 경우 평가가 제한됩니다.
  • 자세한 사항은 링크를 참고해 주시기 바랍니다.


7. 문의

  • 대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않고 있습니다. 기타 질문은 토론 페이지를 통해 자유롭게 토론해 주시기 바랍니다.
  • 데이콘 답변을 희망하는 경우 [토크] 페이지 대회 문의 게시글에 댓글을 올려 주시기 바랍니다.


대회 주요 일정

  1. 07.15

    참가 신청 시작
  2. 07.29

    대회 시작
  3. 08.16

    팀 병합 마감
  4. 08.22

    참가 신청 마감
  5. 08.23

    대회 종료
  6. 08.30

    코드 및 PPT 제출 마감
  7. 09.13

    코드 검증 및 2차 평가
  8. 09.30

    최종 수상자 발표