분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
대회 규칙 안내
아래의 대회 규칙을 반드시 숙지 후 진행할 것을 부탁드립니다.
1) LLM 기반 텍스트 생성 요건
2) 사전 학습 모델 사용 가능 범위
3) API 사용 제한
4) 외부 데이터 사용 가능
※ 데이터 증강 예시: Rule-Based 기반 Text 증강, 로컬에서 구동되는 생성AI 모델을 활용한 데이터 생성 등
🔹모든 외부 데이터는 출처, 사용 방식, 데이터 파일 등 증빙이 가능해야 하며, 이에 대한 확인이 이루어지지 않거나 라이센스가 저작권 침해 등 법적 문제가 있는 경우 실격 처리됩니다.
🔹모든 데이터 증강 과정은 관련 코드와 함께 제출되어야합니다.
5) 추론 코드는 제시된 리소스 내에서 제한 시간 내 작동할 수 있어야함
🔹제한 시간 : 전체 평가 데이터셋(FSKU)에 대하여 4시간 30분(270분)을 초과할 수 없습니다. (샘플 당 약 30초 내 추론)
추론 시간은 운영진이 직접 추론 코드를 5번 실행하여 소요된 시간의 평균으로 측정합니다.
🔹추론 환경(리소스) [Runpod 링크]
GPU: RTX 4090 24GB VRAM
CPU: 6 vCPU 41GB RAM
DISK: 40GB
주요 환경: Python 3.10, CUDA 11.8, Pytorch 2.1.0, Ubuntu 22.04
🔹추론 코드 내에는 모델 입력을 위한 데이터 전처리, 모델 로드, 모델 추론, 최종 출력 생성의 모든 과정이 포함되어 있어야 합니다.
🔹추론 코드는 인터넷 연결이 차단된 오프라인 환경 서버에서 진행되며, 추론 과정에서 인터넷 통신 과정이 포함될 수 없습니다.
6) 추론 모델은 반드시 단일 LLM 모델이어야함
해당 기관에서 직접 배포하는 외부 데이터이고, 라이센스 사용 조건에 부합한다면 가능합니다.
답변 감사합니다!
huggingface같은곳에서 일반인이 mit 등 license-free에 public으로 공개한 데이터의 경우 사용 가능할까요?
라이센스가 적합하다면 사용 가능합니다.
RAG를 위한 PDF 전처리 과정도 제한시간 내에 들어가는건가요? 전처리하는 시간도 꽤 소요가 될 것으로 예상됩니다.
전처리는 자유롭게 구성하실 수 있습니다.
제한 시간 측정은 제출하신 추론 코드 실행 시간을 기준으로 합니다.
Deleted Comment
최종 답변과 관련하여 궁금한 점이 있습니다.
답변이 반드시 생성형 언어 모델(LLM)에 의해 직접 생성된 텍스트여야 하는 것으로 이해하고 있는데,
생성된 답변에 후처리나 필터링 과정을 추가하여 수정하거나 걸러낸 후에 최종적으로 제출하는 것도 허용되는지 확인 부탁드립니다.
즉, 답변 생성 직후 바로 제출해야 하는지, 아니면 생성 이후 필터링 등 추가 가공 과정이 포함되어도 괜찮은지 알고 싶습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요. 외부 데이터 관련하여 질문이 있습니다.
'국가법령정보센터' 등 정부 기관에서 법령 문서와 같은 공공데이터 등을 직접 다운로드 받아 파싱하여 활용하는 것은 가능한가요? 아니면 이또한 '활용 불가능한 직접 수집한 데이터'로 취급되나요?