분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2025 금융 AI Challenge : 금융 AI 모델 경쟁
추론 시간 측정 범위 및 재현성 평가 환경에 대한 문의드립니다.
안녕하세요.
대회 규정 관련하여 두 가지 문의드릴 사항이 있습니다.
1. 추론 시간 측정 범위 관련
검색 증강 생성(RAG) 방식 관련하여 전체 추론 과정을 다음과 같이 구성했습니다.
1. 준비된 문서를 인덱싱하는 과정
2. 사용자 질문을 임베딩 모델로 벡터화하는 시간
3. 미리 구축된 인덱스에서 관련 문서를 검색(Retrieval)하는 시간
4. 검색된 문서와 질문을 LLM에 입력하여 최종 답변을 생성하는 시간
규정상 추론 시간에는 1번 과정의 소요 시간이 포함되는지,
아니면 구축된 인덱스를 모델에 활용한 모든 외부 데이터로 간주하여
inference.py에 2~4번 과정만을 구현하여 측정하면 되는지 명확한 가이드라인을 알려주시면 감사하겠습니다.
2. 결과 재현성(Reproducibility) 평가 환경 관련
시드(seed) 고정 등의 설정으로 단일 환경에서는 일관된 결과를 확인했으나,
GPU 종류 등 하드웨어 환경이 다를 경우 결과가 미세하게 달라질 수 있는 것으로 알고 있습니다.
이에 최종 평가 시 재현성 검증이 참가자가 제출한 환경 기준으로 이루어지는지,
아니면 주최 측의 특정 평가 환경에서 거의 동일한 결과가 재현되어야 하는지 안내 부탁드립니다.
바쁘시겠지만 확인 후 답변 부탁드립니다.
감사합니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
1.의 문의 내용은 추론 코드 작동시간을 측정합니다. 다만, 평가 데이터에 대한 전처리를 미리 진행할 수 없습니다. 이외에 학습단에서 사전 준비가 가능한 부분들은 미리 준비하여 추론 코드를 구성하시면 되겠습니다.
2.는 기본적으로 제시된 추론 환경에서 검증을 진행합니다. 원칙상 거의 동일한 결과가 재현되어야하지만, 개별환경에 대한 차이/LLM의 특성 등은 감안합니다. 그러나 감안하여도 재현의 결과에 오차범위가 큰 경우에는 개별 연락을 드려 추가 검증을 요청드릴 수 있습니다.