Track2: 프롬프트 엔지니어링 <K intelligence 해커톤 2025>

Track2 | 채용 | KT | K intelligence | GPT4o 기반 Custom 모델(beta) | LLM | 프롬프트 엔지니어링

제출

재현성 관련 질문

2025.09.09 00:08 913 조회

대회 진행 중 동일한 프롬프트로 제출했음에도 불구하고 점수가 과도하게 다르게 산출되는 현상을 확인하였습니다. (± 0.01)

이러한 점수 변동은 순위에 직접적인 영향을 줄 정도로 큰 차이를 보이고 있습니다.

대회 규정에 따르면

이라고 명시되어 있으나, 이번 대회는 노코드 방식으로 진행되어 결과 재현성을 보장하기 어려운 상황입니다.

이에 따라, 본선 진출자는 어떤 기준과 절차를 통해 선발되는지 확인 부탁드립니다.

+) 업데이트 이전에는 어느 정도 재현성이 보장되는 것처럼 보였는데, 이후에는 재현성을 확보하기가 쉽지 않은 것 같습니다. 개인적인 경험상 그렇게 느껴지고 있습니다.

로그인이 필요합니다

comment

0 / 1000

코코아두유

2025.09.09 00:25

아마 온도의 영향이지 않을까요..너무 어렵네요

과적합방지위원회

2025.09.09 00:43

네네 아마 그 영향이지 않을까 싶습니다. 그래서 정확한 본선 진출 재현성을 어떤 방식으로 확인되는지에 대해 여쭤본 것입니다. 화이팅입니다!

DACON.GM

2025.09.09 14:39

LLM의 특성상 동일한 프롬프트 제출물에도 다른 결과(점수)가 도출 될 수 있으며, 본 해커톤에서는 제출 시 기록된 리더보드 점수만을 인정합니다.

shkim3456

2025.09.10 20:24

temperature의 영향을 고려했을 때, 동일한 테스트셋에 대하여 여러번 추론하여 평균 내는 방식을 활용하는 것이 좋을 것 같습니다.

현재 글

재현성 관련 질문

대회 - Track2: 프롬프트 엔지니어링 <K intelligence 해커톤 2025>

9달 전