public score의 평가 데이터 셋에 대해 문의 드립니다.

2025 자동차 데이터 분석 경진대회 : GPT를 활용한 뉴스클리핑 만들기

pythonstart

2025.09.10 23:56 1,106 Views

넓은 의견으로 아래 내용을 참고해 주시면 좋겠습니다.

추후에 이 부분이 의견이 일리가 있다면 추후에 같은 대회를 하실 때는 개선해 주시면 어떨까 하고 글을 남겨봅니다.

그리고 답변이 가능한 부분은 답변을 주시면 감사할 듯 합니다.

같은 프롬프트를 어떤 날 제출하면 0.95 나오고, 어떤 날은 0.91이 나오고..

나름 프롬프트가 다듬어진 것이 맞는데..

이게 매번 달라지면, 매일의 데이터 셋의 운에 따라 등수가 결정된다는 오해가 생길 수 있습니다.

높은 점수가 나온 것에 대해 2번 정도 같은 프롬프트를 다른 날에 테스트를 해 봤는데..

그리고 같은 시스템 프롬프트가 이렇게 데이터에 따라 달라진다면 이는 조금 시스템 프롬프트의 일관성을 제대로 평가할 수 있는지 의문이 듭니다.

물론 시스템 프롬프트가 정밀하지 않다고 생각할 수 있을 수 있습니다.

다만, 하나 질문을 드리면,

(1) 데이터를 sample.csv에서 있는 데이터를 기준으로 랜덤하게 데이터를 가지고 와서 판정해서 하는 것이 맞을까요?

아니면 다른 데이터 셋을 생성해서 해당 데이터에서 랜덤하게 뽑아서 하는 것일까요?

이 경우에 0,1을 기준이 샘플 데이터 셋을 분류한 내용의 기준과 조금 달라지는데,

이 경우 데이터가 적기 때문에 그 기준의 차이가 커질 수 있습니다.

sample.csv와 달라지므로 시스템 프롬프트에 대한 일관성 있는 평가가 가능할까요? 의문이 생깁니다.

(2) sample.csv가 비슷한 기준으로 뽑은 데이터의 일부라고 생각해야 하는 것일까요? 그 기준은 어떤 기준일까요?

그 기준이 46개이고, 남은 몇개의 데이터라고 가정한다면, 편향된 데이터 셋이 될 수 있다는 가정도 있을 수 있습니다.

작은 의견을 드리면,

개인적으로 시스템 프롬프트가 매일 매일 점수가 달라지는 것은 데이터가 너무 적기 때문에 발생하는 것이 아닐까 생각해 봅니다.

개인적으로 일관성 있는 평가를 하기에는 46개의 샘플은 너무 작은 데이터 셋이 아닐까요?

46개 샘플은 너무 적은 데이터가 될 수 있는데. 어떻게 생각하시는지..ㅠㅠ

이렇게 데이터가 적을 경우, 평가하는 날의 랜덤한 데이터 셋이 좋은 날, 성적이 좋은,

운에 따른.. 평가가 이루지기에 시스템 프롬프트의 정확한 평가가 이루어질 수 있을지. 의문을 가져봅니다.

이를 돌파해야 시스템 프롬프트를 작성해야 하는 것일까요? 그렇기에는 조금 데이터 셋이 작은 것이 아닐까요?.

이 부분에 대해서 대회 운영자분들의 데이터 셋에 대한 좀 더 추가적인 설명을 주시면,

좀 더 대회가 높은 수준의 대회로 성장할 수 있지 않을까 하고 생각해 봅니다.

정말 감사할 것 같습니다.

4 Comments

comment

0 / 1000

황자운

2025.09.11 01:10

Deleted Comment

NAJUNGHWAN

2025.09.11 14:38

Deleted Comment

DACON.GM

2025.09.11 09:37

sample.csv는 참가자 여러분들이 프롬프트를 구성하실 때 활용할 수 있는 예시 데이터입니다.
실제 평가 데이터 샘플은 sample.csv가 아닌 비공개된 다른 샘플들도 평가되며, sample.csv의 46개보다 많습니다. 또한 평가 데이터는 모든 참가자가 동일한 샘플과 개수로 평가됩니다.
대회 안내 사항을 다시 한번 확인하시길 바랍니다.

pythonstart

2025.09.14 21:33

네 감사합니다. 참고하겠습니다.

📣 The comment input field has been moved to the top of the comment list!

List

[LG Aimers 7기 최종 3위 LGBestModel 팀] 수상자 인터뷰

Competition - 식음업장 메뉴 수요 예측 AI 오프라인 해커톤

Current