HAI(하이)! - Hecto AI Challenge : 2025 하반기 헥토 채용 AI 경진대회

혹시나 싶은 마음에 여쭤봅니다 (data leakage 우려)

2026.01.19 03:38 1,298 조회

현재 리더보드 상위권 분들의 score가 비정상적으로 높은 것 같은데,

설마 주어진 test data 중 일부를 학습시킬때 그대로 사용하거나 validation으로 사용해서 튜닝시키지 않고도 그 정도로 높은 score가 나올 수 있는건가요?


물론 그렇게 점수를 얻었다면 공개된 test data에 오버핏되어서 private 스코어가 많이 깎이긴 하겠지만요...


제 노파심에는 이번 대회가 외부 데이터를 이용해서 학습을 할 수 있는 만큼 외부 데이터만을 통해서 학습하고 주어진 테스트 데이터를 학습이나 튜닝할때, 즉 train이나 validation으로 포함시키면 안될텐데, 기존 내부 데이터 이용하는 여타 대회처럼 그대로 학습할때 적용시키는 (고의이든, 실수이든) 분들이 계실 수 있을 것 같아 글 남겨보게 되었습니다.


만약 대회에 사용되는 public, private 데이터가 미리 구축해둔 일부 raw real image에 대하여 단순 augmentation으로 샘플수를 늘리고 딥페이크 방법을 적용해서 만든 AIGC를 포함시켜 전체 데이터셋을 만든 다음 단순히 랜덤하게 public, private로 쪼갠거라면 public과 private의 distribution이 어느정도 비슷하게 될텐데,

주최측에서 이런점을 염두하여 공개되지 않은 private 데이터셋을 현재 제공된 test data (public data)와 distribution을 다르게 했는지, 아니면 궁금해집니다.


만약 그러지 않았다면 공개된 test data를 모델을 학습하거나 튜닝시킬때 사용하게되면 general한 의미의 '데이터 분석'에서는 과적합 시키는 방법이라 올바른 방법은 아니지만 이 대회만 고려했을때는 public, private 모두 자명하게 성능을 올릴 수 있는 방법이 되니 부당한 점이 있다고 생각이 드는 것 같네요...


test data를 보면서 인사이트를 얻어 그것을 반영해서 모델을 구축하는 것까지는 그것까지 track하기 어렵고 test data가 공개되어있는만큼 어쩔 수 없어 허용한다고 하더라도,

제출된 최종코드를 확인하고 reproduce하는 과정에서 공개된 public data를 train 혹은 validation으로 사용한 흔적이 있으면 실격처리해야하는게 옳다고 생각이 듭니다. 2차평가 때는 평가기준에도 공개되어있는만큼 당연히 이러한 점을 고려할 것으로 예상되지만, 2차평가 대상자를 추출하는 과정에서 단순히 스코어 metric 결과만을 바탕으로 진행될 경우 test data를 train이나 validation에 포함시킨 제출물을 필터링할 수 없을 것 같아 주제넘게도 한번 의견 남겨보게 되었습니다..

로그인이 필요합니다
0 / 1000
김준석세스
2026.01.19 16:23

옳소

kjm0925
2026.01.19 22:25

동의합니다, 현재 높은 점수의 모델들이 어떤 데이터를 사용하였는지는 확인 불가하지만 작성자님의 말대로라면 대회 의미의 본질이 흐려진다고 생각합니다.

LEXXSH
2026.01.20 20:37

아직 실험은 다하지 않았지만, PB 기준 95점까지는 우려하시는 내용 포함하지 않고 점수가 나옵니다. 
99점은 정확하게 어떠한 방법론인지는 모르겠으나, 이점 참고하셨으면 좋겠습니다.

cksxoo
2026.01.21 08:11

저도 파인튜닝 없이 현재 PB 0.9+ 나왔습니다. test data는 inference에만 사용했고, 학습이나 validation에는 전혀 사용하지 않았습니다.

wang-wei
2026.01.26 04:16

다들 그정도는 피해가실 것 같긴한데... test에서 쓰인 방법론을 찾는다던가, 뭐든 특정 통계치를 찾는다던가 하는 방식으로 얼마든지 우회하면서 성능을 높일 수는 있겠져...

근데 진짜 아쉬운 점은 다른 플랫폼에서 열린 아주 많이 유사한 대회에서는 룰에 대한 세미나를 다회 개최할 정도로 구체적으로 주어졌었고, 나아가 code 자체를 제출하면 원격에서 infer하는 방식으로 testset 자체를 숨겼는데, 이번 대회는 그 이후에 치러졌음에도 뭔가의 레슨런이 없었나.. 하는 아쉬움은 있습니다.

csv 제출하는 방식의 한계가 계속 드러나고 있는데 언제 개선해주실 것인지도 궁금...

일반적인 플랫폼이 아니라 돈 걸고 다들 시간걸고 하는 대회인데, 고민했던 문제다. 혹은 리소스가 부족해서 infer된것만을 제출해야한다 등등 이런 입장을 내주시면 너무너무 감사하겠습니다. 계속 이런 좋은 글엔 뭔가 답이 없으시길래... 좋은 CS는 아닌 것 같다는 생각입니다

DACON.GM
2026.01.26 09:29

데이콘은 클라우드 기반 평가 시스템을 보유하고 있으나, 대회 운영 방식은 주최/주관 기관과 협의된 운영 범위 및 진행 방식에 따라 결정됩니다.
우려하신 부정 행위에 대한 내용은 코드 검증 과정에서 제출 코드 기반으로 재학습부터 결과 재현까지 전수 검증하며, 재현 불가 또는 규정 위반 시 실격 처리됩니다.

wang-wei
2026.01.26 09:40

답변 감사합니다. 하지만 사실 그런 원론적인 답변이 뭔가의 해결책이 되기 어려운 것은 사실입니다.

이러한 상황 자체를 미연에 방지하지 않으면 결국 public 상위권은 어뷰저가 모두 차지하게 되는데요. 그렇게 되면 자연스레 참여하고자 하는 사람들의 의지를 꺾고 Dacon의 위상 자체도 떨어지기 마련이라고 생각합니다. 언젠간 인식이 그렇게 자리한다면, resume에도 쓰기 민망한 대회의 입상 경력이 되어버릴 수도 있지 않을까요?
물론 Dacon 입장에서도 B2B 사업을 영위해야하니, 고객사의 요구사항에 맞춰서 진행 하겠지만 근본적으로 발생하는 문제를 방치하는 것 역시 개선이 필요한 지점이라고 느껴집니다.. 

우리 세대를 관통하는 공통적인 키워드는 "공정"입니다. 타사 대회에서 자체 서버로 inference를 하느라 큐에 쌓여 답답해하는 사람들이 많았음에도 그 결과에 대해서 본 대회처럼 불복하는 사례는 찾기 힘든 만큼 대회를 주최하는 측에서 '대회'라고 한다면 어떤 것이 중요한 가치인지 잘 판단해주십사~ 글을 남겨 둡니다