HAI(하이)! - Hecto AI Challenge : 2025 상반기 헥토 채용 AI 경진대회

채용 | 알고리즘 | 헥토 | 비전 | 분류

  • moneyIcon 상금 : 2,600만원
  • 1,414명 마감

 

Data Leakage 문의

2025.06.04 20:58 909 조회

테스트셋에만 반으로 짤린 이미지가 있는 것 같은데, 이러한 정보를 알고 트레이닝 셋에도 반으로 자르는 augmentation을 활용하면 Data Leakage에 해당하나요?

로그인이 필요합니다
0 / 1000
zzuniie
2025.06.05 19:24

여러 가능성을 염두에 두고 증강을 한다는 관점에선 아닐 거 같은데 이미 알고 진행한다는 건 모르겠네요..

다냐니라
2025.06.05 23:24

이 부분에 대해 문의를 했고, 답변은 리키지 가능성이 있지만, 종합적인걸 보고 판단한다고 하네요.

이전 돌맹이 분류관련해서 상위권 분들이 대부분 test데이터를 보고 이미지 줌이 되어있는 상태를 보고 증강을 해놓은게 있어서 데이콘 측에서 어떻게 판단하는지 보면되겠네요.

사실 생각해보면 테스트데이터를 미리 보고 진행했어도, 실험적으로 알아낸거다라고 하면 잡을 방법이 없다고 생각합니다.

DACON.GM
2025.06.12 11:00

본 대회는 테스트셋 Input이 제공되는 구조적 특성을 인정하며,  
특히 비전 분야의 경우 참가자가 이를 직접 관찰하게 되는 것은 불가피할 수 있다고 판단합니다.

이에 따라 참가자가 적용한 학습 전략(증강 등)은  
2차 평가(발표 및 질의응답)를 통해 전략의 설계 배경, 정당성, 설명 수준 등을 종합적으로 평가합니다.

다만, 아래와 같은 경우에는 검증 미통과로 판단될 수 있습니다.
- 테스트셋에서만 나타나는 특성을 모방하거나 대응하기 위해 별도로 구현된,  일반적으로 사용되지 않는 기법 또는 로직이 사용되었고,  그 목적과 정황이 명확하게 확인되는 경우

반면,  crop, flip 등 비전 분야에서 일반적으로 사용되는 증강 기법이나 모델 설계 내 범용적인 조정이며,  
해당 전략이 학습 데이터 전반에도 적용 가능한 수준이라면  실격 대상은 아니며, 필요 시 정성 평가에서 감점 형태로 반영될 수 있습니다.