데이콘 x BDA 제 2회 학습자 수료 예측 AI 경진대회

[DACON 답변 요청] Data leakage 관련 문의

2026.03.16 12:38 150 조회

안녕하세요, 이번 대회에 참여했던 knowin_kyeong입니다.


먼저 좋은 대회 열어 주셔서 감사합니다.


다름이 아니고, 대회가 종료된 후 배움을 위해 수상자들의 코드를 보던 중 1등 분의 코드에서 다음 로직을 발견했습니다.


"Test data inference 결과의 상위/하위 n% 결과를 threshold로 잡아 그 기준에 따라 1/0으로 조정하는 후처리"


저희 팀도 이 방법을 고민하였지만 Test data를 볼 수 없는 것처럼 대회를 치려야 한다는 관련 규칙에 위반될까 봐 비율 기반 threshold를 포기하고 oof에서 얻은 fixes threshold를 사용하였는데 혹시 위 방법이 Data leakage로 저촉되지 않는지 궁금하여 게시글을 작성하였습니다.


(아마 Dacon에서 진행한 다른 이전 대회에서 비슷한 issue가 생겨서 더 걱정했던 것 같습니다..)


항상 다양한 대회를 통해 여러모로 많은 것을 배울 수 있어서 감사합니다.

PDF
로그인이 필요합니다
0 / 1000
DACON.GM
2026.03.16 13:51

안녕하세요. 문의 주셔서 감사합니다.
우선 Data Leakage의 범위는 해석에 따라 다소 다르게 받아들여질 수 있어, 이전 여러 대회에서도 이와 유사한 사례를 두고 다양한 논의가 있었습니다. 
다만 본 대회의 운영상 판단은 개별 해석보다는 해당 대회의 규칙과, 평가용 test data를 어떤 방식으로 활용했는지를 기준으로 이루어집니다.

문의 주신 사례는 테스트 데이터의 정답이나 외부 정보를 활용한 것이 아니라, 테스트 입력 데이터에 대한 예측값 분포를 바탕으로 threshold를 조정하는 후처리에 해당합니다. 이는 test data를 이용해 모델을 다시 학습하거나, pseudo labeling 등으로 추가 최적화에 반영하는 방식과는 구분됩니다. 즉, test data를 활용해 모델 자체를 보정·재학습하는 행위는 허용되지 않지만, 본 사례는 그러한 유형에는 해당하지 않는 것으로 판단하였습니다.

다만 이러한 방식은 일반적인 의미의 모델 일반화 성능만으로 평가받는 접근이라기보다, 평가 대상 데이터의 분포에 일부 적응하는 후처리 성격에 더 가깝다고 볼 수 있습니다. 따라서 Public Leaderboard 기준으로는 일정 부분 유효해 보일 수 있으나, 최종 순위가 Private Leaderboard로 결정되는 환경에서는 오히려 리스크가 수반될 수 있는 방법이기도 합니다.

아대회그만해야하는데너무재미있네진짜하
2026.03.16 15:32

삭제된 댓글입니다

knowin_kyeong
2026.03.16 17:22

https://dacon.io/competitions/official/235930/talkboard/406506?page=1&dtype=recent

다른 대회에서 이러한 논의가 있어서 헷갈렸는데, 대회 규칙이 약간 달랐었네요!

답변 감사합니다.