운수종사자 인지적 특성 데이터를 활용한 교통사고 위험 예측 AI 경진대회

리키지 관련 문의드립니다

2025.10.30 02:53 756 조회

안녕하세요. 피처 생성 과정에서 리키지 여부에 대해 확인드리고 싶습니다.

예를 들어, test 데이터 전체에서 특정 변수(예: PrimaryKey 기준 count 등 통계값) 를 계산해 사용하는 경우,

저는 리키지에 해당한다고 생각하는데 맞을까요?

또한, 이런 부분들은 코드 검증 단계에서 엄격하게 확인되는지 궁금합니다.

감사합니다.

로그인이 필요합니다
0 / 1000
X-Coder
2025.11.07 00:09

삭제된 댓글입니다

NAJUNGHWAN
2025.10.30 08:40

명백한 리키지라고 생각됩니다. 
서버에서 교체되는 test 데이터셋은 정답 라벨이 없지만,
primarykey_count 같은 통계를 test 데이터셋 상에서 계산해 모델에 반영하면 심각한 리키지가 발생하고 score에 막대한 영향을 줄 수 있습니다.
이는 대회 의도와 완전히 상반되는 행위입니다.
관련 규정이 없다면 데이콘 측에서 신속히 검토 부탁드리며, 경우에 따라서는 리더보드 리셋도 필요한 사항이라 생각됩니다.

kaggle 대회에서는 종종 이런 케이스를 online learning이라고 하여 리더보드를 리셋하고 시스템적으로 보강한 후 대회 기간을 늘리는 것으로 알고 있습니다.
  

신약보단마약이지
2025.10.30 09:09

아주 좋은 질문을 해주셨네요. 이번 대회에 관련 규칙이 없어서 좀 의아했습니다. 
script.py에서 test 전체에 대한 통계 분포도를 활용해서 모델 예측이 가능하기 때문에.... TTT 가 되어버리는 ,,,
따봉 박고 갑니다

DACON.GM
2025.10.30 09:14

관련 규정은 “코드 제출 기능을 악용한 평가 데이터셋 유출 등의 사항이 발견되는 경우 실격에 해당합니다.”로 명시되어 있습니다.
다만, 본 대회는 코드 제출 기능을 통해 평가 데이터셋이 직접적으로 제공되지 않습니다.

따라서 검증 단계에서는 평가 데이터셋의 샘플 수를 분할하거나, 분할 여부에 따른 성능 변동을 점검하는 등 다양한 방식으로 수상 후보자의 모델들을 검증합니다.
이러한 검증 결과를 종합적으로 판단하여 평가 데이터셋 유출로 인한 부당 이득을 취했음이 발견되는 경우에는 최대 실격에 해당할 수 있습니다.

NAJUNGHWAN
2025.10.30 09:16

빠른 답변 감사합니다.

신동운
2025.11.13 20:46

분할 여부는 중요할 것 같지가 않습니다. Primary_key 가 앙상블 학습 중에서, SHAP 상으로 큰 이득을 가져오는 게 일관되게 확인되는데, 피처 자체에 데이터 누수가 있음을 알리는 강력한 신호 같습니다. 

REDBULL_VER
2025.10.30 09:50

많은 의견과 답변 감사드립니다!! 모두 대회 끝까지 파이팅해요~!!