Infertility Patient Pregnancy Success Prediction AI Online Hackathon

LG Aimers | Recurit | Algorithm | Medical | Bio | Tabular | Classification | ROC-AUC

  • moneyIcon Prize : Final Stage
  • 1,568 Users Completed
Closed

 

[Remind] 온라인 해커톤 규칙 위반 및 Data Leakage 관련 안내

2025.02.21 10:54 1,823 Views

안녕하세요, LG Aimers 6기 온라인 해커톤 참가자 여러분.

온라인 해커톤(Phase 2)이 이제 약 6일 남았습니다. 그동안 보여주신 Aimers 여러분의 열정과 노고에 깊이 감사드리며, 남은 기간 동안 최상의 결과를 얻으시길 응원합니다.

이번 공지 사항을 통해 해커톤 규칙과 관련된 주요 사항을 다시 한번 안내드립니다.

모든 참가자께서는 아래 내용을 숙지하시어 불이익이 발생하지 않도록 유의해 주시기 바랍니다.




1) 해커톤 규칙 위반 관련 안내

현재까지 해커톤 기간 중 규칙 위반 사항이 확인된 1개 팀이 실격 처리되었으며, 이에 따라 LG Aimers 미수료 및 향후 참가 제한의 패널티가 부여되었습니다.

해커톤 진행 중 비정상적인 제출이 감지될 경우, 운영진은 해당 제출물에 대한 소명 자료를 요청할 수 있습니다. 요청에 응하지 않거나 소명이 불가능한 경우 규칙 위반(치팅)으로 간주되며, 이에 따른 패널티가 부과될 수 있습니다.

또한, 오프라인 해커톤(Phase 3) 진출자 선발 과정에는 후보 팀들의 코드 검증 절차를 거쳐 규칙 위반 여부와 Private Score의 재현성(제출한 코드로부터 재학습 후 추론)을 확인하며, 이 과정에서 악의적이고 명백한 규칙 위반이 적발될 경우 실격 및 향후 참가 제한이 적용될 예정입니다.

Aimers 여러분께서는 반드시 규칙을 다시 한번 점검하시어, 불이익을 받는 일이 없도록 주의해 주시기 바랍니다.




2) Data Leakage 관련 유의 사항

리더보드 제출을 위해 추론에 사용될 테스트 입력 데이터가 사전에 제공됩니다. 하지만 실제 모델 배포 및 서비스 환경에서는 테스트 데이터의 개수나 특성을 사전에 알 수 없습니다. 따라서, 해커톤 진행 시에도 테스트 데이터를 전혀 알 수 없고, 볼 수 없다는 전제하에 진행해야 합니다.


Data Leakage에 해당하는 대표적 사례

  • Label Encoding 시 테스트 데이터로부터 Encoder를 fit하는 경우
  • Scaler 사용 시 테스트 데이터로부터 Scaler를 fit하는 경우
  • 테스트 데이터의 통계 정보(평균, 최빈값 등)를 활용하여 결측치를 보간하는 경우
  • 파생 변수 생성 시 2개 이상의 테스트 데이터 정보를 활용하는 경우
  • 테스트 데이터의 이동 평균을 활용하는 경우
  • 테스트 데이터를 모델 학습에 활용하는 경우
  • 테스트 데이터에 pandas.get_dummies() 함수를 적용하는 경우
  • 테스트 데이터의 index 정보 또는 row 개수 정보를 활용하는 경우
  • EDA를 통해 도출한 테스트 데이터의 인사이트를 전처리 또는 모델 학습에 반영하는 경우
  • 그 외 테스트 데이터 정보를 모델 학습에 활용하는 모든 경우


Data Leakage에 해당하지 않는 대표적 사례

  • 독립적인 샘플(행(row)) 내에서의 모든 연산 및 파생 변수 생성
  • 예: Test['C'] = Test['A'] + Test['B']
  • Train 데이터의 통계 정보를 기반으로 테스트 데이터를 전처리하는 경우
  • Train 데이터의 통계를 활용하여 테스트 데이터의 결측치를 보간하는 경우


위 내용을 반드시 준수하여 규칙 위반으로 인한 불이익이 발생하지 않도록 주의해 주시기 바라며, 진행 시 Data Leakage에 대한 판단이 어려운 경우 데이콘 운영진 문의를 적극적으로 활용해주시기를 권장드립니다.

문의는 해커톤 페이지 내 [토크]탭 또는 dacon@dacon.io 공식 메일을 통해 가능합니다.




3) 외부 데이터 및 사전 학습 모델 관련 규칙

  • 외부 데이터 사용은 금지됩니다.
  • 법적 제약이 없으며 논문을 통해 공개된 사전 학습 모델(Pre-trained Model)은 사용 가능합니다.




4) 주요 규칙 관련 유의 사항

  1. 테스트 데이터 정보를 활용한 전처리 및 모델 학습(Data Leakage) 적발 시, 오프라인 해커톤(Phase 3) 진출 불가
  2. 모든 학습 및 추론 과정은 정상적인 코드로 이루어져야 하며, 비정상적인 방법으로 얻은 제출물은 규칙 위반으로 간주됨
  3. 오프라인 해커톤(Phase 3) 진출자는 Public 리더보드 점수가 아닌 Private 리더보드 점수를 기준으로 선발됨
  • Public 리더보드는 전체 테스트 데이터 중 50%에 대해 채점된 결과
  • Private 리더보드는 전체 테스트 데이터(100%)로 채점됨

따라서 Public 리더보드의 점수는 참고용으로 활용하시고, Private 리더보드 점수를 고려하여 최적의 모델을 개발해 주시기 바랍니다.



LG Aimers 6기 온라인 해커톤에 참가하는 모든 분들이 공정한 경쟁 속에서 최상의 결과를 얻을 수 있도록 운영진 또한 최선을 다해 지원하겠습니다.

다시 한번, 규칙을 철저히 준수하여 불이익을 받는 일이 없도록 주의해 주시기 바라며, 남은 기간 동안 의미 있는 성과를 이루시길 바랍니다.

감사합니다.