심장 질환 예측 AI 해커톤

알고리즘 | 정형 | 분류 | 질병 | Macro f1 score

  • moneyIcon 상금 : 참가시 최소 50 XP, 특별상 데이콘 후드
  • 564명 마감

 

[공지] Data Leakage 부정행위 관련 안내

2021.12.30 12:12 1,207 조회

안녕하세요 데이콘입니다.

 

 

데이콘 Basic. 심장 질환 예측 경진대회가 종료되었습니다.

지난 2 주간 참가자 모두 치열한 노력과 학습의 결과에 존경을 표합니다. 감사합니다.

 

코드 검증 과정 Data Leakage 사례들이 다수 발생하여 공지 드립니다.

데이콘 Basic경진대회는 아래의 사항들을 부정행위로 간주합니다.

  • 주어진 학습 데이터(train.csv) 이외의 데이터를 학습에 사용
  • 테스트 데이터(test.csv)를 학습에 사용 (* 제출 파일 생성에만 사용해주세요)
  • 외부에 공개된 원본 데이터를 사용
  • 사전 학습(pretrained) 모델 사용

위 사항들 중 "테스트 데이터(test.csv)를 학습에 사용" 사항에 대한 위반 사례들이 다수 발생하였습니다.

데이콘은 다음 예시들을 "테스트 데이터(test.csv)를 학습에 사용" 으로 판단합니다.

  • Label Encoding 시 학습 데이터와 테스트 데이터를 concat 하여 한꺼번에 인코딩 하는 경우
  • scaler 사용 시 테스트 데이터의 통계 (평균,최빈값 등)를 사용하는 경우

 

학습 과정 중 어떠한 경우에도 테스트 데이터의 정보가 사용되어서는 안됩니다.

만일 학습 데이터(train.csv)에 label encoding 혹은 scaling 을 사용했다면 학습 데이터(train.csv)로 학습된 encoder 혹은 scaler를 사용하여 테스트 데이터를 encoding 혹은 scaling 하여야 합니다.

 

실생활에 인공지능이 적용되는 것처럼, 경진대회에서 또한 테스트 데이터를 한번에 한 샘플 씩 예측, 분석 하는 것으로 생각해주시면 감사하겠습니다.

 

언제나 공정한 경진대회 운영을 위해 노력하는 데이콘이 되겠습니다.

 


감사합니다.

데이콘 드림.



이전 글
이전 글이 존재하지 않습니다.
현재 글
[공지] Data Leakage 부정행위 관련 안내
대회 - 심장 질환 예측 AI 해커톤
좋아요 0
조회 1,207
댓글 0
2년 전
다음 글
[공지] Private 리더보드 수상자 및 코드공유 특별상 수상자 발표
대회 - 심장 질환 예측 AI 해커톤
좋아요 0
조회 827
댓글 0
2년 전