DASCHOOL Heart Disease Prediction AI Hackathon

Algorithm | Structured | Classification | Disease | Macro f1 score

  • moneyIcon 참가시 최소 50 XP, 특별상 데이콘 후드
  • 602 Users Completed

 

테스트 데이터 이상치

2021.12.15 10:07 1,667 Views

학습 데이터와 테스트 데이터 설명을 보면 다음과 같이 CA 컬럼에 대한 설명이 있습니다.

  • ca: number of major vessels colored by flouroscopy 형광 투시로 확인된 주요 혈관 수 (0~3 개)

그러나 테스트 데이터를 확인하면 숫자 4라는 데이터가 다수 존재하는데 이건 의도된 건가요? (학습 데이터에서는 발견되진 않았습니다.)


Login Required
0 / 1000
DACONIO
2021.12.21 14:47

안녕하세요 5252 님

먼저 대회에 관심을 가지고 참여해주셔서 감사드립니다.

CA 컬럼의 숫자 4는 원본 데이터(Heart Disease UCI - Cleveland dataset)의 CA 컬럼의 Null 값을 변환한 값입니다.
하지만 이 값들이 모두 테스트 데이터에만 포함된 것은 의도한 바가 아닌 우연의 결과입니다.

데이터 상세 설명을 자세히 작성하지 않은 점, 대단히 죄송합니다.
즉시 설명을 수정한 뒤 해당 사항을 공지하겠습니다.

감사합니다.
데이콘 드림.