데이스쿨 할인 리턴즈
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
테스트 데이터 이상치
학습 데이터와 테스트 데이터 설명을 보면 다음과 같이 CA 컬럼에 대한 설명이 있습니다.
그러나 테스트 데이터를 확인하면 숫자 4라는 데이터가 다수 존재하는데 이건 의도된 건가요? (학습 데이터에서는 발견되진 않았습니다.)
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 5252 님
먼저 대회에 관심을 가지고 참여해주셔서 감사드립니다.
CA 컬럼의 숫자 4는 원본 데이터(Heart Disease UCI - Cleveland dataset)의 CA 컬럼의 Null 값을 변환한 값입니다.
하지만 이 값들이 모두 테스트 데이터에만 포함된 것은 의도한 바가 아닌 우연의 결과입니다.
데이터 상세 설명을 자세히 작성하지 않은 점, 대단히 죄송합니다.
즉시 설명을 수정한 뒤 해당 사항을 공지하겠습니다.
감사합니다.
데이콘 드림.