DASCHOOL 할인 리턴즈
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
테스트 데이터 이상치
학습 데이터와 테스트 데이터 설명을 보면 다음과 같이 CA 컬럼에 대한 설명이 있습니다.
그러나 테스트 데이터를 확인하면 숫자 4라는 데이터가 다수 존재하는데 이건 의도된 건가요? (학습 데이터에서는 발견되진 않았습니다.)
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 5252 님
먼저 대회에 관심을 가지고 참여해주셔서 감사드립니다.
CA 컬럼의 숫자 4는 원본 데이터(Heart Disease UCI - Cleveland dataset)의 CA 컬럼의 Null 값을 변환한 값입니다.
하지만 이 값들이 모두 테스트 데이터에만 포함된 것은 의도한 바가 아닌 우연의 결과입니다.
데이터 상세 설명을 자세히 작성하지 않은 점, 대단히 죄송합니다.
즉시 설명을 수정한 뒤 해당 사항을 공지하겠습니다.
감사합니다.
데이콘 드림.