분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Data leakage 문의
테스트셋에 나이나 임금과 같은 값이 결측치가 있을 경우,
1) 트레인셋의 통계치를 이용하여 테스트셋 결측치 대체
2) 테스트셋의 통계치를 이용하여 테스트셋 결측치 대체
위 1번과 2번의 방법이 가능한지 궁금합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
1번의 경우 train set만의 통계치를 활용하는 것은 문제가 되지 않습니다. 하지만, 2번의 경우 우리가 알 수 없는 데이터인 테스트 데이터를 활용한 것이기 때문에 Data Leakage에 해당합니다.