분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
KNOW 기반 직업 추천 알고리즘 경진대회
Data leakage 문의
테스트셋에 나이나 임금과 같은 값이 결측치가 있을 경우,
1) 트레인셋의 통계치를 이용하여 테스트셋 결측치 대체
2) 테스트셋의 통계치를 이용하여 테스트셋 결측치 대체
위 1번과 2번의 방법이 가능한지 궁금합니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
1번의 경우 train set만의 통계치를 활용하는 것은 문제가 되지 않습니다. 하지만, 2번의 경우 우리가 알 수 없는 데이터인 테스트 데이터를 활용한 것이기 때문에 Data Leakage에 해당합니다.