KNOW 기반 직업 추천 알고리즘 경진대회

알고리즘 | 정형 | 분류 | 추천 | Macro f1 score

  • moneyIcon 상금 : 총 1,000만원
  • 1,167명 마감

 

Data leakage 문의

2022.01.15 16:46 2,915 조회

테스트셋에 나이나 임금과 같은 값이 결측치가 있을 경우,

1) 트레인셋의 통계치를 이용하여 테스트셋 결측치 대체

2) 테스트셋의 통계치를 이용하여 테스트셋 결측치 대체

위 1번과 2번의 방법이 가능한지 궁금합니다.

로그인이 필요합니다
0 / 1000
장어
2022.01.15 22:37

1번의 경우 train set만의 통계치를 활용하는 것은 문제가 되지 않습니다. 하지만, 2번의 경우 우리가 알 수 없는 데이터인 테스트 데이터를 활용한 것이기 때문에 Data Leakage에 해당합니다. 

이전 글
어떤 모델을 사용하고 계신가요??
대회 - KNOW 기반 직업 추천 알고리즘 경진대회
좋아요 16
조회 3,384
댓글 2
3년 전
현재 글
Data leakage 문의
대회 - KNOW 기반 직업 추천 알고리즘 경진대회
좋아요 9
조회 2,915
댓글 1
3년 전
다음 글
다음 글이 존재하지 않습니다.