분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
test 데이터의 imputation에 관한 문의입니다.
train에서 학습한 model을 온전히 사용하기 위해서
test 데이터에 imputation 방법을 적용하여 결측값을 채운 후
prediction을 수행해도 대회 규정에서 허용하는 방안일까요?
사실상 test셋을 못보거나 계속 변경되는 상황에서도 test셋에 imputation에 대한 알고리즘은 미리
구성해 놀 수 있으니... 규정상으로는 어긋나지 않을것 같긴한데
확인 부탁드릴게요.
테스트 데이터 뭉치(set)에 대해 imputation을 실시해도 안된다는 의미인가요?
테스트 데이터 뭉치(set)에 대해 imputation(결측치 대체)을 실시해도 괜찮습니다.
다만 해당 과정에서 테스트 데이터 뭉치의 통계량의 사용은 금지되어 있습니다.
질문을 보다 구체적으로 작성해주시면 더 정확한 답변을 드릴 수 있을 것 같습니다.
categorical 결측치에 대해서는 logistic regresssion 방법을 이용하였습니다.
numerical 결측치에 대해서는 MICE방법을 이용하였습니다.
https://ichi.pro/ko/deiteo-seteueseo-gyeol-cheuggabs-eul-daechihaneun-mice-algolijeum-217004654686142
안녕하세요 brotherhoon88님,
train set으로 학습한 모델을 통해 test set의 결측치를 채우는 것은 문제되지 않습니다.
하지만 test set의 평균, 중앙값을 이용하거나 test set을 이용하여 학습한 모델로 결측치를 채우는 행위는 data leakage에 해당합니다.
감사합니다.
데이콘 드림
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 brotherhoon88 님
대회에 열정적으로 참여해주셔서 진심으로 감사드립니다.
네. test 데이터의 결측치에 대해 imputation 하여 prediction을 수행하셔도 괜찮습니다.
다만 imputation 방식에서 test 데이터의 통계량 사용은 규정 상 부정 행위(data leakage)에 해당되오니 주의해주시기 바랍니다.
데이콘 규정 상 test 데이터는 관측되지 않은 데이터이기에 각 샘플이 독립적으로 취급됩니다.
따라서 test 데이터셋의 평균값, 중앙값 등의 통계량을 사용하여 결측치를 채우는 행위는 부정행위로 분류됩니다.
이 점에 유의하시어 데이터 분석을 진행해주시기 바랍니다.
감사합니다.
데이콘 드림.