분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
HD현대 AI Challenge
데이터 leakage 관련 질문
train이나 test에 null값이 심한 칼람들이 있는데, 채워주는 방식을 regression 학습을 통한 추정값으로 채워주려고 합니다. test데이터 셋을 보지 않는다는 가정으로 함수를 만들었는데, 각 데이터 프레임을 넣었을 때 데이터 프레임에서 결측치 부분에 칼람을 뽑고 결측치를 제외한 부분으로 학습을 진행하고, 결측치 칼람들을 추정값으로, null값을 채워주는 함수를 만들었습니다. 이러면 train data set에 대한 학습과 (null)예측값, test data set에 대해서도 학습과 (null) 예측값을 각각 진행하게 되는데 이것도 데이터 리퀴지에 해당이 되나요?
방식은 함수 안에 어떤 데이터 셋이든 넣기만 하면 자동적으로 데이터셋에 맞게 학습하고 null값을 채워주는 방식입니다..
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 뎅잉텅엉령웡님,
Test Dataset에 대해서는 Regression 학습을 진행할 수 없습니다.
Train Dataset으로부터 결측치를 예측하는 학습을 진행하고, 예측을 통해 결측치를 채워넣고,
Train Dataset에서 학습된 모델을 Test Dataset에는 예측만 진행하여 결측치를 채워넣어야 Data Leakage에 해당하지 않습니다.
감사합니다.