HD현대 AI Challenge

데이터 leakage 관련 질문

2023.10.18 14:44 1,460 Views

train이나 test에 null값이 심한 칼람들이 있는데, 채워주는 방식을 regression 학습을 통한 추정값으로 채워주려고 합니다. test데이터 셋을 보지 않는다는 가정으로 함수를 만들었는데, 각 데이터 프레임을 넣었을 때 데이터 프레임에서 결측치 부분에 칼람을 뽑고 결측치를 제외한 부분으로 학습을 진행하고, 결측치 칼람들을 추정값으로, null값을 채워주는 함수를 만들었습니다. 이러면 train data set에 대한 학습과 (null)예측값, test data set에 대해서도 학습과 (null) 예측값을 각각 진행하게 되는데 이것도 데이터 리퀴지에 해당이 되나요?

방식은 함수 안에 어떤 데이터 셋이든 넣기만 하면 자동적으로 데이터셋에 맞게 학습하고 null값을 채워주는 방식입니다..

로그인이 필요합니다
0 / 1000
DACON.GM
2023.10.18 14:47

안녕하세요 뎅잉텅엉령웡님,
Test Dataset에 대해서는 Regression 학습을 진행할 수 없습니다.
Train Dataset으로부터 결측치를 예측하는 학습을 진행하고, 예측을 통해 결측치를 채워넣고,
Train Dataset에서 학습된 모델을 Test Dataset에는 예측만 진행하여 결측치를 채워넣어야 Data Leakage에 해당하지 않습니다.
감사합니다.