[문의] 혼자 공부하던 중 data leakage 관련 질문이 생겨서 질문드립니다

2023.02.07 12:07 1,311 Views

영화 관객수 예측 경진대회(교육용 대회)를 혼자서 공부하던 중

(target encoding) train 데이터를 이용하여 6개년 동안의 연도 별, 월 별 관객 수 총 합의 중위값을

test데이터의 개봉일 대신 매개변수로 사용하려고 하는데

이러한 경우 data leakage에 해당되는지 궁금하여 질문드립니다!

Login Required
0 / 1000
이세의인공지능
2023.02.07 12:29

data leakage 문제를 간단하게 생각하시면, 
test data가 존재하지 않는다고 생각하시고 train 과정을 진행하시면 됩니다.
inference를 위한 작업만 test data에 적용할 수 있다고 생각하시면 되구요!
실제 작업을 해보시면 아직 일어나지 않은 일에 대해 인코딩을 할 순 없다고 보시면 편할 듯 하네욥
(제가 이해한게 맞을까요?)

jhs
2023.02.08 01:14

감사합니다!
제가 글을 잘 못 쓴 것 같습니다ㅋㅋㅋㅠ;
아랫에 댓글 주신 다냐니라님이 말씀하신 내용을 말씀드리고 싶었습니다ㅎㅎ
아직 공부한지 얼마 안돼서 data leakage 문제는 헷갈리고 어려운 것 같습니다ㅎㅎ

이세의인공지능
2023.02.08 01:20

학습을 마치기 전엔 test를 만지지 않는다.
라는게 test data leakage의 제일 이해하기 편한 개념 같습니다 ㅋㅋ

다냐니라
2023.02.07 16:17

정확히 어떤 내용인지 파악은 안되지만.. 
만약에 의도가.. 'train' 6월 중위값을 6월 'test' 데이터의 feature로 넣고싶으시다는 거면...
train 데이터의 중위값을 test데이터에 넣는건 상관없습니다.

문제가 되는건 test데이터의 중위값 구하여 사용하면 문제가 되겠죠?

jhs
2023.02.08 01:16

의견 주셔서 감사합니다!
주신 의견 참고해서  전처리를 다양하게 해볼 수 있을 것 같습니다 ㅎㅎ

jhs
2023.02.08 01:16

Deleted Comment