DASCHOOL! Fall Special Discount
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
data leakage에 관하여 질문드립니다.
데이터를 살펴보던 중,
'근로기간' 이란 feature에서
< 1 year과 <1year 이 동일하다고 판단하여 통일하려고 하는데,
test 데이터에도 똑같이 적용해도 되나요?
근로기간 10+ years 31585 2 years 8450 < 1 year 7774 3 years 7581 1 year 6249 Unknown 5671 5 years 5665 4 years 5588 8 years 4888 6 years 3874 7 years 3814 9 years 3744 10+years 896 <1 year 370 3 89 1 years 56 Name: 근로기간, dtype: int64
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요, j_seongho 님
train 데이터를 분석하여 얻은 결과를 test 데이터에 대해서 똑같이 적용시키면 이는 데이터 리키지가 아닙니다.
하지만 test 데이터를 분석하여 test 데이터에 train 데이터와 별개의 전처리를 진행하면 이는 데이터 리키지이니 참고 부탁드립니다.
감사합니다.