데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
고객 대출등급 분류 AI 해커톤
data leakage에 관하여 질문드립니다.
데이터를 살펴보던 중,
'근로기간' 이란 feature에서
< 1 year과 <1year 이 동일하다고 판단하여 통일하려고 하는데,
test 데이터에도 똑같이 적용해도 되나요?
근로기간 10+ years 31585 2 years 8450 < 1 year 7774 3 years 7581 1 year 6249 Unknown 5671 5 years 5665 4 years 5588 8 years 4888 6 years 3874 7 years 3814 9 years 3744 10+years 896 <1 year 370 3 89 1 years 56 Name: 근로기간, dtype: int64
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요, j_seongho 님
train 데이터를 분석하여 얻은 결과를 test 데이터에 대해서 똑같이 적용시키면 이는 데이터 리키지가 아닙니다.
하지만 test 데이터를 분석하여 test 데이터에 train 데이터와 별개의 전처리를 진행하면 이는 데이터 리키지이니 참고 부탁드립니다.
감사합니다.