고객 대출등급 분류 AI 해커톤

data leakage에 관하여 질문드립니다.

2024.01.20 17:54 1,600 조회

데이터를 살펴보던 중,

'근로기간' 이란 feature에서

< 1 year과 <1year 이 동일하다고 판단하여 통일하려고 하는데,

test 데이터에도 똑같이 적용해도 되나요?

근로기간 
 10+ years    31585
2 years       8450
< 1 year      7774
3 years       7581
1 year        6249
Unknown       5671
5 years       5665
4 years       5588
8 years       4888
6 years       3874
7 years       3814
9 years       3744
10+years       896
<1 year        370
3               89
1 years         56
Name: 근로기간, dtype: int64


로그인이 필요합니다
0 / 1000
DACON.SeungYoon
2024.01.22 09:10

안녕하세요, j_seongho 님
train 데이터를 분석하여 얻은 결과를 test 데이터에 대해서 똑같이 적용시키면 이는 데이터 리키지가 아닙니다. 
하지만 test 데이터를 분석하여 test 데이터에 train 데이터와 별개의 전처리를 진행하면 이는 데이터 리키지이니 참고 부탁드립니다. 
감사합니다.