Customer Loan Grade Classification AI Hackathon

Algorithm | Tabular | Classification | Finance | Macro F1 Score

  • moneyIcon Prize : 인증서
  • 1,688 Users Completed

 

data leakage에 관하여 질문드립니다.

2024.01.20 17:54 1,621 Views

데이터를 살펴보던 중,

'근로기간' 이란 feature에서

< 1 year과 <1year 이 동일하다고 판단하여 통일하려고 하는데,

test 데이터에도 똑같이 적용해도 되나요?

근로기간 
 10+ years    31585
2 years       8450
< 1 year      7774
3 years       7581
1 year        6249
Unknown       5671
5 years       5665
4 years       5588
8 years       4888
6 years       3874
7 years       3814
9 years       3744
10+years       896
<1 year        370
3               89
1 years         56
Name: 근로기간, dtype: int64


Login Required
0 / 1000
DACON.SeungYoon
2024.01.22 09:10

안녕하세요, j_seongho 님
train 데이터를 분석하여 얻은 결과를 test 데이터에 대해서 똑같이 적용시키면 이는 데이터 리키지가 아닙니다. 
하지만 test 데이터를 분석하여 test 데이터에 train 데이터와 별개의 전처리를 진행하면 이는 데이터 리키지이니 참고 부탁드립니다. 
감사합니다.