고객 대출등급 분류 AI 해커톤

data leakage에 대해 질문드립니다.

2024.01.17 15:51 1,667 조회

제가 이번에 처음 참가하는 대회라, data leakage에 대해 잘 모르는데

train set과 test set에 각각 label encoding을 진행하였고, test set에 임의의 컬럼을 추가하였는데 이 경우 data leakage에 해당이 될까요?

로그인이 필요합니다
0 / 1000
DACON.SeungYoon
2024.01.17 16:30

안녕하세요, 통계졸 님
test set에 대해서 label encoder를 fit 시키셨다면, 이는 data leakage의 위험이 높습니다. 
다만 말씀주신 사항들만으로는 정확한 판단이 어려우니, 
구체적인 코드와 상황을 dacon@dacon.io 메일로 보내주시면 답변 드리겠습니다. 
감사합니다.