데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
고객 대출등급 분류 AI 해커톤
data leakage에 대해 질문드립니다.
제가 이번에 처음 참가하는 대회라, data leakage에 대해 잘 모르는데
train set과 test set에 각각 label encoding을 진행하였고, test set에 임의의 컬럼을 추가하였는데 이 경우 data leakage에 해당이 될까요?
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요, 통계졸 님
test set에 대해서 label encoder를 fit 시키셨다면, 이는 data leakage의 위험이 높습니다.
다만 말씀주신 사항들만으로는 정확한 판단이 어려우니,
구체적인 코드와 상황을 dacon@dacon.io 메일로 보내주시면 답변 드리겠습니다.
감사합니다.