분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Data leakage 관련 질문드립니다. (범주형 피쳐 인코딩)
안녕하세요. 운영자님!
규칙에 의하면 validation과 test 데이터 셋은 학습에 사용되면 안된다고 적혀 있는 것을 확인했습니다.
혹시 범주형 변수를 인코딩 할 때 (validation, test)의 범주를 이용하는 것도 data leakage 위반사항인가요?
-예를 들어 한 피쳐가 train에서는 4종류, validation에서는 6종류, test 셋에서는 8종류의 범주가 존재하는 경우에
6 또는 8개의 범주를 인코딩(원핫 등)하는 것입니다.
validation의 경우가 특히 궁금하며, test의 경우 사용하면 안되는 것이 맞지만..
허용이 되는 대회도 있다고 들어서 문의를 드립니다.
감사합니다!
답변해주셔서 감사합니다! validation의 경우 말씀해주신대로 train data를 토대로 구분한 것이 맞지만, 대회 규정에 이렇게 적혀있어서 말씀드린 것입니다!
- 모델 학습에서 검증 혹은 평가 데이터셋 활용시(Data Leakage 등) 실격
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
validation은 말그대로 91님께서 검증을 위해 사용하는 data에요 애초에 traindata를 train/valid로 구분하는 것인데 valid를 학습에 사용 못할 이유는 없지요... test 셋을 학습에 사용하는 것은 대회마다 다른게 맞구용