분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Data leakage 관련 질문드립니다. (범주형 피쳐 인코딩)
안녕하세요. 운영자님!
규칙에 의하면 validation과 test 데이터 셋은 학습에 사용되면 안된다고 적혀 있는 것을 확인했습니다.
혹시 범주형 변수를 인코딩 할 때 (validation, test)의 범주를 이용하는 것도 data leakage 위반사항인가요?
-예를 들어 한 피쳐가 train에서는 4종류, validation에서는 6종류, test 셋에서는 8종류의 범주가 존재하는 경우에
6 또는 8개의 범주를 인코딩(원핫 등)하는 것입니다.
validation의 경우가 특히 궁금하며, test의 경우 사용하면 안되는 것이 맞지만..
허용이 되는 대회도 있다고 들어서 문의를 드립니다.
감사합니다!
답변해주셔서 감사합니다! validation의 경우 말씀해주신대로 train data를 토대로 구분한 것이 맞지만, 대회 규정에 이렇게 적혀있어서 말씀드린 것입니다!
- 모델 학습에서 검증 혹은 평가 데이터셋 활용시(Data Leakage 등) 실격
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
validation은 말그대로 91님께서 검증을 위해 사용하는 data에요 애초에 traindata를 train/valid로 구분하는 것인데 valid를 학습에 사용 못할 이유는 없지요... test 셋을 학습에 사용하는 것은 대회마다 다른게 맞구용