DACON Monthly Credit Card User Arrear Prediction AI Competition

Algorithm | Structured | Classification | Finance | LogLoss

  • moneyIcon Prize : KRW 1M
  • 3,855 Users Completed

 

Data leakage 관련 질문드립니다. (범주형 피쳐 인코딩)

2021.04.24 14:56 1,342 Views

안녕하세요. 운영자님!


규칙에 의하면 validation과 test 데이터 셋은 학습에 사용되면 안된다고 적혀 있는 것을 확인했습니다.

혹시 범주형 변수를 인코딩 할 때 (validation, test)의 범주를 이용하는 것도 data leakage 위반사항인가요?


-예를 들어 한 피쳐가 train에서는 4종류, validation에서는 6종류, test 셋에서는 8종류의 범주가 존재하는 경우에

6 또는 8개의 범주를 인코딩(원핫 등)하는 것입니다.


validation의 경우가 특히 궁금하며, test의 경우 사용하면 안되는 것이 맞지만..

허용이 되는 대회도 있다고 들어서 문의를 드립니다.


감사합니다!

Login Required
0 / 1000
songbae
2021.04.25 21:42

validation은 말그대로 91님께서 검증을 위해 사용하는 data에요 애초에 traindata를 train/valid로 구분하는 것인데 valid를 학습에 사용 못할 이유는 없지요... test 셋을 학습에 사용하는 것은 대회마다 다른게 맞구용

bunchacha91
2021.04.26 09:32

답변해주셔서 감사합니다! validation의 경우 말씀해주신대로 train data를 토대로 구분한 것이 맞지만, 대회 규정에 이렇게 적혀있어서 말씀드린 것입니다!

- 모델 학습에서 검증 혹은 평가 데이터셋 활용시(Data Leakage 등) 실격