칼로리 소모량 예측 AI 해커톤

Data Leakage 관련 질문

2023.04.21 17:05 1,437 조회


공지사항의 Data Leakage 내용이 잘 이해가 안되서 질문드립니다.


  • 모델 학습에서 평가 데이터셋 활용(Data Leakage)시 수상 제외
  • label encoding, one-hot encoding 시 test 데이터 셋 활용 (해도 됨?)
  • data scaling 적용 시 test 데이터 셋 활용 (해도 됨?)
  • test 데이터 셋에 pd.get_dummies() 함수 적용 (해도 됨?)
  • test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용 (해도 됨?)
  • 위 예시 외에도 test 데이터 셋이 모델 학습에 활용되는 경우에 Data leakage에 해당됨

  • 모델 학습에서 평가 데이터셋 활용(Data Leakage)시 수상 제외
  • label encoding, one-hot encoding 시 test 데이터 셋 활용 (하면 안됨?)
  • data scaling 적용 시 test 데이터 셋 활용 (하면 안됨?)
  • test 데이터 셋에 pd.get_dummies() 함수 적용 (하면 안됨?)
  • test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용 (하면 안됨?)
  • 위 예시 외에도 test 데이터 셋이 모델 학습에 활용되는 경우에 Data leakage에 해당됨


위 2가지중에 어떤건가요? 하라는 건지 말라는 건지 햇갈려서 질문드립니다.

주말에 열심히 공부해야해서 빠른 답변 부탁드려요.

감사합니다.

로그인이 필요합니다
0 / 1000
롤케잌
2023.04.21 17:43

하지 말라는 것입니다.

DACON.YT
2023.04.24 08:53

안녕하세요. 데이콘입니다.
수상 제외라고 적혀있는 항목에 관해서는 수행하지 않으셔야 합니다.
감사합니다.