분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
따릉이 데이터를 활용한 데이터 분석 2 (전처리)
안녕하세요 살기좋은첨단 님.
Test Data는 모델의 학습, 또는 데이터의 전처리에 이용하실 수 없습니다.
왜냐하면 Test Data는 결과값을 추론하기 전까지 절대로 알 수 없는 데이터로 가정하기 때문입니다.
이러한 가정하에 추론을 진행해야 모델이 실전에서 효과가 있는지 파악할 수 있습니다.
또한 이것은 모든 경진대회에서 동일하게 적용되는 규칙입니다.
Test Data를 모델의 학습, 데이터 전처리에 이용하는 경우 저희는 이것을 "Data Leakage"라고 표현하며, 이를 범하는 참가자는 대회에서 실격처리합니다.
감사합니다.
답변 감사합니다!!
좋은 정보 감사합니다.
좋은 정보 감사합니다
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
test 데이터 파일의 결측값을 채워줄 때 train 데이터 파일에서의 평균값을 넣어주시는데, test 데이터 파일의 평균값을 넣어줘도 되나요??
train 데이터의 값이 더 많기 때문에 train 데이터를 선택하신 건가요?