데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
따릉이 데이터를 활용한 데이터 분석 2 (전처리)
안녕하세요 살기좋은첨단 님.
Test Data는 모델의 학습, 또는 데이터의 전처리에 이용하실 수 없습니다.
왜냐하면 Test Data는 결과값을 추론하기 전까지 절대로 알 수 없는 데이터로 가정하기 때문입니다.
이러한 가정하에 추론을 진행해야 모델이 실전에서 효과가 있는지 파악할 수 있습니다.
또한 이것은 모든 경진대회에서 동일하게 적용되는 규칙입니다.
Test Data를 모델의 학습, 데이터 전처리에 이용하는 경우 저희는 이것을 "Data Leakage"라고 표현하며, 이를 범하는 참가자는 대회에서 실격처리합니다.
감사합니다.
답변 감사합니다!!
좋은 정보 감사합니다.
좋은 정보 감사합니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
test 데이터 파일의 결측값을 채워줄 때 train 데이터 파일에서의 평균값을 넣어주시는데, test 데이터 파일의 평균값을 넣어줘도 되나요??
train 데이터의 값이 더 많기 때문에 train 데이터를 선택하신 건가요?