데이스쿨 할인 리턴-즈!
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
더미 데이터 테스트 질문드립니다.
더미 데이터 생성해서 테스트 연습해보고 있습니다.
훈련용 데이터를 기반으로 더미 데이터를 생성했고
훈련용 데이터와 생성된 더미 데이터가 거의 유사한 것까지 확인했습니다.
그리고 더미 데이터로 xgboost regressor 모델 훈련시키고 이 모델로 훈련용 데이터를 예측해봤는데
예측 결과를 그래프로 찍어 본 결과 두 예측과 실제값이 일치하지 않고 평행하게 그려지는 데 뭐가 문제일까요?
훈련용 데이터랑 더미 데이터랑 거의 똑같다고 봐도 되는데 왜 그럴까요? 뭐가 문제일까요? 제발 도움을 힌트라도 주십쇼 ㅠㅠ
감사합니다. 다시 확인해보겠습니다!!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
우선 더미데이터가 훈련용 데이터랑 진짜로 유사한지부터 의심해봐야 할 것 같네요...
겉보기에는 유사할 수 있지만 내부 분포가 완전히 다를 수 있습니다.
그래서 보통 모델 성능 테스트 할 때는 훈련용 데이터에서 일부를 검증용 데이터로 사용합니다.