더미 데이터 테스트 질문드립니다.

2024.02.19 09:39 211 조회

더미 데이터 생성해서 테스트 연습해보고 있습니다.


훈련용 데이터를 기반으로 더미 데이터를 생성했고

훈련용 데이터와 생성된 더미 데이터가 거의 유사한 것까지 확인했습니다.


그리고 더미 데이터로 xgboost regressor 모델 훈련시키고 이 모델로 훈련용 데이터를 예측해봤는데

예측 결과를 그래프로 찍어 본 결과 두 예측과 실제값이 일치하지 않고 평행하게 그려지는 데 뭐가 문제일까요?


훈련용 데이터랑 더미 데이터랑 거의 똑같다고 봐도 되는데 왜 그럴까요? 뭐가 문제일까요? 제발 도움을 힌트라도 주십쇼 ㅠㅠ

로그인이 필요합니다
0 / 1000
Mob
2024.02.19 11:03

우선 더미데이터가 훈련용 데이터랑 진짜로 유사한지부터 의심해봐야 할 것 같네요...
겉보기에는 유사할 수 있지만 내부 분포가 완전히 다를 수 있습니다. 
그래서 보통 모델 성능 테스트 할 때는 훈련용 데이터에서 일부를 검증용 데이터로 사용합니다. 

내게와데이터
2024.02.29 11:10

감사합니다. 다시 확인해보겠습니다!!