쇼핑몰 지점별 매출액 예측 AI 해커톤

제출 시에 성능이 크게 감소하는 건 어떤 이유가 있을까요?

2022.07.18 17:34 1,702 Views

KFold로 학습을 진행했습니다.


Date 변수를 활용하여 파생 변수를 생성한 후에 학습을 진행한 경우가 검증용 데이터셋에 대한 성능 평균값이 좋아졌으나 제출 시에는 안좋게 나오고.


오히려 Date 변수를 활용하지 않은 경우가 검증용에서는 성능이 좋지 않으나, 제출 시에는 성능이 더 좋게 나옵니다. (위의 경우와 비교하여)


어떤 이유가 있을까요..?

로그인이 필요합니다
0 / 1000
윤설
2022.07.20 18:23

과적합인가... 아니면 파생변수가 예측에 안 좋은거 아닐까요

셀렌디스
2022.07.22 16:20

제가 아는 과적합은ㅡ 학습용데이터에 과적합돼서 검증용셋에 성능이 안좋은 것인데 (물론 테스트셋에도 성능이 안좋은 것도 과적합이 맞지만)
제가 겪는 현상은 검증용셋에는 성능이 좋고 테스트셋에는 성능이 낮아지는 것이라ㅜ 특이하네요.
파생변수가 예측에 안 좋은 이유가 궁금하네요.. 검증용셋과 테스트셋의 데이터의 차이가 큰 건지..

윤설
2022.07.22 17:27

검증용과 테스트 셋 데이터 차이가 큰거같네요.. 저

저도 지금 파생변수를 사용했을 때 예측에 더 안 좋은 이유가 궁금하긴 하네요

silver007
2022.07.22 13:08

잘보고갑니다

셀렌디스
2022.07.22 16:16

감사합니다

김치세탁기
2022.07.26 13:19

시계열 데이터는 시계의 추세가 중요하다 생각됩니다. 과거의 추세가 미래의 추세를 예측하는데 도움이 되는지 확인이 필요할것같습니다.