분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
쇼핑몰 지점별 매출액 예측 AI 해커톤
제출 시에 성능이 크게 감소하는 건 어떤 이유가 있을까요?
KFold로 학습을 진행했습니다.
Date 변수를 활용하여 파생 변수를 생성한 후에 학습을 진행한 경우가 검증용 데이터셋에 대한 성능 평균값이 좋아졌으나 제출 시에는 안좋게 나오고.
오히려 Date 변수를 활용하지 않은 경우가 검증용에서는 성능이 좋지 않으나, 제출 시에는 성능이 더 좋게 나옵니다. (위의 경우와 비교하여)
어떤 이유가 있을까요..?
제가 아는 과적합은ㅡ 학습용데이터에 과적합돼서 검증용셋에 성능이 안좋은 것인데 (물론 테스트셋에도 성능이 안좋은 것도 과적합이 맞지만)
제가 겪는 현상은 검증용셋에는 성능이 좋고 테스트셋에는 성능이 낮아지는 것이라ㅜ 특이하네요.
파생변수가 예측에 안 좋은 이유가 궁금하네요.. 검증용셋과 테스트셋의 데이터의 차이가 큰 건지..
검증용과 테스트 셋 데이터 차이가 큰거같네요.. 저
저도 지금 파생변수를 사용했을 때 예측에 더 안 좋은 이유가 궁금하긴 하네요
잘보고갑니다
감사합니다
시계열 데이터는 시계의 추세가 중요하다 생각됩니다. 과거의 추세가 미래의 추세를 예측하는데 도움이 되는지 확인이 필요할것같습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
과적합인가... 아니면 파생변수가 예측에 안 좋은거 아닐까요