분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[예선 private 29/ 본선 private 23] ooro 팀 N-HiTS 코드 공유
공동작성자
- 본선에서는 over-sampling과 군집별 모델링은 제외하였습니다!
- 발표자료와 코드 동시에 공유 드립니다!
방법론은 다음과 같습니다.
1. 매출 수량 log 변환 / 데이터 정규화
학습 안정화를 위해 타깃을 로그변환하여 학습/검증/예측 -> 이후 역변환하여 결과 도출
그 외 covariate들에 대해 시리즈(매장x메뉴)별로 MinMaxScaling (0-1)
2. N-HiTS 기반 모델링 전략
시간 순서를 유지한 단순 시점 분할
멀티 윈도우 검증 : 검증 스팬에 28->7 창을 여러 번 넣어 평균 성능을 보기 위해 검증 스팬을 충분히 길게 설정 (42~56일)
실전 제출과의 일관성 : 실제 예측이 “최근 28일 히스토리로 다음 7일 예측“이므로,검증도 똑같이 구성하여 오버피팅/언더피팅 판단을 정확히 함.
Covariate 정합성 : 타깃과 동일한 시점으로 cov도 나누므로, 정렬/길이 mistmatch 에러를 미연에 방지
3. 정량평가산식
예선과 본선의 정량평가산식이 다름에 따라 손실 함수 (loss function) 접근법 달리 설정.
3.1. 예선
식음업장 별 가중치가 있는 SMAPE (특정 매장에 강한 가중치 부여)
해당 매장의 데이터를 학습에 중복 사용 (Over-sampling) 하여 가중치를 학습할 수 있도록 구성
3.2. 본선
SMAPE, NMAE, NRMSE, R-squared
매장 별 가중치 동일 (Over-sampling 사용 x)
동일 사항 : 실제값 0은 평가에 반영 되지 않으므로, 마스킹을 통해 target이 0이거나 음수인 구간 제외
4. 군집별 모델링
검증 데이터 기반 잔차 10 이상인 메뉴 확인
잔차 10 이상인 메뉴 중 고가중치 영업장에 해당하는 ‘미라시아’의 메뉴에 대해 spearman 상관계수 기반 군집 분석
이를 통해 메뉴 간 추세가 유사한 3개의 군집으로 분류
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved