월간 데이콘 2020 D CUP Google Analytics 데이터 경진대회

알고리즘 | 정형 | 회귀 | 행태심리 | RMSE

Prize : 총 100만원 + 데이콘 기념품
595명 마감

Closed

Overview Data Code (share) Talk Leaderboard

Submission

Private 9위,Private 점수:5.10412,1DCNN+BiLSTM,BiGRU

TREX99

2021.01.23 16:21 7,026 Views language

안녕하세요. 온 국민 인공 신경망(OKNN) 팀 입니다.
저희 팀의 데이타 분석 전략은 시계열 특성 찾기와 다중 모델링 앙상블입니다.

1. 시계열 특성 찾기에서는 ARIMA를 이용한 시계열의 특성에서 slide 크기와 skip(step) 크기를 최적화할 수 있는 값을 찾아보았습니다.
   (특성에서 보여지는 값보다 주변의 값을 이용하는 것이 Public Score(1.43127)가 높은 것이 사실이나, Private에서는 큰 차이를 보입니다.)
2. multivariate 시계열 접근 방법으로 보편적 채택이 가능한 slide는 기존 base line의 구현방법을 준용하였습니다.
3. 모델링은 1D CNN+Bi-LSTM, Bi-GRU, Transfomer, FB-Prophet, ARIMA, SARIMA, Logistic-Reg 등 약 20여개의 모델을 시도하였으며, 최종 1D CNN+Bi-LSTM, Bi-GRU 을 채택하였습니다.
4. 채택된 모델과 함께 추가 데이타를 이용함에 따른 slide 크기와 skip(step) 크기를 변경하여 총 4개의 모델로부터 submission 파일 생성하였습니다.
5. 총 4개의 submission 파일은 산술평균(p=1)으로 power mean ensemble  하여 최종 submission 파일이 생성되었습니다.

Ps. 재현성에 대한 기준이 모호하여 저희 팀은 오해를 줄이고 불필요한 논쟁을 지양하고자, 재현성을 범위를 크게 확대 해석하여 일반화에 노력하였습니다.
이에 따라 첨부된 코드는 Colab, Kaggle, 개인 노트북/PC 6대에서 동일한 결과가 산출되도록 재현성 코드를 삽입하였습니다. (단, 일부 값은 반올림 오차 있음)
기회가 있으면 상세한 설명을 하겠으나, 여기서는 지면상 Tensorflow(Keras)의 재현성 일반화와 문제점 등에 대한 설명은 생략하고, 재현성의 일반화 노력으로 Score를 일부 포기할 수 밖에 없었으며, 처리 속도 또한 다소 느린 점을 말씀드립니다.

Code