제주 신용카드 빅데이터 경진대회

알고리즘 | 정형 | 회귀 | 금융 | RMSLE

  • moneyIcon 상금 : 600만원
  • 1,917명 마감

 

신용카드 빅데이터 경진대회 코드공유 - 감귤

2020.08.16 22:08 10,057 조회 language

안녕하세요!! '감귤'팀 입니다.  

 시간이 꽤 지났지만 저희의 코드를 공유하려고 합니다. 코드를 보시면 중복되는 함수도 많고, 여러모로 깔끔하지 못한 부분이 많이 있습니다. 이 부분을 감안해 주시고 아이디어 위주로 읽어주시길 바랍니다 :)  

 대회가 끝나갈 무렵 시계열에 관한 글을 읽게 되었는데요. 시계열을 분석할 때는 주로 추세(trend), 계절성(seasonality), 주기(cycle)의 세 가지 성분을 분리하여 분석 한다고 하네요.  이런 성분을 분해할 때에도, 저희가 사용했던 단순한 곱셈 분해(?)뿐 아니라,  다양한 분해 방법이 존재한다는 사실도 알게 되었어요.  대회 초반에 이러한 이론적인 부분을 조금 더 공부했더라면 지금보다 더 좋은 코드가 나오지 않았을까 하는 아쉬움도 남는 대회였습니다.

 다양한 의견과 조언 부탁드립니다. 감사합니다. :D  

코드
로그인이 필요합니다
0 / 1000
durro
2020.09.10 21:03

정말 잘하신 것 같아요 잘 읽었습니다 감사합니다.

감귤맨
2020.09.10 21:21

감사합니다!

초인
2020.09.11 09:30

굿굿입니다

감귤맨
2020.09.13 12:27

감사합니다 :)

D아이ERD
2020.10.18 16:42

안녕하세요 변동성이라는 인사이트 얻게 해주셔서 감사합니다.

제가 궁금한게 있는데

1과의 내분점을 이용해 cov_ratio를 구하셨는데

왜 내분점을 활용헀는 지 이유를 알고 싶습니다. 

감귤맨
2020.10.18 22:01

안녕하세요 D아이ERD님. 
 4월에 비해 7월의 코로나 바이러스의 영향력이 덜하다고 판단하였는데요.  이 때문에 4월의 매출을 예측 할 때 사용했던 cov_ratio의 영향력을 줄이는 방법을 고민하였습니다. 비율로 곱해지는 변수는 1에 가까울 수록 그 변수의 영향력이 줄어듭니다. 따라서 cov_ratio와 1의 내분점을 구하면 cov_ratio라는 성격을 유지하면서 그 영향력이 줄어든 변수를 얻을 수 있다고 판단하여 이러한 방법을 사용하였습니다.