제주 신용카드 빅데이터 경진대회

엄청난 shake-up 이 예상되는 대회인것같습니다...

2020.07.08 19:30 5,045 조회

대회 개요는 제가 이해한바로는 다음과 같습니다


  • public data: 1~3월 데이터
  • public leader board: 4월 데이터
  • private leader board: 7월 데이터 (4월 데이터는 공개)


대회진행방식은 흡사 kaggle m5와 매우 비슷해보이지만, 아주 큰 차이점이 있습니다. m5의 경우, public data 바로 다음 28일을 추후에 공개를 하지만, 여기서는 무려 3달뒤의 데이터가 공개됩니다.


이렇게 되면 정말 큰 문제가 발생합니다.


예를들어, 지금 참가자들은 최소 1달 전, 최대 3달 전 데이터를 이용해서 4월을 맞추고 있습니다. 때문에 lagging을 한달 단위 이상으로 무난하게 사용이 가능합니다.


문제는 7월 데이터를 맞출 때인데, 7월을 맞출 때는, 최소 3달전(4월포함 그 이전) 데이터부터 사용이 가능합니다. 4월을 맞추기위해 각종 lagging (1month, 2month window)를 사용을 해서 만든 feature와 모델이 public score가 0을 찍고 결함없이 완벽하게 나오더라도, 7월을 맞출 때는 사용할 수 없게 되죠..


time series 문제에서 lagging은 정말 중요한 feature입니다. 물론 lagging 뿐만 아니라 비슷하게 derive 되는 feature는 전부 못쓰게 됩니다. (여기서 못쓰게 된다는 것은 final submission까지 일관성있게 못쓴다는 뜻입니다)


심지어 데이터양도 너무 적어서 어떻게 커버가 될 수가 없을것 같다는 생각입니다.


이 때문에 final submission에서는 엄청난 shake-up이 발생하지 않을까 생각합니다


개인적인 의견이었는데, 혹시 제가 잘못 생각한 부분이 있으면 지적바랍니다



로그인이 필요합니다
0 / 1000
제루스챈스
2020.07.08 22:38

4월 데이터가 공개되면 0점 파일이 많아져서 순위 변동은 클 겁니다. 각자 validation 전략을 잘 짜는게 중요하다고 생각합니다.

낙지
2020.07.09 01:11

19년도 데이터를 통해 업종별 트렌드(계절성 같은)와 20년도 데이터를 통해 코로나로 인한 매출의 특이성, 이 두개를 모두 만족하는 변수 추출과 모델링이 이 대회의 관점이라고 생각해요 

okso6441
2020.07.09 11:25

삭제된 댓글입니다

okso6441
2020.07.09 11:54

앗! 삭제하고 다시 달려고 했는데 이력이 남는줄 몰랐네요...

맞아요. 외부데이터라도 좀 활용해보고 싶은데
외부데이터도 '2020.04.30 데이터까지만 사용 가능' 이라고 돼 있어서 어떻게 해야 할지 모르겠어요.
6월까지 풀어줘도 힘들거 같은데...(7월 외부데이터를 쓰기엔 대부분 7월 데이터는 8월 초에 공개되는거 같고...)
5,6월에 무슨 일이 있을지도 모르는데 외부데이터 사용도 막히니까 막막하네요;;