분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
제주 신용카드 빅데이터 경진대회
엄청난 shake-up 이 예상되는 대회인것같습니다...
대회 개요는 제가 이해한바로는 다음과 같습니다
대회진행방식은 흡사 kaggle m5와 매우 비슷해보이지만, 아주 큰 차이점이 있습니다. m5의 경우, public data 바로 다음 28일을 추후에 공개를 하지만, 여기서는 무려 3달뒤의 데이터가 공개됩니다.
이렇게 되면 정말 큰 문제가 발생합니다.
예를들어, 지금 참가자들은 최소 1달 전, 최대 3달 전 데이터를 이용해서 4월을 맞추고 있습니다. 때문에 lagging을 한달 단위 이상으로 무난하게 사용이 가능합니다.
문제는 7월 데이터를 맞출 때인데, 7월을 맞출 때는, 최소 3달전(4월포함 그 이전) 데이터부터 사용이 가능합니다. 4월을 맞추기위해 각종 lagging (1month, 2month window)를 사용을 해서 만든 feature와 모델이 public score가 0을 찍고 결함없이 완벽하게 나오더라도, 7월을 맞출 때는 사용할 수 없게 되죠..
time series 문제에서 lagging은 정말 중요한 feature입니다. 물론 lagging 뿐만 아니라 비슷하게 derive 되는 feature는 전부 못쓰게 됩니다. (여기서 못쓰게 된다는 것은 final submission까지 일관성있게 못쓴다는 뜻입니다)
심지어 데이터양도 너무 적어서 어떻게 커버가 될 수가 없을것 같다는 생각입니다.
이 때문에 final submission에서는 엄청난 shake-up이 발생하지 않을까 생각합니다
개인적인 의견이었는데, 혹시 제가 잘못 생각한 부분이 있으면 지적바랍니다
19년도 데이터를 통해 업종별 트렌드(계절성 같은)와 20년도 데이터를 통해 코로나로 인한 매출의 특이성, 이 두개를 모두 만족하는 변수 추출과 모델링이 이 대회의 관점이라고 생각해요
삭제된 댓글입니다
앗! 삭제하고 다시 달려고 했는데 이력이 남는줄 몰랐네요...
맞아요. 외부데이터라도 좀 활용해보고 싶은데
외부데이터도 '2020.04.30 데이터까지만 사용 가능' 이라고 돼 있어서 어떻게 해야 할지 모르겠어요.
6월까지 풀어줘도 힘들거 같은데...(7월 외부데이터를 쓰기엔 대부분 7월 데이터는 8월 초에 공개되는거 같고...)
5,6월에 무슨 일이 있을지도 모르는데 외부데이터 사용도 막히니까 막막하네요;;
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
4월 데이터가 공개되면 0점 파일이 많아져서 순위 변동은 클 겁니다. 각자 validation 전략을 잘 짜는게 중요하다고 생각합니다.