분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
CSTMR_CNT,CNT를 활용한 각 지역별, 날짜별에 대한 산업 업종의 특징 찾아보기
CSTMR_CNT와 CNT 변수를 활용해서 EDA를 해보면 어떨까싶어서 해봤습니다. 주관적인 생각이 많이 들어가 있으므로 참고만 해보시면 좋을 것 같습니다. 결과론적으로 CSTMR_CNT데이터와 CNT데이터는 AMT를 예측하는데 활용할 수는 없지만 분명 다른 데이터와 잘 결합을 하면 충분히 CNT와 CSTMR_CNT 데이터도 활용이 가능할 수 있을 것 같습니다. (마지막에 그래프를 주석처리 했지만 돌려보면 CNT와 CSTMR_CNT와 AMT는 거의 평행인 급으로 비슷하게 진행되는 것을 볼 수있습니다.)
또한 지역별, 월별 특징을 잘 찾으면 특정산업군의 특징을 찾을 수 있는 변수를 생각하는데 도움이 될 것 같다고 생각했습니다.
데이터가 시계열 모델로 접근하기엔 불가능할 것 같고, 회귀분석으로 접근을 하는 것이 좋을 것 같습니다. 고득점에있는 분들은 어떤지 모르겠지만 확실히 특징을 잘 찾아서 변수화를 시키는 것이 이번 대회의 key point가 될 것 같습니다.
다들 화이팅하세요!! 여러분들의 EDA와 Modeling도 공유해주세요!♥
수고하셨습니다. 도움이 많이 될거 같습니다.
감사합니다!
대단합니다! EDA 감사합니다 :)
감사합니다 :)
다들 참고하시면 좋은게 업종별 value_count()만 봐도 상당히 불균형적이기 때문에 이 부분 또한 고려하는 것이 상당히 도움이 될 것으로 보입니다.
감사합니다 :)
SIDO 변수로 그래프를 만들 때, 인덱싱을 하나 빼먹어서 지역명 '세종'이 그래프에서 빠지게 됐습니다 :(. 세종시 같은 경우는 따로 그래프를 그려서 확인해 보시는 것이 좋을 것 같습니다. 감사합니다.
많이 배우고 갑니다! 감사합니다
많이 배웠습니다. 감사합니다
취소있음 고객다름 단골많음 분류에서 사실 취소한사람과 여러번이용한사람이 혼재되어 상쇄되기때문에 확실히 말할수 있는것은 취소있음 뿐이고 나머지 두 분류는 확실히 말할 수 없기에 그냥 취소없음으로 분류하는게 맞을거같다는 생각입니다.
아 네 저도 약간 이 부분에서 제 주관이 대입된거라, 모든 부분에서 취소가 많은지 단골이 많은지에 대해서는 확정짓기 어렵다고 생각했습니다. 하지만 통상적으로 CNT가 CSTMR_CNT보다 적다는 뜻 자체가 어떻게 보면 같은 고객(단골)이 꽤나 있음에도 불구하고, 취소고객이 발견되는 것이 "취소고객이 많아지지 않았을까"라는 생각에 접근하게 됐습니다. 좋은 지적 감사합니다. 통계적인 접근보다는 단순히 수치상으로 접근한 EDA방법이라는 점 양해부탁드립니다. ㅎㅎ
와 진짜 대단하시네요...
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
EDA 감사합니다. :)