제주 신용카드 빅데이터 경진대회

CSTMR_CNT,CNT를 활용한 각 지역별, 날짜별에 대한 산업 업종의 특징 찾아보기

2020.06.30 22:42 8,751 조회 language

CSTMR_CNT와 CNT 변수를 활용해서 EDA를 해보면 어떨까싶어서 해봤습니다. 주관적인 생각이 많이 들어가 있으므로 참고만 해보시면 좋을 것 같습니다. 결과론적으로 CSTMR_CNT데이터와 CNT데이터는 AMT를 예측하는데 활용할 수는 없지만 분명 다른 데이터와 잘 결합을 하면 충분히 CNT와 CSTMR_CNT 데이터도 활용이 가능할 수 있을 것 같습니다.  (마지막에 그래프를 주석처리 했지만 돌려보면 CNT와 CSTMR_CNT와 AMT는 거의 평행인 급으로 비슷하게 진행되는 것을 볼 수있습니다.)

또한 지역별, 월별 특징을 잘 찾으면 특정산업군의 특징을 찾을 수 있는 변수를 생각하는데 도움이 될 것 같다고 생각했습니다.

데이터가 시계열 모델로 접근하기엔 불가능할 것 같고, 회귀분석으로 접근을 하는 것이 좋을 것 같습니다. 고득점에있는 분들은 어떤지 모르겠지만 확실히 특징을 잘 찾아서 변수화를 시키는 것이 이번 대회의 key point가 될 것 같습니다.

다들 화이팅하세요!! 여러분들의 EDA와 Modeling도 공유해주세요!♥

코드
로그인이 필요합니다
0 / 1000
hansung.dev
2020.07.01 00:21

EDA 감사합니다. :)

당쇠
2020.07.01 00:45

수고하셨습니다. 도움이 많이 될거 같습니다.

섭시
2020.07.01 09:39

감사합니다!

제루스챈스
2020.07.01 13:39

대단합니다! EDA 감사합니다 :)

NA
2020.07.01 14:25

감사합니다 :)

낙지
2020.07.01 15:17

다들 참고하시면 좋은게 업종별 value_count()만 봐도 상당히 불균형적이기 때문에 이 부분 또한 고려하는 것이 상당히 도움이 될 것으로 보입니다.

데분홍
2020.07.01 16:31

감사합니다 :)

낙지
2020.07.04 01:38

SIDO 변수로 그래프를 만들 때, 인덱싱을 하나 빼먹어서 지역명 '세종'이 그래프에서 빠지게 됐습니다 :(. 세종시 같은 경우는 따로 그래프를 그려서 확인해 보시는 것이 좋을 것 같습니다.  감사합니다.

윤기석
2020.07.05 16:35

많이 배우고 갑니다! 감사합니다

김영현
2020.07.15 15:39

많이 배웠습니다. 감사합니다

SMJ
2020.07.17 12:58

취소있음 고객다름 단골많음  분류에서 사실 취소한사람과 여러번이용한사람이 혼재되어 상쇄되기때문에 확실히 말할수 있는것은 취소있음 뿐이고 나머지 두 분류는 확실히 말할 수 없기에 그냥 취소없음으로 분류하는게 맞을거같다는 생각입니다.

낙지
2020.07.17 15:52

아 네 저도 약간 이 부분에서 제 주관이 대입된거라, 모든 부분에서 취소가 많은지 단골이 많은지에 대해서는 확정짓기 어렵다고 생각했습니다. 하지만 통상적으로 CNT가 CSTMR_CNT보다 적다는 뜻 자체가 어떻게 보면 같은 고객(단골)이 꽤나 있음에도 불구하고, 취소고객이 발견되는 것이 "취소고객이 많아지지 않았을까"라는 생각에 접근하게 됐습니다. 좋은 지적 감사합니다. 통계적인 접근보다는 단순히 수치상으로 접근한 EDA방법이라는 점 양해부탁드립니다. ㅎㅎ

알맹이
2020.09.29 11:23

와 진짜 대단하시네요...