제주 신용카드 빅데이터 경진대회

알고리즘 | 정형 | 회귀 | 금융 | RMSLE

  • moneyIcon 상금 : 600만원
  • 1,917명 마감

 

제주 신용카드 빅데이터 경진대회 - xgboost in R

2020.08.15 18:16 9,313 조회 language

안녕하세요~ 데이터 분석을 좋아하고 실력을 키우기 위해 열심히 배우며 공부하고 있는 데이터 분석 초보자입니다!

이번 제주 신용카드 빅데이터 대회를 통해 처음으로 신용카드 사용량 데이터를 다뤄봤는데.. 코로나19가 터진 직후, 2-3월 데이터가 있어서 상당히 흥미로움(?)을 느끼면서 분석을 진행했었습니다! 아무래도 4,7월 데이터를 예측해야 했기 때문에 코로나의 영향력을 얼마나 잘 파악할 수 있는지가 중요했던 것 같습니다. 
외부데이터로 코로나 관련 데이터를 추가하지 않고 제공되는 데이터로만 분석한 것이 조금 아쉬운 점입니다 ㅠㅠ 

아직 부족한 실력이라 코드에 문제가 있거나 논리가 이상한(?) 부분이 있을 수도 있지만, 코드 공유를 한번 해볼까 합니다.!
많은 조언과 의견 부탁드립니다!

<코드 3줄 요약>
1. 카드이용내역 데이터를 살펴봤을 때, 연월, 이용지역별로 데이터가 존재하지 않는 업종들이 보였고, 이를 AMT=0으로 데이터에 채워넣음.
2. 카드이용내역 데이터에서 변수들의 각 범주별 빈도 수를 이용해 여러가지 새로운 범주형 변수들을 생성. (CARD_cnt, STD_cnt 등등... )
3. xgboost를 이용 ( tweedie regression , rmsle ) 

코드
로그인이 필요합니다
0 / 1000
DACON.edu
2020.08.16 01:26

수고하셨습니다.

도비콘
2020.09.12 20:24

잘 봤습니다.