제주 신용카드 빅데이터 경진대회

알고리즘 | 정형 | 회귀 | 금융 | RMSLE

  • moneyIcon 상금 : 600만원
  • 1,915명 마감

 

소비자 정보 관련 변수

2020.06.22 22:18 5,194 조회

소비자 관련(성별, 가구 생애주기) 변수 또는 이용고객수 (명)


이런 변수들은 최종적으로 test데이터로 예측할 때 사용할 수가 없는데 왜 들어간 것일까요?

로그인이 필요합니다
0 / 1000
제루스챈스
2020.06.23 11:24

소비자 관련 정보도 예측시 중요한 변수가 될 것 같아요. 아직 데이터를 자세히 보지는 못했지만 소비자, 이용 고객수 등은 큰 변화가 있는 값은 아닐 겁니다. 소비자 수는 예측하려는 총 사용량과 관련있는 중요한 정보로 이를 얼마나 잘 사용하느냐에 따라 모델 성능이 다를 것 같아요.

낙지
2020.06.23 14:16

하지만 test_data는 없는 변수이기 때문에 활용을 못하지 않을까 싶습니다 :(

낙지
2020.06.23 14:22

소비자, 이용 고객수도 시계열로 분석을 통해 예측해서 파악해야하는 것일까요

제루스챈스
2020.06.23 14:29

네, 이용 고객수는 모르는 값이라 직접적으로 사용하기 어려울 것 같습니다.
시계열로 예측해서 사용하는 것도 좋은 방법일 것 같고 그게 아니더라도 인사이트를 얻는데 유용할 것 같습니다.

제루스챈스
2020.06.23 14:38

성별, 가구 생애주기 등 소비자 정보는 예측할 필요가 없다고 생각합니다.
일정 구간으로 나뉘어 있는 값이기 때문에 베이스라인처럼 모든 값이 다 있다고 가정해도 이상해 보이지 않습니다.

낙지
2020.06.23 17:31

오 데이터에 대해 완벽하게 이해됐습니다. Train에서 잘만 insight 찾으면 test에서 충분히 변수로 다 만들 수 있겠네요. 도움 정말 감사합니다

제루스챈스
2020.06.23 17:41

저도 답변 달면서 정리가 되었습니다.  감사합니다~