제주 신용카드 빅데이터 경진대회

알고리즘 | 정형 | 회귀 | 금융 | RMSLE

  • moneyIcon 상금 : 600만원
  • 1,915명 마감

 

submission 파일 관련 문의

2020.07.14 12:30 2,564 조회

201901-202003.csv에는 총 41개의 시도('CARD_SIDO_NM')와 17개의 업종('STD_CLSS_NM')이 존재합니다.


submission.csv 파일에서 4월과 7월의 예측 결과에 대한 행의 갯수는 각각 697개로, 모든 시도와 모든 업종에 대한 예측 결과에 해당합니다.


하지만 실제로 특정 시도의 특정 업종에 대한 데이터는 존재하지 않는 경우가 있는데, 이러한 경우에 해당 업종에 대한 AMT값을 예측하는 것이 다소 비논리적이라고 생각이 됩니다.


예를 들어, 강원 지역에는 '정기 항공 운송업'에 대한 데이터가 존재하지 않습니다. 하지만 submission 파일을 제출할 때는 강원도의 정기 항공 운송업의 AMT값을 포함하여 제출해야합니다.


물론 베이스라인 코드와 같은 방식으로 예측을 한다면 결과값을 구하는 것은 어렵지 않겠지만, 해당 지역에 관련 업종에 대한 데이터가 없는 상황에서 이를 예측하는 것이 의미가 있을지 잘 모르겠습니다.


이에 대한 의견 공유해주시면 감사하겠습니다.



로그인이 필요합니다
0 / 1000
제루스챈스
2020.07.14 23:59

기간내 소비가 발생하지 않은 경우 데이터로 표기되지 않습니다.
https://dacon.io/m/competitions/official/235615/talkboard/401081
강원지역의 정기 항공 운송업에서 집계되지 않았다면 소비가 발생하지 않았다는 의미로 해석할 수 있습니다. 실제로 강원도에 양양 국제공항이 있지만 이용률은 낮은 것 같네요.