퇴근시간 버스승차인원 예측 AI 경진대회

안녕하세요, 데이터를 보다가 혹시나 하는 마음에 질문드립니다. 데이터들을 (bus_route_id, stat...

2019.11.17 20:42 3,459 Views

안녕하세요, 데이터를 보다가 혹시나 하는 마음에 질문드립니다. 데이터들을 (bus_route_id, station_code) 로 나누어서 plot 을 해보면 평소의 18~20_ride  값에 비해서 하루, 이틀정도만 숫자가 많이 높은 경우들이 있었습니다. 이렇게 값이 높은 날은 주어진 variable 들에서도 다른 날과 비교해서 특이점은 보이지 않았습니다;; 예컨데 다음과 같은 (bus_route_id, station_code) 에서 그런 현상이 나타났습니다. (23400000, 1572), (23330000, 3300), (23330000, 200), (23290000, 200), (23290000, 132), (23240000, 263), (23030000, 628), (23010000, 3300), (22390000, 3189), (22390000, 3174), (23620000, 200), (23640000, 443), (24020000, 501), (25000000, 3289), (29760000, 263), (29770000, 589), (29790000, 589), (29830000, 83), (30000000, 200), (30000000, 300), (30050000, 2971), (31600000, 3486), (32350000, 3574).  혹시, 데이터를 처리하는 과정에서 에러가 있었을 여지가 있을까요? 감사합니다.

로그인이 필요합니다
0 / 1000
송근구ㅡㄴ
2022.02.14 16:20

안녕하세요, jaeminson님, 해당 문의 주신 bus_route_id와 station_code를 확인해본 결과, 대회용 데이터를 만드는 과정에서의 이상은 전혀 없는 것을 확인하였습니다.

해당 처리 과정 확인은 원본 데이터인 bus_bts.csv파일의 퇴근시간이 있는 원본을 통해서 인원수를 정확히 확인을 하였습니다.

이러한 처리 과정 및 bus_bts.csv 퇴근시간 원본은 대회 진행 중에는 공개드리지 않을 예정임을 알려드립니다.