분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 항공편 지연 예측 AI 경진대회
데이터 정합성 질문
안녕하십니까?
train, test 데이터 확인 중 Estimated_Departure_Time과 Estimated_Arrival_Time의 시간이 이상한 부분이 있어 질문드립니다.
train셋을 넣고, distance가 700 mile 미만으로 조회한 항공편(단거리)로 조회하였을 때
<code>
A = train[(train['Estimated_Departure_Time'] > train['Estimated_Arrival_Time']) & (train['Distance']< 700)][['Estimated_Departure_Time','Estimated_Arrival_Time','Distance','Delay']]
A['time_diff'] = A['Estimated_Departure_Time'] - A['Estimated_Arrival_Time']
A[A['time_diff']<100].sort_values(by = 'time_diff')
<result>
train set에서 823개 행의 출발 예상시간 > 도착 예상시간이며, 출발 예상시간과 도착 예상시간 간의 차이가 얼마 되지 않음을 확인 할 수 있습니다.
비슷하게 test data에서도
<code>
B = test[(test['Estimated_Departure_Time'] > test['Estimated_Arrival_Time']) & (test['Distance']< 700)][['Estimated_Departure_Time','Estimated_Arrival_Time','Distance']]
B['time_diff'] = B['Estimated_Departure_Time'] - B['Estimated_Arrival_Time']
B[B['time_diff']<100].sort_values(by = 'time_diff')
<result>
test set에서 776개 행의 출발 예상시간 > 도착 예상시간이며, 출발 예상시간과 도착 예상시간 간의 차이가 얼마 되지 않음을 확인 할 수 있습니다.
이는 항공편 데이터에 문제가 있는 것인가요? 아니면 예상 시간이라 이렇게 잡힌 건가요?
저도 24시간 비행은 고려했지만, Distance가 짧은 단거리 비행노선을 기준으로 조회하였기에 데이터 정합성에 의심이 듭니다..
예시로 result 사진에 230mile에 not_delayed된 자료도 있어 혼란이 생기네요.
그건..이상한 현상이네요 짧은 거리인데 시차가 많이 날 리도 없으니깐요 날짜변경선을 넘었으려나..?
미국에는 시간대가 여러 개 있으니 우연히 두 공항 사이에서 시간대가 변경되는 선이 있다면 가능할 것 같은데요. 두 공항이 서로 다른 시간대에 있는 것이 아닌지 확인해봐야 알 수 있을 것 같습니다.
안녕하세요, 춘배사랑개 님
해당 샘플들의 시간은 현지 시각을 기준으로 측정되었습니다.
그렇기에 현지 시각이 다른 인접한 다른 주로 항공편을 운행할 경우,
출발시간과 도착시간의 차이가 극단적으로 적게 나타날 수도 있습니다.
감사합니다.
데이터의 시간은 출발/도착 항공의 현지 시간으로 봐야겠군요.
확인 감사합니다.
삭제된 댓글입니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
Departure time과 Arrival time이 비슷한 것은 이상한 현상이네요.. 비행을 24시간 가까이 한걸까요?
데이터가 100만개씩이니깐 800개 정도는 (전체 데이터의 0.08%) 24시간 비행 했다고 생각할만 하지 않을까요