월간 데이콘 항공편 지연 예측 AI 경진대회

데이터 정합성 질문

2023.04.14 15:08 1,344 조회

안녕하십니까?


train, test 데이터 확인 중 Estimated_Departure_Time과 Estimated_Arrival_Time의 시간이 이상한 부분이 있어 질문드립니다.


train셋을 넣고, distance가 700 mile 미만으로 조회한 항공편(단거리)로 조회하였을 때

<code>

A = train[(train['Estimated_Departure_Time'] > train['Estimated_Arrival_Time']) & (train['Distance']700)][['Estimated_Departure_Time','Estimated_Arrival_Time','Distance','Delay']]

A['time_diff'] = A['Estimated_Departure_Time'] - A['Estimated_Arrival_Time']

A[A['time_diff']<100].sort_values(by = 'time_diff')

<result>


train set에서 823개 행의 출발 예상시간 > 도착 예상시간이며, 출발 예상시간과 도착 예상시간 간의 차이가 얼마 되지 않음을 확인 할 수 있습니다.


비슷하게 test data에서도

<code>

B = test[(test['Estimated_Departure_Time'] > test['Estimated_Arrival_Time']) & (test['Distance']700)][['Estimated_Departure_Time','Estimated_Arrival_Time','Distance']]

B['time_diff'] = B['Estimated_Departure_Time'] - B['Estimated_Arrival_Time']

B[B['time_diff']<100].sort_values(by = 'time_diff')

<result>

test set에서 776개 행의  출발 예상시간 > 도착 예상시간이며, 출발 예상시간과 도착 예상시간 간의 차이가 얼마 되지 않음을 확인 할 수 있습니다.


이는 항공편 데이터에 문제가 있는 것인가요? 아니면 예상 시간이라 이렇게 잡힌 건가요?

로그인이 필요합니다
0 / 1000
설빙더아이스
2023.04.14 15:35

Departure time과 Arrival time이 비슷한 것은 이상한 현상이네요.. 비행을 24시간 가까이 한걸까요? 
데이터가 100만개씩이니깐 800개 정도는 (전체 데이터의 0.08%) 24시간 비행 했다고 생각할만 하지 않을까요

춘배사랑개
2023.04.14 15:32

저도 24시간 비행은 고려했지만, Distance가 짧은 단거리 비행노선을 기준으로 조회하였기에 데이터 정합성에 의심이 듭니다..

예시로 result 사진에 230mile에 not_delayed된 자료도 있어 혼란이 생기네요.

설빙더아이스
2023.04.14 15:36

그건..이상한 현상이네요 짧은 거리인데 시차가 많이 날 리도 없으니깐요 날짜변경선을 넘었으려나..?

데이터분석초보
2023.04.16 23:52

미국에는 시간대가 여러 개 있으니 우연히 두 공항 사이에서 시간대가 변경되는 선이 있다면 가능할 것 같은데요. 두 공항이 서로 다른 시간대에 있는 것이 아닌지 확인해봐야 알 수 있을 것 같습니다.

DACON.SeungYoon
2023.04.17 09:09

안녕하세요, 춘배사랑개 님
해당 샘플들의 시간은 현지 시각을 기준으로 측정되었습니다.
그렇기에  현지 시각이 다른 인접한 다른 주로 항공편을 운행할 경우,
출발시간과 도착시간의 차이가 극단적으로 적게 나타날 수도 있습니다.
감사합니다.

춘배사랑개
2023.04.17 09:16

데이터의 시간은 출발/도착 항공의 현지 시간으로 봐야겠군요.

확인 감사합니다. 

Dovahkiin
2023.04.26 13:36

삭제된 댓글입니다