월간 데이콘 코로나 데이터 시각화 AI 경진대회

데이터 관련 질문

2020.04.01 23:26 4,203 조회

안녕하세요,

대회 데이터셋 관련 질문입니다.


  1. 데이터 탭에 공지된 깃허브 링크는 데이터 탭에서 다운받을 수 있는 데이터셋과 항상 동일한 시점에 업데이트 되는 것이 맞나요? (매번 직접 다운받을 필요 없이 깃허브에서 바로 연동하기 위해 질문드립니다)
  2. 대회 데이터가 실제 데이터와 차이가 심한 것 같습니다. 단적인 예로 PatientInfo.csv를 살펴보면, 4월 1일 기준 누적 확진자가 경북은 1302명 중 1157명이 반영되었는데 대구는 6704명 중 단 63명만 반영되어 있습니다. 전체 확진자에서 60% 이상을 차지하는 대구의 환자 정보가 이처럼 많이 누락되면 전체 분석 결과에도 유의미한 영향을 주지 않을까 우려됩니다. 이와 같은 차이가 왜 발생한 것인지(ex. 특정 일자까지만 업로드 되었거나, 특정 지역의 업로드만 늦어지는 상태) 그리고 앞으로 이 부분 관련 보완 계획이 있으신지 여쭤보고 싶습니다.
로그인이 필요합니다
0 / 1000
DACONIO
2020.04.02 12:21

답변 안내드리겠습니다.

1. 동일한 시점에 업데이트됩니다.

2. 확진자가 급증함에 따라 질병관리본부에서 관리하기 어려워졌고 각 지자체에서 개별 확진자 조사 및 정보 공개를 진행하고 있습니다. 대구는 약 6000명의 확진자가 있지만 조사에 어려움이 있어 개별 확진자에 대한 정보를 제공하고 있지 않습니다. 향후 정보가 공개될 가능성이 낮지만 공개된다면 데이터셋에 반영될 예정입니다. 

DACONIO
2020.04.02 12:21

경북의 경우 모든 시군 사이트를 확인하여 업데이트 시점으로 기준으로 전부 업데이트한 것이지만 경북 또한 확진자가 많이 발생하는 곳으로 정보 공개가 지연되는 편입니다. 모든 데이터는 질병관리본부와 각 지자체 사이트에서 수집 중이며 PatientInfo의 경우 바로바로 정확하게 공개되지 않아 다른 테이블의 통계값과 차이가 있을 수 있으니 유의바랍니다.

감사합니다.

Gintama
2020.04.02 18:52

제가 18일 버전과 30일 버전 둘다 가지고 있는데, 18일 버전에는 있는 정보들이 30 버전에 없습니다.
PatientInfo 테이블에서 그런 현상이 발생하는데, 정부에서 잠복기가 끝난 환자의 정보 공개를 비공개로 전환해서 그런지, 원인을 파악해주셔야 할 것 같습니다.

a낙타a
2020.04.09 17:25

최근 github에 제공된 PatientRoute와 사이트에서 제공하는 Route의 값이 다르네요 이동경로가 다른것 같은데 정상인가요?