월간 데이콘 코로나 데이터 시각화 AI 경진대회

분석시각화 | 정형 | 분석 | 코로나 | 정성평가

  • moneyIcon Prize : 250만원
  • 2,322명 마감

 

[팀 컨피던스] Covid19 데이터 분석 및 시각화 (5/7 업데이트)

2020.04.21 01:46 13,420 Views language

'안녕하세요! 저희는 ‘팀 컨피던스’입니다.  
통계학과와 물리학과 전공생들이 뭉쳐서 올해 초부터 극성이었던 Covid19에 대해서 분석하고 시각화해보았습니다.

저희는 Python을 활용하여 전체적인 역학관계를 네트워크로 시각화하고 분석하였습니다.
또한, R을 활용하여 유동인구를 중심으로 ‘사회적 거리 두기’의 효과를 통계적으로  분석하고 시각화하였습니다.
그리고 마지막으로 R을 이용하여 정부의 마스크 정책에 대해서 평가해본뒤에 Python을 이용해서 Covid19 전후의 미세먼지 변화를 시각화해보았습니다.
따라서 직접 실행하실때는 주제에 따라 Python 과 R 커널을 바꾸어 가며 사용하셔야 합니다!

아래의 글을 읽어보시고 유익하셨다면, 투표 부탁드립니다. !!< 게시글 상단의 초록색 세모 누르시면 됩니다 :) >

참고로 아래의 글은 가독성을 위하여 긴 코드들을 일부 생략하였습니다.
모든 코드를 보고자 하시는 분들은 아래 링크로 들어와 주세요!'


1. 네트워크 분석 - 확진이 어떻게 진행되었을까?(Python) : https://www.dacon.io/competitions/official/235590/codeshare/1060?page=1&dtype=recent

2. 통계 분석 - 사회적 거리두기는 확진자 수 감소에 도움을 줄까?(R) : https://www.dacon.io/competitions/official/235590/codeshare/1061?page=1&dtype=recent

3. 포스트 코로나 - 정책 평가 및 환경 변화(Python/R) : https://www.dacon.io/competitions/official/235590/codeshare/1062?page=1&dtype=recent

Code
로그인이 필요합니다
0 / 1000
당쇠
2020.04.21 09:21

※이 글을 클릭하시면 원본 네트워크 html파일이 저장됩니다. 해당 파일에서 더욱더 상세하게 확인하실 수 있습니다. -> 이 부분 에러가 납니다. 

Ahalee
2020.04.21 09:41

네. 저희가 pyvis라이브러리를 사용해서 네트워크를 그렸습니다. pyvis가 html형식의 파일을 working directory에 저장한 후에 이미지를 보여주는데, 데이콘 대회에서는 html파일을 저장할 수 없어서 네트워크가 보여지지 않는 것을 알고 따로 사이트의 링크를 걸어두었습니다. url링크의 오류인 것 같습니다. 저희 팀장님이 새벽3시 반에 마지막 수정을 한 것으로 보여서 아직 수정이 이뤄지지 않은 것 같습니다. 마저 수정하도록 하겠습니다. 피드백 감사합니다.

김민수4263
2020.04.21 13:39

안녕하세요. 팀 컨피던스입니다. 데이콘 코드공유 게시판 특성상 html파일이 마크다운에 삽입되지 않습니다. 따라서 url을 넘기는 방식으로 보여드리고 있습니다. 다만, 이전 게시글의 url은 네이버 블로그 첨부파일로 연결하고 있었는데 네이버가 실시간으로 그 연결을 차단하고 있는것 같습니다. 따라서 저희팀 자체의 호스팅을 만들어 url을 새로 연결하였습니다. 좀 더 지켜봐야하겠지만 아마 이제 잘 연결될것으로 보입니다. 감사합니다.

홍홍
2020.04.21 13:55

오오

named
2020.04.21 15:34

통계 분석과 네트웍 분석을 통해 효과를 구체적이고 정량적으로 볼 수 있어서 인상적입니다. 많은 노력을 하신 것 같습니다 :)  

김민수4263
2020.04.21 21:01

좋은 말씀 감사합니다 ^^:

Gray
2020.04.21 23:40

상황 분석 부분은 시각적 효과 등으로 매우 깔끔하게 잘 보여주신 것 같습니다. 특히, 전파별로 단계까지 구현하신 점이 인상깊었습니다.

김민수4263
2020.04.22 14:44

안녕하세요. 칭찬 감사합니다 ㅎㅎ

Visualising Korea
2020.04.25 15:43

모델링의 과정 재미있게 보았습니다. 저희도 머신러닝 알고리즘으로 분석을 했는데 데이터가 제한적이라 의미를 찾기가 쉽지는 않더라구요 마지막에서 두번째 plot 의 기대값이 exponential 로 증가하는 모양새가 모델링을 하는 입장에서 보기가 좋습니다 고생하셨습니다. 

김민수4263
2020.04.25 01:10

좋은 말씀 감사합니다. ^^ 저희도 주어진 데이터가 많지 않아서 회귀분석으로 유의미한 결과가 나올까 걱정을 많이 했었습니다.. 그런데 아마 유동인구 변수에서의 아웃라이어 처리와 반응변수의 transformation을 통해서 그래도 우리가 기대했던 결과가 나온게 아닌가 싶습니다. 사실 설명변수들 간에 interaction 또한 반영해야 더욱 정확하겠지만 일단은 분석의 첫 시작으로써, 간단한 회귀모형을 돌려보았습니다. :)

cydra
2020.04.26 21:47

회귀분석 과정을 재미있게 보았습니다. 다중공선성 검증시 vif에 대한 해석기준, 정규성을 보일때 shapiro.test() 등의 결과를 같이 언급해주시면 훨씬 더 좋았을 것 같습니다^^

김민수4263
2020.04.27 00:35

안녕하세요. 팀 컨피던스 입니다! 우선 좋은 질문 감사합니다.
다중 공선성 검증시에는 통상적으로 vif값이 10보다 크면 다중 공선성을 의심하게 됩니다. 해당 설명변수 상에서 다중 공선성이 10보다 큰 변수는 humidity_lag2 가 16을 다소 넘으며 나머지 변수들은 10 아래에 있습니다. 따라서 다중공선성이 심하지 않다고 판단하게 되었습니다.

김민수4263
2020.04.27 00:35

더구나, 다중공선성이 다소 존재한다고 하더라도, 표준오차가 증가하여 우리가 보고 싶어하는 traffic_lag12의 효과를 가릴정도가 되지는 않으므로(p-value:0.03) 해당 분석에서는 크게 고려되지 않았습니다. shapiro-wilk테스트의 경우 다소 보수적인 검정법으로 알고 있습니다만, 다음 데이터 갱신때 한번 추가해보도록 하겠습니다.

자는게참좋아
2020.04.27 22:07

목차에 따라 잘 정리되어 있어서, 긴 글임에도 알아보기가 쉬웠습니다.
베이지안 상태공간모형에 대한 업데이트도 기대가 됩니다. 재미있게 잘 보았습니다.

김민수4263
2020.04.28 01:08

좋게 봐주셔서 감사합니다 ㅎㅎ

며니며니
2020.05.07 21:25

시각화나 논지를 풀어가는 전개가 흥미로워서 넘 재밌게 읽었어요!! 고생 많으셨습니다 :)

Ahalee
2020.05.07 21:38

감사합니다^^

jungsdal
2020.05.08 21:50

훌륭하군요.

김민수4263
2020.05.09 15:18

감사합니다!

CHANE
2020.05.09 17:15

시각적인 자료를 이용하여 잘 정리된 좋은 글이네요. 흥미롭게 읽었습니다.

김민수4263
2020.05.14 00:47

감사합니다!

jhlee928
2020.06.15 11:47

안녕하세요. 혹시 유동인구 자료 좀 공유해 주실 수 있나요? 연구에 필요해서 그러는데 간곡히 부탁드립니다. jh_lee928@naver.com

ramsonthree
2020.11.03 18:20

안녕하세요 혹시 search_mask.xlsx 데이터를 받을 수 있을까요? 부탁드립니다. 
os93pyo@gmail.com