SlideShare a Scribd company logo
1 of 41
Download to read offline
뭉치면 죽고 퍼지면 산다!
COVID-19
Analysis &
visualization
Mulcamer Team
04
01
02
03
Linear Regression &
Logistic Curve를 통한
확진자 예측
20대 감염 원인과 성향
파악
과연, COVID 19는
누구에게 치명적일까?
수도권과 비수도권 신규
확진자 양상의 차이?
INDEX
프로젝트 의의
현재 가장 큰 이슈인 코로나라는 펜데믹(pandemic)에 대응하여 인류
전체의 문제를 해결하기 위한 노력과 지식 공유를 목적으로 프로젝트에
임하였습니다. 더 나아가 저희팀의 분석 자료를 통해 앞으로의 코로나
관련 정책 방향성이나 사람들 인식의 변화에 영향을 줄 수 있는 객관적인
저널이 되고자 하는 목표가 있습니다.
INtroduction
프로젝트 팀 소개
Mulcamer 팀은 Mulicampus + Learner의 약자로 현재 삼성 멀티캠퍼스에서
데이터 분석과 AI 과정을 공부하고 있는 학생들로 이루어진 팀입니다.
20대 감염 원인과
성향 파악
01.
Search 20’s Infection Cases and Reasons
1-1. 20대 감염자 어디서 왔는가?
1-2. 20대 높은 감염자 수 신천지 때문인가?
20대 감염자 어디서 왔는가?
연령별 누적 확진자 추이와 사망자 추이를 보면 각 연령별 추이가 꾸준히 증가하는 것을 볼 수 있습니다. 20대는 꾸준하게 확진자
수가 높았으며 70~80대의 사망률 또한 계속해서 높은 상태를 유지했습니다. 그래서 연령대별 특징이나 행동특성이 코로나 감염과
관계가 있을 것이라 생각하여 연령별 코로나 발생률을 알아보았습니다.
20대의 인구수에 비해 40~50대의 인구수가 약 28% 더 많은 것을 알 수 있었습니다. 그럼에도 20대의 확진자 수가 훨씬 많은 것을
알 수 있었습니다. 또한, 연령별 인구수에 대한 확진자 비율을 보면 20대의 확진자 비율이 더욱 극명하게 나타나는 것을 확인할 수
있었습니다.
20대 확진자 수가 다른 연령대 확진자 수 보다 높은 것을 알 수 있었습니다.
20대 감염자 어디서 왔는가?_code
[연령별 누적 확진자수와 사망자수] [연령별 인구수와 연령별 10만명당 발생률 ]
감염 케이스 측면 비교에서 전체와 20대는 조금 차이를 보입니다. 전체 감염자 비율과 다르게 해외에서 유입되는 20대의 비율이 상당히 높은 것을
알 수 있습니다. 하지만 환자 정보 데이터의 결측치와 기타 부분이 많아 중앙방역대책 본부의 데이터를 통해 감염케이스를 다시 확인하였습니다.
• 중앙방역대책본부의 4월28일 현황발표 데이터에 의하면 전체 코로나 확진자 중 48.5%가 대구 신천지와 관련된 확진자인 것으로 조사되었습니다.
• 대구광역시 재난안전대책본부의 3월 6일 발표에 의하면 신천지 교인 10,914명 중 90%이상이 진단검사를 받은 것으로 파악되고 이 중 3,617명이
확진 판정을 받았습니다. 신천지 교인 3,617명 중 남성이 1,170명(32.3%), 여성은 2,447명(67.7%)로 여성이 2배 이상 많으며, 20대 1,376명(38.0%),
50대 663명(18.3%), 40대 496명(13.7%) 순으로, 20대가 가장 많은 신천지 확진자 비율을 차지하고 있습니다.
20대 감염자 어디서 왔는가?
[(왼)출처 Data: 중앙대책본부]
상당수의 20대 확진자의 감염 경로가 신천지 교회에서 발생된 것을 판단하였습니다.
20대 감염자 어디서 왔는가?_code
[확진자 감염 케이스 Subplot - Pie graph] [확진자 감염 케이스 비율 Pie graph]
[20대의 유동인구 파악]
• 2019년 3~5월 유동인구 : 20대의 유동인구가 많을 것이라고 예상했던 것과 다르게 30~40대의 유동인구가 가장 많았습니다.
그 다음으로 20대와 50가 유동인구 측면에서 유사한 것을 확인할 수 있었습니다.
• 2020년 1~4월 유동인구 : 20대의 큰 유동성을 파악하긴 힘들었습니다. 설날 이후 중국에서 넘어온 코로나에 대한 경각심이 시작되고
60대, 70대의 유동인구가 급격하게 감소하였고, 2월 말부터 20대의 유동인구가 약간 줄어들어 50대와 간격이 생겼습니다. 하지만 1달을
가지못해 3월말부터 다시 1월초와 유사한 유동인구 모습을 볼 수 있습니다.
20대 높은 감염자수 오직 신천지 때문인가?
갑작스런 감소?
설날 연휴로 지방으로의 이동
20대가 많을 것이라고 생각했던 유동인구는 20대 보다 30~40대가 많았습니다.
2월 말부터 코로나의 경각심으로 20대의 유동인구가 잠시 줄었지만 다시 유사한 수치로 돌아왔습니다.
20대 높은 감염자수 오직 신천지 때문인가? _code
[연령별 서울시 유동인구 Subplot - Line graph / SKT 빅데이터 허브 DB 연결]
20대와 유사한 인구유동 양상을 띄던 50대와 함께
비교하였습니다.
• 불필요 방문 업종 : 부동산, 미용, 제과점, 헬스장, 바, 숙박업소,
pc방, 카페, 교회, 가게, 레스토랑
• 필요 방문 업종 : 관공서, 은행, 학업관련, 약국, 대중교통 등
공통적으로 많이 방문하는 store, church는 비슷한 양상을
보여주고 있습니다. 하지만 20대는 restaurant, pc방, cafe, bar
등에서 훨씬 많은 방문비율을 확인할 수 있었습니다.
이를 통해서 20대는 활동 반경이 넓고 활발하며, 불필요한 방문
지역에 자주 방문하는 것을 확인하였습니다.
20대 높은 감염자수 오직 신천지 때문인가?
20대는 활동반경이 넓고 활발하며, 불필요한 방문지역에 자주 방문하는 것을 확인하였고
코로나에 더 쉽게 노출될 수 있을 것이라 판단하였습니다.
20대 높은 감염자수 오직 신천지 때문인가?_code
[20대 50대의 불필요한 방문지역 Subplot Bar Graph]
과연, COVID19는
누구에게 치명적일까?
02.
Indeed, Who will be affected from COVID-19 Virus?Search 20’s Infection Cases and Reasons
2-1. 나이가 많을 수록 완치기간이 오래걸린다?
2-2. 치명률과 사망 환자 원인 분석
고연령자 평균 완치기간 : 26.3일
YoungAdults eLDerly
나이가 많을 수록 완치기간이 오래걸린다?
<
70대 : 24.1일, 80대 : 27.6일, 90대 : 27.3일
20, 30대 평균 완치기간 : 21.85일
20대 : 21.8일, 30대 : 21.9일
YES !
연령별로 평균 이상과 이하 분포를 통해 해당 연령이 얼마나 오랜 완치 기간을 갖는지, 빠른 완치 기간을 갖는지에 대해 보았습니다.
• 모든 연령은 평균 22일동안의 완치기간을 가지고 있었으며, 이는 감기 바이러스 처럼 쉽게 낫지 않는 질병임을 알 수 있었습니다.
• 0대와 10대는 전반적으로 빠르게 완치되는 것을 알 수 있었습니다.
• 반대로 60대부터 90대의 고연령층으로 갈 수록 완치기간이 길다는 사실을 알 수 있었습니다.
나이가 많을 수록 완치기간이 더 오래 걸린다?
나이가 많을 수록 완치기간이 길어진다는 것을 알 수 있었습니다.
나이가 많을 수록 완치기간이 더 오래 걸린다?_code
[연령별 평균 완치기간 이상/이하 StackBar Graph] [연령별 평균 완치기간 Subplot - Bar Graph]
* 치명률 = 사망자수 / 확진자수 * 100 (단, 0대 부터 20대까지 연령에는 사망자가 있지 않아 치명률 분석에서 제외하였습니다.)
• 2020/03/02 부터 슬라이드를 보게 되면 70대와 80대의 치명률이 각각 3.7%, 3.1% 로 높지 않을 수치이며 연령내의 차이가 크게 나지
않습니다.
• 하지만 시간이 흐를수록 점차 80대의 치명률이 급격히 높아지며 2020/04/30 기준으로 80대 이상의 치명률은 24.3% 로써 4명중 1명은
사망했다고 할 수 있을 정도로 높은 비율을 보여줍니다.
치명률과 사망 환자 원인 분석
나이가 많을 수록 코로나의 치명률이 높아지는 것을 알 수 있었습니다.
치명률과 사망 환자 원인 분석 _code
[시간에 따른 연령별 치명률 변화 Time Slider Scatter Graph]
[기저질환 종류별 사망자]
• 기저질환을 가지고 있었던 사망자는 98.8%(약 99%)으로
기저질환을 가진 확진자는 사망률이 매우 높다는 사실을
인지하였습니다. 하지만, 기저질환을 가지지 않은 환자가
사망한 사례도 1건 존재하였습니다.
• 사망자들이 모두 폐와 관련 기저질환을 앓고 있지
않았으며 호흡 기계 질환보다 순한기계 질환을 앓고
있었던 사망자들이 76.9%로 3배 이상 차이를 보이며
사망률과 더 밀접한 관련이 있음을 확인하였습니다.
치명률과 사망 환자 원인 분석
[사망자의 추정 감염 경로]
• 50%이상이 의료시설에서의 감염이 일어난 것을 보아
기존에 기저질환을 앓고 있던 환자가 병원을 이용하던
도중 확진자와 접촉하여 감염이 되었을 가능성이 큽니다.
기저질환을 가진 사망자는 98.8%로 코로나는 기저질환자에게 매우 치명적인 것을 알 수 있었습니다.
치명률과 사망 환자 원인 분석_code
[기저질환 종류별 사망자 및 사망자 추정감염 경로 Subplot - Bar / SunBurst Graph]
수도권과 영남 지역의
신규 확진자 양상의 차이가 날까?
03
3-1. 지역별 신규 확진자 증가 양상?
3-2. 수도권과 영남지역의 신규 확진자 발생 원인 비교
3-3. 해외 유입 확진자 위협적인가?
지역별 확진자 증가 양상
영남 지역과 그 외의 지역은 31번 확진자 발생일(2월 18일) 이후인 2월 말부터 3월 초까지 확진자 수가 크게 증가하였습니다. 반면,
수도권 지역에서는 3월 초, 구로 콜센터 사건 때 가장 크게 증가했습니다. 그 외에도 3월 말까지 꾸준하게 신규 확진자가 늘어가는
추세임을 확인할 수 있습니다.
수도권 지역과 영남지역의 확진자 증가 양상이 다른 것을 알 수 있었습니다.
지역별 확진자 증가 양상_code
[지역별 신규 확진자와 누적 확진자 수]
지역별 확진자 증가 양상
수도권 지역과 영남지역의 신규 확진자 증가 양상이 확연히 다른 것을 알 수 있었습니다.
확진자가 가장 많은 수도권과 영남지역의 신규 확진자 규모를 비교하였을 떄, 수도권지역과 영남지역의 신규확진자 수 양상이
확연하게 다른 것을 확인할 수 있습니다.
지역별 확진자 증가 양상_code
[수도권과 영남의 일별 신규 확진자 수]
수도권 지역의 꾸준한 신규 확진자 유입 원인
지역별로 확진자 증가 원인이 달랐으며, 수도권의 신규 확진자의 증가 원인은 해외유입인구라는 것을 알 수 있었습니다.
2월 20일부터 3월 9일의 감염 경로와 3월 10일 부터 4월 3일의 감염 경로를 보았을 때, 영남지역에서 신천지 63.9%에서 9.39%으로
줄었으며, 수도권에서 4.06% 정도였던 해외유입 확진자의 비중이 35.7%로 급격하게 늘어난 것을 확인할 수 있습니다. 이를 통해서
지역별 확진자 증가 원인이 차이가 있는 것을 확인할 수 있습니다. 3월 중순부터 미국과 유럽 등 해외에 코로나 확진자가 증가하는
것을 볼 수 있었습니다. 이를 보았을 때, 3월 중순부터 해외에서 입국한 사람들의 코로나 감염률이 높아져 해외유입으로 인한 감염자
수가 증가하여 해외 유입 인구가 가장 많은 수도권의 신규 확진자 수가 지속적으로 증가하였다고 볼 수 있었습니다.
수도권 지역의 꾸준한 신규 확진자 유입 원인_code
[수도권과 영남의 감염경로별 확진자 수] [수도권 신규 확진자 수와 해외 누적 확진자 수]
해외 유입 감염자가 신규 감염자 위협적인가?
해외 유입 감염자 수가 뒤늦게 증가하여 이슈화가
되고 있어 신규 감염자의 대부분이 해외유입으로
인한 감염자일 것이라고 생각하였습니다. 하지만
수도권만 해외유입으로 인한 확진자가 다수를
이 루 었 고 그 외 지 역 에 서 는 해 외 유 입 보 다 는
집단감염이 더 큰 비중을 차지하였습니다.
해외 유입 감염자로 인한 확진자 증가는 공항에서
1차적인 검사와 입국 후 2주간의 자가격리 및 환자
관리 통해서 국가에서 확산 방지를 위한 노력이 더
중요합니다. 하지만, 국내에서 발생되는 집단 감염의
경우, 국가에서 확산 방지를 위해 직접적인 노력이
어렵습니다. 집단 감염은 대한민국 국민들이 다 함께
노력해서 감염되지 않기 위한 노력에 적극 참여해야
막을 수 있습니다.
해외유입인구로 인한 감염이 집중이 되고 있지만 집단 감염이 감염자가 나오게 하는 큰 이유로
코로나 종식을 위해서는 국민 모두의 적극적인 노력이 필요하다고 봅니다.
해외 유입 감염자가 신규 감염자 위협적인가?_code
[감염경로별 확진자 수]
LogisticFunction과
Linear Regression을
통한 확진자 수 예측
04.
Predict the number of confirmed patient by Logistic Function and Linear Regression
4-1. 모델 설명 및 선정 이유
4-2. 한국, 중국, 이탈리아, 미국 확진자 수 예측 및 비교
4-3. 신천지 집단 감염이 일어나지 않았다면?
나라 선정
중국
이탈리아
미국
한국
사용 모델
Logistic Function Linear Regression
자 연 발 생 으 로 인 한 증 가 는 이 론 적 으 로
지수함수적으로 증가하지만, 실제 현실에서는
최대 증가치가 정해져 있으므로 특정 값으로
수렴됩니다. 이러한 특성을 로지스틱 함수가 잘
나타냅니다.
전체적인 확진자 수의 증가 추세를 선형회귀
식의 기울기를 통해서 확인할 수 있습니다.
L : 최대 확진자수 : 17일 전까지의 중국 확진자 수 사용
k : Growth Rate : 중국과 세계의 Growth Rate 평균 값 사용
x0 : mid point : 최대 확진자수에 이르기 까지의 중간 지점
DAYS2FIT : 선형회귀식을 구하기 위한 최근 n일
PREDICT_PERIOD : 선형회귀를 통해 예측할 미래 n일
중국, 한국, 이탈리아, 미국 확진자 수 예측하기
로지스틱 함수와 선형회귀분석을 통하여, 한국과 중국은 코로나 종식에 가까워지고 있는 추세임을 예상할 수 있었고,
이탈리아와 미국은 여전히 확진자 수가 증가하는 추세임을 예상할 수 있습니다.
• 중국과 한국은 로지스틱 그래프와 수렴해가는
모습을 보이고 있습니다. 또한, 선형회귀식의
기울기가 매우 낮아졌으며 로지스틱 함수와
거의 평행해지는 것을 확인할 수 있습니다.
이를 통해서 한국과 중국은 코로나 종식에
가까워지고 있는 모습을 확인할 수 있습니다.
• 이탈리아와 미국은 로지스틱과 선형 그래프의
진행방향에 차이가 꽤 있는 것을 확인할 수
있습니다. 로지스틱 함수의 방향과 다른
방향으로 진행되고 있는 확진자 수 증가 추이와
선형회귀 식의 기울기를 통해서 여전히
확진자가 증가하는 추세임을 예상할 수
있습니다.
중국, 한국, 이탈리아, 미국 확진자 수 예측하기_code
[나라별 확진자 수 방향 예측]
신천지 집단 감염이 일어나지 않았다면?
신천지 대규모 확진으로 인하여 우리나라의 코로나 확진 양상이 급격하게 바뀌는 것을 볼 수 있었습니다.
이를 통해, 대규모 집단 감염의 위험성을 가시적으로 확인할 수 있습니다.
• 신천지 이전(2월 17일) 까지의 데이터를 통해서 예측 그래프를 그려보았습니다. 로지스틱 그래프와 선형회귀 그래프가 점차 평행해
나가는 것을 보았을 때, 어느정도 코로나가 확산이 줄어들고 소강상태로 진입하는 모습을 예상해 볼 수 있습니다.
• 2월 17일 이후 3일을 추가하여 집단감염 발생으로 실제 늘어난 확진자 수의 모습을 확인해보았습니다. 신천지 발생 이전에 예측했던
자연적인 접촉으로 확산되는 지수적 증가와 선형회귀 선을 뚫고 수직에 가까운 기울기를 보이며 확진자가 증가하는 것을 볼 수 있습니다.
신천지 집단 감염이 일어나지 않았다면?_code
[신천지 집단 감염 전 확진자 수 방향 예측] [신천지 집단 감염 전 확진자 수 예측과 실제 확진자 수]
사회적 거리두기에서
생활 속 거리두기,
괜찮은 걸까?
부록.
사회적 거리두기에서 생활속 거리두기, 괜찮은 걸까?
• 검색 트랜드에서는 4월 25일부터 교통정보, 단기 렌트카, 숙박시설, 액티비티와 같은 외부 활동을 찾는 키워드들이 급증했음을 보아
연휴기간을 이용해 여행이나 외부 활동에 관심이 많았음을 알 수 있었습니다.
• 교통량을 보면 4월 4째주부터 5월 1째주까지 수도권을 제외한 모든 지역의 교통량이 증가했음을 보여줍니다. 특히, 5월 첫째 주 기준으로
부산이나 강원도 그리고 전남 지역은 전 주 대비 약 1만이상의 교통량의 차이를 보여줌으로써 연휴기간 사람들의 활동성이 늘어났다는
사실을 알 수 있었습니다.
• 제주 노선 이용객 수와 항공 수요량을 보면 눈에 띄게 4월 4째주부터 연휴기간을 맞이해 제주노선 수요량이 급증했다는 사실을 보아
사람들의 코로나 경각심이 줄고 여가를 즐긴다는 사실을 알 수 있었습니다.
검색 트랜드, 교통량, 제주 국내선 수요량을 보았을 때, 연휴기간인 4월 30일부터 5월 5일에 외부활동이 증가한 것을 알 수 있었습니다.
이는 사람들의 코로나 경각심이 누그러졌으며 제 2의 신천지 확산과 같은 집단감염 상황이 재발 될 확률이 높아 질 것으로 보여집니다.
사회적 거리두기에서 생활속 거리두기, 괜찮은 걸까?_code
[검색어 트랜드 비교] [교통량 비교] [제주 국내선 수요량 비교]
“ 결론적으로 COVID-19의 확산
방지를 예방하기 위해서는 집단 감염을
조심해야합니다. ”
THANKs!Do you have any questions?
[TEAM Members]
Chan park :
Kyeonga Kim : kka960602@gmail.com
Yuhwa Cha : yhcha.h@gmail.com
COVID19-Project Repository :
https://github.com/chan157/DACON_COVID

More Related Content

More from DACON AI 데이콘

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engDACON AI 데이콘
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korDACON AI 데이콘
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의DACON AI 데이콘
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상DACON AI 데이콘
 

More from DACON AI 데이콘 (20)

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -eng
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -kor
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의
 
데이콘 뽀개기
데이콘 뽀개기데이콘 뽀개기
데이콘 뽀개기
 
Bittrader competition (1)
Bittrader competition (1)Bittrader competition (1)
Bittrader competition (1)
 
Bittrader competition
Bittrader competitionBittrader competition
Bittrader competition
 
Superbai
SuperbaiSuperbai
Superbai
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
 
20200923
2020092320200923
20200923
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상
 

코로나 데이터 시각화 AI 경진대회 3위 수상작

  • 1. 뭉치면 죽고 퍼지면 산다! COVID-19 Analysis & visualization Mulcamer Team
  • 2. 04 01 02 03 Linear Regression & Logistic Curve를 통한 확진자 예측 20대 감염 원인과 성향 파악 과연, COVID 19는 누구에게 치명적일까? 수도권과 비수도권 신규 확진자 양상의 차이? INDEX
  • 3. 프로젝트 의의 현재 가장 큰 이슈인 코로나라는 펜데믹(pandemic)에 대응하여 인류 전체의 문제를 해결하기 위한 노력과 지식 공유를 목적으로 프로젝트에 임하였습니다. 더 나아가 저희팀의 분석 자료를 통해 앞으로의 코로나 관련 정책 방향성이나 사람들 인식의 변화에 영향을 줄 수 있는 객관적인 저널이 되고자 하는 목표가 있습니다. INtroduction 프로젝트 팀 소개 Mulcamer 팀은 Mulicampus + Learner의 약자로 현재 삼성 멀티캠퍼스에서 데이터 분석과 AI 과정을 공부하고 있는 학생들로 이루어진 팀입니다.
  • 4. 20대 감염 원인과 성향 파악 01. Search 20’s Infection Cases and Reasons 1-1. 20대 감염자 어디서 왔는가? 1-2. 20대 높은 감염자 수 신천지 때문인가?
  • 5. 20대 감염자 어디서 왔는가? 연령별 누적 확진자 추이와 사망자 추이를 보면 각 연령별 추이가 꾸준히 증가하는 것을 볼 수 있습니다. 20대는 꾸준하게 확진자 수가 높았으며 70~80대의 사망률 또한 계속해서 높은 상태를 유지했습니다. 그래서 연령대별 특징이나 행동특성이 코로나 감염과 관계가 있을 것이라 생각하여 연령별 코로나 발생률을 알아보았습니다. 20대의 인구수에 비해 40~50대의 인구수가 약 28% 더 많은 것을 알 수 있었습니다. 그럼에도 20대의 확진자 수가 훨씬 많은 것을 알 수 있었습니다. 또한, 연령별 인구수에 대한 확진자 비율을 보면 20대의 확진자 비율이 더욱 극명하게 나타나는 것을 확인할 수 있었습니다. 20대 확진자 수가 다른 연령대 확진자 수 보다 높은 것을 알 수 있었습니다.
  • 6. 20대 감염자 어디서 왔는가?_code [연령별 누적 확진자수와 사망자수] [연령별 인구수와 연령별 10만명당 발생률 ]
  • 7. 감염 케이스 측면 비교에서 전체와 20대는 조금 차이를 보입니다. 전체 감염자 비율과 다르게 해외에서 유입되는 20대의 비율이 상당히 높은 것을 알 수 있습니다. 하지만 환자 정보 데이터의 결측치와 기타 부분이 많아 중앙방역대책 본부의 데이터를 통해 감염케이스를 다시 확인하였습니다. • 중앙방역대책본부의 4월28일 현황발표 데이터에 의하면 전체 코로나 확진자 중 48.5%가 대구 신천지와 관련된 확진자인 것으로 조사되었습니다. • 대구광역시 재난안전대책본부의 3월 6일 발표에 의하면 신천지 교인 10,914명 중 90%이상이 진단검사를 받은 것으로 파악되고 이 중 3,617명이 확진 판정을 받았습니다. 신천지 교인 3,617명 중 남성이 1,170명(32.3%), 여성은 2,447명(67.7%)로 여성이 2배 이상 많으며, 20대 1,376명(38.0%), 50대 663명(18.3%), 40대 496명(13.7%) 순으로, 20대가 가장 많은 신천지 확진자 비율을 차지하고 있습니다. 20대 감염자 어디서 왔는가? [(왼)출처 Data: 중앙대책본부] 상당수의 20대 확진자의 감염 경로가 신천지 교회에서 발생된 것을 판단하였습니다.
  • 8. 20대 감염자 어디서 왔는가?_code [확진자 감염 케이스 Subplot - Pie graph] [확진자 감염 케이스 비율 Pie graph]
  • 9. [20대의 유동인구 파악] • 2019년 3~5월 유동인구 : 20대의 유동인구가 많을 것이라고 예상했던 것과 다르게 30~40대의 유동인구가 가장 많았습니다. 그 다음으로 20대와 50가 유동인구 측면에서 유사한 것을 확인할 수 있었습니다. • 2020년 1~4월 유동인구 : 20대의 큰 유동성을 파악하긴 힘들었습니다. 설날 이후 중국에서 넘어온 코로나에 대한 경각심이 시작되고 60대, 70대의 유동인구가 급격하게 감소하였고, 2월 말부터 20대의 유동인구가 약간 줄어들어 50대와 간격이 생겼습니다. 하지만 1달을 가지못해 3월말부터 다시 1월초와 유사한 유동인구 모습을 볼 수 있습니다. 20대 높은 감염자수 오직 신천지 때문인가? 갑작스런 감소? 설날 연휴로 지방으로의 이동 20대가 많을 것이라고 생각했던 유동인구는 20대 보다 30~40대가 많았습니다. 2월 말부터 코로나의 경각심으로 20대의 유동인구가 잠시 줄었지만 다시 유사한 수치로 돌아왔습니다.
  • 10. 20대 높은 감염자수 오직 신천지 때문인가? _code [연령별 서울시 유동인구 Subplot - Line graph / SKT 빅데이터 허브 DB 연결]
  • 11. 20대와 유사한 인구유동 양상을 띄던 50대와 함께 비교하였습니다. • 불필요 방문 업종 : 부동산, 미용, 제과점, 헬스장, 바, 숙박업소, pc방, 카페, 교회, 가게, 레스토랑 • 필요 방문 업종 : 관공서, 은행, 학업관련, 약국, 대중교통 등 공통적으로 많이 방문하는 store, church는 비슷한 양상을 보여주고 있습니다. 하지만 20대는 restaurant, pc방, cafe, bar 등에서 훨씬 많은 방문비율을 확인할 수 있었습니다. 이를 통해서 20대는 활동 반경이 넓고 활발하며, 불필요한 방문 지역에 자주 방문하는 것을 확인하였습니다. 20대 높은 감염자수 오직 신천지 때문인가? 20대는 활동반경이 넓고 활발하며, 불필요한 방문지역에 자주 방문하는 것을 확인하였고 코로나에 더 쉽게 노출될 수 있을 것이라 판단하였습니다.
  • 12. 20대 높은 감염자수 오직 신천지 때문인가?_code [20대 50대의 불필요한 방문지역 Subplot Bar Graph]
  • 13. 과연, COVID19는 누구에게 치명적일까? 02. Indeed, Who will be affected from COVID-19 Virus?Search 20’s Infection Cases and Reasons 2-1. 나이가 많을 수록 완치기간이 오래걸린다? 2-2. 치명률과 사망 환자 원인 분석
  • 14. 고연령자 평균 완치기간 : 26.3일 YoungAdults eLDerly 나이가 많을 수록 완치기간이 오래걸린다? < 70대 : 24.1일, 80대 : 27.6일, 90대 : 27.3일 20, 30대 평균 완치기간 : 21.85일 20대 : 21.8일, 30대 : 21.9일 YES !
  • 15. 연령별로 평균 이상과 이하 분포를 통해 해당 연령이 얼마나 오랜 완치 기간을 갖는지, 빠른 완치 기간을 갖는지에 대해 보았습니다. • 모든 연령은 평균 22일동안의 완치기간을 가지고 있었으며, 이는 감기 바이러스 처럼 쉽게 낫지 않는 질병임을 알 수 있었습니다. • 0대와 10대는 전반적으로 빠르게 완치되는 것을 알 수 있었습니다. • 반대로 60대부터 90대의 고연령층으로 갈 수록 완치기간이 길다는 사실을 알 수 있었습니다. 나이가 많을 수록 완치기간이 더 오래 걸린다? 나이가 많을 수록 완치기간이 길어진다는 것을 알 수 있었습니다.
  • 16. 나이가 많을 수록 완치기간이 더 오래 걸린다?_code [연령별 평균 완치기간 이상/이하 StackBar Graph] [연령별 평균 완치기간 Subplot - Bar Graph]
  • 17. * 치명률 = 사망자수 / 확진자수 * 100 (단, 0대 부터 20대까지 연령에는 사망자가 있지 않아 치명률 분석에서 제외하였습니다.) • 2020/03/02 부터 슬라이드를 보게 되면 70대와 80대의 치명률이 각각 3.7%, 3.1% 로 높지 않을 수치이며 연령내의 차이가 크게 나지 않습니다. • 하지만 시간이 흐를수록 점차 80대의 치명률이 급격히 높아지며 2020/04/30 기준으로 80대 이상의 치명률은 24.3% 로써 4명중 1명은 사망했다고 할 수 있을 정도로 높은 비율을 보여줍니다. 치명률과 사망 환자 원인 분석 나이가 많을 수록 코로나의 치명률이 높아지는 것을 알 수 있었습니다.
  • 18. 치명률과 사망 환자 원인 분석 _code [시간에 따른 연령별 치명률 변화 Time Slider Scatter Graph]
  • 19. [기저질환 종류별 사망자] • 기저질환을 가지고 있었던 사망자는 98.8%(약 99%)으로 기저질환을 가진 확진자는 사망률이 매우 높다는 사실을 인지하였습니다. 하지만, 기저질환을 가지지 않은 환자가 사망한 사례도 1건 존재하였습니다. • 사망자들이 모두 폐와 관련 기저질환을 앓고 있지 않았으며 호흡 기계 질환보다 순한기계 질환을 앓고 있었던 사망자들이 76.9%로 3배 이상 차이를 보이며 사망률과 더 밀접한 관련이 있음을 확인하였습니다. 치명률과 사망 환자 원인 분석 [사망자의 추정 감염 경로] • 50%이상이 의료시설에서의 감염이 일어난 것을 보아 기존에 기저질환을 앓고 있던 환자가 병원을 이용하던 도중 확진자와 접촉하여 감염이 되었을 가능성이 큽니다. 기저질환을 가진 사망자는 98.8%로 코로나는 기저질환자에게 매우 치명적인 것을 알 수 있었습니다.
  • 20. 치명률과 사망 환자 원인 분석_code [기저질환 종류별 사망자 및 사망자 추정감염 경로 Subplot - Bar / SunBurst Graph]
  • 21. 수도권과 영남 지역의 신규 확진자 양상의 차이가 날까? 03 3-1. 지역별 신규 확진자 증가 양상? 3-2. 수도권과 영남지역의 신규 확진자 발생 원인 비교 3-3. 해외 유입 확진자 위협적인가?
  • 22. 지역별 확진자 증가 양상 영남 지역과 그 외의 지역은 31번 확진자 발생일(2월 18일) 이후인 2월 말부터 3월 초까지 확진자 수가 크게 증가하였습니다. 반면, 수도권 지역에서는 3월 초, 구로 콜센터 사건 때 가장 크게 증가했습니다. 그 외에도 3월 말까지 꾸준하게 신규 확진자가 늘어가는 추세임을 확인할 수 있습니다. 수도권 지역과 영남지역의 확진자 증가 양상이 다른 것을 알 수 있었습니다.
  • 23. 지역별 확진자 증가 양상_code [지역별 신규 확진자와 누적 확진자 수]
  • 24. 지역별 확진자 증가 양상 수도권 지역과 영남지역의 신규 확진자 증가 양상이 확연히 다른 것을 알 수 있었습니다. 확진자가 가장 많은 수도권과 영남지역의 신규 확진자 규모를 비교하였을 떄, 수도권지역과 영남지역의 신규확진자 수 양상이 확연하게 다른 것을 확인할 수 있습니다.
  • 25. 지역별 확진자 증가 양상_code [수도권과 영남의 일별 신규 확진자 수]
  • 26. 수도권 지역의 꾸준한 신규 확진자 유입 원인 지역별로 확진자 증가 원인이 달랐으며, 수도권의 신규 확진자의 증가 원인은 해외유입인구라는 것을 알 수 있었습니다. 2월 20일부터 3월 9일의 감염 경로와 3월 10일 부터 4월 3일의 감염 경로를 보았을 때, 영남지역에서 신천지 63.9%에서 9.39%으로 줄었으며, 수도권에서 4.06% 정도였던 해외유입 확진자의 비중이 35.7%로 급격하게 늘어난 것을 확인할 수 있습니다. 이를 통해서 지역별 확진자 증가 원인이 차이가 있는 것을 확인할 수 있습니다. 3월 중순부터 미국과 유럽 등 해외에 코로나 확진자가 증가하는 것을 볼 수 있었습니다. 이를 보았을 때, 3월 중순부터 해외에서 입국한 사람들의 코로나 감염률이 높아져 해외유입으로 인한 감염자 수가 증가하여 해외 유입 인구가 가장 많은 수도권의 신규 확진자 수가 지속적으로 증가하였다고 볼 수 있었습니다.
  • 27. 수도권 지역의 꾸준한 신규 확진자 유입 원인_code [수도권과 영남의 감염경로별 확진자 수] [수도권 신규 확진자 수와 해외 누적 확진자 수]
  • 28. 해외 유입 감염자가 신규 감염자 위협적인가? 해외 유입 감염자 수가 뒤늦게 증가하여 이슈화가 되고 있어 신규 감염자의 대부분이 해외유입으로 인한 감염자일 것이라고 생각하였습니다. 하지만 수도권만 해외유입으로 인한 확진자가 다수를 이 루 었 고 그 외 지 역 에 서 는 해 외 유 입 보 다 는 집단감염이 더 큰 비중을 차지하였습니다. 해외 유입 감염자로 인한 확진자 증가는 공항에서 1차적인 검사와 입국 후 2주간의 자가격리 및 환자 관리 통해서 국가에서 확산 방지를 위한 노력이 더 중요합니다. 하지만, 국내에서 발생되는 집단 감염의 경우, 국가에서 확산 방지를 위해 직접적인 노력이 어렵습니다. 집단 감염은 대한민국 국민들이 다 함께 노력해서 감염되지 않기 위한 노력에 적극 참여해야 막을 수 있습니다. 해외유입인구로 인한 감염이 집중이 되고 있지만 집단 감염이 감염자가 나오게 하는 큰 이유로 코로나 종식을 위해서는 국민 모두의 적극적인 노력이 필요하다고 봅니다.
  • 29. 해외 유입 감염자가 신규 감염자 위협적인가?_code [감염경로별 확진자 수]
  • 30. LogisticFunction과 Linear Regression을 통한 확진자 수 예측 04. Predict the number of confirmed patient by Logistic Function and Linear Regression 4-1. 모델 설명 및 선정 이유 4-2. 한국, 중국, 이탈리아, 미국 확진자 수 예측 및 비교 4-3. 신천지 집단 감염이 일어나지 않았다면?
  • 32. 사용 모델 Logistic Function Linear Regression 자 연 발 생 으 로 인 한 증 가 는 이 론 적 으 로 지수함수적으로 증가하지만, 실제 현실에서는 최대 증가치가 정해져 있으므로 특정 값으로 수렴됩니다. 이러한 특성을 로지스틱 함수가 잘 나타냅니다. 전체적인 확진자 수의 증가 추세를 선형회귀 식의 기울기를 통해서 확인할 수 있습니다. L : 최대 확진자수 : 17일 전까지의 중국 확진자 수 사용 k : Growth Rate : 중국과 세계의 Growth Rate 평균 값 사용 x0 : mid point : 최대 확진자수에 이르기 까지의 중간 지점 DAYS2FIT : 선형회귀식을 구하기 위한 최근 n일 PREDICT_PERIOD : 선형회귀를 통해 예측할 미래 n일
  • 33. 중국, 한국, 이탈리아, 미국 확진자 수 예측하기 로지스틱 함수와 선형회귀분석을 통하여, 한국과 중국은 코로나 종식에 가까워지고 있는 추세임을 예상할 수 있었고, 이탈리아와 미국은 여전히 확진자 수가 증가하는 추세임을 예상할 수 있습니다. • 중국과 한국은 로지스틱 그래프와 수렴해가는 모습을 보이고 있습니다. 또한, 선형회귀식의 기울기가 매우 낮아졌으며 로지스틱 함수와 거의 평행해지는 것을 확인할 수 있습니다. 이를 통해서 한국과 중국은 코로나 종식에 가까워지고 있는 모습을 확인할 수 있습니다. • 이탈리아와 미국은 로지스틱과 선형 그래프의 진행방향에 차이가 꽤 있는 것을 확인할 수 있습니다. 로지스틱 함수의 방향과 다른 방향으로 진행되고 있는 확진자 수 증가 추이와 선형회귀 식의 기울기를 통해서 여전히 확진자가 증가하는 추세임을 예상할 수 있습니다.
  • 34. 중국, 한국, 이탈리아, 미국 확진자 수 예측하기_code [나라별 확진자 수 방향 예측]
  • 35. 신천지 집단 감염이 일어나지 않았다면? 신천지 대규모 확진으로 인하여 우리나라의 코로나 확진 양상이 급격하게 바뀌는 것을 볼 수 있었습니다. 이를 통해, 대규모 집단 감염의 위험성을 가시적으로 확인할 수 있습니다. • 신천지 이전(2월 17일) 까지의 데이터를 통해서 예측 그래프를 그려보았습니다. 로지스틱 그래프와 선형회귀 그래프가 점차 평행해 나가는 것을 보았을 때, 어느정도 코로나가 확산이 줄어들고 소강상태로 진입하는 모습을 예상해 볼 수 있습니다. • 2월 17일 이후 3일을 추가하여 집단감염 발생으로 실제 늘어난 확진자 수의 모습을 확인해보았습니다. 신천지 발생 이전에 예측했던 자연적인 접촉으로 확산되는 지수적 증가와 선형회귀 선을 뚫고 수직에 가까운 기울기를 보이며 확진자가 증가하는 것을 볼 수 있습니다.
  • 36. 신천지 집단 감염이 일어나지 않았다면?_code [신천지 집단 감염 전 확진자 수 방향 예측] [신천지 집단 감염 전 확진자 수 예측과 실제 확진자 수]
  • 37. 사회적 거리두기에서 생활 속 거리두기, 괜찮은 걸까? 부록.
  • 38. 사회적 거리두기에서 생활속 거리두기, 괜찮은 걸까? • 검색 트랜드에서는 4월 25일부터 교통정보, 단기 렌트카, 숙박시설, 액티비티와 같은 외부 활동을 찾는 키워드들이 급증했음을 보아 연휴기간을 이용해 여행이나 외부 활동에 관심이 많았음을 알 수 있었습니다. • 교통량을 보면 4월 4째주부터 5월 1째주까지 수도권을 제외한 모든 지역의 교통량이 증가했음을 보여줍니다. 특히, 5월 첫째 주 기준으로 부산이나 강원도 그리고 전남 지역은 전 주 대비 약 1만이상의 교통량의 차이를 보여줌으로써 연휴기간 사람들의 활동성이 늘어났다는 사실을 알 수 있었습니다. • 제주 노선 이용객 수와 항공 수요량을 보면 눈에 띄게 4월 4째주부터 연휴기간을 맞이해 제주노선 수요량이 급증했다는 사실을 보아 사람들의 코로나 경각심이 줄고 여가를 즐긴다는 사실을 알 수 있었습니다. 검색 트랜드, 교통량, 제주 국내선 수요량을 보았을 때, 연휴기간인 4월 30일부터 5월 5일에 외부활동이 증가한 것을 알 수 있었습니다. 이는 사람들의 코로나 경각심이 누그러졌으며 제 2의 신천지 확산과 같은 집단감염 상황이 재발 될 확률이 높아 질 것으로 보여집니다.
  • 39. 사회적 거리두기에서 생활속 거리두기, 괜찮은 걸까?_code [검색어 트랜드 비교] [교통량 비교] [제주 국내선 수요량 비교]
  • 40. “ 결론적으로 COVID-19의 확산 방지를 예방하기 위해서는 집단 감염을 조심해야합니다. ”
  • 41. THANKs!Do you have any questions? [TEAM Members] Chan park : Kyeonga Kim : kka960602@gmail.com Yuhwa Cha : yhcha.h@gmail.com COVID19-Project Repository : https://github.com/chan157/DACON_COVID