SlideShare a Scribd company logo
1 of 29
Download to read offline
코로나 데이터 시각화 경진대회
코로나19와의 전쟁에서 생명 구하기
'사망'에 대한 insights 도출
www.visualisingkorea.com
코로나19와의 전쟁, 완치율과 사망률
▪ 무엇이 사망률을 높이는데 기여했을까?
벨기에
5월 1일, 100번째
확진자 이후 57일
완치율: 24.25%
사망률: 15.71%
한국
5월 1일, 100번째
확진자 이후 72일
완치율: 84.63%
사망률: 2.32%
한국
100번째 확진자
이후 30 일
완치율: 14.29%
사망률: 0.87%
인터랙티브 비주얼라이제이션 in Tableau 바로가기: https://public.tableau.com/views/SuccessandFailureintreatingCOVID-19/SuccessandFailurebody
▪ 어떡해야 사망률을 줄이고 코로나19와의
전쟁에서 생명을 구할 수 있었을까?
비주얼라이징코리아의 분석 및 시각화의 목표
생명을 살리는 insights 도출
Feature
engineering
EDA
Building
cluster model
Results
Diagnosis time
and death
Conclusion
EDA
UNDERSTANDING THE OBJECTIVE
Exploratory Data Analysis
고령과 기저질환이 사망에 미치는 위험성
▪ 완치자가 전 연령대에 걸쳐 분포하는
것에 비해 사망자는 주로 50대 이상의
고령층
▪ 연령, 기저질환, 지역, 성별의 input과
▪ 사망/완치를 target으로 한 Random Forest
분석에서 연령과 기저질환(특히 연령)이
사망의 probability를 결정짓는 주요
요인으로 나타남
코로나19에 대해 이미 알려진 것
이미 알려진 것들에 분석과 시각화가 필요할까?
▪ 나이가 많거나
▪ 기저질환 보유
코로나 바이러스에 특히 위험
해외 유입의 위험성
데이터 분석과 시각화의 의미
▪ 알려지지 않은 insights 도출
▪ 코로나 19에 대한 새로운 지식 형성에 기여
현재까지 사망 위험에 대한 영향력이 밝혀지지 않은 행동 특성
▪ 확진자들의 행동 특성을 파악하고
▪ 사망 위험을 높인 행동 패턴을 밝혀내는
데이터 분석과 시각화를 수행
▪ 행동 특성 은 연령, 기저질환과 같은 생물학적/인구학적
요인들과 달리 통제 가능
▪ 따라서 확진자들의 행동 특성을 파악하면,
생명을 구할 가능성을 높일 수 있음
FEATURE ENGINEERING
CREATING FEATURES
Feature engineering
행동 특성이란?
행동 특성
사람의 행동에 따라
값이 달라지는 특성
감염 경로는 집단 모임에 참석했거나 해외에서 입국하는 등
사람의 행동에 따라 값이 달라지므로 행동적인 특성
유동성은 확진자들이 얼마나 이동을 하였는지에 따라
값이 달라지는 행동 특성
접촉 정도는 사회성에 따라 다른 값을 가짐
같은 정도의 유동성을 보이는 사람들(e.g. 식당이라는 같은 장소에 같은 횟수로
이동한 사람들)도 친구를 만나 식사를 하였는지, 혼자 식사를 하였는지에 따라
접촉 정도는 다른 결과를 갖게 됨
검사를 얼마나 신속하게 받았는지는 확진자가 검사의 필요성을
판단하고, 의료진이 검사를 권고하는 등 행동에 따라 값이 달라지는
행동 특성
Feature engineering
행동 특성의 의미와 구성
(Feature engineering의 모든 과정은 노트북에서 자세히확인하실 수 있습니다)
감염 경로 유형
▪ 코로나 바이러스에
어떤 경로로
감염되었는지 보여주는
특성
▪ 집단감염, 개인감염,
해외유입,
밝혀지지않음 으로
구성됨
유동성
▪ 얼마만큼의 이동을
하였는지 보여주는
특성
▪ 확진자별 필수
적이동의 횟수와
부차적 이동의 횟수로
구성됨
접촉 정도
▪ 얼마나 많은 사람과
접촉하였는지를
보여주는 특성
▪ 확진자들의 사회성
정도를 의미하며
접촉한 횟수로 구성
▪ 증상이 처음 발현되고
얼마나 빨리 코로나19
확진을 받았는지
보여주는 특성
▪ 증상 발현 후 확진
받기까지 걸린 날의
수로 구성
확진받기까지 걸린 시간
BUILDING A MODEL
IDENTIFY BEHAVIOURAL PATTERNS
Building cluster model
확진받기까지 걸린 시간
▪ 검사를 얼마나
신속하게 받았는지,
진단 의료진이 얼마나
빨리 가능성을
발견하고 검사를
권고하였는지에 따라
값이 달라짐
타켓이 존재하지 않는 문제이므로 Unsupervised
algorithm 중 하나인 clustering algorithm을 활용
행동 특성을 기반으로 확진자들의 비슷한 행동
패턴을 파악하려는 목적
여러 clustering 알고리즘 중,
K-means 알고리즘 활용
SSE(sum of squared error)를 기준으로
optimal한 cluster의 개수 결정
네 가지의 행동 특성을 2개의
dimensions으로 압축해주는 PCA를 활용,
cluster의 분포를 확인
행동 패턴으로 구분되는
확진자들의 유형 네 가지 가 파악됨
RESULTS
FOUR TYPES OF PATIENTS BY BEHAVIOURAL PATTERNS
Results
행동 특성 유형별 확진자들의 분포
1. 감염경로 유형
행동 특성 유형별로 확진자들의 감염 경로 유형이 확연하게 구분됨
확진받기까지 걸린 시간
첫번째 유형은 모두 감염
경로가 알려지지 않은
확진자들
첫번째 유형은 모두 감염 경로가
알려지지 않은 확진자들
두번째 유형은 모두
집단 감염자
세번째 유형은 모두
개인 감염
네번째 유형은 모두
해외 유입으로 구성
두번째 유형의
유동성은 평균 수준
세번째 유형의 유동성은
평균 아래로 낮음
네번째 유형의
유동성이 가장 낮음
첫번째 유형의
유동성이 가장 높음
유형별로 유형에 속하는
확진자들의 수가 다르므로
유형별 정확한 비교를 위해
유형별 총 이동 횟수에
유형에 속하는
확진자 수를 나누어
‘유형별 인당 이동 횟수’로
비교 분석함
Results
행동 특성 유형별 확진자들의 분포
2. 유동성 – 필수적 이동과 부차적 이동 전체
Results
행동 특성 유형별 확진자들의 분포
2. 유동성 – 필수적 이동과 부차적 이동을 구분해보면?
확진받기까지 걸린 시간
필수적 이동과 부수적
이동이 모두 잦았음
첫번째 유형은 모두 감염 경로가
알려지지 않은 확진자들
▪ 첫번째 유형보다는 적지만
여전히 이동이 많음
▪ 특히 부수적 이동에서
평균보다 높은 유동성을
보임
▪ 필수적 이동에서
평균보다 약간 높지만
▪ 부수적 이동은 많이
하지 않음
필수적, 부수적 이동
모두 평균보다 낮음
필수 이동 부차적 이동 필수 이동 부차적 이동 필수 이동 부차적 이동 필수 이동 부차적 이동
다음으로 접촉 정도가
높은 유형은 두번째 유형
세번째 유형의
접촉 정도는 낮음
네번째 유형의
접촉 정도 역시 낮음
첫번째 유형의
접촉 정도가 가장 높음
Results
행동 특성 유형별 확진자들의 분포
3. 접촉 정도
두번째와 세번째 유형은
첫번째 유형보다 빨리
확진을 받은 것으로 보임
하지만 네번째 유형보다
여전히 느린 수준
네번째 유형은
증상 발현 후
가장 빨리 확진을 받음
첫번째 유형은 증상 발현 후
확진받기까지 가장 오랜 시간이 걸림
Results
행동 특성 유형별 확진자들의 분포
4. 확진받기까지 걸린 시간
해외 유입으로 구성된 유형으로,
입국 즉시 공항에서 (또는 3일
이내 보건소에서) 코로나19 진단
검사를 의무적으로 받아야 하므로
빠른 확진 시간은 예상 가능한
결과
Results
행동 특성 유형별 확진자들의 분포
5. 유형별 사망자 분포
놀랍게도 행동 특성에 따른 네 가지의 확진자 유형 중,
회복 격리 사망 회복 격리 사망 회복 격리 사망 회복 격리 사망
첫번째 유형에서만 사망자가 나타남
* ‘사망’은 cluster 모델에 포함되지 않음
사망 위험과 관련된 행동 유형을 파악하는
분석 목표에 따라 행동 유형별
사망자와 회복자의 분포도를 확인함
Results
확진자의 네 가지 유형 별 행동 특성을 직관적으로 파악할 수 있는 시각화
큰 도면을 차지하는 유형일수록 cluster 모델의 기반이 된
행동 특성들에서 극단적인 정도를 보였음을 나타냄
1) 유동성이 높고
2) 부수적 이동 정도가 높으며
3) 가장 많은 사람을 접촉하고
4) 증상 발현 후 확진받기까지 가장
오랜 시간이 걸림
사망자가 나타난 유일한 유형
가장 넓은 도면을 차지하는 첫번째 유형
반대로 가장 좁은 도면을 차지하는 네번째 유형
행동 특성의 정도가 가장 적음
Results
확진자들 행동 특성의 네 가지 유형 및 유형별 특징
▪ 감염 경로가 파악되지않고
▪ 필수적/부수적 이동에서
높은 유동성을 보이며
▪ 사회 활동 정도도 매우
높고(다른 사람과의
접촉이 많음)
▪ 증상 발현 후 확진받기까지
가장 오랜 시간이 걸림
사망자가 나타난 유일한 유형
Social
Minimalists
Overseas
Non-essentialists
Hypermobile &
Hypersocial Unknowns
Moderate
Groupies
▪ 집단으로 감염되었고
▪ 다른 유형보다는 높지만
Hypermobile unknowns
보다는 적은 수준의
유동성을 보인 유형
▪ 특히 부수적 유동성이
두드러짐
▪ 사회활동 역시 Hypermobile
unknowns보다는 적지만
나머지 두 유형보다 높은
사회활동을 함
▪ 확진받기까지 보통 수준의
시간이 걸림
▪ 개인적 접촉으로 감염
▪ 첫번째와 두번째 유형보다
유동성이 낮음
▪ 특히 이동의 대부분은
필수적 이동
▪ 접촉 정도가 적어 낮은
사회활동 수준을 보임
▪ 확진받기까지 보통 수준의
시간이 걸림
▪ 해외유입 확진자
▪ 다른 유형에 비해 가장
낮은 유동성을 보임
▪ 하지만 부수적 이동에 있어
Social minimalists보다
유동성이 높음
▪ 다른 사람과의 접촉이 가장
적어 많은 사회활동은
보이지 않은 유형
Results
행동 특성에 기반한 확진자들의 네 가지 유형 요약
RISK OF DEATH
WHAT DOES PROMPTNESS OF DIAGNOSIS HAVE TO DO WITH DEATH
코로나19 확진이 늦어지면 사망 위험도 높아질까?
Hypermobile & Hypersocial Unknowns 유형에서만
사망자가 나타난 것이 이때문은 아니었을까
확진자들의 유형 중, 유일하게 사망자가 나타난
Hypermobile & Hypersocial Unknowns
▪ 유동성이 높고
▪ 사회 활동 정도도 높으며
▪ 감염 경로가 파악되지않고
▪ 증상 발현 후 확진받기까지 가장 오랜 시간이 걸림
많은 장소에 돌아다니며
많은 사람들을 만남
높은 유동성과 접촉 정도
코로나 바이러스에 노출된 장소에 갔었는지
코로나 바이러스에 감염된 사람을
만났었는지 파악하기 어려움
감염 경로 파악 불가
바이러스 노출 여부를
정확하게 판단할 수 없어
진단 검사가 껴려짐
증상 발현 후 확진받기까지
가장 오랜 시간이 걸림
확진이 늦어지고
전문 치료와 관리도
지연됨
결과적으로
회복 가능성도
낮아짐
코로나19 확진이 늦어지면 사망 위험도 높아질까?
데이터의 한계로 위의 관계를
인과관계라고 단언할 수는 없음
사망자들이 회복자들에 비해
확진받기까지 더 오랜 시간이 걸림
사망자들이 증상 발현 후
확진받기까지 걸린 시간은
회복자들에 비해 평균적으로
2.5일 더 오래 걸린 것으로 나타남
CONCLUSION
INNOVATIVE KNOWLEDGE OF COVID-19
▪ 데이터를 보여주고
설명하는 단순 EDA를
넘어 머신러닝
알고리즘을 활용
▪ 코로나19 확진자들이
보인 행동적 특성을
기반으로 확진자들의
유형을 파악함
Conclusion
확진자들의 네 가지 행동 유형을 파악함으로써
획기적이면서 중요한 결론에 도달
많이 돌아다니고
(유동성이 높고)
사회적 교류가 많은
사람들은 코로나
바이러스를 전염시킬
위험 뿐 아니라
이들의 행동적 특성은
본인 스스로도
코로나19로 인한 사망
위험에 처하게 할 수
있음
높은 유동성과 사회성으로
감염 경로를 파악하기 어렵고
바이러스의 노출 여부
파악이 어려워
진단 검사의 필요성을
판단하기 어려움
확진이 늦어지면
회복에 필요한 전문적인
치료와 관리가
충분히 지원되지 못함
확진을 빠르게 받음으로써
사망 위험을 줄이고
생명을 살릴 가능성도
높일 수 있음
사망자들은
회복자들보다
증상 발현 후
확진받기까지
더 오랜 시간이 걸림
코로나19의 취약층이라고 알려진
고령층과 기저질환 보유자에게
특히 위험할 수 있음
Conclusion
Other impacts
다른팀에서도
단순히 코로나 바이러스의 ‘감염’을 넘어선
코로나 바이러스가 위험한 근본 원인인
‘사망’에 대한 분석과 시각화를
시도하기 시작
‘코로나 19로 인한 사망’에 대한
분석 및 insights 도출의 필요성 제기
‘증상 발현 후 확진받기까지 걸린
시간’이라는 주요 변수를 생성하고,
해당 변수가 사망 위험에 영향을 미칠 수
있음을 밝힌 최초의 사례
증상 발현 후
확진받기까지 걸린 시간
다른 팀에서 방식을 차용
예시를 보려면 여기를 클릭!
프레젠테이션 방식,
스타일, 디자인 선도
e.g. 두서에 결과를 요약하는 섹션,
요약 섹션의 구조와 워딩
주요 결과 색깔별 하이라이트 등
비주얼라이징코리아 프로젝트가 경진대회에
긍정적 변화를 불러오고 다른팀의 향상을 선도한 점들
THANK YOU

More Related Content

More from DACON AI 데이콘

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engDACON AI 데이콘
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korDACON AI 데이콘
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의DACON AI 데이콘
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상DACON AI 데이콘
 

More from DACON AI 데이콘 (20)

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -eng
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -kor
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의
 
데이콘 뽀개기
데이콘 뽀개기데이콘 뽀개기
데이콘 뽀개기
 
Bittrader competition (1)
Bittrader competition (1)Bittrader competition (1)
Bittrader competition (1)
 
Bittrader competition
Bittrader competitionBittrader competition
Bittrader competition
 
Superbai
SuperbaiSuperbai
Superbai
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
 
20200923
2020092320200923
20200923
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상
 

코로나 데이터 시각화 AI 경진대회 1위 수상작

  • 1. 코로나 데이터 시각화 경진대회 코로나19와의 전쟁에서 생명 구하기 '사망'에 대한 insights 도출 www.visualisingkorea.com
  • 2. 코로나19와의 전쟁, 완치율과 사망률 ▪ 무엇이 사망률을 높이는데 기여했을까? 벨기에 5월 1일, 100번째 확진자 이후 57일 완치율: 24.25% 사망률: 15.71% 한국 5월 1일, 100번째 확진자 이후 72일 완치율: 84.63% 사망률: 2.32% 한국 100번째 확진자 이후 30 일 완치율: 14.29% 사망률: 0.87% 인터랙티브 비주얼라이제이션 in Tableau 바로가기: https://public.tableau.com/views/SuccessandFailureintreatingCOVID-19/SuccessandFailurebody ▪ 어떡해야 사망률을 줄이고 코로나19와의 전쟁에서 생명을 구할 수 있었을까?
  • 3. 비주얼라이징코리아의 분석 및 시각화의 목표 생명을 살리는 insights 도출 Feature engineering EDA Building cluster model Results Diagnosis time and death Conclusion
  • 5. Exploratory Data Analysis 고령과 기저질환이 사망에 미치는 위험성 ▪ 완치자가 전 연령대에 걸쳐 분포하는 것에 비해 사망자는 주로 50대 이상의 고령층 ▪ 연령, 기저질환, 지역, 성별의 input과 ▪ 사망/완치를 target으로 한 Random Forest 분석에서 연령과 기저질환(특히 연령)이 사망의 probability를 결정짓는 주요 요인으로 나타남
  • 6. 코로나19에 대해 이미 알려진 것 이미 알려진 것들에 분석과 시각화가 필요할까? ▪ 나이가 많거나 ▪ 기저질환 보유 코로나 바이러스에 특히 위험 해외 유입의 위험성
  • 7. 데이터 분석과 시각화의 의미 ▪ 알려지지 않은 insights 도출 ▪ 코로나 19에 대한 새로운 지식 형성에 기여 현재까지 사망 위험에 대한 영향력이 밝혀지지 않은 행동 특성 ▪ 확진자들의 행동 특성을 파악하고 ▪ 사망 위험을 높인 행동 패턴을 밝혀내는 데이터 분석과 시각화를 수행 ▪ 행동 특성 은 연령, 기저질환과 같은 생물학적/인구학적 요인들과 달리 통제 가능 ▪ 따라서 확진자들의 행동 특성을 파악하면, 생명을 구할 가능성을 높일 수 있음
  • 9. Feature engineering 행동 특성이란? 행동 특성 사람의 행동에 따라 값이 달라지는 특성 감염 경로는 집단 모임에 참석했거나 해외에서 입국하는 등 사람의 행동에 따라 값이 달라지므로 행동적인 특성 유동성은 확진자들이 얼마나 이동을 하였는지에 따라 값이 달라지는 행동 특성 접촉 정도는 사회성에 따라 다른 값을 가짐 같은 정도의 유동성을 보이는 사람들(e.g. 식당이라는 같은 장소에 같은 횟수로 이동한 사람들)도 친구를 만나 식사를 하였는지, 혼자 식사를 하였는지에 따라 접촉 정도는 다른 결과를 갖게 됨 검사를 얼마나 신속하게 받았는지는 확진자가 검사의 필요성을 판단하고, 의료진이 검사를 권고하는 등 행동에 따라 값이 달라지는 행동 특성
  • 10. Feature engineering 행동 특성의 의미와 구성 (Feature engineering의 모든 과정은 노트북에서 자세히확인하실 수 있습니다) 감염 경로 유형 ▪ 코로나 바이러스에 어떤 경로로 감염되었는지 보여주는 특성 ▪ 집단감염, 개인감염, 해외유입, 밝혀지지않음 으로 구성됨 유동성 ▪ 얼마만큼의 이동을 하였는지 보여주는 특성 ▪ 확진자별 필수 적이동의 횟수와 부차적 이동의 횟수로 구성됨 접촉 정도 ▪ 얼마나 많은 사람과 접촉하였는지를 보여주는 특성 ▪ 확진자들의 사회성 정도를 의미하며 접촉한 횟수로 구성 ▪ 증상이 처음 발현되고 얼마나 빨리 코로나19 확진을 받았는지 보여주는 특성 ▪ 증상 발현 후 확진 받기까지 걸린 날의 수로 구성 확진받기까지 걸린 시간
  • 11. BUILDING A MODEL IDENTIFY BEHAVIOURAL PATTERNS
  • 12. Building cluster model 확진받기까지 걸린 시간 ▪ 검사를 얼마나 신속하게 받았는지, 진단 의료진이 얼마나 빨리 가능성을 발견하고 검사를 권고하였는지에 따라 값이 달라짐 타켓이 존재하지 않는 문제이므로 Unsupervised algorithm 중 하나인 clustering algorithm을 활용 행동 특성을 기반으로 확진자들의 비슷한 행동 패턴을 파악하려는 목적 여러 clustering 알고리즘 중, K-means 알고리즘 활용 SSE(sum of squared error)를 기준으로 optimal한 cluster의 개수 결정 네 가지의 행동 특성을 2개의 dimensions으로 압축해주는 PCA를 활용, cluster의 분포를 확인 행동 패턴으로 구분되는 확진자들의 유형 네 가지 가 파악됨
  • 13. RESULTS FOUR TYPES OF PATIENTS BY BEHAVIOURAL PATTERNS
  • 14. Results 행동 특성 유형별 확진자들의 분포 1. 감염경로 유형 행동 특성 유형별로 확진자들의 감염 경로 유형이 확연하게 구분됨 확진받기까지 걸린 시간 첫번째 유형은 모두 감염 경로가 알려지지 않은 확진자들 첫번째 유형은 모두 감염 경로가 알려지지 않은 확진자들 두번째 유형은 모두 집단 감염자 세번째 유형은 모두 개인 감염 네번째 유형은 모두 해외 유입으로 구성
  • 15. 두번째 유형의 유동성은 평균 수준 세번째 유형의 유동성은 평균 아래로 낮음 네번째 유형의 유동성이 가장 낮음 첫번째 유형의 유동성이 가장 높음 유형별로 유형에 속하는 확진자들의 수가 다르므로 유형별 정확한 비교를 위해 유형별 총 이동 횟수에 유형에 속하는 확진자 수를 나누어 ‘유형별 인당 이동 횟수’로 비교 분석함 Results 행동 특성 유형별 확진자들의 분포 2. 유동성 – 필수적 이동과 부차적 이동 전체
  • 16. Results 행동 특성 유형별 확진자들의 분포 2. 유동성 – 필수적 이동과 부차적 이동을 구분해보면? 확진받기까지 걸린 시간 필수적 이동과 부수적 이동이 모두 잦았음 첫번째 유형은 모두 감염 경로가 알려지지 않은 확진자들 ▪ 첫번째 유형보다는 적지만 여전히 이동이 많음 ▪ 특히 부수적 이동에서 평균보다 높은 유동성을 보임 ▪ 필수적 이동에서 평균보다 약간 높지만 ▪ 부수적 이동은 많이 하지 않음 필수적, 부수적 이동 모두 평균보다 낮음 필수 이동 부차적 이동 필수 이동 부차적 이동 필수 이동 부차적 이동 필수 이동 부차적 이동
  • 17. 다음으로 접촉 정도가 높은 유형은 두번째 유형 세번째 유형의 접촉 정도는 낮음 네번째 유형의 접촉 정도 역시 낮음 첫번째 유형의 접촉 정도가 가장 높음 Results 행동 특성 유형별 확진자들의 분포 3. 접촉 정도
  • 18. 두번째와 세번째 유형은 첫번째 유형보다 빨리 확진을 받은 것으로 보임 하지만 네번째 유형보다 여전히 느린 수준 네번째 유형은 증상 발현 후 가장 빨리 확진을 받음 첫번째 유형은 증상 발현 후 확진받기까지 가장 오랜 시간이 걸림 Results 행동 특성 유형별 확진자들의 분포 4. 확진받기까지 걸린 시간 해외 유입으로 구성된 유형으로, 입국 즉시 공항에서 (또는 3일 이내 보건소에서) 코로나19 진단 검사를 의무적으로 받아야 하므로 빠른 확진 시간은 예상 가능한 결과
  • 19. Results 행동 특성 유형별 확진자들의 분포 5. 유형별 사망자 분포 놀랍게도 행동 특성에 따른 네 가지의 확진자 유형 중, 회복 격리 사망 회복 격리 사망 회복 격리 사망 회복 격리 사망 첫번째 유형에서만 사망자가 나타남 * ‘사망’은 cluster 모델에 포함되지 않음 사망 위험과 관련된 행동 유형을 파악하는 분석 목표에 따라 행동 유형별 사망자와 회복자의 분포도를 확인함
  • 20. Results 확진자의 네 가지 유형 별 행동 특성을 직관적으로 파악할 수 있는 시각화 큰 도면을 차지하는 유형일수록 cluster 모델의 기반이 된 행동 특성들에서 극단적인 정도를 보였음을 나타냄 1) 유동성이 높고 2) 부수적 이동 정도가 높으며 3) 가장 많은 사람을 접촉하고 4) 증상 발현 후 확진받기까지 가장 오랜 시간이 걸림 사망자가 나타난 유일한 유형 가장 넓은 도면을 차지하는 첫번째 유형 반대로 가장 좁은 도면을 차지하는 네번째 유형 행동 특성의 정도가 가장 적음
  • 21. Results 확진자들 행동 특성의 네 가지 유형 및 유형별 특징 ▪ 감염 경로가 파악되지않고 ▪ 필수적/부수적 이동에서 높은 유동성을 보이며 ▪ 사회 활동 정도도 매우 높고(다른 사람과의 접촉이 많음) ▪ 증상 발현 후 확진받기까지 가장 오랜 시간이 걸림 사망자가 나타난 유일한 유형 Social Minimalists Overseas Non-essentialists Hypermobile & Hypersocial Unknowns Moderate Groupies ▪ 집단으로 감염되었고 ▪ 다른 유형보다는 높지만 Hypermobile unknowns 보다는 적은 수준의 유동성을 보인 유형 ▪ 특히 부수적 유동성이 두드러짐 ▪ 사회활동 역시 Hypermobile unknowns보다는 적지만 나머지 두 유형보다 높은 사회활동을 함 ▪ 확진받기까지 보통 수준의 시간이 걸림 ▪ 개인적 접촉으로 감염 ▪ 첫번째와 두번째 유형보다 유동성이 낮음 ▪ 특히 이동의 대부분은 필수적 이동 ▪ 접촉 정도가 적어 낮은 사회활동 수준을 보임 ▪ 확진받기까지 보통 수준의 시간이 걸림 ▪ 해외유입 확진자 ▪ 다른 유형에 비해 가장 낮은 유동성을 보임 ▪ 하지만 부수적 이동에 있어 Social minimalists보다 유동성이 높음 ▪ 다른 사람과의 접촉이 가장 적어 많은 사회활동은 보이지 않은 유형
  • 22. Results 행동 특성에 기반한 확진자들의 네 가지 유형 요약
  • 23. RISK OF DEATH WHAT DOES PROMPTNESS OF DIAGNOSIS HAVE TO DO WITH DEATH
  • 24. 코로나19 확진이 늦어지면 사망 위험도 높아질까? Hypermobile & Hypersocial Unknowns 유형에서만 사망자가 나타난 것이 이때문은 아니었을까 확진자들의 유형 중, 유일하게 사망자가 나타난 Hypermobile & Hypersocial Unknowns ▪ 유동성이 높고 ▪ 사회 활동 정도도 높으며 ▪ 감염 경로가 파악되지않고 ▪ 증상 발현 후 확진받기까지 가장 오랜 시간이 걸림 많은 장소에 돌아다니며 많은 사람들을 만남 높은 유동성과 접촉 정도 코로나 바이러스에 노출된 장소에 갔었는지 코로나 바이러스에 감염된 사람을 만났었는지 파악하기 어려움 감염 경로 파악 불가 바이러스 노출 여부를 정확하게 판단할 수 없어 진단 검사가 껴려짐 증상 발현 후 확진받기까지 가장 오랜 시간이 걸림 확진이 늦어지고 전문 치료와 관리도 지연됨 결과적으로 회복 가능성도 낮아짐
  • 25. 코로나19 확진이 늦어지면 사망 위험도 높아질까? 데이터의 한계로 위의 관계를 인과관계라고 단언할 수는 없음 사망자들이 회복자들에 비해 확진받기까지 더 오랜 시간이 걸림 사망자들이 증상 발현 후 확진받기까지 걸린 시간은 회복자들에 비해 평균적으로 2.5일 더 오래 걸린 것으로 나타남
  • 27. ▪ 데이터를 보여주고 설명하는 단순 EDA를 넘어 머신러닝 알고리즘을 활용 ▪ 코로나19 확진자들이 보인 행동적 특성을 기반으로 확진자들의 유형을 파악함 Conclusion 확진자들의 네 가지 행동 유형을 파악함으로써 획기적이면서 중요한 결론에 도달 많이 돌아다니고 (유동성이 높고) 사회적 교류가 많은 사람들은 코로나 바이러스를 전염시킬 위험 뿐 아니라 이들의 행동적 특성은 본인 스스로도 코로나19로 인한 사망 위험에 처하게 할 수 있음 높은 유동성과 사회성으로 감염 경로를 파악하기 어렵고 바이러스의 노출 여부 파악이 어려워 진단 검사의 필요성을 판단하기 어려움 확진이 늦어지면 회복에 필요한 전문적인 치료와 관리가 충분히 지원되지 못함 확진을 빠르게 받음으로써 사망 위험을 줄이고 생명을 살릴 가능성도 높일 수 있음 사망자들은 회복자들보다 증상 발현 후 확진받기까지 더 오랜 시간이 걸림 코로나19의 취약층이라고 알려진 고령층과 기저질환 보유자에게 특히 위험할 수 있음
  • 28. Conclusion Other impacts 다른팀에서도 단순히 코로나 바이러스의 ‘감염’을 넘어선 코로나 바이러스가 위험한 근본 원인인 ‘사망’에 대한 분석과 시각화를 시도하기 시작 ‘코로나 19로 인한 사망’에 대한 분석 및 insights 도출의 필요성 제기 ‘증상 발현 후 확진받기까지 걸린 시간’이라는 주요 변수를 생성하고, 해당 변수가 사망 위험에 영향을 미칠 수 있음을 밝힌 최초의 사례 증상 발현 후 확진받기까지 걸린 시간 다른 팀에서 방식을 차용 예시를 보려면 여기를 클릭! 프레젠테이션 방식, 스타일, 디자인 선도 e.g. 두서에 결과를 요약하는 섹션, 요약 섹션의 구조와 워딩 주요 결과 색깔별 하이라이트 등 비주얼라이징코리아 프로젝트가 경진대회에 긍정적 변화를 불러오고 다른팀의 향상을 선도한 점들