SlideShare a Scribd company logo
1 of 28
Download to read offline
Data Visualization (1)
유 은
1. 데이터 시각화에서 주의할 점: COVID-19 예시
2. 데이터 수집
3. 데이터 평가
4. 한국 미디어패널 소개
목차
0
데이터 시각화에서 주의할 점
1
https://medium.com/nightingale/ten-considerations-before-you-create-another-chart-about-covid-19-27d3bd691be8
https://www.esri.com/arcgis-blog/products/product/mapping/mapping-coronavirus-responsibly/
(1) 시각화의 사회적 영향력 고려
(2) 감염병의 확산에 대한 전문지식
(3) 데이터 수집 및 측정 과정 이해
(1) 시각화의 사회적 영향력 고려
• 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다.
• 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다.
데이터 시각화에서 주의할 점
1
(1) 시각화의 사회적 영향력 고려
• 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다.
• 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다.
데이터 시각화에서 주의할 점
1
(1) 시각화의 사회적 영향력 고려
• 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다.
• 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다.
데이터 시각화에서 주의할 점
1
https://blog.datawrapper.de/coronaviruscharts/
(1) 시각화의 사회적 영향력 고려
• 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다.
• 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다.
데이터 시각화에서 주의할 점
1
https://www.nytimes.com/article/flatten-curve-coronavirus.html
(2) 감염병의 확산에 대한 전문지식
• 특히 사망률의 경우 단순 숫자로 비율을 계산
하거나 다른 병과 직접 비교하기 어렵다.
• 예측모델은 인간 행동과 방역 시스템을 포함해
다양한 요소를 고려하며 계속 바뀔 수 있다.
• 데이터 과학과 통계학에 기반한 다양한 모델이
제시되고 있으나 역학 전문가의 검증을 거쳤는
지 확인해야 한다.
• 정확한 용어를 사용해야 한다.
데이터 시각화에서 주의할 점
1
https://informationisbeautiful.net/visualizations/covid-19-coronavirus-infographic-datapack/
(2) 감염병의 확산에 대한 전문지식
• 특히 사망률의 경우 단순 숫자로 비율을 계산
하거나 다른 병과 직접 비교하기 어렵다.
• 예측모델은 인간 행동과 방역 시스템을 포함해
다양한 요소를 고려하며 계속 바뀔 수 있다.
• 데이터 과학과 통계학에 기반한 다양한 모델이
제시되고 있으나 역학 전문가의 검증을 거쳤는
지 확인해야 한다.
• 정확한 용어를 사용해야 한다.
데이터 시각화에서 주의할 점
1
https://www.kaggle.com/c/covid19-global-forecasting-week-3
(3) 데이터 수집 및 측정 과정 이해
• 확진자는 감염자 중 일부이며, 각국의 대응 지침과 의료 접근성, 진단 키트의 확보, 인구의
구성 등 다양한 요소에 좌우된다.
• 같은 방식이 아니므로 특정 국가/지역 기반의 데이터로 일반적인 예측을 내놓기 어렵다.
데이터 시각화에서 주의할 점
1
https://www.nytimes.com/2020/03/26/world/asia/japan-coronavirus.html
http://ncov.mohw.go.kr/bdBoardList_Real.do?brdId=1&brdGubun=14&ncvContSeq=&contSeq=&board_id=&gubun=
(3) 데이터 수집 및 측정 과정 이해
• 확진자는 감염자 중 일부이며, 각국의 대응 지침과 의료 접근성, 진단 키트의 확보, 인구의
구성 등 다양한 요소에 좌우된다.
• 같은 방식이 아니므로 특정 국가/지역 기반의 데이터로 일반적인 예측을 내놓기 어렵다.
데이터 시각화에서 주의할 점
1
http://mn.kbs.co.kr/news/view.do?ncd=4407243
(3) 데이터 수집 및 측정 과정 이해
• 확진자는 감염자 중 일부이며, 각국의 대응 지침과 의료 접근성, 진단 키트의 확보, 인구의
구성 등 다양한 요소에 좌우된다.
• 같은 방식이 아니므로 특정 국가/지역 기반의 데이터로 일반적인 예측을 내놓기 어렵다.
데이터 시각화에서 주의할 점
1
http://ncov.mohw.go.kr/faqBoardList.do
• 데이터 과학의 과정 짚어보기
데이터 수집
2
원시
데이터
수집
데이터
처리
데이터
클리닝
탐색적
데이터
분석
통계분석
기계학습
알고리즘
데이터
상품개발
커뮤니케이션
시각화
결과보고
<데이터 과학의 과정> Cathy O’Neil & Rachel Schutt (2013), Doing Data Science, O’REILLY.
데이터 (data)
• 정보를 나타내는 수치로, 가공되지 않고 아직 의미를 가지지 않은 상태의 개체
• 수집/측정/분석되어 새로운 가치를 창출
완벽한 데이터가 없는 이유
• 수집 가능한가?
• 합법성, 데이터의 가치…
• 데이터 수집 비용을 감당할 수 있는가?
• 전 국민을 대상으로 한 조사가 가능한가?
• 시장조사기관, 컨설팅 회사에서 판매
• 목적에 적합한 데이터인가?
• 최신성, 신뢰도…
데이터 수집
2
김화종 (2014), 데이터 사이언스 개론, 홍릉과학출판사
http://www.etoday.co.kr/news/section/newsview.php?idxno=1610981
http://www.koreanclick.com/solutions/mobile_measurement.html
1차 자료와 2차 자료
• 1차 자료 (primary data): 기존의 2차 자료로부터 얻을 수는 없으나 현재의 의사결정에 꼭
필요하다고 판단되어 조사자가 직접 조사하여 수집한 자료.
예: 설문조사, 관찰, 직접 구축한 데이터베이스 등
• 2차 자료 (secondary data): 과거에 다른 목적으로 조사되어 수집된 자료로서 현재의 목적
에도 어느 정도 활용가능한 자료.
예: 공공데이터, 상업용 자료, 웹 스크래핑 등
• 1차 자료는 수집에 더 많은 자원(노력, 비용, 시간)을 필요로 함
• 2차 자료는 핵심적인 정보를 얻을 수 없는 경우가 많으므로 목적에 적합한지 품질과 유용성
을 평가하고, 데이터의 한계를 파악하여 활용해야 함
데이터 수집
2
이훈영 (2012), 연구조사방법론, 도서출판 청람.
1. 출처를 확인한다.
• 신뢰할 만한 출처인가?
• 실제로 파악 가능한가?
2. 조사 방법을 확인한다.
• 어떤 방식으로 수집되었는가?
• 신뢰할 만한 표본인가?
• 언제 수집되었는가?
3. 데이터의 품질을 확인한다.
• 목적에 부합하는가?
• 데이터 클리닝이 필요한가?
데이터 평가
3
대럴 허프 (2004), 새빨간 거짓말, 통계,더불어책.
1. 출처를 확인한다.
• 신뢰할 만한 출처인가?
• 공신력이 있는 기관에서 제공하였는가?
• 측정기준/과정의 정보를 공개하는가?
• 이해관계의 주체인가?
• 실제로 파악 가능한가?
데이터 평가
3
https://news.joins.com/article/21782877
https://www.stocklib.com/media-84319714/fake-news-word-cloud-on-a-white-background.html
데이터 평가
3
https://www.yna.co.kr/view/AKR20180211062800002
http://www.hani.co.kr/arti/politics/politics_general/934748.html
https://eiec.kdi.re.kr/material/conceptList.do?depth01=00002000010000100009&idx=139
1. 출처를 확인한다.
• 신뢰할 만한 출처인가?
• 실제로 파악 가능한가?
• 일부만 반영 가능: 경제성장 = GDP?
• 추정/설문에만 의존하는 경우 한계가 뚜렷함
2. 조사 방법을 확인한다.
• 어떤 방식으로 수집되었는가?
• 로그, 서면조사, 인터뷰, …
• 언제 수집되었는가?
• 신뢰할 만한 표본인가?
데이터 평가
3
https://www.hankyung.com/politics/article/2019092386131
2. 조사 방법을 확인한다.
• 어떤 방식으로 수집되었는가?
• 언제 수집되었는가?
• 최근인가?
• 일/달/분기/연단위로 수집되는가?
• 신뢰할 만한 표본인가?
데이터 평가
3
http://www.narastat.kr/pms/pub/scs/css/selectConfmStatsStatusCycle.do
2. 조사 방법을 확인한다.
• 어떤 방식으로 수집되었는가?
• 언제 수집되었는가?
• 신뢰할 만한 표본인가?
• 모집단 대비 표본의 수는 적절한가?
나쁜 예) 존스홉킨스대학 여학생의 33%는 교수와 결혼
• 모집단을 대표할 만한 표본을 추출하였는가?
나쁜 예) 폭염에 따른 에어컨 사용량 조사에서 경상북도에 거주하는 대상자가 40%
대학 동창회원 대상 연봉 조사
1936년 ‘리터러리 다이제스트’ 잡지 구독자 대상 여론조사 (vs. 갤럽)
애완견과 매일 산책하면 장수한다? 와인을 마시면 장수한다?
데이터 평가
3
https://brunch.co.kr/@jaehyun-design/5
https://www.hopkinsmedicine.org/about/history/history6.html
https://eiec.kdi.re.kr/material/clickView.do?click_yymm=201512&cidx=1881
* 표본 추출의 필요성과 방법
• 모집단(population)을 대상으로 조사할 수 없는 경우가 대부분이므로 그 일부만 대상으로
표본(sample)조사를 하게 된다.
• 표본 선정이란 조사대상을 선정하는 것으로서 의사결정에 필요한 정보를 제공해 줄 수 있는
대상을 선정하는 것이다.
• 필요한 정보의 성격과 표본이 가지는 특성 등을 종합적으로 감안하여 가장 효과적이고 적절
한 표본을 선정할 수 있도록 해야 한다.
• 표본의 크기는 조사의 목적과 조사의 방법에 따라 달라진다.
• 조사 예산과 조사 기간이 가장 큰 제약이며, 정보의 양과 정확도에 비례하여 비용이 커지고
필요한 시간이 길어진다.
데이터 평가
3
* 표본 추출의 필요성과 방법
• 확률표본추출: 모집단 구성원의 명단으로 표본을 추출함으로써 개별 구성원
이 표본으로 선택될 확률을 알 수 있다. 하지만 대부분의 경우 명단을 입수
하기 어려워 모집단의 수가 비교적 적은 경우에 사용된다.
예: 교내 설문조사 (무작위/학년별…), 플랫폼 내 A/B 테스트
• 비확률표본추출: 모집단 구성원이 표본으로 선택될 확률을 알 수 없으므로
표본의 대표성을 정확하게 추정하기 어려우나, 모집단의 수가 크거나 명단
을 구하기 어려운 상업적 조사에서 흔히 사용된다.
예: 길거리 설문조사, 임의 선정
할당표본추출: 분류기준별 할당(지역/성별…)
데이터 평가
3
이훈영 (2012), 연구조사방법론, 도서출판 청람.
* 여론조사 결과 해석하기
• “한국갤럽이 지난 24~26일 전국 만 18세 이상 1001명을 대상으로 전화조사원 인터뷰로
실시했으며, 그 대상자들은 휴대전화 RDD 표본 프레임에서 무작위 추출(집전화 RDD 15%
포함)했다. 표본오차는 ±3.1%포인트(95% 신뢰수준)이며, 응답률은 14%(총 통화 7392
명 중 1001명 응답)였다. 이 조사는 한국갤럽이 자체적으로 실시한 조사다.” (3/27 기사)
• '대통령 직무 긍정률 50%'라는 여론조사 결과는 우리 국민 중 대통령이 대통령으로서의 직
무를 잘하고 있다고 보는 사람의 비율이 정확하게 50%라는 의미가 아니다.
데이터 평가
3
https://www.gallup.co.kr/gallupdb/columnContents.asp?seqNo=117
http://www.mediatoday.co.kr/news/articleView.html?idxno=206124
* 여론조사 결과 해석하기
• 전체 유권자 중 일부만 조사할 수 있으므로, 결과는 수치가 아닌 범위
• 대통령 직무 긍정률이 50%±3%포인트, 즉 47~53% 범위 안에 들 확률이 95%라는 뜻
• 확률 95%는 모집단에서 1000명을 뽑아 같은 조사를 100번 한다면 95번의 조사 결과가
위 범위 안에 들어간다는 뜻
• 표본오차는 표본의 수가 많을수록 감소하며, 사회과학에서는 대부분 95%신뢰수준을 적용
• 표본오차보다 작은 변동은 의미가 없음
데이터 평가
3
https://www.gallup.co.kr/gallupdb/columnContents.asp?seqNo=117
http://www.mediatoday.co.kr/news/articleView.html?idxno=206124
• 통계청 국가승인통계 제 405001 호
한국 미디어패널 소개
4
https://stat.kisdi.re.kr/MediaStat/MediaPanel/MediaPanel_Outline.aspx?MENU_ID=12
http://kostat.go.kr/portal/korea/kor_pi/8/6/1/index.board?bmode=read&aSeq=372537&pageNo=&rowNum=10&amSeq=&sTarget=&sTxt=
• 설문지, 원데이터, 코드북 및 유저 가이드 제공
한국 미디어패널 소개
4
End of document
유 은
eunyu1031@gmail.com

More Related Content

Similar to Week4 data visualization

1315826김지혜 디미컨 유방암
1315826김지혜 디미컨 유방암1315826김지혜 디미컨 유방암
1315826김지혜 디미컨 유방암kimjihae
 
1315826김지혜 디미컨 유방암2
1315826김지혜 디미컨 유방암21315826김지혜 디미컨 유방암2
1315826김지혜 디미컨 유방암2kimjihae
 
1315826김지혜 디미컨 유방암3
1315826김지혜 디미컨 유방암31315826김지혜 디미컨 유방암3
1315826김지혜 디미컨 유방암3kimjihae
 
소셜 분석으로 살펴본 청소년 자살예방정책의 시사점(NIA)
소셜 분석으로 살펴본 청소년 자살예방정책의 시사점(NIA)소셜 분석으로 살펴본 청소년 자살예방정책의 시사점(NIA)
소셜 분석으로 살펴본 청소년 자살예방정책의 시사점(NIA)Webometrics Class
 
[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712Sunghun Bae
 
Information overload 설문 및 실험 (최종)
Information overload 설문 및 실험 (최종)Information overload 설문 및 실험 (최종)
Information overload 설문 및 실험 (최종)Jaehyeuk Oh
 
P236 정의적특성평가방법 4신승현
P236 정의적특성평가방법 4신승현P236 정의적특성평가방법 4신승현
P236 정의적특성평가방법 4신승현Minsoo Jung
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03연구데이터 관리와 데이터 관리 계획서 (DMP) - part03
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03Suntae Kim
 
"The dementia diva strikes again!" - a thematic analysis of how informal care...
"The dementia diva strikes again!" - a thematic analysis of how informal care..."The dementia diva strikes again!" - a thematic analysis of how informal care...
"The dementia diva strikes again!" - a thematic analysis of how informal care...JisuRyou
 
프로그램 기획과 평가
프로그램 기획과 평가프로그램 기획과 평가
프로그램 기획과 평가Hyun-jin Kim
 
프로그램 기획과 평가
프로그램 기획과 평가프로그램 기획과 평가
프로그램 기획과 평가Hyun-jin Kim
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapupEun Yu
 
2013 Public Lab Research Report
2013 Public Lab Research Report2013 Public Lab Research Report
2013 Public Lab Research Reportpubliclab
 
A Multidimensional Approach to the Study of Human-information
A Multidimensional Approach to the Study of Human-informationA Multidimensional Approach to the Study of Human-information
A Multidimensional Approach to the Study of Human-informationYeseul Song
 
Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Hyunjeong Lee
 
A Picture-based Approach to Recommender Systems
A Picture-based Approach to Recommender SystemsA Picture-based Approach to Recommender Systems
A Picture-based Approach to Recommender SystemsMinjoon Kim
 
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)Han Woo PARK
 
Understanding self reflection: how people refelct on personal data through vi...
Understanding self reflection: how people refelct on personal data through vi...Understanding self reflection: how people refelct on personal data through vi...
Understanding self reflection: how people refelct on personal data through vi...Myeonggyun Ryu
 

Similar to Week4 data visualization (20)

1315826김지혜 디미컨 유방암
1315826김지혜 디미컨 유방암1315826김지혜 디미컨 유방암
1315826김지혜 디미컨 유방암
 
1315826김지혜 디미컨 유방암2
1315826김지혜 디미컨 유방암21315826김지혜 디미컨 유방암2
1315826김지혜 디미컨 유방암2
 
1315826김지혜 디미컨 유방암3
1315826김지혜 디미컨 유방암31315826김지혜 디미컨 유방암3
1315826김지혜 디미컨 유방암3
 
소셜 분석으로 살펴본 청소년 자살예방정책의 시사점(NIA)
소셜 분석으로 살펴본 청소년 자살예방정책의 시사점(NIA)소셜 분석으로 살펴본 청소년 자살예방정책의 시사점(NIA)
소셜 분석으로 살펴본 청소년 자살예방정책의 시사점(NIA)
 
[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712
 
Sam01
Sam01Sam01
Sam01
 
Information overload 설문 및 실험 (최종)
Information overload 설문 및 실험 (최종)Information overload 설문 및 실험 (최종)
Information overload 설문 및 실험 (최종)
 
P236 정의적특성평가방법 4신승현
P236 정의적특성평가방법 4신승현P236 정의적특성평가방법 4신승현
P236 정의적특성평가방법 4신승현
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03연구데이터 관리와 데이터 관리 계획서 (DMP) - part03
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03
 
"The dementia diva strikes again!" - a thematic analysis of how informal care...
"The dementia diva strikes again!" - a thematic analysis of how informal care..."The dementia diva strikes again!" - a thematic analysis of how informal care...
"The dementia diva strikes again!" - a thematic analysis of how informal care...
 
프로그램 기획과 평가
프로그램 기획과 평가프로그램 기획과 평가
프로그램 기획과 평가
 
프로그램 기획과 평가
프로그램 기획과 평가프로그램 기획과 평가
프로그램 기획과 평가
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapup
 
2013 Public Lab Research Report
2013 Public Lab Research Report2013 Public Lab Research Report
2013 Public Lab Research Report
 
A Multidimensional Approach to the Study of Human-information
A Multidimensional Approach to the Study of Human-informationA Multidimensional Approach to the Study of Human-information
A Multidimensional Approach to the Study of Human-information
 
Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...
 
국민디자인단 운영툴킷 통합본 (ppt)
국민디자인단 운영툴킷 통합본 (ppt)국민디자인단 운영툴킷 통합본 (ppt)
국민디자인단 운영툴킷 통합본 (ppt)
 
A Picture-based Approach to Recommender Systems
A Picture-based Approach to Recommender SystemsA Picture-based Approach to Recommender Systems
A Picture-based Approach to Recommender Systems
 
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
 
Understanding self reflection: how people refelct on personal data through vi...
Understanding self reflection: how people refelct on personal data through vi...Understanding self reflection: how people refelct on personal data through vi...
Understanding self reflection: how people refelct on personal data through vi...
 

More from Eun Yu

Week9 data vis(5)
Week9 data vis(5)Week9 data vis(5)
Week9 data vis(5)Eun Yu
 
Week7 data vis(4)
Week7 data vis(4)Week7 data vis(4)
Week7 data vis(4)Eun Yu
 
Week6 data vis(3)
Week6 data vis(3)Week6 data vis(3)
Week6 data vis(3)Eun Yu
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)Eun Yu
 
Week13 cluster(2)
Week13 cluster(2)Week13 cluster(2)
Week13 cluster(2)Eun Yu
 
Week12 cluster(1)
Week12 cluster(1)Week12 cluster(1)
Week12 cluster(1)Eun Yu
 
Week11 map
Week11 mapWeek11 map
Week11 mapEun Yu
 
Week2-3 review
Week2-3 reviewWeek2-3 review
Week2-3 reviewEun Yu
 
Week1 ot
Week1 otWeek1 ot
Week1 otEun Yu
 

More from Eun Yu (9)

Week9 data vis(5)
Week9 data vis(5)Week9 data vis(5)
Week9 data vis(5)
 
Week7 data vis(4)
Week7 data vis(4)Week7 data vis(4)
Week7 data vis(4)
 
Week6 data vis(3)
Week6 data vis(3)Week6 data vis(3)
Week6 data vis(3)
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)
 
Week13 cluster(2)
Week13 cluster(2)Week13 cluster(2)
Week13 cluster(2)
 
Week12 cluster(1)
Week12 cluster(1)Week12 cluster(1)
Week12 cluster(1)
 
Week11 map
Week11 mapWeek11 map
Week11 map
 
Week2-3 review
Week2-3 reviewWeek2-3 review
Week2-3 review
 
Week1 ot
Week1 otWeek1 ot
Week1 ot
 

Week4 data visualization

  • 2. 1. 데이터 시각화에서 주의할 점: COVID-19 예시 2. 데이터 수집 3. 데이터 평가 4. 한국 미디어패널 소개 목차 0
  • 3. 데이터 시각화에서 주의할 점 1 https://medium.com/nightingale/ten-considerations-before-you-create-another-chart-about-covid-19-27d3bd691be8 https://www.esri.com/arcgis-blog/products/product/mapping/mapping-coronavirus-responsibly/ (1) 시각화의 사회적 영향력 고려 (2) 감염병의 확산에 대한 전문지식 (3) 데이터 수집 및 측정 과정 이해
  • 4. (1) 시각화의 사회적 영향력 고려 • 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다. • 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다. 데이터 시각화에서 주의할 점 1
  • 5. (1) 시각화의 사회적 영향력 고려 • 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다. • 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다. 데이터 시각화에서 주의할 점 1
  • 6. (1) 시각화의 사회적 영향력 고려 • 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다. • 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다. 데이터 시각화에서 주의할 점 1 https://blog.datawrapper.de/coronaviruscharts/
  • 7. (1) 시각화의 사회적 영향력 고려 • 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다. • 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다. 데이터 시각화에서 주의할 점 1 https://www.nytimes.com/article/flatten-curve-coronavirus.html
  • 8. (2) 감염병의 확산에 대한 전문지식 • 특히 사망률의 경우 단순 숫자로 비율을 계산 하거나 다른 병과 직접 비교하기 어렵다. • 예측모델은 인간 행동과 방역 시스템을 포함해 다양한 요소를 고려하며 계속 바뀔 수 있다. • 데이터 과학과 통계학에 기반한 다양한 모델이 제시되고 있으나 역학 전문가의 검증을 거쳤는 지 확인해야 한다. • 정확한 용어를 사용해야 한다. 데이터 시각화에서 주의할 점 1 https://informationisbeautiful.net/visualizations/covid-19-coronavirus-infographic-datapack/
  • 9. (2) 감염병의 확산에 대한 전문지식 • 특히 사망률의 경우 단순 숫자로 비율을 계산 하거나 다른 병과 직접 비교하기 어렵다. • 예측모델은 인간 행동과 방역 시스템을 포함해 다양한 요소를 고려하며 계속 바뀔 수 있다. • 데이터 과학과 통계학에 기반한 다양한 모델이 제시되고 있으나 역학 전문가의 검증을 거쳤는 지 확인해야 한다. • 정확한 용어를 사용해야 한다. 데이터 시각화에서 주의할 점 1 https://www.kaggle.com/c/covid19-global-forecasting-week-3
  • 10. (3) 데이터 수집 및 측정 과정 이해 • 확진자는 감염자 중 일부이며, 각국의 대응 지침과 의료 접근성, 진단 키트의 확보, 인구의 구성 등 다양한 요소에 좌우된다. • 같은 방식이 아니므로 특정 국가/지역 기반의 데이터로 일반적인 예측을 내놓기 어렵다. 데이터 시각화에서 주의할 점 1 https://www.nytimes.com/2020/03/26/world/asia/japan-coronavirus.html http://ncov.mohw.go.kr/bdBoardList_Real.do?brdId=1&brdGubun=14&ncvContSeq=&contSeq=&board_id=&gubun=
  • 11. (3) 데이터 수집 및 측정 과정 이해 • 확진자는 감염자 중 일부이며, 각국의 대응 지침과 의료 접근성, 진단 키트의 확보, 인구의 구성 등 다양한 요소에 좌우된다. • 같은 방식이 아니므로 특정 국가/지역 기반의 데이터로 일반적인 예측을 내놓기 어렵다. 데이터 시각화에서 주의할 점 1 http://mn.kbs.co.kr/news/view.do?ncd=4407243
  • 12. (3) 데이터 수집 및 측정 과정 이해 • 확진자는 감염자 중 일부이며, 각국의 대응 지침과 의료 접근성, 진단 키트의 확보, 인구의 구성 등 다양한 요소에 좌우된다. • 같은 방식이 아니므로 특정 국가/지역 기반의 데이터로 일반적인 예측을 내놓기 어렵다. 데이터 시각화에서 주의할 점 1 http://ncov.mohw.go.kr/faqBoardList.do
  • 13. • 데이터 과학의 과정 짚어보기 데이터 수집 2 원시 데이터 수집 데이터 처리 데이터 클리닝 탐색적 데이터 분석 통계분석 기계학습 알고리즘 데이터 상품개발 커뮤니케이션 시각화 결과보고 <데이터 과학의 과정> Cathy O’Neil & Rachel Schutt (2013), Doing Data Science, O’REILLY.
  • 14. 데이터 (data) • 정보를 나타내는 수치로, 가공되지 않고 아직 의미를 가지지 않은 상태의 개체 • 수집/측정/분석되어 새로운 가치를 창출 완벽한 데이터가 없는 이유 • 수집 가능한가? • 합법성, 데이터의 가치… • 데이터 수집 비용을 감당할 수 있는가? • 전 국민을 대상으로 한 조사가 가능한가? • 시장조사기관, 컨설팅 회사에서 판매 • 목적에 적합한 데이터인가? • 최신성, 신뢰도… 데이터 수집 2 김화종 (2014), 데이터 사이언스 개론, 홍릉과학출판사 http://www.etoday.co.kr/news/section/newsview.php?idxno=1610981 http://www.koreanclick.com/solutions/mobile_measurement.html
  • 15. 1차 자료와 2차 자료 • 1차 자료 (primary data): 기존의 2차 자료로부터 얻을 수는 없으나 현재의 의사결정에 꼭 필요하다고 판단되어 조사자가 직접 조사하여 수집한 자료. 예: 설문조사, 관찰, 직접 구축한 데이터베이스 등 • 2차 자료 (secondary data): 과거에 다른 목적으로 조사되어 수집된 자료로서 현재의 목적 에도 어느 정도 활용가능한 자료. 예: 공공데이터, 상업용 자료, 웹 스크래핑 등 • 1차 자료는 수집에 더 많은 자원(노력, 비용, 시간)을 필요로 함 • 2차 자료는 핵심적인 정보를 얻을 수 없는 경우가 많으므로 목적에 적합한지 품질과 유용성 을 평가하고, 데이터의 한계를 파악하여 활용해야 함 데이터 수집 2 이훈영 (2012), 연구조사방법론, 도서출판 청람.
  • 16. 1. 출처를 확인한다. • 신뢰할 만한 출처인가? • 실제로 파악 가능한가? 2. 조사 방법을 확인한다. • 어떤 방식으로 수집되었는가? • 신뢰할 만한 표본인가? • 언제 수집되었는가? 3. 데이터의 품질을 확인한다. • 목적에 부합하는가? • 데이터 클리닝이 필요한가? 데이터 평가 3 대럴 허프 (2004), 새빨간 거짓말, 통계,더불어책.
  • 17. 1. 출처를 확인한다. • 신뢰할 만한 출처인가? • 공신력이 있는 기관에서 제공하였는가? • 측정기준/과정의 정보를 공개하는가? • 이해관계의 주체인가? • 실제로 파악 가능한가? 데이터 평가 3 https://news.joins.com/article/21782877 https://www.stocklib.com/media-84319714/fake-news-word-cloud-on-a-white-background.html
  • 18. 데이터 평가 3 https://www.yna.co.kr/view/AKR20180211062800002 http://www.hani.co.kr/arti/politics/politics_general/934748.html https://eiec.kdi.re.kr/material/conceptList.do?depth01=00002000010000100009&idx=139 1. 출처를 확인한다. • 신뢰할 만한 출처인가? • 실제로 파악 가능한가? • 일부만 반영 가능: 경제성장 = GDP? • 추정/설문에만 의존하는 경우 한계가 뚜렷함
  • 19. 2. 조사 방법을 확인한다. • 어떤 방식으로 수집되었는가? • 로그, 서면조사, 인터뷰, … • 언제 수집되었는가? • 신뢰할 만한 표본인가? 데이터 평가 3 https://www.hankyung.com/politics/article/2019092386131
  • 20. 2. 조사 방법을 확인한다. • 어떤 방식으로 수집되었는가? • 언제 수집되었는가? • 최근인가? • 일/달/분기/연단위로 수집되는가? • 신뢰할 만한 표본인가? 데이터 평가 3 http://www.narastat.kr/pms/pub/scs/css/selectConfmStatsStatusCycle.do
  • 21. 2. 조사 방법을 확인한다. • 어떤 방식으로 수집되었는가? • 언제 수집되었는가? • 신뢰할 만한 표본인가? • 모집단 대비 표본의 수는 적절한가? 나쁜 예) 존스홉킨스대학 여학생의 33%는 교수와 결혼 • 모집단을 대표할 만한 표본을 추출하였는가? 나쁜 예) 폭염에 따른 에어컨 사용량 조사에서 경상북도에 거주하는 대상자가 40% 대학 동창회원 대상 연봉 조사 1936년 ‘리터러리 다이제스트’ 잡지 구독자 대상 여론조사 (vs. 갤럽) 애완견과 매일 산책하면 장수한다? 와인을 마시면 장수한다? 데이터 평가 3 https://brunch.co.kr/@jaehyun-design/5 https://www.hopkinsmedicine.org/about/history/history6.html https://eiec.kdi.re.kr/material/clickView.do?click_yymm=201512&cidx=1881
  • 22. * 표본 추출의 필요성과 방법 • 모집단(population)을 대상으로 조사할 수 없는 경우가 대부분이므로 그 일부만 대상으로 표본(sample)조사를 하게 된다. • 표본 선정이란 조사대상을 선정하는 것으로서 의사결정에 필요한 정보를 제공해 줄 수 있는 대상을 선정하는 것이다. • 필요한 정보의 성격과 표본이 가지는 특성 등을 종합적으로 감안하여 가장 효과적이고 적절 한 표본을 선정할 수 있도록 해야 한다. • 표본의 크기는 조사의 목적과 조사의 방법에 따라 달라진다. • 조사 예산과 조사 기간이 가장 큰 제약이며, 정보의 양과 정확도에 비례하여 비용이 커지고 필요한 시간이 길어진다. 데이터 평가 3
  • 23. * 표본 추출의 필요성과 방법 • 확률표본추출: 모집단 구성원의 명단으로 표본을 추출함으로써 개별 구성원 이 표본으로 선택될 확률을 알 수 있다. 하지만 대부분의 경우 명단을 입수 하기 어려워 모집단의 수가 비교적 적은 경우에 사용된다. 예: 교내 설문조사 (무작위/학년별…), 플랫폼 내 A/B 테스트 • 비확률표본추출: 모집단 구성원이 표본으로 선택될 확률을 알 수 없으므로 표본의 대표성을 정확하게 추정하기 어려우나, 모집단의 수가 크거나 명단 을 구하기 어려운 상업적 조사에서 흔히 사용된다. 예: 길거리 설문조사, 임의 선정 할당표본추출: 분류기준별 할당(지역/성별…) 데이터 평가 3 이훈영 (2012), 연구조사방법론, 도서출판 청람.
  • 24. * 여론조사 결과 해석하기 • “한국갤럽이 지난 24~26일 전국 만 18세 이상 1001명을 대상으로 전화조사원 인터뷰로 실시했으며, 그 대상자들은 휴대전화 RDD 표본 프레임에서 무작위 추출(집전화 RDD 15% 포함)했다. 표본오차는 ±3.1%포인트(95% 신뢰수준)이며, 응답률은 14%(총 통화 7392 명 중 1001명 응답)였다. 이 조사는 한국갤럽이 자체적으로 실시한 조사다.” (3/27 기사) • '대통령 직무 긍정률 50%'라는 여론조사 결과는 우리 국민 중 대통령이 대통령으로서의 직 무를 잘하고 있다고 보는 사람의 비율이 정확하게 50%라는 의미가 아니다. 데이터 평가 3 https://www.gallup.co.kr/gallupdb/columnContents.asp?seqNo=117 http://www.mediatoday.co.kr/news/articleView.html?idxno=206124
  • 25. * 여론조사 결과 해석하기 • 전체 유권자 중 일부만 조사할 수 있으므로, 결과는 수치가 아닌 범위 • 대통령 직무 긍정률이 50%±3%포인트, 즉 47~53% 범위 안에 들 확률이 95%라는 뜻 • 확률 95%는 모집단에서 1000명을 뽑아 같은 조사를 100번 한다면 95번의 조사 결과가 위 범위 안에 들어간다는 뜻 • 표본오차는 표본의 수가 많을수록 감소하며, 사회과학에서는 대부분 95%신뢰수준을 적용 • 표본오차보다 작은 변동은 의미가 없음 데이터 평가 3 https://www.gallup.co.kr/gallupdb/columnContents.asp?seqNo=117 http://www.mediatoday.co.kr/news/articleView.html?idxno=206124
  • 26. • 통계청 국가승인통계 제 405001 호 한국 미디어패널 소개 4 https://stat.kisdi.re.kr/MediaStat/MediaPanel/MediaPanel_Outline.aspx?MENU_ID=12 http://kostat.go.kr/portal/korea/kor_pi/8/6/1/index.board?bmode=read&aSeq=372537&pageNo=&rowNum=10&amSeq=&sTarget=&sTxt=
  • 27. • 설문지, 원데이터, 코드북 및 유저 가이드 제공 한국 미디어패널 소개 4
  • 28. End of document 유 은 eunyu1031@gmail.com