2. 1. 데이터 시각화에서 주의할 점: COVID-19 예시
2. 데이터 수집
3. 데이터 평가
4. 한국 미디어패널 소개
목차
0
3. 데이터 시각화에서 주의할 점
1
https://medium.com/nightingale/ten-considerations-before-you-create-another-chart-about-covid-19-27d3bd691be8
https://www.esri.com/arcgis-blog/products/product/mapping/mapping-coronavirus-responsibly/
(1) 시각화의 사회적 영향력 고려
(2) 감염병의 확산에 대한 전문지식
(3) 데이터 수집 및 측정 과정 이해
4. (1) 시각화의 사회적 영향력 고려
• 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다.
• 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다.
데이터 시각화에서 주의할 점
1
5. (1) 시각화의 사회적 영향력 고려
• 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다.
• 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다.
데이터 시각화에서 주의할 점
1
6. (1) 시각화의 사회적 영향력 고려
• 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다.
• 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다.
데이터 시각화에서 주의할 점
1
https://blog.datawrapper.de/coronaviruscharts/
7. (1) 시각화의 사회적 영향력 고려
• 정보를 전달하기보다는 공포를 불러일으켜 제대로 대응하지 못하게 만들 수 있다.
• 확진이 사망선고는 아니므로 시각화할 때 독자를 배려해야 한다.
데이터 시각화에서 주의할 점
1
https://www.nytimes.com/article/flatten-curve-coronavirus.html
8. (2) 감염병의 확산에 대한 전문지식
• 특히 사망률의 경우 단순 숫자로 비율을 계산
하거나 다른 병과 직접 비교하기 어렵다.
• 예측모델은 인간 행동과 방역 시스템을 포함해
다양한 요소를 고려하며 계속 바뀔 수 있다.
• 데이터 과학과 통계학에 기반한 다양한 모델이
제시되고 있으나 역학 전문가의 검증을 거쳤는
지 확인해야 한다.
• 정확한 용어를 사용해야 한다.
데이터 시각화에서 주의할 점
1
https://informationisbeautiful.net/visualizations/covid-19-coronavirus-infographic-datapack/
9. (2) 감염병의 확산에 대한 전문지식
• 특히 사망률의 경우 단순 숫자로 비율을 계산
하거나 다른 병과 직접 비교하기 어렵다.
• 예측모델은 인간 행동과 방역 시스템을 포함해
다양한 요소를 고려하며 계속 바뀔 수 있다.
• 데이터 과학과 통계학에 기반한 다양한 모델이
제시되고 있으나 역학 전문가의 검증을 거쳤는
지 확인해야 한다.
• 정확한 용어를 사용해야 한다.
데이터 시각화에서 주의할 점
1
https://www.kaggle.com/c/covid19-global-forecasting-week-3
10. (3) 데이터 수집 및 측정 과정 이해
• 확진자는 감염자 중 일부이며, 각국의 대응 지침과 의료 접근성, 진단 키트의 확보, 인구의
구성 등 다양한 요소에 좌우된다.
• 같은 방식이 아니므로 특정 국가/지역 기반의 데이터로 일반적인 예측을 내놓기 어렵다.
데이터 시각화에서 주의할 점
1
https://www.nytimes.com/2020/03/26/world/asia/japan-coronavirus.html
http://ncov.mohw.go.kr/bdBoardList_Real.do?brdId=1&brdGubun=14&ncvContSeq=&contSeq=&board_id=&gubun=
11. (3) 데이터 수집 및 측정 과정 이해
• 확진자는 감염자 중 일부이며, 각국의 대응 지침과 의료 접근성, 진단 키트의 확보, 인구의
구성 등 다양한 요소에 좌우된다.
• 같은 방식이 아니므로 특정 국가/지역 기반의 데이터로 일반적인 예측을 내놓기 어렵다.
데이터 시각화에서 주의할 점
1
http://mn.kbs.co.kr/news/view.do?ncd=4407243
12. (3) 데이터 수집 및 측정 과정 이해
• 확진자는 감염자 중 일부이며, 각국의 대응 지침과 의료 접근성, 진단 키트의 확보, 인구의
구성 등 다양한 요소에 좌우된다.
• 같은 방식이 아니므로 특정 국가/지역 기반의 데이터로 일반적인 예측을 내놓기 어렵다.
데이터 시각화에서 주의할 점
1
http://ncov.mohw.go.kr/faqBoardList.do
13. • 데이터 과학의 과정 짚어보기
데이터 수집
2
원시
데이터
수집
데이터
처리
데이터
클리닝
탐색적
데이터
분석
통계분석
기계학습
알고리즘
데이터
상품개발
커뮤니케이션
시각화
결과보고
<데이터 과학의 과정> Cathy O’Neil & Rachel Schutt (2013), Doing Data Science, O’REILLY.
14. 데이터 (data)
• 정보를 나타내는 수치로, 가공되지 않고 아직 의미를 가지지 않은 상태의 개체
• 수집/측정/분석되어 새로운 가치를 창출
완벽한 데이터가 없는 이유
• 수집 가능한가?
• 합법성, 데이터의 가치…
• 데이터 수집 비용을 감당할 수 있는가?
• 전 국민을 대상으로 한 조사가 가능한가?
• 시장조사기관, 컨설팅 회사에서 판매
• 목적에 적합한 데이터인가?
• 최신성, 신뢰도…
데이터 수집
2
김화종 (2014), 데이터 사이언스 개론, 홍릉과학출판사
http://www.etoday.co.kr/news/section/newsview.php?idxno=1610981
http://www.koreanclick.com/solutions/mobile_measurement.html
15. 1차 자료와 2차 자료
• 1차 자료 (primary data): 기존의 2차 자료로부터 얻을 수는 없으나 현재의 의사결정에 꼭
필요하다고 판단되어 조사자가 직접 조사하여 수집한 자료.
예: 설문조사, 관찰, 직접 구축한 데이터베이스 등
• 2차 자료 (secondary data): 과거에 다른 목적으로 조사되어 수집된 자료로서 현재의 목적
에도 어느 정도 활용가능한 자료.
예: 공공데이터, 상업용 자료, 웹 스크래핑 등
• 1차 자료는 수집에 더 많은 자원(노력, 비용, 시간)을 필요로 함
• 2차 자료는 핵심적인 정보를 얻을 수 없는 경우가 많으므로 목적에 적합한지 품질과 유용성
을 평가하고, 데이터의 한계를 파악하여 활용해야 함
데이터 수집
2
이훈영 (2012), 연구조사방법론, 도서출판 청람.
16. 1. 출처를 확인한다.
• 신뢰할 만한 출처인가?
• 실제로 파악 가능한가?
2. 조사 방법을 확인한다.
• 어떤 방식으로 수집되었는가?
• 신뢰할 만한 표본인가?
• 언제 수집되었는가?
3. 데이터의 품질을 확인한다.
• 목적에 부합하는가?
• 데이터 클리닝이 필요한가?
데이터 평가
3
대럴 허프 (2004), 새빨간 거짓말, 통계,더불어책.
17. 1. 출처를 확인한다.
• 신뢰할 만한 출처인가?
• 공신력이 있는 기관에서 제공하였는가?
• 측정기준/과정의 정보를 공개하는가?
• 이해관계의 주체인가?
• 실제로 파악 가능한가?
데이터 평가
3
https://news.joins.com/article/21782877
https://www.stocklib.com/media-84319714/fake-news-word-cloud-on-a-white-background.html
19. 2. 조사 방법을 확인한다.
• 어떤 방식으로 수집되었는가?
• 로그, 서면조사, 인터뷰, …
• 언제 수집되었는가?
• 신뢰할 만한 표본인가?
데이터 평가
3
https://www.hankyung.com/politics/article/2019092386131
20. 2. 조사 방법을 확인한다.
• 어떤 방식으로 수집되었는가?
• 언제 수집되었는가?
• 최근인가?
• 일/달/분기/연단위로 수집되는가?
• 신뢰할 만한 표본인가?
데이터 평가
3
http://www.narastat.kr/pms/pub/scs/css/selectConfmStatsStatusCycle.do
21. 2. 조사 방법을 확인한다.
• 어떤 방식으로 수집되었는가?
• 언제 수집되었는가?
• 신뢰할 만한 표본인가?
• 모집단 대비 표본의 수는 적절한가?
나쁜 예) 존스홉킨스대학 여학생의 33%는 교수와 결혼
• 모집단을 대표할 만한 표본을 추출하였는가?
나쁜 예) 폭염에 따른 에어컨 사용량 조사에서 경상북도에 거주하는 대상자가 40%
대학 동창회원 대상 연봉 조사
1936년 ‘리터러리 다이제스트’ 잡지 구독자 대상 여론조사 (vs. 갤럽)
애완견과 매일 산책하면 장수한다? 와인을 마시면 장수한다?
데이터 평가
3
https://brunch.co.kr/@jaehyun-design/5
https://www.hopkinsmedicine.org/about/history/history6.html
https://eiec.kdi.re.kr/material/clickView.do?click_yymm=201512&cidx=1881
22. * 표본 추출의 필요성과 방법
• 모집단(population)을 대상으로 조사할 수 없는 경우가 대부분이므로 그 일부만 대상으로
표본(sample)조사를 하게 된다.
• 표본 선정이란 조사대상을 선정하는 것으로서 의사결정에 필요한 정보를 제공해 줄 수 있는
대상을 선정하는 것이다.
• 필요한 정보의 성격과 표본이 가지는 특성 등을 종합적으로 감안하여 가장 효과적이고 적절
한 표본을 선정할 수 있도록 해야 한다.
• 표본의 크기는 조사의 목적과 조사의 방법에 따라 달라진다.
• 조사 예산과 조사 기간이 가장 큰 제약이며, 정보의 양과 정확도에 비례하여 비용이 커지고
필요한 시간이 길어진다.
데이터 평가
3
23. * 표본 추출의 필요성과 방법
• 확률표본추출: 모집단 구성원의 명단으로 표본을 추출함으로써 개별 구성원
이 표본으로 선택될 확률을 알 수 있다. 하지만 대부분의 경우 명단을 입수
하기 어려워 모집단의 수가 비교적 적은 경우에 사용된다.
예: 교내 설문조사 (무작위/학년별…), 플랫폼 내 A/B 테스트
• 비확률표본추출: 모집단 구성원이 표본으로 선택될 확률을 알 수 없으므로
표본의 대표성을 정확하게 추정하기 어려우나, 모집단의 수가 크거나 명단
을 구하기 어려운 상업적 조사에서 흔히 사용된다.
예: 길거리 설문조사, 임의 선정
할당표본추출: 분류기준별 할당(지역/성별…)
데이터 평가
3
이훈영 (2012), 연구조사방법론, 도서출판 청람.
24. * 여론조사 결과 해석하기
• “한국갤럽이 지난 24~26일 전국 만 18세 이상 1001명을 대상으로 전화조사원 인터뷰로
실시했으며, 그 대상자들은 휴대전화 RDD 표본 프레임에서 무작위 추출(집전화 RDD 15%
포함)했다. 표본오차는 ±3.1%포인트(95% 신뢰수준)이며, 응답률은 14%(총 통화 7392
명 중 1001명 응답)였다. 이 조사는 한국갤럽이 자체적으로 실시한 조사다.” (3/27 기사)
• '대통령 직무 긍정률 50%'라는 여론조사 결과는 우리 국민 중 대통령이 대통령으로서의 직
무를 잘하고 있다고 보는 사람의 비율이 정확하게 50%라는 의미가 아니다.
데이터 평가
3
https://www.gallup.co.kr/gallupdb/columnContents.asp?seqNo=117
http://www.mediatoday.co.kr/news/articleView.html?idxno=206124
25. * 여론조사 결과 해석하기
• 전체 유권자 중 일부만 조사할 수 있으므로, 결과는 수치가 아닌 범위
• 대통령 직무 긍정률이 50%±3%포인트, 즉 47~53% 범위 안에 들 확률이 95%라는 뜻
• 확률 95%는 모집단에서 1000명을 뽑아 같은 조사를 100번 한다면 95번의 조사 결과가
위 범위 안에 들어간다는 뜻
• 표본오차는 표본의 수가 많을수록 감소하며, 사회과학에서는 대부분 95%신뢰수준을 적용
• 표본오차보다 작은 변동은 의미가 없음
데이터 평가
3
https://www.gallup.co.kr/gallupdb/columnContents.asp?seqNo=117
http://www.mediatoday.co.kr/news/articleView.html?idxno=206124
26. • 통계청 국가승인통계 제 405001 호
한국 미디어패널 소개
4
https://stat.kisdi.re.kr/MediaStat/MediaPanel/MediaPanel_Outline.aspx?MENU_ID=12
http://kostat.go.kr/portal/korea/kor_pi/8/6/1/index.board?bmode=read&aSeq=372537&pageNo=&rowNum=10&amSeq=&sTarget=&sTxt=