4. 기말 프로젝트
데이터의 수집 & 질문 도출
• 정부/공공기관, 국제기구, 업계의 공신력 있는 기관, …
• 다운로드, API, 웹 크롤링
• 식별자가 충분한 데이터: 단일 데이터, 연도별 데이터, …
데이터 클리닝
• 중복 데이터
✓ 식별자가 없어도 변수를 선택하여 확인하는 과정은 필요
• 누락 데이터
✓ NaN만 누락 데이터인가? 예) 공백으로 채운 칸, unknown, 알코올 측정 거부, …
✓ 식별자가 있는 행(row)을 모두 삭제? 다른 데이터가 있으면 남겨놓고 사용/다른 출처에서 찾아 채우기
• Domain knowledge/context
✓ 어떤 변수가 중요한가? 왜 중요한가?
예) 연/계절/월/주/패치, 숫자형→범주형 기준 (공연기간, 혈중알콜농도, 사회적 거리두기 기간, …)
1
5. 기말 프로젝트
시각화
• 히스토그램과 막대그래프의 구분
✓ 히스토그램: 데이터를 범주로 나누어 각 범주에 해당하는 데이터의 등장빈도(frequency)를 y축에 나타낸 것
✓ 막대그래프: 통계치(평균, 총합 등)를 막대의 높이(수직) 또는 길이(수평)로 나타낸 도표
✓ Y축의 값이 식별자의 등장빈도(frequency/count)인지로 구분하며, x축은 범주형 변수 또는 범주형 변수로
변환한 숫자형 변수
• 산점도
• 두 개의 숫자형(numeric; continuous scale) 변수의 상관관계를 보기 위한 도표
1
8. 데이터 (data)
• 정보를 나타내는 수치로, 가공되지 않고 아직 의미를 가지지 않은 상태의 개체
• 수집/측정/분석되어 새로운 가치를 창출
• 데이터의 출처, 데이터가 수집된 방법, 데이터를 사용할 목적에 따라 평가
✓ 1차 자료와 2차 자료
✓ 설문조사 표본 추출법과 그에 따른 여론조사 결과 해석
• 양적 자료 (quantitative data)와 질적 자료(qualitative data)
• 척도와 측정, 상수와 변수
• 데이터의 요약: 기술통계
Review
2
9. Review
2
데이터 클리닝 (data cleaning)
• 데이터에서 목적에 부합하지 않는 나쁜 데이터를 골라내는 과정
• 나쁜 데이터를 처리하고 질을 높이는 클리닝(cleaning)과
데이터 분석을 쉽게 할 수 있게 구조를 바꾸는 변환
(transformation)으로 구성
✓ 데이터 읽기: read_csv, read_excel / utf-8, cp949, iso-8859-1, …
✓ 데이터 속성 확인: head, info, unique, nunique, value_counts, …
✓ 데이터 요약: describe, count, sum, mean…
✓ 중복 데이터 확인 & 해결: duplicated, drop_duplicates, …
✓ 누락 데이터 확인 & 해결: notna, isna, dropna, fillna, …
✓ 자료형 변경하기: astype, to_numeric, to_datetime, …
✓ 구조 변경하기: groupby, merge, wide_to_long, melt, …
✓ 새로운 변수 만들기: cut, map, …
✓ 문자열 다루가: str.replace, str.slice, str.split,…
✓ 작업 반복 적용하기: apply, lambda, …
✓ 그 외 변수 이름 바꾸기, 필요한 데이터 골라내기, 다른 파일로 저장하기 …
1. 데이터 불러오기
(Import)
2. 처리할 데이터 찾기
(Screen)
3. 나쁜 데이터의 원인 진단
(Diagnose)
4. 데이터 수정
(Treat)
5. 기록
(Document)
10. 데이터 시각화 (data visualization)
• 추상적인 수량 데이터에 인지적 메커니즘을 적용하여 데이터
의 관련된 형태나 순서, 또는 예외사항을 나타낸 것으로,
원 데이터(raw data)를 바탕으로 직접적인 관점을 제공하며
정보를 효과적으로 전달하기 위한 방법
• 질문하기
✓ 분포(distribution), 순서/정렬/순위(order/sort/rank),
구성(composition), 추세(growth/trend), 관계(relation)
• 시각화의 목적: 커뮤니케이션
✓ 데이터의 어떤 특성을 강조하고 싶은가?
✓ 가장 흥미로운 부분은 무엇이었는가?
✓ 시각화가 타인에게 어떤 영향을 미치기를 바라는가?
Review
2
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
11. Python & visualization: Matplotlib, seaborn, plotly.
• 그래픽 유저 인터페이스가 아닌, 코드로 데이터 시각화 구현
Review
2
13. 파이썬 기초 & 데이터 처리•시각화
• 변수와 자료형
• 함수, 클래스 (object-oriented)
• Flow control: 반복문과 조건문
• Pandas, matplotlib, seaborn, plotly
데이터 저널리즘
• 사회적인 영향력
• 데이터 해석과 인지편향 (cognitive bias)
• 스토리텔링
• 조직 내에서의 데이터 저널리즘
머신러닝
• 통계, 선형대수학, …
Wrap-up
데이터 기초
• 데이터의 요약: 기술통계와 관계
• 데이터의 평가: 설문조사, 샘플링, 확률
• 데이터 클리닝
• 탐색적 데이터 분석
데이터 시각화
• 데이터 시각화의 원리: 시각적 지각
• 질문과 그에 따른 시각화 차트
• 더 좋은 시각화 디자인
• Interactive visualization & UI & UX
데이터 분석
• 실험설계, 통계분석
3
14. Wrap-up
3
데이터 읽고 해석하기
• 한스 로슬링 외 (2019). 팩트풀니스. 이창신 역. 김영사.
• 세스 스티븐스 다비도위츠 (2018). 모두 거짓말을 한다. 이영래 역. 더퀘스트.
• 네이트 실버 (2014). 신호와 소음. 이경식 역. 더퀘스트.
• 대럴 허프 (2004). 새빨간 거짓말 통계. 박영훈 역. 더불어책.
• 게르트 보스바흐 & 옌스 위르겐 코르프 (2019). 통계의 거짓말. 강희진 역. 지브레인.
데이터 시각화 및 스토리텔링
• 폴 누스바우머 내플릭 (2015). 데이터 스토리텔링. 정사범 옮김. 에이콘출판사
• 조르즈 카몽이스 (2017). 데이터 시각화 원리. 이혜연 옮김. 에이콘출판사
15. Wrap-up
수업 소개
This course covers the foundational skills required of a visual data journalist or anyone
who seeks to present numbers visually. Students will learn how to evaluate, analyze and
present data. It enables students to become literate about data so that you avoid
common mistakes made with visualization. Students will explore various datasets using
Python (which is used most extensively at current workplaces) especially visualization
packages. Basic programming knowledge is a prerequisite for using the tool.
3
16. Wrap-up
수업의 목표와 예상하는 성과
1. Scrutinize tables, charts and data visualizations.
• Communicate numbers and basic statistics
2. Identify reliable sources of data and understand their limitations.
• Evaluate quality of data and reflect it on interpretations.
3. Understand data to find patterns and insights.
• Analyze and present data to answer questions.
4. Learn visualization techniques to data.
• Apply Python-based data visualization techniques and methods to explore data
3
17. Wrap-up
Data visualization literacy (데이터 기반 시각적 문해력)
• 문해력 (textual literacy), 수리력/산술능력(mathematical literacy/numeracy),시각적 문해력
(visual literacy), 데이터 리터러시 (data literacy)
• 다양한 상황에서 데이터를 읽고, 쓰고, 분석하여 소통할 수 있는 능력
• 데이터의 출처를 평가하고 데이터의 구조, 적용된 분석 방법과 기법, 사용/적용/결과값을 설명
하는 능력을 이해하는 것을 포함
• 데이터를 통계적, 기술적으로 처리하는 능력과 함께 다양한 데이터에서 가치를 뽑아내고 그것을
해석, 시각화, 전달하는 능력을 요구
3