2. • 변수(variable)란 척도를 이용하여 관심대상이 되는 개체의 속성을 측정한 값을
대표하여 말함
• 같은 개체의 속성을 측정했어도 척도에 따라 다양한 변수를 만들 수 있음
• 변수의 타입에 따라 중요하게 보아야 할 기술통계(descriptive statistics)가 달
라짐
변수
0
자료 척도 변수 타입 예시
양적자료 질적척도 명목척도 질적변수
(연산불가능)
범주형
(categorical)
0(탈퇴)/1(가입)a
1(사과)/2(배)/3(귤)
1(상)/2(중)/3(하)b
서열척도
양적척도 등간척도 양적변수
(연산가능)
숫자형
(numerical)
-10, -2, 3.33, 4.9, 8,
100000…
비율척도
질적자료 계량화 안됨
3. • 중요한 것과 중요하지 않은 것을 구분
• 정량적 분석으로 답할 수 있는지 확인
✓열심히 공부하는 학생이 성공하는가?
• 보여줄 수 있는 질문의 분류
✓분포(distribution)
✓순서/정렬/순위(order/sort/rank)
✓구성(composition)
✓추세(growth/trend)
✓관계(relation)
✓프로파일링(profiling)
데이터 시각화 시작하기: 질문하기
0
1. 질문하기
2. 데이터의 선택과 수집
3. 패턴 파악하기
4. 우선순위 설정
5. 결과 리포트
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
5. • 도수분포표(histogram)
✓데이터를 범주로 나누어 각 범주에 해당하는 데이터의 등장빈도
(frequency)를 y축에 나타낸 것
✓데이터의 값은 사라지지만 분포 파악 가능
• 상자수염도표(box-and-whisker plot; box plot)
✓데이터의 분포/사분위수를 빠르게 파악할 수 있음
분포 (distribution)
1
https://static01.nyt.com/images/2020/03/27/nytfrontpage/scan.pdf
6. 분포 (distribution)
1
• 도수분포표(histogram)
✓데이터를 범주로 나누어 각 범주에 해당하는 데이터의 등장빈도
(frequency)를 y축에 나타낸 것
✓데이터의 값은 사라지지만 분포 파악 가능
• 상자수염도표(box-and-whisker plot; box plot)
✓데이터의 분포/사분위수를 빠르게 파악할 수 있음
• 누적 막대그래프 (stacked bar plot)
✓빈도의 분포를 비교할 수 있음
• 지도(choropleth map)
✓지정학적 위치가 중요한 데이터의 경우 직관적으로 파악 가능
• 그 외
7. • 수직/수평 막대그래프 (vertical/horizontal bar plot)
✓통계치를 막대의 높이(수직) 또는 길이(수평)로 나타낸 도표로, 전자는 시간의 흐름을 표현
하기 편리하며 후자는 라벨 표기에 장점이 있음
순서/정렬/순위(order/sort/rank)
2
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
8. • 수직/수평 막대그래프 (vertical/horizontal bar plot)
✓통계치를 막대의 높이(수직) 또는 길이(수평)로 나타낸 도표로, 전자는 시간의 흐름을 표현
하기 편리하며 후자는 라벨 표기에 장점이 있음
• 막대사탕 그래프 (lollipop plot)
✓막대가 부피를 차지할 때 고려
순서/정렬/순위(order/sort/rank)
2
https://medium.com/@caiotaniguchi/plotting-lollipop-charts-with-plotly-8925d10a3795
9. • 주의사항
✓일정한 축 눈금 간격
✓눈금의 범위를 조정하여 차이를 부각할 수도 있으나, 해석할 때 과장하지 않도록 주의
순서/정렬/순위(order/sort/rank)
2
https://twitter.com/Carnage4Life/status/1246579721585868800
http://www.nohsteachers.info/pcaso/ap_statistics/PDFs/MoreDamnedLiesAndStatistics.pdf
10. • 주의사항
✓일정한 축 눈금 간격
✓눈금의 범위를 조정하여 차이를 부각할 수도 있으나, 해석할 때 과장하지 않도록 주의
✓적절한 축 기준 선택
순서/정렬/순위(order/sort/rank)
2
https://medium.economist.com/mistakes-weve-drawn-a-few-8cdd8a42d368
11. • 주의사항
✓일정한 축 눈금 간격
✓눈금의 범위를 조정하여 차이를 부각할 수도 있으나, 해석할 때 과장하지 않도록 주의
✓적절한 축 기준 선택
✓가나다(ABC) 순서보다는 다른 의미 있는 순서 탐색하기
순서/정렬/순위(order/sort/rank)
2
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사