SlideShare a Scribd company logo
1 of 76
데이터 시각화의 스위스칼,
태블로(Tableau) 활용하기
언론정보학과 김예경
언론정보학과 김선지
문화인류학과 이지언2016년 수정 : 언론정보학과 박효
찬
태블로는
-1999년 미 스탠포드 컴퓨터 과학 연
구실의 교내 벤처회사에서 개발한 데
이터 베이스 관리 기술 을 기반으로
만든 소프트 웨어
-별도의 학습 없이도 누구나 효과적
이고 다양한 깊이 있는 시각화 분석이
가능하다.
-데이터 항목을 마우스로 끌어다가
중앙 창에 던져놓아 표나 그래프를 만
드는 Drag and Drop
방식
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
- 파일 불러오기
Sheet1 클릭
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
차원(Dimensions)
: 특정 범주로 데이터를 구분
예: 지역, 연령대, 성별(모두 카테고리에 해당)
주로 문자데이터인 경우가 많지만, 연도와 날짜와
같은 시간 정보가 범주형 데이터가 되기도 한다.
기능 소개
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
측정값(Measure)
: 숫자로 표현된 데이터. 계산과 분석
대상이 되는 항목(Y축)
예: 실업률, 자살률, 인구수, 지진 규모 등의 데이
터값.
기능 소개
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
기능 소개
Show Me(자동 표시)
: Ctrl 키를 누른 상태에서 원하
는 데이터를 클릭하면 쇼 미 창
에 표현할 수 있는 그래프 모양
이 나타난다.(원하는 그래프 아
이콘 더블클릭)
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
새 시트 만들기 단축키: Ctrl + M
자동으로 시도 연령대 실업률로 표시된 모습
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
Tooltip: 데이터 내역 팝업창
Marks – Tooltip에서 편집가능
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
5.3 타블로의 데이터 분류 방식
청색커버는 ‘분리형’ , 녹색커버는 ‘연속형’
분리형(Discrete): 차원
각 데이터를 분절된 형태로 처리. 예: 사람 수는 2.5명이 존재하지 않고 데이
터가 구분됨.
연속형(Continuos): 측정값
각 데이터 사이에 자릿수, 소수점 상관없이 또 다른 측정값이 존재할 수 있다고
가정.
선그래프 그릴 때는 ‘실업률’과 ‘연도’ 모두 연속형으로 설정
연도를 분리형으로 그리면 막대 그래프가 된다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
1. 연도를 차원으로 옮긴 후
Sheet1 연습
2. 연도를 Columns에
실업률을 Rows에 끌어온다
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습
주의!!
실업률은 시도별이든 연령이든
해의 실업률의 평균으로 나타내
므로 Measure-Average로 반드
시 바꾼다. 그리고 실업률은 무조
건 연속형 데이터이다.
그러나 연도의 경우에는 목적에
따라 분리형(막대)이나 연속형(선)
으로 변환이 가능하다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습
Entire View: 꽉찬 화면으로 조정
Marks - Color
: 그래프 색 조정 가능
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습
Edit Axis: Y축 표기 변경 가능
더블 클릭 해도 변경가능
아이콘
내림차순 – 오름차순 - 디폴트
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습
해석
IMF 여파가 남아있던 2000년대의 실업률이
가장 높고, IMF 청산 직후인 2002년의 실업률
이 가장 낮은 것으로 나타났다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습
선 그래프로 바꾸는 법:
Marks에 Automatic을 Line으로 바꾸어주면
선 그래프가 나타난다
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습
연령대를 Color로 드래그 하면
연령별로 분리된 그래프가 나
타난다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습
Filters창에 연령대를 드래그하
면 원하는 그래프만 골라 표시
할 수 있다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습
주석달기
원하는 지점에 오른쪽 마우스 Annotate
– Area 클릭 후 내용 입력
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습
추세선 그리기
상승, 하락 추세 참고로 파악 가능
오른쪽 마우스 – Trend Lines – Show Trend Line
주의!! 추세선이므로 연도를 Continuous로 수정
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet2 연습
새로운 시트를 띄운 후 버블차트를 만들어 본다
시도를 color와 text(label)로
실업률을 size로 끌어간다
그리고 Show me의
버블차트 아이콘을 클릭한다
이 말은 시도를 컬러로 구분하면서
실업률의 크기로 한 눈에 비교
가능하다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
시도 글씨 조정하기
Marks의 시도 클릭후 Format…
Pane 탭 클릭 후,
폰트와 크기 조정 가능
마찬가지로 다른 항목들도 글씨
조정을 이렇게 할 수 있음.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
연도를 Pages에 드래그 한후
설정을 Dimension과 Discrete로
바꿔주면 연도별로 실업률 추세
의 변화를 살펴 볼 수 있다
아웃라이어:
통계학적으로 평균에서 크게 벗어난 수치, 정상적인 분포를 벗어난 데
이터를 말한다.
이상치 라고도 한다. 특정 지역에서 비정상적으로 실업률이나 자살률이
높다면 기자들의 호기심을 갖고 취재하기에 충분.
아웃라이어 파악하는 방법:
대표적으로는 평균을 중심으로 표준편차의 2배나 3배 정도의 범위를
벗어난 값을 아웃라이어로 잡는 방법이다. 혹은 사분위수를 활용할 수
도 있다.
사분 위는 자료를 크기 순으로 배열하여 4등분한 값을 말한다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
5.6 Box Plot으로 데이터 분포 파악하
기
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
지역별 연령대별 실업률 평균치 중에서 특히 튀는 데이터 골라내기
Sheet3 연습
Ctrl을 누른 상태에서 ‘시도’,’연
도’,’연령대’,’실업률’을 클릭한
뒤, Show me 박스에서 Whisker
Plot을 선택해 차트를 그린다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
아웃라이어가 한 눈에 들
어온다.
상자를 넘어 양측 경계선
을 넘은 점들이
바로 아웃라이어이다.
Tolltip창을 통해 아웃라이
어를 확인해 본다
중앙값(median) – 2사분위
위스커 – 3사분위와 1사분
위 차의 1.5배 곱한 값
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
5.7 피벗 테이블에 날개 달기 : 하이라이트 테이블
스프레드 시트의 각 셀을 데이터에 연동해 색상 농담으
로
각기 다르게 표시한 ‘하이라이트 테이블’도 데이터
분포를
한 눈에 파악하는 데 매우 효과적이다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet4 연습
‘시도’를 Columns 선반에, ‘연령대’와 ‘연도’를 각각 Rows 선반에 넣고,
색상마크와 라벨(텍스트) 마크에 각각 ‘실업률’ 데이터를 집어넣은 뒤
Marks 유형을 Automatic에서 Square로 변경하면 된다.
마지막으로 Show me에 Highlight table을 클릭한다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
실업률을 끌어다가 라벨 마크에 넣으면 이렇게 라벨이 붙어진다.
삭제도 물론 가능하다
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
실업률을 끌어다가 라벨 마크에 넣으면 이렇게 라벨이 붙어진다.
삭제도 물론 가능하다
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
하이라이트 테이블은 피벗 테이블을 좀 더 이해하기 쉽도록 추가로 색상을 입힌
것이다.
색상농담의 변화가 급격한 부분과 짙은 색상이 뭉쳐 나타난 부분은 어디인지 살
펴보자.
필터로 연도와 연령대를 끌어와 특정 기간과 특정
연령대의 실업률을 관찰할 수 있다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
5.8 관심 데이터 표시하기: 피벗 테이블 Spotlighting 기법
한발 더 나아가 일정 기준 이상의 데이터만 골라 차별화된 색상으로 표시할 수 있는 방
법이다.
실업률을 오른쪽 클릭하여
Create - Calculated Field
메뉴에서
다음과 같은 조건식을 입력한
다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
제목을 ‘실업률 스폿라이팅’이라고 지정 후
IIF([실업률]>=7.5, "심각", "관심")
7.5 이상일 경우 심각, 미만은 관심이라는 식이다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
시트를 새로 만든 후
생성된 ‘실업률 스폿라이트’ 필드를 색상 마크에 집어넣고,
Columns엔 ‘시도’, Rows에는 ‘연령대’와 ‘연도’를 이동시킨
상태에서 표를 만든다.
Filters로 범위를 청년층으로 좁힌다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
또 필터로 연령대를 ‘15-29세’만 걸러낸다.
그 후 원하는 대로 연도 또한 필터링 할 수 있다.
그러면 위와 같이 특정 범위 데이터가 붉은색으로 스폿라이팅된다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
5.9 셀 색상+크기로 데이터 파악하기: 히트맵 작성
하이라이트 테이블을 변형해 각 셀의 색상뿐 아니라 크기로도 데이터 분포를
살펴볼 수 있도록 한 것이 히트맵이다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
TIP: 태블로의 필터와 Marks 작업창의 활용법
마크의 각 상자에 데이터 항목을 끌어다 넣으면
그래프나 표는 새롭게 변신한다.
Color는 특정 기호의 위치나 크기에 추가해 색상
으로 표현하는 방법이다.
Size 역시 X, Y축의 좌푯값이 아닌 특정 기호의
크기로서 데이터를 표시한다.
Text는 그래프나 표에 데이터값을 표시하는 기능
이다.
Page 상자는 필터와 유사하나, X, Y축 상의 데이
터 표시에 변화를 주지 않는 필터 기능이라고 생
각하면 된다.
이 때문에 각 연도별로 그래프의 변화 추이를 동
적으로
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
5.10 데이터 쪼개고 묶어 새롭게 배열하기
태블로는 시각화뿐 아니라 다양한 데이터 편집과 분석이 가능한 것도 강점
이다.
대표적으로 Field calculator 기능과 그룹과 세트, 빈 생성 기능을 꼽을 수
있다.
데이트를 일정 범주로 다시 나누고 묶어 배열해 새로운 시각으로 조명해
보는 기술
이다. 편집 기능과 논리계산식으로 데이터를 가공하는 방법을 살펴보자.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
새 탭을 열어 시도 columns 실업률 row에 끈 후
아래와 같이 그래프 상에서 지역별 실업률 평균 데이터에서 축상의
서울과 경기, 인천을 ctrl로 클릭해 클립 모양의 기호를 누르면 그룹이 만
들어진다.
Sheet5 연습
그룹 지정하기 - 첫 번째 방법
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
마우스 우클릭한 뒤
Edit Alias 기능을 선택하여
이름을 ‘수도권’으로 바꿔준다.
나머지 영남, 호남, 충청, 강원, 제주도 만들
어준다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
항목이 많을 경우 Create – Group..에서 그룹을 지정할 수 있다.
대구를 클릭해 그룹을 클릭 후 클립 이름을 ‘영남’ 으로 입력한다.
나머지 영남지역은 해당 지역(부산, 울산, 경북, 경남)을 클릭 후 Add to의 영남 버
튼을 누른다.
다른 지역도 마찬가지로 할 수 있다.
그룹 지정하기 - 두 번째 방법
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
수도권이라는 새 그룹을 생성한 데 이어 호남, 영남 등 또 다른 그룹도 같은 방식으로 만
수 있다.
그 밖에는 논리식으로 그룹을 만드는 방법 이 때는 Create – Calculated Field를 이용한
그룹 지정하기 - 세 번째 방법
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
Name은 권역으로 입력한다. Fomula창에 IF 조건식을 입력하는 방식이다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
<<IF 조건문의 기본 구조>>
IF[시도]
THEN 지정할 새 그룹명
ELSEIF 2차, 3차 조건문
THEN 지정할 새 그룹명
ELSE[시도]
END
IF[시도]="서울"OR[시도]="경기도"OR[시도]="인천"
THEN "수도권"
ELSE[시도]
END
서울과 경기도와 인천은 수도권으로 설정하고, 나머지는 ‘시도’ 필드 그대로 두라는
의미이다.
IF 문에서 AND를 사용하지 않고 OR을 연산자로 쓴 점을 기억하자.
큰 따옴표는 작은 따옴표로 써도 무방하다
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
IF[시도]="서울"OR[시도]="경기도"OR[시도]="인천"
THEN "수도권"
ELSEIF[시도]="경상북도"OR[시도]="경상남도"OR[시도]="대구"OR[시도]="부산"OR[시도]="울산
THEN "영남"
ELSEIF[시도]="전라북도"OR[시도]="전라남도"OR[시도]="광주"
THEN "호남"
ELSEIF[시도]="충청북도"OR[시도]="충청남도"OR[시도]="대전"
THEN "충청"
ELSEIF[시도]="강원도"
THEN "강원"
ELSE[시도]
END
권역을 Columns에 드래
그 하면 권역별로 묶인
결과를 살펴볼 수 있다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
5.11 특정 집단과 다른 집단 비교하기
• 시도별 평균 실업률을 막대그래프로 그
린 뒤, 필터로 수도권의 청년실업률을 골
라낸다.
• 세트(set) 생성하는 방법: 왼편
Dimensions 창의 ‘시도’ 항목에서
create set 선택
• 서울 경기 인천을 체크 후 이름을 수도권
으로 입력하고 확인하면 ‘수도권’ set가
만들어진다
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• Columns 선반과 color 마크상자에 ‘수도권’ set를 넣는다.
• Edit Alias 메뉴로 IN을 ‘수도권’ OUT은 ‘다른지역’ 으로 바꾼다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 연도를 Columns 선반으로 이동 시키면 수도권과 다른 지역의 연도별 실업률 그래
프가 나온다.
• 매해 실업률 변화의 추이를 살펴볼 수 있다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
12. 태블로에서 지도 시각화 하기
• 태블로에서는 지도 제작 기능면에서는 한
계가 많다.
• 태블로에서 한글 주소는 거의 인식하지 못
한다.
• 서울, 부산과 같은 시 단위까지는 인식이
되며, 서울특별시와 부산광역시 같은 문자
도 인식이 되질 않는다.
• 지명 변경을 원하는 경우 Create -
Calculated Field 메뉴에서 변환 하면 된
다. Names는 ‘시도2’로 설정한다
• 인천은 한글로 인식하지 못하므로
Incheon 으로 바꿔야 한다.
IF[시도]="인천"
THEN "Incheon"
ELSE[시도]
END
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 시도2 항목의 Geographic Role 메뉴로 들어가 ‘시도’ 항목을 위치 데이터로 인
식시킨다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• ‘실업률’ 데이터를 각각 Color와 Size
마크에 넣는다.
• Show me에서 지도 항목을 선택하면
각 광역시도의 위치가 시각화 된다.
• 점 지도 (Point Map) 아이콘 선택
• Marks의 Size를 클릭하면 원의 크기
를 조절할 수 있다
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 광역시도별 실업률 지도 시각화
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• Show me의 두 번째 지도 아이콘(행정 경계 지도,
Polygon Map)을 선택하면 각 광역시도의 실업률에 연동
해 영역을 색칠한 지도가 그려질 것이다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 각 연도별 실업률의 변화 살펴보기
• 연도를 Pages로 드래그하면 슬라이드를 움직이면 시대별로 실업률 변
화 추이를 살펴볼 수 있다.
• 슬라이더를 움직이면 각 연도별로 색상주제도의 색상이 변하며 시기별,
지역별, 실업률의 추이를 볼 수 있다.
• 실업률을 Label에 끌어다 놓으면 시도별로 실업률 수치가 표시 된다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
13. 2개 이상의 데이터 ‘가로’ 결합하기
• ‘고액 세금 체납자 명단’과 ‘선거 입후보자 명단’을 결합하
면 출마자 중 세금 체납자가 있는지 파악 가능할 것이다.
동명이인의 경우에는 이름과 주소 등 2가지 이상의 데이터
칼럼을 공통 칼럼으로 결합하거나 주민등록번호나 사업자
번호 등 고유번호를 기준으로 잡는 것이 가장 바람직하다.
• 하나의 파일안에 포함된 복수의 워크시트를 공통의 칼럼
을 기반으로 결합하는 작업이 데이터 조이닝(Data
Joining)
• 서로 다른 종류의 여러 파일을 합치는 작업을 데이터
블렌딩(Data Blending)
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
데이터 조이닝(Data Joining)
• 실업률 자살률 집계 데이터를 불러온 상태에서, 상단 메뉴의 Data → ‘지역별
연령별 실업률’ → Edit Data Source로 가서 결합시킨다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 실업률, 자살률 데이터 1차 자동 결합
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 앞의 창에서 보면 ‘연도’는 결합됐지만, ‘시도’와 ‘연령대’는 잘못 붙어있다.
• 두 데이터 사이의 교집합 표시 기호 클릭한다.
• 그림의 중간의 두 원을 클릭하면 된다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• Inner Join으로 표시된 상태에서 ‘연도’만 임시로 결합 되어있으므로 ‘Add new
join clause’를 눌러 ‘시도’와 ‘연령대’도 결합기준에 추가하면 된다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 여기서는 자살률과 실업률을 블렌
딩 메뉴를 활용해 합친다.
• 먼저 실업률 데이터를 불러온다.
• Data → New Data Source로 가서
자살률 데이터를 불러온다.
• 왼편 위쪽에 자살률 데이터가 새로
표시될 것이다.
데이터 블렌딩(Data Blending)
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• ‘시도’, ‘연도’, ‘연령대’ 3가지가 모
두 Dimensions창에 있어야 한다.
• 연도를 Dimensions 창으로 드래그
한다
• 자동 설정이 되어 있지 않다면
Custom 메뉴로 들어가 수동으로 공
통 필드를 지정하면 된다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• ‘실업률’과 ‘자살률’을 각기 Row에 옮기고, ‘연도’는 Columns에 넣는다.
• 실업률, 자살률 데이터 차트 나란히 그리기
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 두 데이터 간의 상관 관계를 파
악하기 위해 산포도(Scatter
Plot)를 그려보자.
• Show Me 상자에서 하단 두 번
째 왼편 아이콘 클릭. (파란색
테두리가 있는 아이콘)
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 자살률, 실업률 산포도 (상관 관계 불명확)
• X축(Columns): 자살률, Y축(Rows): 실업률
• Shape 활용 – 기호 변경 가능
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 이번에는 자살률은 색상농담으로, 실
업률은 크기로 표시한 Tree Map을
그려보자.
• 그 다음으로는 Heatmap을 그려보자.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 실업률, 자살률 트리맵 시각화
• 인천, 대전, 경기도에서 60세 이상의 자살률과
실업률이 높은 것으로 나타남
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
• 자살률, 실업률 트리맵
• 2013년은 자살률 데이터가 없으므로 2013년 Rows는 Exclude로 제거
• 트리맵이나 히트맵은 일반인들에게는 다소 생소하지만, 데이터의 패
턴을 직관적으로 파악하고 취재의 단서를 얻는데 유용하다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
13. 2개 이상의 그래프 합치기
• 자살률과 실업률은 통계청 자료만으로는 상관관
계가 파악되지 않는다.
• 자살률과 경제성장률을 비교하면?
• 경제성장률_자살률 파일을 불러온다. 아까 전과 같
이 교집합으로 만든 후 연도를 결합시킨다.(이 과
정을 생략하면 데이터 결합이 이루어지지 않는다.)
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
13. 2개 이상의 그래프 합치기
먼저 Columns에 연도를
넣고 Rows에 경제성장률
을 드래그한다.
연도는 Dimension과
Continuous로 체크한다
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
13. 2개 이상의 그래프 합치기
2개 이상의 그래프를
한 화면에 합치기
자살률 데이터를 오른편 Y축
에 드래그하여 끌어다 놓으
면 자살률과 경제성장률 그
래프가 한꺼번에 그려진다.
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
1
2
3
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
1 3 위치에 드래그
– 2개의 선 그래프가 별도의 X, Y축에 분리
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
2 위치에 드래그(점선 사각형이 나타나는 위치)
– 동일한 Y축에 선그래프 2개가 함께 그려진다
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
분석결과 경제성장률이 떨어진 2003년과 2009년에 자살률이 상승
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
X축에 경제성장률, Y축에 자살률을 넣고 연도를 Marks의 Detail에 놓는다.
경제성장률과 자살률을 SUM에서 Dimension과 Continuous로 바꾼다.
추세선을 그리면 약한 음의 상관관계가 나타난다.
산포도(Scatter Plot) 그리기
5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
감사합니다.

More Related Content

Similar to 인포그래픽스 데이터분석과 저널리즘 5장 데이터 시각화의 스위스칼, 태블로 활용하기

방송기자협회 - 탐사보도를 위한 엑셀 활용법
방송기자협회 - 탐사보도를 위한 엑셀 활용법방송기자협회 - 탐사보도를 위한 엑셀 활용법
방송기자협회 - 탐사보도를 위한 엑셀 활용법
Han Woo PARK
 
디미컨_2 Visualize this
디미컨_2 Visualize this디미컨_2 Visualize this
디미컨_2 Visualize this
jiiiy
 
데이터분석과저널리즘 정제에서 분석까지
데이터분석과저널리즘 정제에서 분석까지데이터분석과저널리즘 정제에서 분석까지
데이터분석과저널리즘 정제에서 분석까지
Gee Yeon Hyun
 
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
Han Woo PARK
 
데이터 시각화하기
데이터 시각화하기데이터 시각화하기
데이터 시각화하기
Newsjelly
 

Similar to 인포그래픽스 데이터분석과 저널리즘 5장 데이터 시각화의 스위스칼, 태블로 활용하기 (11)

Chartschool1 0 manual
Chartschool1 0 manualChartschool1 0 manual
Chartschool1 0 manual
 
방송기자협회 - 탐사보도를 위한 엑셀 활용법
방송기자협회 - 탐사보도를 위한 엑셀 활용법방송기자협회 - 탐사보도를 위한 엑셀 활용법
방송기자협회 - 탐사보도를 위한 엑셀 활용법
 
디미컨_2 Visualize this
디미컨_2 Visualize this디미컨_2 Visualize this
디미컨_2 Visualize this
 
데이터분석과저널리즘 정제에서 분석까지
데이터분석과저널리즘 정제에서 분석까지데이터분석과저널리즘 정제에서 분석까지
데이터분석과저널리즘 정제에서 분석까지
 
excel.pptx
excel.pptxexcel.pptx
excel.pptx
 
모듈Iii. 보고서 작성방법
모듈Iii. 보고서 작성방법모듈Iii. 보고서 작성방법
모듈Iii. 보고서 작성방법
 
슬라이드 만들기 (Creating slides)
슬라이드 만들기 (Creating slides)슬라이드 만들기 (Creating slides)
슬라이드 만들기 (Creating slides)
 
[북리뷰] 데이터 포인트 3장
[북리뷰] 데이터 포인트 3장[북리뷰] 데이터 포인트 3장
[북리뷰] 데이터 포인트 3장
 
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
 
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
 
데이터 시각화하기
데이터 시각화하기데이터 시각화하기
데이터 시각화하기
 

More from Han Woo PARK

4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
Han Woo PARK
 
박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)
Han Woo PARK
 
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
Han Woo PARK
 
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
Han Woo PARK
 
세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다
Han Woo PARK
 

More from Han Woo PARK (20)

소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
 
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
 
WATEF 2018 신년 세미나(수정)
WATEF 2018 신년 세미나(수정)WATEF 2018 신년 세미나(수정)
WATEF 2018 신년 세미나(수정)
 
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나
 
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
 
Another Interdisciplinary Transformation: Beyond an Area-studies Journal
Another Interdisciplinary Transformation: Beyond an Area-studies JournalAnother Interdisciplinary Transformation: Beyond an Area-studies Journal
Another Interdisciplinary Transformation: Beyond an Area-studies Journal
 
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
 
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집
 
박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)
 
Global mapping of artificial intelligence in Google and Google Scholar
Global mapping of artificial intelligence in Google and Google ScholarGlobal mapping of artificial intelligence in Google and Google Scholar
Global mapping of artificial intelligence in Google and Google Scholar
 
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
 
향기담은 하루찻집
향기담은 하루찻집향기담은 하루찻집
향기담은 하루찻집
 
Twitter network map of #ACPC2017 1st day using NodeXL
Twitter network map of #ACPC2017 1st day using NodeXLTwitter network map of #ACPC2017 1st day using NodeXL
Twitter network map of #ACPC2017 1st day using NodeXL
 
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
 
Facebook bigdata to understand regime change and migration patterns during ca...
Facebook bigdata to understand regime change and migration patterns during ca...Facebook bigdata to understand regime change and migration patterns during ca...
Facebook bigdata to understand regime change and migration patterns during ca...
 
세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다
 
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우
 
2017년 인포그래픽스 과제모음
2017년 인포그래픽스 과제모음2017년 인포그래픽스 과제모음
2017년 인포그래픽스 과제모음
 
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로
 
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
 

인포그래픽스 데이터분석과 저널리즘 5장 데이터 시각화의 스위스칼, 태블로 활용하기

  • 1. 데이터 시각화의 스위스칼, 태블로(Tableau) 활용하기 언론정보학과 김예경 언론정보학과 김선지 문화인류학과 이지언2016년 수정 : 언론정보학과 박효 찬
  • 2. 태블로는 -1999년 미 스탠포드 컴퓨터 과학 연 구실의 교내 벤처회사에서 개발한 데 이터 베이스 관리 기술 을 기반으로 만든 소프트 웨어 -별도의 학습 없이도 누구나 효과적 이고 다양한 깊이 있는 시각화 분석이 가능하다. -데이터 항목을 마우스로 끌어다가 중앙 창에 던져놓아 표나 그래프를 만 드는 Drag and Drop 방식 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
  • 3. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 - 파일 불러오기 Sheet1 클릭
  • 4. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 차원(Dimensions) : 특정 범주로 데이터를 구분 예: 지역, 연령대, 성별(모두 카테고리에 해당) 주로 문자데이터인 경우가 많지만, 연도와 날짜와 같은 시간 정보가 범주형 데이터가 되기도 한다. 기능 소개
  • 5. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 측정값(Measure) : 숫자로 표현된 데이터. 계산과 분석 대상이 되는 항목(Y축) 예: 실업률, 자살률, 인구수, 지진 규모 등의 데이 터값. 기능 소개
  • 6. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 기능 소개 Show Me(자동 표시) : Ctrl 키를 누른 상태에서 원하 는 데이터를 클릭하면 쇼 미 창 에 표현할 수 있는 그래프 모양 이 나타난다.(원하는 그래프 아 이콘 더블클릭)
  • 7. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 새 시트 만들기 단축키: Ctrl + M 자동으로 시도 연령대 실업률로 표시된 모습
  • 8. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 Tooltip: 데이터 내역 팝업창 Marks – Tooltip에서 편집가능
  • 9. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 5.3 타블로의 데이터 분류 방식 청색커버는 ‘분리형’ , 녹색커버는 ‘연속형’ 분리형(Discrete): 차원 각 데이터를 분절된 형태로 처리. 예: 사람 수는 2.5명이 존재하지 않고 데이 터가 구분됨. 연속형(Continuos): 측정값 각 데이터 사이에 자릿수, 소수점 상관없이 또 다른 측정값이 존재할 수 있다고 가정. 선그래프 그릴 때는 ‘실업률’과 ‘연도’ 모두 연속형으로 설정 연도를 분리형으로 그리면 막대 그래프가 된다.
  • 10. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 1. 연도를 차원으로 옮긴 후 Sheet1 연습 2. 연도를 Columns에 실업률을 Rows에 끌어온다
  • 11. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습 주의!! 실업률은 시도별이든 연령이든 해의 실업률의 평균으로 나타내 므로 Measure-Average로 반드 시 바꾼다. 그리고 실업률은 무조 건 연속형 데이터이다. 그러나 연도의 경우에는 목적에 따라 분리형(막대)이나 연속형(선) 으로 변환이 가능하다.
  • 12. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습 Entire View: 꽉찬 화면으로 조정 Marks - Color : 그래프 색 조정 가능
  • 13. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습 Edit Axis: Y축 표기 변경 가능 더블 클릭 해도 변경가능 아이콘 내림차순 – 오름차순 - 디폴트
  • 14. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습 해석 IMF 여파가 남아있던 2000년대의 실업률이 가장 높고, IMF 청산 직후인 2002년의 실업률 이 가장 낮은 것으로 나타났다.
  • 15. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습 선 그래프로 바꾸는 법: Marks에 Automatic을 Line으로 바꾸어주면 선 그래프가 나타난다
  • 16. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습 연령대를 Color로 드래그 하면 연령별로 분리된 그래프가 나 타난다.
  • 17. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습 Filters창에 연령대를 드래그하 면 원하는 그래프만 골라 표시 할 수 있다.
  • 18. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습 주석달기 원하는 지점에 오른쪽 마우스 Annotate – Area 클릭 후 내용 입력
  • 19. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet1 연습 추세선 그리기 상승, 하락 추세 참고로 파악 가능 오른쪽 마우스 – Trend Lines – Show Trend Line 주의!! 추세선이므로 연도를 Continuous로 수정
  • 20. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet2 연습 새로운 시트를 띄운 후 버블차트를 만들어 본다 시도를 color와 text(label)로 실업률을 size로 끌어간다 그리고 Show me의 버블차트 아이콘을 클릭한다 이 말은 시도를 컬러로 구분하면서 실업률의 크기로 한 눈에 비교 가능하다.
  • 21. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하
  • 22. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 시도 글씨 조정하기 Marks의 시도 클릭후 Format… Pane 탭 클릭 후, 폰트와 크기 조정 가능 마찬가지로 다른 항목들도 글씨 조정을 이렇게 할 수 있음.
  • 23. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 연도를 Pages에 드래그 한후 설정을 Dimension과 Discrete로 바꿔주면 연도별로 실업률 추세 의 변화를 살펴 볼 수 있다
  • 24. 아웃라이어: 통계학적으로 평균에서 크게 벗어난 수치, 정상적인 분포를 벗어난 데 이터를 말한다. 이상치 라고도 한다. 특정 지역에서 비정상적으로 실업률이나 자살률이 높다면 기자들의 호기심을 갖고 취재하기에 충분. 아웃라이어 파악하는 방법: 대표적으로는 평균을 중심으로 표준편차의 2배나 3배 정도의 범위를 벗어난 값을 아웃라이어로 잡는 방법이다. 혹은 사분위수를 활용할 수 도 있다. 사분 위는 자료를 크기 순으로 배열하여 4등분한 값을 말한다. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 5.6 Box Plot으로 데이터 분포 파악하 기
  • 25. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 지역별 연령대별 실업률 평균치 중에서 특히 튀는 데이터 골라내기 Sheet3 연습 Ctrl을 누른 상태에서 ‘시도’,’연 도’,’연령대’,’실업률’을 클릭한 뒤, Show me 박스에서 Whisker Plot을 선택해 차트를 그린다.
  • 26. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 아웃라이어가 한 눈에 들 어온다. 상자를 넘어 양측 경계선 을 넘은 점들이 바로 아웃라이어이다. Tolltip창을 통해 아웃라이 어를 확인해 본다 중앙값(median) – 2사분위 위스커 – 3사분위와 1사분 위 차의 1.5배 곱한 값
  • 27. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 5.7 피벗 테이블에 날개 달기 : 하이라이트 테이블 스프레드 시트의 각 셀을 데이터에 연동해 색상 농담으 로 각기 다르게 표시한 ‘하이라이트 테이블’도 데이터 분포를 한 눈에 파악하는 데 매우 효과적이다.
  • 28. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하Sheet4 연습 ‘시도’를 Columns 선반에, ‘연령대’와 ‘연도’를 각각 Rows 선반에 넣고, 색상마크와 라벨(텍스트) 마크에 각각 ‘실업률’ 데이터를 집어넣은 뒤 Marks 유형을 Automatic에서 Square로 변경하면 된다. 마지막으로 Show me에 Highlight table을 클릭한다.
  • 29. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 실업률을 끌어다가 라벨 마크에 넣으면 이렇게 라벨이 붙어진다. 삭제도 물론 가능하다
  • 30. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 실업률을 끌어다가 라벨 마크에 넣으면 이렇게 라벨이 붙어진다. 삭제도 물론 가능하다
  • 31. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 하이라이트 테이블은 피벗 테이블을 좀 더 이해하기 쉽도록 추가로 색상을 입힌 것이다. 색상농담의 변화가 급격한 부분과 짙은 색상이 뭉쳐 나타난 부분은 어디인지 살 펴보자. 필터로 연도와 연령대를 끌어와 특정 기간과 특정 연령대의 실업률을 관찰할 수 있다.
  • 32. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 5.8 관심 데이터 표시하기: 피벗 테이블 Spotlighting 기법 한발 더 나아가 일정 기준 이상의 데이터만 골라 차별화된 색상으로 표시할 수 있는 방 법이다. 실업률을 오른쪽 클릭하여 Create - Calculated Field 메뉴에서 다음과 같은 조건식을 입력한 다.
  • 33. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 제목을 ‘실업률 스폿라이팅’이라고 지정 후 IIF([실업률]>=7.5, "심각", "관심") 7.5 이상일 경우 심각, 미만은 관심이라는 식이다.
  • 34. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 시트를 새로 만든 후 생성된 ‘실업률 스폿라이트’ 필드를 색상 마크에 집어넣고, Columns엔 ‘시도’, Rows에는 ‘연령대’와 ‘연도’를 이동시킨 상태에서 표를 만든다. Filters로 범위를 청년층으로 좁힌다.
  • 35. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 또 필터로 연령대를 ‘15-29세’만 걸러낸다. 그 후 원하는 대로 연도 또한 필터링 할 수 있다. 그러면 위와 같이 특정 범위 데이터가 붉은색으로 스폿라이팅된다.
  • 36. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 5.9 셀 색상+크기로 데이터 파악하기: 히트맵 작성 하이라이트 테이블을 변형해 각 셀의 색상뿐 아니라 크기로도 데이터 분포를 살펴볼 수 있도록 한 것이 히트맵이다.
  • 37. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 TIP: 태블로의 필터와 Marks 작업창의 활용법 마크의 각 상자에 데이터 항목을 끌어다 넣으면 그래프나 표는 새롭게 변신한다. Color는 특정 기호의 위치나 크기에 추가해 색상 으로 표현하는 방법이다. Size 역시 X, Y축의 좌푯값이 아닌 특정 기호의 크기로서 데이터를 표시한다. Text는 그래프나 표에 데이터값을 표시하는 기능 이다. Page 상자는 필터와 유사하나, X, Y축 상의 데이 터 표시에 변화를 주지 않는 필터 기능이라고 생 각하면 된다. 이 때문에 각 연도별로 그래프의 변화 추이를 동 적으로
  • 38. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 5.10 데이터 쪼개고 묶어 새롭게 배열하기 태블로는 시각화뿐 아니라 다양한 데이터 편집과 분석이 가능한 것도 강점 이다. 대표적으로 Field calculator 기능과 그룹과 세트, 빈 생성 기능을 꼽을 수 있다. 데이트를 일정 범주로 다시 나누고 묶어 배열해 새로운 시각으로 조명해 보는 기술 이다. 편집 기능과 논리계산식으로 데이터를 가공하는 방법을 살펴보자.
  • 39. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 새 탭을 열어 시도 columns 실업률 row에 끈 후 아래와 같이 그래프 상에서 지역별 실업률 평균 데이터에서 축상의 서울과 경기, 인천을 ctrl로 클릭해 클립 모양의 기호를 누르면 그룹이 만 들어진다. Sheet5 연습 그룹 지정하기 - 첫 번째 방법
  • 40. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 마우스 우클릭한 뒤 Edit Alias 기능을 선택하여 이름을 ‘수도권’으로 바꿔준다. 나머지 영남, 호남, 충청, 강원, 제주도 만들 어준다.
  • 41. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 항목이 많을 경우 Create – Group..에서 그룹을 지정할 수 있다. 대구를 클릭해 그룹을 클릭 후 클립 이름을 ‘영남’ 으로 입력한다. 나머지 영남지역은 해당 지역(부산, 울산, 경북, 경남)을 클릭 후 Add to의 영남 버 튼을 누른다. 다른 지역도 마찬가지로 할 수 있다. 그룹 지정하기 - 두 번째 방법
  • 42. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 수도권이라는 새 그룹을 생성한 데 이어 호남, 영남 등 또 다른 그룹도 같은 방식으로 만 수 있다. 그 밖에는 논리식으로 그룹을 만드는 방법 이 때는 Create – Calculated Field를 이용한 그룹 지정하기 - 세 번째 방법
  • 43. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 Name은 권역으로 입력한다. Fomula창에 IF 조건식을 입력하는 방식이다.
  • 44. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 <<IF 조건문의 기본 구조>> IF[시도] THEN 지정할 새 그룹명 ELSEIF 2차, 3차 조건문 THEN 지정할 새 그룹명 ELSE[시도] END IF[시도]="서울"OR[시도]="경기도"OR[시도]="인천" THEN "수도권" ELSE[시도] END 서울과 경기도와 인천은 수도권으로 설정하고, 나머지는 ‘시도’ 필드 그대로 두라는 의미이다. IF 문에서 AND를 사용하지 않고 OR을 연산자로 쓴 점을 기억하자. 큰 따옴표는 작은 따옴표로 써도 무방하다
  • 45. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 IF[시도]="서울"OR[시도]="경기도"OR[시도]="인천" THEN "수도권" ELSEIF[시도]="경상북도"OR[시도]="경상남도"OR[시도]="대구"OR[시도]="부산"OR[시도]="울산 THEN "영남" ELSEIF[시도]="전라북도"OR[시도]="전라남도"OR[시도]="광주" THEN "호남" ELSEIF[시도]="충청북도"OR[시도]="충청남도"OR[시도]="대전" THEN "충청" ELSEIF[시도]="강원도" THEN "강원" ELSE[시도] END 권역을 Columns에 드래 그 하면 권역별로 묶인 결과를 살펴볼 수 있다.
  • 46. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 5.11 특정 집단과 다른 집단 비교하기 • 시도별 평균 실업률을 막대그래프로 그 린 뒤, 필터로 수도권의 청년실업률을 골 라낸다. • 세트(set) 생성하는 방법: 왼편 Dimensions 창의 ‘시도’ 항목에서 create set 선택 • 서울 경기 인천을 체크 후 이름을 수도권 으로 입력하고 확인하면 ‘수도권’ set가 만들어진다
  • 47. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • Columns 선반과 color 마크상자에 ‘수도권’ set를 넣는다. • Edit Alias 메뉴로 IN을 ‘수도권’ OUT은 ‘다른지역’ 으로 바꾼다.
  • 48. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 연도를 Columns 선반으로 이동 시키면 수도권과 다른 지역의 연도별 실업률 그래 프가 나온다. • 매해 실업률 변화의 추이를 살펴볼 수 있다.
  • 49. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 12. 태블로에서 지도 시각화 하기 • 태블로에서는 지도 제작 기능면에서는 한 계가 많다. • 태블로에서 한글 주소는 거의 인식하지 못 한다. • 서울, 부산과 같은 시 단위까지는 인식이 되며, 서울특별시와 부산광역시 같은 문자 도 인식이 되질 않는다. • 지명 변경을 원하는 경우 Create - Calculated Field 메뉴에서 변환 하면 된 다. Names는 ‘시도2’로 설정한다 • 인천은 한글로 인식하지 못하므로 Incheon 으로 바꿔야 한다. IF[시도]="인천" THEN "Incheon" ELSE[시도] END
  • 50. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 시도2 항목의 Geographic Role 메뉴로 들어가 ‘시도’ 항목을 위치 데이터로 인 식시킨다.
  • 51. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • ‘실업률’ 데이터를 각각 Color와 Size 마크에 넣는다. • Show me에서 지도 항목을 선택하면 각 광역시도의 위치가 시각화 된다. • 점 지도 (Point Map) 아이콘 선택 • Marks의 Size를 클릭하면 원의 크기 를 조절할 수 있다
  • 52. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 광역시도별 실업률 지도 시각화
  • 53. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • Show me의 두 번째 지도 아이콘(행정 경계 지도, Polygon Map)을 선택하면 각 광역시도의 실업률에 연동 해 영역을 색칠한 지도가 그려질 것이다.
  • 54. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 각 연도별 실업률의 변화 살펴보기 • 연도를 Pages로 드래그하면 슬라이드를 움직이면 시대별로 실업률 변 화 추이를 살펴볼 수 있다. • 슬라이더를 움직이면 각 연도별로 색상주제도의 색상이 변하며 시기별, 지역별, 실업률의 추이를 볼 수 있다. • 실업률을 Label에 끌어다 놓으면 시도별로 실업률 수치가 표시 된다.
  • 55. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 13. 2개 이상의 데이터 ‘가로’ 결합하기 • ‘고액 세금 체납자 명단’과 ‘선거 입후보자 명단’을 결합하 면 출마자 중 세금 체납자가 있는지 파악 가능할 것이다. 동명이인의 경우에는 이름과 주소 등 2가지 이상의 데이터 칼럼을 공통 칼럼으로 결합하거나 주민등록번호나 사업자 번호 등 고유번호를 기준으로 잡는 것이 가장 바람직하다. • 하나의 파일안에 포함된 복수의 워크시트를 공통의 칼럼 을 기반으로 결합하는 작업이 데이터 조이닝(Data Joining) • 서로 다른 종류의 여러 파일을 합치는 작업을 데이터 블렌딩(Data Blending)
  • 56. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 데이터 조이닝(Data Joining) • 실업률 자살률 집계 데이터를 불러온 상태에서, 상단 메뉴의 Data → ‘지역별 연령별 실업률’ → Edit Data Source로 가서 결합시킨다.
  • 57. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 실업률, 자살률 데이터 1차 자동 결합
  • 58. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 앞의 창에서 보면 ‘연도’는 결합됐지만, ‘시도’와 ‘연령대’는 잘못 붙어있다. • 두 데이터 사이의 교집합 표시 기호 클릭한다. • 그림의 중간의 두 원을 클릭하면 된다.
  • 59. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • Inner Join으로 표시된 상태에서 ‘연도’만 임시로 결합 되어있으므로 ‘Add new join clause’를 눌러 ‘시도’와 ‘연령대’도 결합기준에 추가하면 된다.
  • 60. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 여기서는 자살률과 실업률을 블렌 딩 메뉴를 활용해 합친다. • 먼저 실업률 데이터를 불러온다. • Data → New Data Source로 가서 자살률 데이터를 불러온다. • 왼편 위쪽에 자살률 데이터가 새로 표시될 것이다. 데이터 블렌딩(Data Blending)
  • 61. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • ‘시도’, ‘연도’, ‘연령대’ 3가지가 모 두 Dimensions창에 있어야 한다. • 연도를 Dimensions 창으로 드래그 한다 • 자동 설정이 되어 있지 않다면 Custom 메뉴로 들어가 수동으로 공 통 필드를 지정하면 된다.
  • 62. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • ‘실업률’과 ‘자살률’을 각기 Row에 옮기고, ‘연도’는 Columns에 넣는다. • 실업률, 자살률 데이터 차트 나란히 그리기
  • 63. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 두 데이터 간의 상관 관계를 파 악하기 위해 산포도(Scatter Plot)를 그려보자. • Show Me 상자에서 하단 두 번 째 왼편 아이콘 클릭. (파란색 테두리가 있는 아이콘)
  • 64. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 자살률, 실업률 산포도 (상관 관계 불명확) • X축(Columns): 자살률, Y축(Rows): 실업률 • Shape 활용 – 기호 변경 가능
  • 65. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 이번에는 자살률은 색상농담으로, 실 업률은 크기로 표시한 Tree Map을 그려보자. • 그 다음으로는 Heatmap을 그려보자.
  • 66. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 실업률, 자살률 트리맵 시각화 • 인천, 대전, 경기도에서 60세 이상의 자살률과 실업률이 높은 것으로 나타남
  • 67. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 • 자살률, 실업률 트리맵 • 2013년은 자살률 데이터가 없으므로 2013년 Rows는 Exclude로 제거 • 트리맵이나 히트맵은 일반인들에게는 다소 생소하지만, 데이터의 패 턴을 직관적으로 파악하고 취재의 단서를 얻는데 유용하다.
  • 68. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 13. 2개 이상의 그래프 합치기 • 자살률과 실업률은 통계청 자료만으로는 상관관 계가 파악되지 않는다. • 자살률과 경제성장률을 비교하면? • 경제성장률_자살률 파일을 불러온다. 아까 전과 같 이 교집합으로 만든 후 연도를 결합시킨다.(이 과 정을 생략하면 데이터 결합이 이루어지지 않는다.)
  • 69. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 13. 2개 이상의 그래프 합치기 먼저 Columns에 연도를 넣고 Rows에 경제성장률 을 드래그한다. 연도는 Dimension과 Continuous로 체크한다
  • 70. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 13. 2개 이상의 그래프 합치기 2개 이상의 그래프를 한 화면에 합치기 자살률 데이터를 오른편 Y축 에 드래그하여 끌어다 놓으 면 자살률과 경제성장률 그 래프가 한꺼번에 그려진다.
  • 71. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 1 2 3
  • 72. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 1 3 위치에 드래그 – 2개의 선 그래프가 별도의 X, Y축에 분리
  • 73. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 2 위치에 드래그(점선 사각형이 나타나는 위치) – 동일한 Y축에 선그래프 2개가 함께 그려진다
  • 74. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 분석결과 경제성장률이 떨어진 2003년과 2009년에 자살률이 상승
  • 75. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 X축에 경제성장률, Y축에 자살률을 넣고 연도를 Marks의 Detail에 놓는다. 경제성장률과 자살률을 SUM에서 Dimension과 Continuous로 바꾼다. 추세선을 그리면 약한 음의 상관관계가 나타난다. 산포도(Scatter Plot) 그리기
  • 76. 5장 데이터 시각화의 스위스칼, 태블로(tableau) 활용하 감사합니다.