SlideShare a Scribd company logo
1 of 141
1 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
From Data Literacy
To Data Fluency
2 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
• 양승준: 아이디케이스퀘어드(IDK2 - I Don’t Know What I Don’t Know) 대표
• 서비스: HEARTCOUNT, Augmented Analytics for Enterprise (SaaS)
IT 빗
Algo-Trading
Enterprise IT
Small
Data
Big
Data
인터넷
• 경력
1998 2000 2001 2003 2013 2015
강사 소개
3 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
가. 비지니스 이해
• 비지니스 요구사항
• 분석 목표 수립
Non-Obvious & Useful
Pattern
• 문제(질문) 정의
나. 데이터 이해
• 수집 (collection & blending)
• 기술 (descriptive analysis)
• 탐험 (exploratory analysis; data viz.)
• 품질 (outliers & missing values)
• 가공 (feature engineering)
다. Modeling 및 해석
• ML 알고리즘 선택 (설명 vs. 예측)
• 모형 수립 및 성능 평가
• 모형 해석
Statistical significance
Practical significance
라. 활용 (Deployment)
• 보고; 인사이트 공유
• 의사결정 자동화
Technical & procedural
integration
• 주기적 성능 모니터링
데이터 분석 과정 (*CRISP-DM)
*강의 범위
4 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
강의에서 다룰 내용
BASIC SKILL
DATAMIND ContextTOOL
데이터 분석이 파도타기라면
5 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
목표: 데이터 분석, 어렵지 않다. 유용하다.
방법: Top-Down, Not Bottom-Up
목차
강의 목표, 방법, 목차
• Intro Data Problem
• Module I Data Literacy
• Module II Data Understanding
• a - 데이터셋, 데이터의 종류, 변수 가공
• b - 데이터의 대표값과 모양을 묘사하는 법
• c - 평균의 함정, 데이터 시각화, 상관관계 & 인과관계
• Module III ML and Decision-Making
• Module IV Linear Regression Analysis &
Decision Tree Algorithm
• My Two Cents 참고자료
*Optional
6 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Intro
Data Problem
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
7 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
문제 데이터 분석 활용해석
데이터 분석 과정
의심하고 근거를 찾고 설득하고 바꾼다
Data
Problem
Features &
Blending
Statistics
ML
Data
Storytelling
Practical
Significance
8 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터가 답할 수 있는 질문
Frame Real-World Problem into Data Problem
데이터 분석 목표: A Successful Data Analysis
뻔하지 않은 쓸모있는 패턴
Non-Obvious & Useful Pattern
피보고자가 분석결과 수용(활용)
Audience Accepts the Results
9 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터에 답이 없는 질문
번지수
끝자리
지붕 색상 가격(억)
3 빨강 9.5
7 주황 3.5
2 노랑 3.2
1 빨강 3.5
4 파랑 4.7
. . .
Machine
Learning
Algorithm
Model ???
Training Data Set
Machine Learning is not a Magic, but a Math
주어진 데이터(번지수, 지붕 색상)가 문제(집값 예측)를 해결하는데
사람에게 소용없다면 기계에게도 마찬가지
질서나 규칙이 존재하는 것 같은데 잘 모르겠는 경우
기계가 빠르고 다양한 관점으로 냉정하게 패턴을 찾아보게 하자.
10 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
질문과 관련성이 높은 변수(Features)
X1
Ripeness
X2
# of Seeds
X3
Weight (g)
X4
Color
Y
Fruit Type
0.56 5 320 Orange Orange
0.61 6 280 Red Apple
Feature: Y(궁금한 것)를 설명하거나 분류(예측)하는데 유용한 속성
좋은 Feature를 발굴하는 것이 중요함.
11 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
더 많은 종류의 변수(High Dimensionality)
Features(Dimensions)의 수가 증가할수록 모형의 정확도는 향상 되지만
너무 많아지면 모형 해석이 어려워지고, 과적합(overfitting) 위험 증가
1D: 분류하기 어려움
2D: 더 잘 분류됨
3D: 아주 잘 분류됨
12 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
큰 데이터
Smaller Data
[Asset; 독점]
Bigger Data
[Liability]
개별 레코드에 담긴 패턴(효과/시그널)이 클수록
패턴 발견을 위해 적은 데이터가 필요
13 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터만으로는 똑 부러지게 답할 수 없는 질문
폭력적 게임을 하면 더 폭력적이 되나?
① 개념(Concept)을 정량화하는 일의 주관성
• 폭력적 게임을 정의할 수 있나?
• 현실에서의 폭력성을 어떻게 계량화하나?
② 인과성을 증명할 수 있나?
• 공격적 성향의 아이가 폭력적 게임에 더 끌림?
• 통계적 상관관계로 인과성에
대해 주장할 수 없음
• 숫자로 환원된 분석 결과는
복잡한 진실에 대한 단면적 요약
폭력적 게임
폭력적인 아이
14 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
원하는 답이 나올 때까지 데이터 고문하기: p-hacking
민주당이 집권하면 경기가 더 좋아지나?
15 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
P-Value (Probability-Values)
P값: (선형적) 관계가 우연히 나왔을 확률
작은 P값: 데이터에서 발견한 관계가 우연이 아니다 (=통계적으로 유의미)
• 귀무 가설(H0; Null Hypothesis): [공직에 있는 민주당 정
치인의 숫자]와 [경기지표] 사이에 선형적 관계가 없다.
• P = 0.05: 관계가 없단 가정 하에 데이터에서 발견한 관계
혹은 더 강한 관계가 관측될 확률 = 5%
• 관계가 없을 때 해당 관계가 우연히 관찰될 확률
• 확률이 5%보다 작으면 관계가 있다고 결론
16 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
원하는 답이 나올 때까지 데이터 고문하기: p-hacking
민주당이 집권하면 경기가 더 좋아지나?
17 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터에 질문을 하기 전에
어떤 호텔에서 잘까?
Data-Driven Decision Making
Default
Decision
Data-Inspired
Decision
Data-Driven
Decision
항상 자던 곳 호텔 리뷰 사이트
서핑하다가 결국
항상 자던 곳으로 결정
데이터에 기반한
의사결정 기준 수립
• 평점 4.5 이상
• 리뷰 수 30개 이상
• 9만원 넘지 않을 것
• …
18 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
좋은 질문(문제 정의)
A. 작년 여자 영업사원의 평균 매출이 남자 영업사원의 80% 정도였다.
B. 작년에 신규 출시한 탈모 치료제의 경우 연구소 출신 여자 영업사원의
매출이 평균 매출의 350%에 달했다.
좋은 분석 결과 = 정보량이 큼(뻔하지 않음)
• 뻔한 질문(남녀 직원 간 매출 차이?)에 대한 답변은 정보량도 낮음
• 엔트로피(불확실성)가 높은 불확실성이 큰 사안에 대한 질문(탈모 치료
제를 많이 판매한 직원들의 공통된 특성은?)에 대한 답변은 정보량이 큼
A. 내일 아침에 동쪽에서 해가 뜰 것이다. = 정보량 빵임
정보 = 특정 질문에 대한 답변
19 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
좋은 질문(문제 정의)
Good Data Problem
• 작고 구체적인, 덜 뻔한(엔트로피가 큰) 질문
• 이미 확보하고 있거나 쉽게 수집 가능한 데이터에서 답을 찾을 수 있는 문제
• 신뢰할 수 있고 익숙한 데이터에서 시작
• 확보 가능한 데이터에 대한 이해 없이 문제부터 정하면 필요한 데이터를 추
가로 수집, 준비하느라 프로젝트 일정이 지연되거나 나쁜 분석 결과가 나오
기 쉬움
• 바람직한 답변이 없고 너무 민감하지는 않은 문제
• 바람직한 답변이 이미 마음 속이나 조직 내에 정해져 있는 경우
• 특정한 분석 결과가 조직 내에서 너무 큰 반향과 혼돈을 불러올 수 있다면 분
석 및 결과 해석 과정에서 객관성이 흔들릴 수 있음
• 본인 문제(내 호기심) 말고 비즈니스 문제
• Business Top-Line(매출, 이익, 고객수, NPS, 생산성 등) Alignment
20 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터에서 유용한 답을 찾을 수 있는 문제
856명에게 전화걸어 르완다 전체 지역별 소득수준 분포 확인하기
빅데이터와 스몰 데이터의 결합
맹목적으로 쌓인 빅데이터 + 목적을 갖고 수집한 스몰 데이터
Ready-made(Exhaust) Data + Custom-made(Captured) Data
CDR(가입자 통화내역) + Survey(소득수준 전화설문)
Data Science + Social Science
21 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터에서 유용한 답을 찾을 수 있는 문제 – cont’d
CDR(백오십만명 통화 내역) + Survey(856명 설문으로 소득수준 조사)
→ 통화내역(X)만으로 소득수준(Y)을 예측하는 모형 생성
(서베이로 확인한) 실제 소득수준과 (통화 내역만으로) 예측된 소득수준
22 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
How to Make Audience Accepts the Result
Data Storytelling: 데이터 기반 서사
전주의 처리 (Pre-attentive Processing)
주의를 기울여 복잡한 시각 정보를 처리하기 전에
빠르게 시각 정보를 처리하는 무의식적 과정
23 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization – Pre-attentive Processing
전주의 처리 (Pre-attentive Processing)
핵심 정보가 두드러지도록 적절히 강조
종잡을 수 없는 시선의 흐름
차트를 볼 때 사람의 눈동자가
어떤 순서로 어디로 향할지 알 수 없음
24 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Storytelling – Before and After
Before After: Call to Action
Data Storytelling: 당신의 보고는 *핍진성이 있는가?
*핍진성: 텍스트가 신뢰할 만하고 개연성이 있다고 독자에게 납득시키는 정도
25 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
1단계
현실 객관적
이해
• 정량적으로 검증이
필요한 문제 정의
• 기존 믿음 검증
• 새로운 사실 확인
• 그릇된 통념 파괴
• 새로운 통찰의 공유
2단계
비즈니스
문제를 해결
• Business Relevancy
• 본인 부서 말고
비지니스 문제 정의
• Practical Significance
• 현실 적용이 가능한
유용한 패턴 찾기
• Change Management
• Success Metrics
지속적 모니터링
문제 정의 패턴 발견 패턴 활용
가치의 발견 가치의 완성
본인 부서 Impact → Business Impact
기업 내 데이터 분석 목표
26 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module I
Data Literacy
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
27 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
From Literacy to Data Literacy
Data Literacy: 추상에서 구체로의 이행
• 관습적 믿음/직관(Literacy)에 대한 회의에서 출발
• 데이터를 통해 세상을 보는 안목: 날것의 기록에서 패턴을 찾아
세상에 대한 더 좋은(실용적인) 설명을 찾는 일
추상 · 개념 · 관념의 탄생
“사냥해서 짐승을 잡았다.
사냥의 꽃은 들소 잡기”
들소보다 물고기를 잡는 게 1.7배 더 생산적
사냥횟수 마릿수 kg kg/사냥
들소 25 2 300 12kg
물고기 35 900 700 20kg
현실
Literacy Data Literacy
들소: 0마리
물고기: 35마리
들소: 0마리
물고기: 65마리
들소: 0마리
물고기: 71마리
물고기: 15마리
들소: 1마리
…
현실의 기록직접 본 것 · 한 것
28 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Literacy: Fixing Last Mile Problem
Last Mile Problem
기업이 데이터에서 쓸모있는 패턴을 발견하여
더 좋은 의사결정에 활용하지 못하는 문제
Last Mile
원인
• 분석 부재: 엑셀보고; 대쉬보드
• 분석 분리: 현업과 분석가의 분리;
[질문→분석→활용] 선순환 X
해결책
• 현업 스스로 데이터에 질문,
패턴 발견‧해석‧활용
• Data Literacy + Right Tool
질문 데이터 분석 활용해석
29 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data: A New Language of Business
Data Literacy
데이터 안목
도메인 지식 활용 데이터에 질문,
분석결과를 실용적으로 활용
Right Tool
닭잡는 칼
데이터의 특성 분석
역량‧목적에 맞는 도구
Literacy Numeracy Data Literacy
Reporting Insight
Discovery
• 엑셀과 씨름
• 과거집계‧시사점X
• 질문‧해석‧활용에
집중
Reading
• 텍스트 해석
현업이 똑똑한 데이터 소비자가 되려면
30 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Literacy(Fluency) Framework
데이터 분석은 생산자와 소비자 간의 사회적 · 상호적 활동
분석 결과를 소비하는 사람이 있어야 분석하는 사람이 존재할 수 있고
좋은 분석을 생산하는 사람이 있어야 또 결과를 소비(활용)하는 사람이 존재
31 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Our First Data Literacy: BIMODAL DISTRIBUTION (쌍봉분포)
African Seedcracker
자연선택에 의해 작고 부드러운 씨앗을
먹는 작은 부리의 새와 크고 단단한
씨앗을 먹는 큰 부리의 새로 나뉨
32 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Our First Data Literacy: One Hump vs. Two Humps
UNIMODAL(단봉)
BIMODAL(쌍봉)
서로 다른 특성을
갖는 두개의 집단
이 표본에 존재
33 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data → It’s Funny → Data Literacy -> Insight
1962년과 1979년에 태어난 남자들은 왜 Mets구단 팬이 되었나?
Hint: 1969년과 1986년에 모두 8세가 되었음
1969년
8세
출생년도에 따른 NY Mets 팬들 비율
[대상: 뉴욕 거주하는 남자 야구 팬들]
1986년
8세
34 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data → It’s Funny → Data Literacy -> Insight
Reality
• Reality: 복잡계; 실제 작동방식 100% 알 수 없음
• Belief: 세상의 작동방식에 대한 최선의(만족스러운) 설명
• Data: 세상의 작동방식에 대한 기록; 세상의 샘플링
• Insight: 세상에 대한 더 나은 설명, 새로운 해석
Belief Data
Insight
[or Inspiration?]
희한하네… 보따리 장수
매출 매출 매출
데이터를 읽을 수 있어야 새로운 해석도 가능
35 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module II-a
Data Understanding
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
36 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
• 궁금한 것(Y)을 데이터(X)로 더 잘 설명(예측)
• X를 바꾸어서 Y를 개선하기 위해서
분석하는
이유
• 데이터의 특성과 모양 요약 (기술 분석)
• 독립변수(통제가능; X)와 종속변수(Y) 간 가설 검증
통계
• 데이터 학습, Feature(X)로 Target(Y)을 예측‧설명
• 의사결정 자동화 vs. 더 좋은 의사결정
기계학습
• 성과지표(Y)를 익숙한 관점(범주; X)으로 요약
• 과거에 대한 집계
엑셀
(대쉬보드)
• X와 Y를 점, 선, 크기, 색상으로 표현 (탐험분석)
• X와 Y 사이의 패턴(관계) 시각적 발견; 가설 수립
데이터
시각화
데이터 분석 방법 (X와 Y)
37 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Analysis Techniques
데이터 분석 주요기술
 DESCRIBE (기술 분석) - 엑셀
• 데이터 특성과 모양을 (수치적으로) 요약
 EXPLORE (탐험적 분석) - 데이터 시각화 도구
• 가설수립‧데이터 감 잡기 위해 패턴 탐험
 PREDICT/INFER (예측‧추론 분석) - 통계/ML
• 패턴(모형)을 통해 주어진 문제를 예측‧설명
과거
미래
Looking
Backward
Looking
Forward
38 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Analysis Maturity Model
Source: Booz Allen Hamilton
데이터 수집 → 데이터 기술(묘사) → 패턴 발견 → 예측 → 활용
우측으로 갈수록 성숙해진다기보다는 자기에게 필요한 단계를 잘 하면 됨
39 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
통계 · 기계학습 · 인공지능
40 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
EDA
Source: Booz Allen Hamilton
EDA(Exploratory Data Analysis) =
DESCRIBE (기술 분석) + EXPLORE (탐험 분석)
• inspect data structure
• data quality
• summarize
• visualize data
• hypothesis generation
• != modeling
EDA, 데이터와 함께 떠나는 창의적 여행
41 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Descriptive Data Analysis
Description
요약
Comparison
비교
Relationship
관계
데이터에 대해 사실적으로 묘사하는 법
변수의 대표값과
모양이 어떻나?
개별 변수(Y)의
통계값과 분포 확인
변수값의 차이가
어디서 얼마나 나나?
서로 다른 범주(X) 간
Y의 특성‧모양 비교
변수(Y)의 변화와 관계를
갖는 다른 변수(X)는?
X와 Y 사이의
상관관계 파악
42 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Analysis-Ready Dataset
분석하기 좋은 데이터셋
• 국가별로 1999/2000년에 결핵으로 사망한 환자수(Cases)와 전체인구
(Population)를 정리한 데이터셋들
• 국가별 연도별 인구 10,000명당 결핵 사망률을 계산하기 가장 좋은 데이터는?
NOT SO GREAT GREAT
1 2
3
4
tabular data
rectangular data
data frame
data table
tidy dataset
43 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Rectangular Dataset and Key Terms
분석하기 좋은 데이터셋
• Dataset: 값(Values)들의 집합으로 숫자 또는 범주로 구성
• Values: 변수(Variable)와 관측점(Observation)으로 구성
• Variable: 동일한 속성(나이, 매출)에 대한 측정값들로 행(Column)을 구성
• Observation: 동일한 대상(사람, 매장)에 대한 측정값들로 열(Row)를 구성
X
features
independent variables
input (variables)
predictor
attribute
Y
target/label
dependent variables
output (variable)
response
record
sample
Instance
case
44 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Raw vs. Aggregated Dataset
Q. 2001년 남녀 구매 비율은?
추가 질문
Q. 2001년 Regular Coffee 구매한 여자 고객수?
Q. 남자 고객이 선호하는 커피 종류는?
Raw Data: Zoom-in(새로운 질문) 가능
Raw Data Aggregated Data
45 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Non-Rectangular Data Structures
TIME-SERIES
SPATIAL GRAPH
• 동일 변수 연속적 기록
• Seasonality; Event
• Object에 대한 위치좌표
• Location Analytics; Geo-Statistics
• Physical, Social, Abstract 관계
• Social Graph
From To Weight
Russia China 10
USA Korea 7
Rectangular 구조가 아닌 데이터도 있음;
각 구조에 맞는 별도의 처리 및 분석 기법이 존재
46 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Features Engineering
Feature Engineering: From Raw Variable to Derived Variable
Y를 더 잘 설명하거나 분류(예측)할 수 있도록
기존 변수를 창의적으로 가공하여 새로운 변수를 만드는 일
당뇨병 위험도와 상관관계가 높은 변수
• 같은 몸무게라도 비만도는 키에 좌우됨
• 비만도를 더 잘 반영할 수 있는(키와 몸무게의 상호작
용을 잡아낼 수 있는) 새로운 변수 가공
• *BMI(Body Mass Index) = kg/m2
*발명한 사람의 이름을 따서
Quetelet Index라고도 함
47 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Type
숫자형(Quantitative)과 범주형(Qualitative)
분석: 숫자와 숫자 사이의 연관성, 숫자의 차이를 가져오는
범주를 발견하는 것
• 숫자형 자료는 이산형(discrete)이나 연속형(continuous)으로 나뉨
• 범주형 자료는 명목형(nominal)이나 순서형(ordinal)으로 나뉨
48 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
숫자형 변수를 나누는 또 다른 기준: Interval vs. Ratio
Q. 나누거나(Ratio) 곱해도 말이 되는 것은?
온도 vs. 몸무게
Interval (구간 자료)
10도 + 10도 = 20도
20도 / 10도 = 2배?
Ratio (비율 자료)
50kg + 50kg = 100kg
100kg / 50kg = 2배?
절대적 원점(True Zero)이 있으면 Ratio, 없으면 Interval
시간 = 00:00 : 시간이 없다(빵시)?
나이 = 0살 : 나이가 없다(빵살)
49 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Type에 따른 시각화 방법
변수 유형에 따라 분석 방법과
효과적 시각화 방법이 달라짐
숫자 x 숫자 = Scatterplot
Overplotting (점이 겹침)!
Alcohol(%): 와인 알코올 함량, Quality: 소비자가 매긴 점수
소비자 만족도를 범주로 처리
Boxplotting (분포 시각화)!
Jittering 기법으로 Noise 추가
Jittering (인위적으로 퍼지게)!
순서형(Ordinal) 변수는 범주(Category)로 다루는 게 좋다!
소비자만족도
소비자만족도
소비자 만족도알코올 함유량 알코올 함유량
알코올함유량
50 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Type에 따른 시각화 방법
순서형(Ordinal) 변수는
범주(Category)로 다루는 게 좋다.
X를 숫자로 처리
X와 Y 간 상관관계(0.06)가 매우 약함
Y: 리더십 점수, X: 평가 점수(등급)
X를 범주로 처리
서로 다른 범주(점수)간 Y값 차이가 존재함
51 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module II-b
Data Understanding
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
52 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Description (Data Profiling)
Central Tendency
중심 경향
• 평균(Mean)
• 중앙값(Median)
• 최빈값(Mode)
Dispersion
퍼진 정도
• 범위(Range)
• 분산(Variance)
• 표준편차(SD)
• Percentile
Shape of Distribution
퍼진 모양(대칭)
• 왜도 (Skewness)
데이터의 특성과 모양을 요약하여 기술하는 방법
양(+)의 왜도음(-)의 왜도
53 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
The Philosophy of Statistics [19th Century]
초기의 통계학 - 결정론적 세계관에 바탕을 둔 이데아/본질의 추구
평균값이 대상이 보유한 이상적인 속성이고(Idealized Mean)
Variation(차이)은 제거해야 할 오류라는 생각이 지배적이었음
Species(종; 種): An Ideal Type
54 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Darwin and Statistical Population [Late 19th~Early 20th Century]
다윈의 등장: Type/Essence(본질) → Variation(차이)
차이(변이)의 점진적 누적에 의해 진화가 이루어진다는 발견
개별 개체에 존재하는 의미있는 차이(변이)에 관심을 갖기 시작
55 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Vital Statistics vs. Mathematical Statistics
Average: 집단을 요약 → Variation: 개인(개체)들에 존재하는 차이에 관심
인구통계
평균, 비율
수리통계
분산, 관계, 추론
확률, 유의성
56 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Average Man → Ranked Man
Quetelet: 평균적 인간의 탄생 → Galton: 서열화된 인간의 탄생
Average
Man Ranked
Man
57 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
평균의 문제 – One Dimensional Thinking
Which Man Is Bigger?
58 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
평균의 문제 – One Dimensional Thinking
Which Man Is Bigger?
JAGGED SIZE PROFILE: 사람의 SIZE(크기)는 서로 상관관계가 약한
다양한 차원(신장, 체중, 가슴둘레 등)으로 구성되어 있음
59 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
평균의 문제 - Data Aggregation
Average Man
Galton’s Composite Portraits
골튼의 합성 초상화
The Problems with Average: Not Robust!
범죄자 사진을
자꾸 포갤수록
범죄자의 특징이
평범함에 묻힌다.
60 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
평균의 문제 - Linear Thinking vs. Non-Linear Relationship
잠재 고객
세그먼트
환경 관심도
평균 점수
A 4
B 3
A = [4, 4, 4, 4, 4, 4, 4, 4]
B = [1, 1, 1, 1, 5, 5, 5, 5]
친환경 제품을 출시하려 한다.
어떤 세그먼트에 프로모션할까?
잠재 고객
세그먼트
환경 관심도
가중 평균 점수
A 4
B 5.5
A = [4, 4, 4, 4, 4, 4, 4, 4]
B = [1, 1, 1, 1, 5, 5, 5, 5, 5, 5, 5, 5]
5점에 가중치 2를 부여
61 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
3 Types of Average: Mean, Median, Mode
병-1 병-2 병-3 병-4 병-5 병-6 병-7 병-8 병-9
13 18 13 15 13 16 14 21 13
Q. 어떤 값을 대표값으로 선택할까?
A. 평균
(13+18+13+14+13+16+14+21+13) ÷ 9 = 15
B. 중앙값
13, 13, 13, 13, 14, 14, 16, 18, 21
C. 최빈값
13 (3번 측정; 다른 값들은 1번씩만 측정됨)
D. 선호값
16 (병-6)
성벽의 벽돌 갯수를 병사들이 측정한 값들
62 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Histogram vs. Frequency Distribution Table
계급 (0,3] (3,6] (6,9] (9,12] (12,15] (15,18] (18,21] (21,24] (24,27] (27,30] (30,33] (33,36] (36,39] (39,42] (42,45] (45,48]
빈도 26.0 17.0 15.0 32.0 34.0 51.0 55.0 56.0 55.0 60.0 58.0 43.0 18.0 14.0 5.0 2.0
누적
빈도
26.0 43.0 58.0 90.0 124.0 175.0 230.0 286.0 341.0 401.0 459.0 502.0 520.0 534.0 539.0 541.0
비율 4.8 3.1 2.8 5.9 6.3 9.4 10.2 10.4 10.2 11.1 10.7 7.9 3.3 2.6 0.9 0.4
누적
비율
4.8 7.9 10.7 16.6 22.9 32.3 42.5 52.9 63.1 74.2 84.9 92.8 96.1 98.7 99.6 100.0
히스토그램과 도수분포표
63 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Histogram vs. Density Plot
Probability Density Curve
Histogram – Bin Size: 1시간
Histogram – Bin Size: 4시간1
2
3
1
2
3
 히스토그램: 도수(빈도)의 분포[도수분포표]
를 차트로 표현한 것
 계급: X축에 표현된 변수의 구간[4시간]
 X축 변수 구간의 크기(Bin Size)를 4시간에
서 1시간으로 조정하였음
 확률밀도: X가 연속형 변수일 경우 X값과
이에 대응하는 확률을 나타낸 그래프
 좌측에서 X가 10~20시간 사이의 값을 가
질 확률은 해당 구간의 면적과 동일함
64 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Histogram vs. Density Plot: 서로 다른 두 집단의 분포를 비교
Histogram: 두 그룹의 분포의 차이 비교
Density Plot: 두 그룹의 분포의 차이 비교
65 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Larger Variation, Greater Sampling Error
변화의 폭 ↗ 샘플 데이터 신뢰도 ↘ 평균값에 대한 확신↘
A B
Q. 고객들(모집단)의 지출금액 분포, A와 B 중, 신규
캠페인의 효과를 주장(일반화)하기에 더 좋은 것은?
캠페인 고객수 평균 지출
신규 30 10,000
기존 1,500 8,000
66 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
World Cup Match between Brazil vs. Croatia
67 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Percentile
Score
[정렬된 점수]
Percentile
Rank
Quartile
[사분위]
29 8th
Q1, 1사분위
(최하위 25%)
32 17th
38 25th
41 33th
Q2, 2사분위
(차하위 25%)
53 42th
54 50th
55 58th
Q3, 3사분위
(차상위 25%)
74 67th
93 75th
99 83th
Q4, 4사분위
(최상위 25%)
134 92th
209 100th
Percentile: 전체 관측값들의 분포를 고려했을 때 특정값의 상대적 위치
내 키가 185cm로 20명 중
네번째로 키가 크다면
185cm = 80th Percentile
내 밑으로 80%가 있다!
68 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Percentile 활용하여 주성분(Principal Component) 찾기
비타민, 지방, 섬유질 변수로
채소와 육류 분류하기
• PCA(Principal Component Analysis):
데이터 분류를 쉽게 하는(=데이터가
최대한 퍼지게 하는) 주성분(Principal
Component)을 찾는 일.
• “Vitamin C – Fat”: Percentile 값으로
바꾸면 해당 변수를 정규화하는 효과
가 있어서 서로 다른 단위를 갖는 변
수들 간 연산이 가능해짐
비타민 C만으로
분류한 경우
육류 아이템이
한 곳에 와글와글
“비타민 C – 지방”
육류가 아래로
퍼지게 됨
69 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Finding Secret Feature
Variable Percentile
Height 56%
Weight 61%
Pedigree 70%
Left Ventricle 99.61%
Percentile과 남들은 모르는 좋은 Feature로 돈 번 사례
gait analysis
American Pharoah: 2015년도에 37년 만에 Triple Crown 달성 (삼관마)
Jeff Seder: “Sell your house. But, do NOT sell this horse.”
70 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Summary Statistics and Visualization
1
2
33
71 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Distribution (boxplot)
Box-and-whiskers plot (예시)
2천
4천
6천
8천
소
득
분
포
중앙값
Median
*IQR
1억
Outlier
 중앙값(median) 파악
최소값
(Lower whisker)
Box-and-whiskers plot 해석
대칭성 및 분포
특이값(Outlier)
최대값
(Upper whisker)
 *IQR(Inter Quartile Range)의 1.5배 이상
벗어나 있는 값들을 Outlier로 정의
 대칭성(symmetry): 최대값과 최소값까지
의 수염 길이 비교
중심 경향
Q1
Q3
1
2
3
1
2
3
2
3
72 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Distribution (boxplot)
Q. 아마 아닐꺼야(Probably Not)에 대해
a. Range를 구해보세요.
b. 중앙값을 구해보세요.
c. 평균을 가늠해보세요.
d. 1Q(하위 25%)의 답변의 범위를 구해
보세요.
e. 응답자의 75%는 최소 몇%(X축) 이
상으로 답변했나요?
Q. 분산(퍼진 정도)이 가장 큰(작은)
Phrase는 무언가요?
Q. 음(-)의 왜도(비대칭성)가 가장 큰
Phrase는 무엇인가요?
73 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Description
• 평균: 요약값을 사용하여 서로 다른 범주들의 순위를 비교
• 분포: 퍼진 정도를 관찰하여, 개별 범주 내 차이를 이해
Bar Chart (평균) Box Plot (분포) Density Plot (분포)
74 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module II-c
Data Understanding
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
75 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
제한된‧익숙한 관점 - Simpson’s Paradox
지원자 수 합격자 수 합격률
여자 1,000 150 15%
남자 1,000 250 25%
지원자 수 합격자 수 합격률
여자 800 80 10%
남자 200 10 5%
지원자 수 합격자 수 합격률
여자 200 70 35%
남자 800 240 30%
문과대 합결률 이공대 합격률
심슨의 역설
뭉뚱그린 수치는 현실을 왜곡할 수 있음
쪼개보는 일(Segmentation; Drill-Down; Dimensions)의 중요성
남녀 지원자 합격률
76 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
제한된‧익숙한 관점 - Simpson’s Paradox
새로운 관점(Dimension)
연봉과 까칠함과의 관계 → 직급별 연봉과 까칠함과의 관계
77 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
The Curse of Dimensionality
차원의 저주
“If you test enough things, just by random chance,
one of them will be statistically significant.”
S&P
지수
Coin
1
Coin
2
Coin
3
Coin
4
Coin
5
….. …..
Coin
1217
….. …..
Coin
1999
Coin
2000
1 상승 앞 뒤 앞 앞 뒤 앞 앞 뒤
2 하락 뒤 뒤 앞 앞 뒤 앞 뒤 뒤
3 상승 뒤 앞 뒤 앞 뒤 앞 뒤 앞
4 상승 앞 뒤 앞 뒤 뒤 앞 앞 뒤
5 하락 뒤 앞 뒤 앞 앞 뒤 뒤 뒤
…
248 상승 앞 뒤 뒤 뒤 앞 앞 뒤 뒤
249 하락 뒤 앞 뒤 뒤 뒤 뒤 뒤 앞
250 하락 앞 뒤 앞 앞 앞 뒤 뒤 뒤
Lucky Coin #1217
• 1년 동안 S&P 상승/하락과 2,000개 동전을 던진 후 결과를 기록
• 95%의 정확도로 앞면이면 S&P지수 상승, 뒷면이면 하락했음
78 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization 101 – 1차원
Bar Chart
• 서로 다른 범주(사업부)간
평균값(매출 평균)의 차이를
비교하는데 효과적
• 시계열에 따른 변화를
표현하기에는 부적절
1 Dimension
Pie Chart
• 서로 다른 범주가 전체(매출
총합)에서 차지하는 비율을
대비하는데 효과적
• 범주의 갯수가 많거나 비율이
비슷한 경우 부적절
79 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization 101 – 2차원
Line Chart
• 시계열에 따른 추세를 보는데 효과적
• 너무 많은 범주(4~5개 이상)가 함께
표현되는 경우 헤깔림
2 Dimensions
Stacked Area Chart
• 시간의 흐름에 따른 개별 범주의 전체
크기 내에서의 상대적 크기 변화를
표현하는데 효과적
• 범주가 너무 많으면 역시 헤깔림
Scatter Plot
• 두개의 숫자형 변수 간 관계를
파악하는데 효과적
• Outlier를 발견하는데도 효과적
• 원 크기/색상으로 4 Dimensions 표현
80 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization 101 – 계층적 데이터
Hierarchical Data
Treemap Sunburst
81 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization 101 – 기본 문법 숙지
데이터를 통해 알(리)고 싶은 것을 잘 표현할 방법이 무언가?
82 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Florence Nightingale, the Lady with the Lamp
• 크림 전쟁에 여성 최초로 영국군 보건위생장교로 참여
• 표준화되지 않은 질병 분류체계; 주먹구구 사망 데이터 관리
• 전사자 데이터 정리 후, 보고 방식 고민 (테이블? 파이차트?)
• Data Storytelling: 파이차트를 변형하여 데이터를 시각화
“신의 생각을
이해하기 위해 우리는
통계를 공부해야 해요.
통계를 통해 신이
목적하신 바를 측정할
수 있다구요.”
• 파랑: 예방/치료가능한 질병
• 빨강: 전쟁 중 발생한 상처
• 검정: 나머지
83 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization
Visual Affirmation
검증된 사실을 주장/보고
Visual Confirmation
가설을 시각적으로 검증
Visual Exploration
뭐라도 하나 걸렸으면
Data: A New Language of Business
Data Viz: A Medium of Data Communication
목적에 맞는 데이터 시각화 방법 선택
84 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation and Scatter Plot (source: WHY)
1 2
3
기온(X)과 상인수(Y) 커피음용량(X)과 시험점수(Y)
r=0.96 r=-0.96
r=0.78 r=-0.78
r=0.0
r=0.0
85 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Uncorrelated Doesn’t Mean Unrelated (source: how not to be wrong)
진보
관심
보수
무관심
“정치적 관심도”와 “정칙적 성향(보수-진보)” 간 관계 해석
86 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터 요약 & 시각화
동일한 평균, 분산, 상관계수 시각화를 통해 현실의 복잡성이 드러남
I II III IV
X Y X Y X Y X Y
평균 9 7.5 9 7.5 9 7.5 9 7.5
분산 11 4.1 11 4.1 11 4.1 11 4.1
상관계수 0.82 0.82 0.82 0.82
평균: 평균적 이해; 시각화: 차이에 대한 이해
87 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization - Seeing is Believing
통계치와 시각화 결과를 함께 확인
88 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Viz: Understand and Explain Data
Noise?
이상한 애? vs. 특별한 애?
Signal
패턴, 일반적 경향
89 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation vs. Causation
Spurious Correlation (허위상관)
마요네즈 덜 먹으면 이혼을 덜 할까?
참고) http://www.tylervigen.com/spurious-correlations
90 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation vs. Causation
Omitted Variable Bias
O
X Y
물가 인상
교통비
인상
백반 가격
인상
Causation Causation
Correlation교통비
인상
백반 가격
인상
Correlation
• Correlation: X의 변화로 Y의 변화 예측 가능
• Causation: X에 개입해서 Y를 바꿀 수 있음
대표적인 오류
Correlation helps you predict the
future
Causality lets you change the future
91 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
참고) When Knowing Correlation is Enough
Correlation을 의사결정에 언제 어떻게 활용하나?
수영장 장난감 광고를 하려고 하는데 누가 수영장을 소유했는지 모름
Causation
Correlation
부자
수영장
소유
수영장
장난감
구매
전기
사용
Targeted Ad
전기회사와 제휴,
전기요금 사용량이
큰 가정에 광고 집행
92 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Secret to Success: Finding the Right Angle
Home Run
MLB DatasetDemo with
Analysts pinpointed the range of 25-35 degrees as the
sweet spot for home runs, when paired with an exit
velocity — a measure of the speed of the ball off the bat
— of 95 mph or greater.
Fly Ball
Ground Ball
93 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module III
Machine Learning and
Enterprise Decision-Making
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
94 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Analysis Techniques
데이터 분석 주요기술
 DESCRIBE (기술 분석) - 엑셀, 대쉬보드
• 데이터 특성과 모양을 요약
 EXPLORE (탐험적 분석) - 데이터 시각화 도구
• 가설수립‧데이터 감 잡기 위해 패턴 탐험
 PREDICT/INFER (예측‧추론 분석) - 통계/ML
• 패턴(모형)을 통해 주어진 문제를 예측‧설명
과거
미래
Looking
Backward
Looking
Forward
95 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Machine Learning and Decision Making
Machine Learning: Decision Making Technology
• 인공지능의 한 분야로 알고리즘에 아주 제한된 지시와 데이터를 제공,
통계적 학습을 통해 발견한 패턴을, 의사결정에 활용하는 기술
• 폴라니의 역설: 할 줄은 아는데 어떻게 하는지 말 못함 (언어의 해상도가
인식의 해상도보다 낮다)
• From Instruction to Examples: 기계에게 언어로 기술(codify)하기 힘든
것을 정답(Label)을 알고 있는 과거 데이터를 제공하여 학습하도록 함
AI
Machine
Learning
Linear
Regression
Decision Tree
Deep Learning
Random Forest
Robotics
NLP,.....
White Box
Decision Making
Augmentation
Black Box
Decision Making
Automation
96 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Machine Learning
Supervised Machine Learning (지도 학습):
X → Y Mapping
예측하고 싶은 문제와 관련하여 정답을 알고 있는 데이터가
충분히 있는 경우 X로부터 Y를 유추하는 패턴을 찾는 일
X (Input; Feature) Y (Output; Label) APPLICATION
Voice recording Transcript Speech recognition
Transaction records Fraudulent (yes/no) Fraud detection
Emails Spam (yes/no) Spam filtering
Ad + User Profile Click (yes/no) Personalized AD
Images Dog or Cat Image recognition
Korean English Language Translation
97 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Supervised Machine Learning
Supervised Machine Learning (지도 학습)
모형이 투명한 경우(White Box), 설명‧예측 둘 다 활용 가능
X1 X2 X3 Y
겨울
강수량
수확철
강수량
평균
온도
와인
가격
13 35 35 9.5
22 25 25 3.5
25 21 21 3.2
11 18 18 3.5
47 45 45 4.7
. . . .
예측
12.3$
ML
Algo
Model
겨울
강수량
수확철
강수량
평균
온도
와인
가격
35 25 21 ?
Training Data Set
Ashenfelter’s Wine Formula
Price = 12 + 0.001 겨울강수량 + 0.06 평
균온도 – 0.004 수확철강수량
설명
선형회귀 알고리즘
Y = a + b X1 + c X2 + d X3
98 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
White Box vs. Black Box
35
25
21
겨울강수량
온도
수확강수량
Input 값
3.5
Output 값
0.35
0.26
5.1
35
25
21
겨울강수량
온도
수확강수량
Input 값
4.2
Output 값
0.025
0.62
2.1
35
25
21
겨울강수량
온도
수확강수량
Input 값
7.1
Output 값
1.42
0.215
-1.2
35
25
21
겨울강수량
온도
수확강수량
Input 값
6.1
Output 값
0.5
0.06
3.1
모형 A 모형 B
모형 C 모형 D
Black Box: 더 정확할지언정 인간이 이해하기 힘들다.
6.1 3.5 4.2 7.1가격 = 15.4$ = 0.6 x + 0.1 x + 0.25 x + 0.05 x
A B C D
99 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Model Accuracy vs. Interpretability
정확함 vs. 올바름
Model should be Accurate
for the Right Reason
대출
총액
대출
총액
수입 수입
100 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Interpretable Machine Learning
Why I Should Trust You?
모형 설명: 신뢰도 상승, 규제 준수, 모형 개선
LIME
입력값을 교란시켜서 뭐가 중요한지 찾는 방법
Local
Interpretable
Model-Agnostic
Explanation
101 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Interpretable Machine Learning
Wolf Detector가 아니라 Snow Detector
102 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Why Model Transparency Matters!
결핵 치사율 예측모형
결핵환자 중 천식을 앓고 있는 사람은 집으로 돌려 보내세요.
투명한 모형과 사람의 판단이
환자를 살렸습니다.
X
결핵환자
with 천식
Intensive
Care
Unit
Y
합병증 ↓
치사율 ↓
103 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Machine Learning and Enterprise Decision Making
빈번한 덜 중요한 결정
덜 빈번한 중요한 결정
• HR: 직원선발, 성과요인
1 second1 year 1 month 1 week 1 day 1 min1 hour
Prediction
Explanation
Frequent
Less
Frequent
Decision Augmentation
Decision Automation
• Sales: 제품 판매전략
• Operation: 운영 최적화
• 개인화 광고
• 맞춤형 상품
• 이상 금융거래 탐지
데이터 → 기계학습 → 예측 통한 의사결정 자동화
데이터 → 기계학습 → 사실‧증거 기반 더 좋은 결정
Are You in Prediction Business or Explanation Business?
104 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
features labelunknown
기계학습
x 세상 y
Statistics vs. Machine Learning
독립
변수
종속
변수
model
통계 분석
• 연역적 추론(Deductive Reasoning):
가설수립 → 가설검증
• 모형의 타당성: 가설 일반화를 위한
모형의 타당성‧재현성이 중요
• 귀납적 추론(Inductive Reasoning):
데이터 → 패턴
• 모형의 유용성: 의사결정에 활용하기
위한 모형의 유용성이 중요
“Machine Learning is essentially a form of applied statistics”
“Machine Learning is statistics scaled up to big data”
둘다 데이터를 통해 문제
를 해결하는 데 사용됨
기술과 방법의 차이라기보
다는 분석 목표의 차이사금채취 연금술
105 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module IV
Linear Regression &
Decision Tree
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
106 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Analysis Techniques
데이터 분석 주요기술
 DESCRIBE (기술 분석) - 엑셀, 대쉬보드
• 데이터 특성과 모양을 요약
 EXPLORE (탐험적 분석) - 데이터 시각화 도구
• 가설수립‧데이터 감 잡기 위해 패턴 탐험
 PREDICT/INFER (예측‧추론 분석) - 통계/ML
• 패턴(모형)을 통해 주어진 문제를 예측‧설명
과거
미래
Looking
Backward
Looking
Forward
107 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
선형회귀분석 (Linear Regression Analysis)
Linear Regression
• 가장 오래되고, 널리 쓰이고, 이해하기 쉬운
지도학습 알고리즘
• 독립변수(X)를 가지고 숫자형 종속변수(Y)를
가장 잘 설명‧예측(Best Fit)하는 선형
관계(Linear Relationship)를 찾는 방법 중 하나
계산방법 (Least Squares)
X와 Y 사이에 선형적 관계가 있다는 가정 하에
실제 Y값과 예측한 Y값의 차이를 최소화하는
방정식을 계산
Y = b0 + b1X + error
• b0 : Y축 절편(Intercept); 예측변수가 0일 때 기대
점수를 나타냄
• b1 : 기울기로 X가 한 단위 증가했을 때의 Y의 평균적
변화값을 나타냄
*참고: http://students.brown.edu/seeing-theory/regression/index.html
Regression Model: Y가 숫자형 변수(매출)인 경우
Classification Model: Y가 범주형 변수(성별)인 경우
Supervised
Machine-Learning
108 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
선형회귀분석 (Linear Regression Analysis)
P-Value (Probability-Values)
Q. X와 Y 사이에 통계적으로 유의미한 관계가 있나?
• Statistical Significance (통계적 유의성)
• 데이터를 통해 확인한 관계가 우연히 나왔을 확률
• P값이 0.03: 데이터에서 발견한 관계가 운일 확률 3%
• 관계의 세기(Size of an Effect)를 나타내는 것은 아님
R2 (R-SQUARED; 결정계수)
Q. X가 Y를 얼마나 잘 설명/예측하는가?
• Goodness of Fit: X로 설명할 수 있는 Y 변화량의 크기
R2 = 0.81 R2 = 0.24
109 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Statistical Significance and P-Value(Probability-Values)
Outcome
Campaign
A
Campaign
B
Conversion 200 182
No
Conversion
23539 22406
Conversion
Rate
0.8425% 0.8057%
1. 캠페인 A의 전환률이 0.0368% 높음; 차이가 의미가 있나?
2. 통계적 유의성 검증이 꼭 필요한가? (이 정도면 작은 샘플을
사용하여 일반화하는 일을 걱정할 필요없는 빅데이터 아닌가?)
3. 통계적 유의성: 두 캠페인 사이의 전환율 차이가 우연은 아닌가?
• 둘 간 전환율 차이가 없다고 가정(H0)하고 두 캠페인
결과를 하나로 섞는다
• 섞은 데이터에서 23739, 22588개를 Resampling하여 두
캠페인 간 전환율 차이를 기록 (1,000번 반복)
• 전환율 차이(test statistic; 검정통계량)가 > 0.0368%보다
큰 경우의 확률을 계산: 30.8% (P-Value: 0.308)
• 두 캠페인 간 실제로 전환률 차이가 없는 경우에도 우연의
작용으로 0.0368% 차이 정도는 흔하게 발생.
효과의 크기/차이 0.0368%
110 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
선형회귀분석: 결정계수(R2: R-SQUARED)
낮은 결정계수가 반드시 나쁜 (Inherently Bad) 것은 아님
R2: 0.14 R2: 0.86
• 동일한 회귀방정식: Y = 44 + 2*X; P < 0.001
• 우측 모형이 좌측 모형보다 예측 정확도(R2)는 매우 높음
• 변수 간 경향성은 동일: X 1단위 증가 → Y 2단위 증가
Y값을 정확히 예측하기 위해선 R2 값이 중요
하지만, 경향성 정보가 중요한 경우 R2 가 낮다고 꼭 나쁜 모형은 아님
111 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Simple Linear Regression Analysis – Advertisement
매출에 미치는 매체 영향에 상호작용이 없다고 가정하였을 때
TV, Radio, 신문 중 Sales 증가에 가장 효과적인 광고매체는?
Advertising.xlsx
강의 보조자료 참고
112 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Multiple Linear Regression Analysis – Advertisement
이번에는 변수 2개[TV, Radio]를 사용하여 Sales와의 관계를
설명‧예측하는 회귀모형을 만들어 봅시다.
Y = b0 + b1X1 + b2X2
Sales = 2.9 + 0.045 x TV + 0.187 x Radio
강의 보조자료 참고
113 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
• Decision Tree: 의사결정트리; 대표적 Classification Model
• Classification: 서로 다른 집단을 구분하는 규칙(경계) 찾기
Decision Tree and Classification
Linear Classifier Non-Linear Classifier
Classification: 집단을 구분하는 경계 찾기
Logistic Decision Tree SVM
Regression Model: Y가 숫자형 변수(매출)인 경우
Classification Model: Y가 범주형 변수(성별)인 경우
Supervised
Machine-Learning
114 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Case Study 신입사원 성과 분석 – 선형적 관계 없음
신입사원 성과(5년 평균)와 인적성 점수 사이에 선형적 관계 없음
성과점수와 팀워크점수와의 관계 상관계수: 0.00
성과점수
팀워크 점수
성과점수와 인지능력과의 관계 상관계수: 0.06
성과점수
인지능력 점수
115 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Performance에서 Noise와 Signal을 어떻게 구분할까?
기량의 역설 (Paradox of Skill)
전체적 기량↗ 개인 간 기량의 차이↘ 운(Chance)의 영향↗
낮은 성과점수 높은 성과점수
낮은 노력·역량 높은 노력·역량
높은 노력·역량에도 불구, 낮은 성과 점수를 받거나
낮은 노력·역량에도 불구, 높은 성과 점수를 받을 수 있음
운의 영향으로
Compare The Extremes
성과 분포의 양 극단에 위치한
집단의 차이점을 비교하여 운의 영향을 최소화
116 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree - Minimizing Entropy
성과에 따른 신입사원 분포
동아리 경험
(년)
인내력
▲
★
▲
▲▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
★
★▲
★
★
★★
★
★
★
★
★
▲ ▲
★
★
★
★
▲
상위 20%
하위 20%
Decision Tree Algorithm
• Purity: *엔트로피를 최소화하도록(= 끼리끼리 모이도록) 공간 구획
• Homogeneity: 동질적 집단이 밀집한 세그먼트의 논리적 규칙 찾기
*엔트로피(Entropy): Measure of Impurity
117 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
동아리경험
(년)
인내력
87
74
0.8
▲
★
▲
▲▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
★
★▲
★
★
★★
★
★
★
★
★
▲ ▲
★
★
★
규칙 (Rule Set) 확률 (Probability)
IF (동아리경험 < 0.8년) and (인내력역량 < 87) then Class = 저성과 신입사원 100% (12/12)
IF (동아리경험 < 0.8년) and (인내력역량 >= 87) then Class = 고성과 신입사원 67% (2/3)
IF (동아리경험 >= 0.8년) and (인내력역량 < 74) then Class = 저성과 신입사원 57% (4/7)
IF (동아리경험 >= 0.8년) and (인내력역량 >= 74) then Class = 고성과 신입사원 100% (10/10)
성과에 따른
신입사원 분포
분류규칙
Decision Tree - Minimizing Entropy
동아리경험
인내력
역량
인내력
역량
하위
12/12
상위
2/3
하위
4/7
상위
10/10
< 0.8년 >= 0.8년
>= 74< 74>= 87< 87
고성과 신입사원
분류모형 (의사결정트리)
★ ▲상위 20% 하위 20%
118 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Case Study 신입사원 성과 분석 – 성과점수 양극단을 비교
양극단(상위20% vs. 하위20%)을 비교하니 숨겨져 있던 패턴이 보임
의사결정트리가 비선형적 패턴과 변수간 상호작용(interaction)까지 잡아냄
혁신, 실행력, 학점 모두 동시에 높은 경우
• 고성과자 비율: 92%가 됨
Innovation
실행력
학점
혁신
1 1
3
2
혁신 점수만 높은 직원을 보면
• 고성과자 비율: 50%로 높지 않음
3
2
하지만, 혁신 점수와 실행력 모두 높은 경우
• 고성과자 비율: 70%로 높아짐
상위
20%
하위
20%
119 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree – Terminology
• Root Node: 최상위 노드
• Leaf Node: 말단 노드
• Decision Node: 의사결정 노드
• Splitting: 동질적 집단으로 쪼개는 일
• Pruning: 트리가 너무 길어지지 않게 하는 일
120 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree vs. Random Forest
Trade Off Between Interpretability and Accuracy
모형의 설명력과 정확도 간 길항관계가 존재
Random ForestDecision Tree
White Box
Interpretability
Black Box
Accuracy
121 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Ensemble Model: Bagging vs. Boosting
• Ensemble: 다수의 모델이 협력하여 예측하는 방식으로
보다 정확하고(Low Bias), 꾸준한 성능을 갖는(Low
Variance) 모델을 수립하는 일
• Bagging(Bootstrap Aggregation): Resample한 데
이터로 다수의 모델 생성 후, 각각의 모델이 투표하
는 방식으로 Variance 개선; Random Forest
• Boosting: 틀린 문제들 중심으로 순차적으로 다시
푸는 방식으로 정확도 개선; XGBoost
122 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Ensemble Model: Bagging vs. Boosting
Decision Tree
• Train Set 예측정확도: 71%
• Test Set 예측정확도: 58%
Random Forest
• Train Set 예측정확도: 76%
• Test Set 예측정확도: 62%
XGBoost
• Train Set 예측정확도: 86%
• Test Set 예측정확도: 63%
Loan Default Prediction
• X축: Borrower Score; 신용도
• Y측: Payment Income Ratio; 대출상환 비율
123 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree – Titanic Dataset
Variable Definition Key
survival Survival (target) 0 = No, 1 = Yes
pclass Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd
sex Sex
Age Age in years
sibsp
# of siblings / spouses aboard the
Titanic
Sibling = brother, sister, stepbrother, stepsister
Spouse = husband, wife (mistresses and fiancés were
ignored)
parch
# of parents / children aboard the
Titanic
Parent = mother, father
Child = daughter, son, stepdaughter, stepson
ticket Ticket number
fare Passenger fare
cabin Cabin number
embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton
강의 보조자료 참고
124 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree – Titanic Dataset
confusion
matrix
Yes
(Predicted)
No
(Predicted)
Yes
(Actual)
227
True Positive
115
False Negative
No
(Actual)
28
False Positive
521
True Negative
227 + 28
227Precision(Y)
89% 227 + 115
227Recall(Y)
66%
= =
Decision Tree
• 변수 사이 interaction
• 비선형적 관계
125 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree – Confusion Matrix
Confusion
Matrix
Yes
(Predicted)
No
(Predicted)
Yes
(Actual)
227
True Positive
115
False Negative
TYPE II Error
No
(Actual)
28
False Positive
TYPE I Error
521
True Negative
227 + 115
227Recall(Y)
재현률
66%
=
227 + 115 + 28 + 521
227 + 521Accuracy
모형 정확도
84%
=
Confusion Matrix: 분류 모형의 성능을 평가하는 방법
이해하기는 쉬운데 용어가 어려움
• True Positive: 맞는 걸 맞다고 하는 것
• True Negative: 아닌 걸 아니라고 하는 것
• False Positive (I형 오류) : 아닌데 맞다고 하는 것 (거짓을 믿는 것)
• False Negative (II형 오류) : 긴데 아니다고 하는 것 (참을 거부하는 것)
227 + 28
227
Precision(Y)
정밀도
89%
=
126 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
My Two Cents
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
127 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Literacy: from Data Phobia to Data Fluency
Data Phobia
Data Fluency
128 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Literacy
데이터에서 발견한 유용한 사실을 공감할 수 있는 형식으로 표현, 이롭게 활용되도록 하는 것
129 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Learn by Doing
Let’s Find Out Mean and Median on Density Curve
밀도함수에서 평균과 중앙값 찾아봅시다.
Source: https://www.khanacademy.org/math/statistics-probability
130 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Learn by Doing
Source: https://www.khanacademy.org/math/statistics-probability
Let’s Find Out Mean and Median on Density Curve
중앙값: 면적을 분할
평균: 무게 중심
131 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Linear Thinking vs. Non-Linear Relationship (source: HBR 2017.05월호)
당신 회사에 다음과 같이 두가지 모델의 차량이 있다.
모든 자동차는 일년에 10,000 마일을 주행한다.
Q. OPEX(기름값)을 줄이기 위한 당신의 선택은?
A. 10 MPG 차량을 20 MPG 차량으로 교체
B. 20 MPG 차량을 50 MPG 차량으로 교체
Fleet A
10 MPG SUV
Fleet B
20 MPG Sedan
132 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Linear Thinking vs. Non-Linear Relationship (source: HBR 2017.05월호)
10,000 마일당 사용한 기름 (Gallons)
현재 차량 업그레이드 후 절감분
A. 1,000 (@10 MPG) 500 (@20 MPG) 500
B. 500 (@20 MPG) 200 (@50 MPG) 300
133 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
제한된‧익숙한 관점 - Simpson’s Paradox
Story, not Data, should dictate our choice
Phone 전환률이 중요한 경우
유료 전환 사용자수가 중요한 경우
Mobile App Conversion Rate: 5.00%
iOS Android
Devices 5000 10000
Conversinos 200 550
Conversion Rate 4.00%% 5.50%
iOS Android
Tablet Phone Tablet Phone
Devices 1500 3500 8000 2000
Conversinos 100 100 500 50
Conversion Rate 6.67% 2.86% 6.25% 2.50%
134 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation vs. Causation
바람이 많이 불면
나무통 가게가 돈을 번다.
O
X Y
• 교육 받아서 성과가
좋아 졌나?
• (경기 탓으로) 성과가 안
좋아서 교육 받았나?
Omitted Variable Bias Reverse Causality
X Y
• 한 업무에 오래 있어서
성과가 낮나?
• 성과가 낮아서 한자리에
오래 있었나?
Two Types of Causality Problems
135 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation을 언제 의사결정에 활용해야 하나?
관계에 대한
높은 확신
(인과관계)
데이터를 통해 [소고기와 우유]를 구매한 고객들의 자동차 사고 발생률이
[라면과 소주]를 구매한 고객보다 높은 걸 확인했다. 보험회사가 취할 행동은?
관계에 대한
낮은 확신
실>득 실<득
가. 구매패턴에 따른
보험료 차등 적용
나. 저위험군 고객들
타겟 마켓팅
Act
Don’t Act
136 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation을 언제 의사결정에 활용해야 하나?
관계에 대한
높은 확신
(인과관계)
관계에 대한
낮은 확신
실>득 실<득
가. 구매패턴에 따른
보험료 차등 적용
나. 저위험군 고객들
타겟 마켓팅
Act
Don’t Act
가. 구매패턴에 따른
보험료 차등 적용
나. 저위험군 고객들
타겟 마켓팅
데이터를 통해 [소고기와 우유]를 구매한 고객들의 자동차 사고 발생률이
[라면과 소주]를 구매한 고객보다 높은 걸 확인했다. 보험회사가 취할 행동은?
X O
137 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Regression toward the Mean
우연(Chance)의 영향으로 평균(평범함)으로의 회귀
• 왕겨(Bran) 먹은 후 배변에 걸리는 시간(Oral-Anal Transit Time)이
• 평균(48시간)보다 오래걸렸던 사람은 더 빨라졌고
• 평균(48시간)보다 짧았던 사람은 더 길어졌고
• 평균이었던 사람은 큰 변화가 없었다.
추이
평균
138 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
선형회귀분석: P-Value (Probability-Values)
P값: (선형적) 관계가 우연히 나왔을 확률
작은 P값: 데이터에서 발견한 관계가 우연이 아니다 (=통계적으로 유의미)
• 귀무 가설(H0; Null Hypothesis): X와 Y 사이에 관계가 없다고 가정
P = 0.03: 관계가 없단 가정 하에 데이터에서 발견한 관계 혹은 더
극단적인 관계가 관측될 확률 = 3%
정상적인(앞뒷면 확률이 동일한) 동전을 20번
던져 앞면이 나온 횟수에 대한 확률 분포
동전이 정상이라면 앞면이 연속 18번 이상 나
올 확률이 < 5%. 동전 정상이 아니라고 결론
139 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
선형회귀분석 (Linear Regression Analysis)
R2 = 설명한 Y 변화량 / 총 Y 변화량
= (총 Y 변화량 - 설명 못 한 Y 변화량) / 총 Y 변화량
= 1 - (설명 못 한 Y 변화량 / 총 Y 변화량 )
총 Y 변화량
설명 못한
Y 변화량
140 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Binning (Feature Engineering)
Ranking 나이 나이_bin 나이_5분위
1 20 20~23
~20th (하위 20%)
3개의 레코드
2 24 24~27
3 25 24~27
4 29 28~31
~40th
3개의 레코드
5 33 31~34
6 33 31~34
7 39 38~41
~60th
3개의 레코드
8 40 38~41
9 41 38~41
10 42 42~45
~80th
3개의 레코드
11 43 42~45
12 43 42~45
13 44 42~45
~100th (상위 20%)
3개의 레코드
14 51 50~53
15 60 58~60
Binning: 연속된 숫자형 변수를 범주형 변수로 변환하는 것
• _bin: 변수(나이)값의 범위(20~59)를 기준으로 최대한 균등하게 10개 구간을 생성
• _percentile: 레코드 갯수가 최대한 균등하게 안분되도록 5개 구간을 생성
141 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Binning: 선형회귀분석으로 비선형적 관계 찾기
Binning: 숫자형 변수를 범주형 변수로 변형
• 이익(Y)과 운송비용(X; 숫자)간에는 선형적 관계 없음
• 운송비용을 범주형 변수로 변형하면 비선형적 관계 발견
• 해석, 서로 다른 운송비용 구간별로 이익의 차이가 존재

More Related Content

What's hot

알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022YOO SE KYUN
 
R2서버정진욱
R2서버정진욱R2서버정진욱
R2서버정진욱jungjinwouk
 
GA로 게임 로그 분석하기
GA로 게임 로그 분석하기GA로 게임 로그 분석하기
GA로 게임 로그 분석하기Alan Kang
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.Yongho Ha
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다승화 양
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법Jeongsang Baek
 
그럴듯한 랜덤 생성 컨텐츠 만들기
그럴듯한 랜덤 생성 컨텐츠 만들기그럴듯한 랜덤 생성 컨텐츠 만들기
그럴듯한 랜덤 생성 컨텐츠 만들기Yongha Kim
 
조정훈, 게임 프로그래머를 위한 클래스 설계, NDC2012
조정훈, 게임 프로그래머를 위한 클래스 설계, NDC2012조정훈, 게임 프로그래머를 위한 클래스 설계, NDC2012
조정훈, 게임 프로그래머를 위한 클래스 설계, NDC2012devCAT Studio, NEXON
 
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
 
마비노기듀얼 이야기-넥슨 김동건
마비노기듀얼 이야기-넥슨 김동건마비노기듀얼 이야기-넥슨 김동건
마비노기듀얼 이야기-넥슨 김동건강 민우
 
2016 알바천국 사용성테스트 결과보고서
2016 알바천국 사용성테스트 결과보고서2016 알바천국 사용성테스트 결과보고서
2016 알바천국 사용성테스트 결과보고서Artcoon
 
ndc 2017 어쩌다 신입 - 초보 게임 개발자 2년 간의 포스트모템
ndc 2017 어쩌다 신입 - 초보 게임 개발자 2년 간의 포스트모템ndc 2017 어쩌다 신입 - 초보 게임 개발자 2년 간의 포스트모템
ndc 2017 어쩌다 신입 - 초보 게임 개발자 2년 간의 포스트모템Chaeone Son
 
임태현, 게임 서버 디자인 가이드, NDC2013
임태현, 게임 서버 디자인 가이드, NDC2013임태현, 게임 서버 디자인 가이드, NDC2013
임태현, 게임 서버 디자인 가이드, NDC2013devCAT Studio, NEXON
 
기획자의 포트폴리오는 어떻게 써야 할까
기획자의 포트폴리오는 어떻게 써야 할까기획자의 포트폴리오는 어떻게 써야 할까
기획자의 포트폴리오는 어떻게 써야 할까Han Je Sung
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
 
임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012devCAT Studio, NEXON
 
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)Dylan Ko
 
확률의 구현법
확률의 구현법확률의 구현법
확률의 구현법
 

What's hot (20)

알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022
 
R2서버정진욱
R2서버정진욱R2서버정진욱
R2서버정진욱
 
GA로 게임 로그 분석하기
GA로 게임 로그 분석하기GA로 게임 로그 분석하기
GA로 게임 로그 분석하기
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
 
그럴듯한 랜덤 생성 컨텐츠 만들기
그럴듯한 랜덤 생성 컨텐츠 만들기그럴듯한 랜덤 생성 컨텐츠 만들기
그럴듯한 랜덤 생성 컨텐츠 만들기
 
조정훈, 게임 프로그래머를 위한 클래스 설계, NDC2012
조정훈, 게임 프로그래머를 위한 클래스 설계, NDC2012조정훈, 게임 프로그래머를 위한 클래스 설계, NDC2012
조정훈, 게임 프로그래머를 위한 클래스 설계, NDC2012
 
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
 
마비노기듀얼 이야기-넥슨 김동건
마비노기듀얼 이야기-넥슨 김동건마비노기듀얼 이야기-넥슨 김동건
마비노기듀얼 이야기-넥슨 김동건
 
2016 알바천국 사용성테스트 결과보고서
2016 알바천국 사용성테스트 결과보고서2016 알바천국 사용성테스트 결과보고서
2016 알바천국 사용성테스트 결과보고서
 
ndc 2017 어쩌다 신입 - 초보 게임 개발자 2년 간의 포스트모템
ndc 2017 어쩌다 신입 - 초보 게임 개발자 2년 간의 포스트모템ndc 2017 어쩌다 신입 - 초보 게임 개발자 2년 간의 포스트모템
ndc 2017 어쩌다 신입 - 초보 게임 개발자 2년 간의 포스트모템
 
게임 디렉팅 튜토리얼
게임 디렉팅 튜토리얼게임 디렉팅 튜토리얼
게임 디렉팅 튜토리얼
 
게임 BM 이야기
게임 BM 이야기게임 BM 이야기
게임 BM 이야기
 
임태현, 게임 서버 디자인 가이드, NDC2013
임태현, 게임 서버 디자인 가이드, NDC2013임태현, 게임 서버 디자인 가이드, NDC2013
임태현, 게임 서버 디자인 가이드, NDC2013
 
기획자의 포트폴리오는 어떻게 써야 할까
기획자의 포트폴리오는 어떻게 써야 할까기획자의 포트폴리오는 어떻게 써야 할까
기획자의 포트폴리오는 어떻게 써야 할까
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
 
임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012
 
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
 
확률의 구현법
확률의 구현법확률의 구현법
확률의 구현법
 

Similar to 데이터를 보는 안목 (Data Literacy)

People Analytics.170420
People Analytics.170420People Analytics.170420
People Analytics.170420sidney yang
 
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...Jungmin Lee
 
데이터 과학자는 무슨 일을 하는가? [KAIST 2018]
데이터 과학자는 무슨 일을 하는가? [KAIST 2018]데이터 과학자는 무슨 일을 하는가? [KAIST 2018]
데이터 과학자는 무슨 일을 하는가? [KAIST 2018]Alberto Yeo
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?Yongho Ha
 
뉴스젤리 메이킹스토리 4 - '변호인'
뉴스젤리 메이킹스토리 4 - '변호인'뉴스젤리 메이킹스토리 4 - '변호인'
뉴스젤리 메이킹스토리 4 - '변호인'Newsjelly
 
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기Hui Seo
 
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅Jade Jongdae Lee
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업jrim Choi
 
탐사분석을통한작업장탐지
탐사분석을통한작업장탐지탐사분석을통한작업장탐지
탐사분석을통한작업장탐지Eun-Jo Lee
 
DLAB Big Data Issue Report 001
DLAB Big Data Issue Report 001DLAB Big Data Issue Report 001
DLAB Big Data Issue Report 001DLAB
 
빅 데이터 비즈니스 모델
빅 데이터 비즈니스 모델빅 데이터 비즈니스 모델
빅 데이터 비즈니스 모델datasciencekorea
 
글로벌인재 2.0 이야기
글로벌인재 2.0 이야기글로벌인재 2.0 이야기
글로벌인재 2.0 이야기eliot shin
 
[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료NAVER D2
 
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색 (주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색 wiseitech
 
인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20KYOYOON JUNG
 
(140118) #fitalk 2013 e-discovery trend
(140118) #fitalk   2013 e-discovery trend(140118) #fitalk   2013 e-discovery trend
(140118) #fitalk 2013 e-discovery trendINSIGHT FORENSIC
 
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수Jayoung Lim
 
[임지현]금수저 컨텐츠 메이킹스토리
[임지현]금수저 컨텐츠 메이킹스토리[임지현]금수저 컨텐츠 메이킹스토리
[임지현]금수저 컨텐츠 메이킹스토리Newsjelly
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례Core.Today
 
데이터 사이언스 소개 - 정준호
데이터 사이언스 소개 -  정준호데이터 사이언스 소개 -  정준호
데이터 사이언스 소개 - 정준호준호 정
 

Similar to 데이터를 보는 안목 (Data Literacy) (20)

People Analytics.170420
People Analytics.170420People Analytics.170420
People Analytics.170420
 
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
 
데이터 과학자는 무슨 일을 하는가? [KAIST 2018]
데이터 과학자는 무슨 일을 하는가? [KAIST 2018]데이터 과학자는 무슨 일을 하는가? [KAIST 2018]
데이터 과학자는 무슨 일을 하는가? [KAIST 2018]
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
 
뉴스젤리 메이킹스토리 4 - '변호인'
뉴스젤리 메이킹스토리 4 - '변호인'뉴스젤리 메이킹스토리 4 - '변호인'
뉴스젤리 메이킹스토리 4 - '변호인'
 
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
 
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업
 
탐사분석을통한작업장탐지
탐사분석을통한작업장탐지탐사분석을통한작업장탐지
탐사분석을통한작업장탐지
 
DLAB Big Data Issue Report 001
DLAB Big Data Issue Report 001DLAB Big Data Issue Report 001
DLAB Big Data Issue Report 001
 
빅 데이터 비즈니스 모델
빅 데이터 비즈니스 모델빅 데이터 비즈니스 모델
빅 데이터 비즈니스 모델
 
글로벌인재 2.0 이야기
글로벌인재 2.0 이야기글로벌인재 2.0 이야기
글로벌인재 2.0 이야기
 
[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료
 
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색 (주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
 
인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20
 
(140118) #fitalk 2013 e-discovery trend
(140118) #fitalk   2013 e-discovery trend(140118) #fitalk   2013 e-discovery trend
(140118) #fitalk 2013 e-discovery trend
 
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
빅데이터시대의 경영의 새로운 패러다임_카이스트 장영재교수
 
[임지현]금수저 컨텐츠 메이킹스토리
[임지현]금수저 컨텐츠 메이킹스토리[임지현]금수저 컨텐츠 메이킹스토리
[임지현]금수저 컨텐츠 메이킹스토리
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
 
데이터 사이언스 소개 - 정준호
데이터 사이언스 소개 -  정준호데이터 사이언스 소개 -  정준호
데이터 사이언스 소개 - 정준호
 

데이터를 보는 안목 (Data Literacy)

  • 1. 1 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know From Data Literacy To Data Fluency
  • 2. 2 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know • 양승준: 아이디케이스퀘어드(IDK2 - I Don’t Know What I Don’t Know) 대표 • 서비스: HEARTCOUNT, Augmented Analytics for Enterprise (SaaS) IT 빗 Algo-Trading Enterprise IT Small Data Big Data 인터넷 • 경력 1998 2000 2001 2003 2013 2015 강사 소개
  • 3. 3 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 가. 비지니스 이해 • 비지니스 요구사항 • 분석 목표 수립 Non-Obvious & Useful Pattern • 문제(질문) 정의 나. 데이터 이해 • 수집 (collection & blending) • 기술 (descriptive analysis) • 탐험 (exploratory analysis; data viz.) • 품질 (outliers & missing values) • 가공 (feature engineering) 다. Modeling 및 해석 • ML 알고리즘 선택 (설명 vs. 예측) • 모형 수립 및 성능 평가 • 모형 해석 Statistical significance Practical significance 라. 활용 (Deployment) • 보고; 인사이트 공유 • 의사결정 자동화 Technical & procedural integration • 주기적 성능 모니터링 데이터 분석 과정 (*CRISP-DM) *강의 범위
  • 4. 4 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 강의에서 다룰 내용 BASIC SKILL DATAMIND ContextTOOL 데이터 분석이 파도타기라면
  • 5. 5 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 목표: 데이터 분석, 어렵지 않다. 유용하다. 방법: Top-Down, Not Bottom-Up 목차 강의 목표, 방법, 목차 • Intro Data Problem • Module I Data Literacy • Module II Data Understanding • a - 데이터셋, 데이터의 종류, 변수 가공 • b - 데이터의 대표값과 모양을 묘사하는 법 • c - 평균의 함정, 데이터 시각화, 상관관계 & 인과관계 • Module III ML and Decision-Making • Module IV Linear Regression Analysis & Decision Tree Algorithm • My Two Cents 참고자료 *Optional
  • 6. 6 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Intro Data Problem 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 7. 7 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 문제 데이터 분석 활용해석 데이터 분석 과정 의심하고 근거를 찾고 설득하고 바꾼다 Data Problem Features & Blending Statistics ML Data Storytelling Practical Significance
  • 8. 8 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터가 답할 수 있는 질문 Frame Real-World Problem into Data Problem 데이터 분석 목표: A Successful Data Analysis 뻔하지 않은 쓸모있는 패턴 Non-Obvious & Useful Pattern 피보고자가 분석결과 수용(활용) Audience Accepts the Results
  • 9. 9 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터에 답이 없는 질문 번지수 끝자리 지붕 색상 가격(억) 3 빨강 9.5 7 주황 3.5 2 노랑 3.2 1 빨강 3.5 4 파랑 4.7 . . . Machine Learning Algorithm Model ??? Training Data Set Machine Learning is not a Magic, but a Math 주어진 데이터(번지수, 지붕 색상)가 문제(집값 예측)를 해결하는데 사람에게 소용없다면 기계에게도 마찬가지 질서나 규칙이 존재하는 것 같은데 잘 모르겠는 경우 기계가 빠르고 다양한 관점으로 냉정하게 패턴을 찾아보게 하자.
  • 10. 10 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 질문과 관련성이 높은 변수(Features) X1 Ripeness X2 # of Seeds X3 Weight (g) X4 Color Y Fruit Type 0.56 5 320 Orange Orange 0.61 6 280 Red Apple Feature: Y(궁금한 것)를 설명하거나 분류(예측)하는데 유용한 속성 좋은 Feature를 발굴하는 것이 중요함.
  • 11. 11 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 더 많은 종류의 변수(High Dimensionality) Features(Dimensions)의 수가 증가할수록 모형의 정확도는 향상 되지만 너무 많아지면 모형 해석이 어려워지고, 과적합(overfitting) 위험 증가 1D: 분류하기 어려움 2D: 더 잘 분류됨 3D: 아주 잘 분류됨
  • 12. 12 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 큰 데이터 Smaller Data [Asset; 독점] Bigger Data [Liability] 개별 레코드에 담긴 패턴(효과/시그널)이 클수록 패턴 발견을 위해 적은 데이터가 필요
  • 13. 13 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터만으로는 똑 부러지게 답할 수 없는 질문 폭력적 게임을 하면 더 폭력적이 되나? ① 개념(Concept)을 정량화하는 일의 주관성 • 폭력적 게임을 정의할 수 있나? • 현실에서의 폭력성을 어떻게 계량화하나? ② 인과성을 증명할 수 있나? • 공격적 성향의 아이가 폭력적 게임에 더 끌림? • 통계적 상관관계로 인과성에 대해 주장할 수 없음 • 숫자로 환원된 분석 결과는 복잡한 진실에 대한 단면적 요약 폭력적 게임 폭력적인 아이
  • 14. 14 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 원하는 답이 나올 때까지 데이터 고문하기: p-hacking 민주당이 집권하면 경기가 더 좋아지나?
  • 15. 15 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know P-Value (Probability-Values) P값: (선형적) 관계가 우연히 나왔을 확률 작은 P값: 데이터에서 발견한 관계가 우연이 아니다 (=통계적으로 유의미) • 귀무 가설(H0; Null Hypothesis): [공직에 있는 민주당 정 치인의 숫자]와 [경기지표] 사이에 선형적 관계가 없다. • P = 0.05: 관계가 없단 가정 하에 데이터에서 발견한 관계 혹은 더 강한 관계가 관측될 확률 = 5% • 관계가 없을 때 해당 관계가 우연히 관찰될 확률 • 확률이 5%보다 작으면 관계가 있다고 결론
  • 16. 16 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 원하는 답이 나올 때까지 데이터 고문하기: p-hacking 민주당이 집권하면 경기가 더 좋아지나?
  • 17. 17 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터에 질문을 하기 전에 어떤 호텔에서 잘까? Data-Driven Decision Making Default Decision Data-Inspired Decision Data-Driven Decision 항상 자던 곳 호텔 리뷰 사이트 서핑하다가 결국 항상 자던 곳으로 결정 데이터에 기반한 의사결정 기준 수립 • 평점 4.5 이상 • 리뷰 수 30개 이상 • 9만원 넘지 않을 것 • …
  • 18. 18 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 좋은 질문(문제 정의) A. 작년 여자 영업사원의 평균 매출이 남자 영업사원의 80% 정도였다. B. 작년에 신규 출시한 탈모 치료제의 경우 연구소 출신 여자 영업사원의 매출이 평균 매출의 350%에 달했다. 좋은 분석 결과 = 정보량이 큼(뻔하지 않음) • 뻔한 질문(남녀 직원 간 매출 차이?)에 대한 답변은 정보량도 낮음 • 엔트로피(불확실성)가 높은 불확실성이 큰 사안에 대한 질문(탈모 치료 제를 많이 판매한 직원들의 공통된 특성은?)에 대한 답변은 정보량이 큼 A. 내일 아침에 동쪽에서 해가 뜰 것이다. = 정보량 빵임 정보 = 특정 질문에 대한 답변
  • 19. 19 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 좋은 질문(문제 정의) Good Data Problem • 작고 구체적인, 덜 뻔한(엔트로피가 큰) 질문 • 이미 확보하고 있거나 쉽게 수집 가능한 데이터에서 답을 찾을 수 있는 문제 • 신뢰할 수 있고 익숙한 데이터에서 시작 • 확보 가능한 데이터에 대한 이해 없이 문제부터 정하면 필요한 데이터를 추 가로 수집, 준비하느라 프로젝트 일정이 지연되거나 나쁜 분석 결과가 나오 기 쉬움 • 바람직한 답변이 없고 너무 민감하지는 않은 문제 • 바람직한 답변이 이미 마음 속이나 조직 내에 정해져 있는 경우 • 특정한 분석 결과가 조직 내에서 너무 큰 반향과 혼돈을 불러올 수 있다면 분 석 및 결과 해석 과정에서 객관성이 흔들릴 수 있음 • 본인 문제(내 호기심) 말고 비즈니스 문제 • Business Top-Line(매출, 이익, 고객수, NPS, 생산성 등) Alignment
  • 20. 20 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터에서 유용한 답을 찾을 수 있는 문제 856명에게 전화걸어 르완다 전체 지역별 소득수준 분포 확인하기 빅데이터와 스몰 데이터의 결합 맹목적으로 쌓인 빅데이터 + 목적을 갖고 수집한 스몰 데이터 Ready-made(Exhaust) Data + Custom-made(Captured) Data CDR(가입자 통화내역) + Survey(소득수준 전화설문) Data Science + Social Science
  • 21. 21 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터에서 유용한 답을 찾을 수 있는 문제 – cont’d CDR(백오십만명 통화 내역) + Survey(856명 설문으로 소득수준 조사) → 통화내역(X)만으로 소득수준(Y)을 예측하는 모형 생성 (서베이로 확인한) 실제 소득수준과 (통화 내역만으로) 예측된 소득수준
  • 22. 22 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know How to Make Audience Accepts the Result Data Storytelling: 데이터 기반 서사 전주의 처리 (Pre-attentive Processing) 주의를 기울여 복잡한 시각 정보를 처리하기 전에 빠르게 시각 정보를 처리하는 무의식적 과정
  • 23. 23 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization – Pre-attentive Processing 전주의 처리 (Pre-attentive Processing) 핵심 정보가 두드러지도록 적절히 강조 종잡을 수 없는 시선의 흐름 차트를 볼 때 사람의 눈동자가 어떤 순서로 어디로 향할지 알 수 없음
  • 24. 24 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Storytelling – Before and After Before After: Call to Action Data Storytelling: 당신의 보고는 *핍진성이 있는가? *핍진성: 텍스트가 신뢰할 만하고 개연성이 있다고 독자에게 납득시키는 정도
  • 25. 25 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 1단계 현실 객관적 이해 • 정량적으로 검증이 필요한 문제 정의 • 기존 믿음 검증 • 새로운 사실 확인 • 그릇된 통념 파괴 • 새로운 통찰의 공유 2단계 비즈니스 문제를 해결 • Business Relevancy • 본인 부서 말고 비지니스 문제 정의 • Practical Significance • 현실 적용이 가능한 유용한 패턴 찾기 • Change Management • Success Metrics 지속적 모니터링 문제 정의 패턴 발견 패턴 활용 가치의 발견 가치의 완성 본인 부서 Impact → Business Impact 기업 내 데이터 분석 목표
  • 26. 26 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module I Data Literacy 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 27. 27 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know From Literacy to Data Literacy Data Literacy: 추상에서 구체로의 이행 • 관습적 믿음/직관(Literacy)에 대한 회의에서 출발 • 데이터를 통해 세상을 보는 안목: 날것의 기록에서 패턴을 찾아 세상에 대한 더 좋은(실용적인) 설명을 찾는 일 추상 · 개념 · 관념의 탄생 “사냥해서 짐승을 잡았다. 사냥의 꽃은 들소 잡기” 들소보다 물고기를 잡는 게 1.7배 더 생산적 사냥횟수 마릿수 kg kg/사냥 들소 25 2 300 12kg 물고기 35 900 700 20kg 현실 Literacy Data Literacy 들소: 0마리 물고기: 35마리 들소: 0마리 물고기: 65마리 들소: 0마리 물고기: 71마리 물고기: 15마리 들소: 1마리 … 현실의 기록직접 본 것 · 한 것
  • 28. 28 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Literacy: Fixing Last Mile Problem Last Mile Problem 기업이 데이터에서 쓸모있는 패턴을 발견하여 더 좋은 의사결정에 활용하지 못하는 문제 Last Mile 원인 • 분석 부재: 엑셀보고; 대쉬보드 • 분석 분리: 현업과 분석가의 분리; [질문→분석→활용] 선순환 X 해결책 • 현업 스스로 데이터에 질문, 패턴 발견‧해석‧활용 • Data Literacy + Right Tool 질문 데이터 분석 활용해석
  • 29. 29 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data: A New Language of Business Data Literacy 데이터 안목 도메인 지식 활용 데이터에 질문, 분석결과를 실용적으로 활용 Right Tool 닭잡는 칼 데이터의 특성 분석 역량‧목적에 맞는 도구 Literacy Numeracy Data Literacy Reporting Insight Discovery • 엑셀과 씨름 • 과거집계‧시사점X • 질문‧해석‧활용에 집중 Reading • 텍스트 해석 현업이 똑똑한 데이터 소비자가 되려면
  • 30. 30 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Literacy(Fluency) Framework 데이터 분석은 생산자와 소비자 간의 사회적 · 상호적 활동 분석 결과를 소비하는 사람이 있어야 분석하는 사람이 존재할 수 있고 좋은 분석을 생산하는 사람이 있어야 또 결과를 소비(활용)하는 사람이 존재
  • 31. 31 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Our First Data Literacy: BIMODAL DISTRIBUTION (쌍봉분포) African Seedcracker 자연선택에 의해 작고 부드러운 씨앗을 먹는 작은 부리의 새와 크고 단단한 씨앗을 먹는 큰 부리의 새로 나뉨
  • 32. 32 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Our First Data Literacy: One Hump vs. Two Humps UNIMODAL(단봉) BIMODAL(쌍봉) 서로 다른 특성을 갖는 두개의 집단 이 표본에 존재
  • 33. 33 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data → It’s Funny → Data Literacy -> Insight 1962년과 1979년에 태어난 남자들은 왜 Mets구단 팬이 되었나? Hint: 1969년과 1986년에 모두 8세가 되었음 1969년 8세 출생년도에 따른 NY Mets 팬들 비율 [대상: 뉴욕 거주하는 남자 야구 팬들] 1986년 8세
  • 34. 34 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data → It’s Funny → Data Literacy -> Insight Reality • Reality: 복잡계; 실제 작동방식 100% 알 수 없음 • Belief: 세상의 작동방식에 대한 최선의(만족스러운) 설명 • Data: 세상의 작동방식에 대한 기록; 세상의 샘플링 • Insight: 세상에 대한 더 나은 설명, 새로운 해석 Belief Data Insight [or Inspiration?] 희한하네… 보따리 장수 매출 매출 매출 데이터를 읽을 수 있어야 새로운 해석도 가능
  • 35. 35 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module II-a Data Understanding 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 36. 36 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know • 궁금한 것(Y)을 데이터(X)로 더 잘 설명(예측) • X를 바꾸어서 Y를 개선하기 위해서 분석하는 이유 • 데이터의 특성과 모양 요약 (기술 분석) • 독립변수(통제가능; X)와 종속변수(Y) 간 가설 검증 통계 • 데이터 학습, Feature(X)로 Target(Y)을 예측‧설명 • 의사결정 자동화 vs. 더 좋은 의사결정 기계학습 • 성과지표(Y)를 익숙한 관점(범주; X)으로 요약 • 과거에 대한 집계 엑셀 (대쉬보드) • X와 Y를 점, 선, 크기, 색상으로 표현 (탐험분석) • X와 Y 사이의 패턴(관계) 시각적 발견; 가설 수립 데이터 시각화 데이터 분석 방법 (X와 Y)
  • 37. 37 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Techniques 데이터 분석 주요기술  DESCRIBE (기술 분석) - 엑셀 • 데이터 특성과 모양을 (수치적으로) 요약  EXPLORE (탐험적 분석) - 데이터 시각화 도구 • 가설수립‧데이터 감 잡기 위해 패턴 탐험  PREDICT/INFER (예측‧추론 분석) - 통계/ML • 패턴(모형)을 통해 주어진 문제를 예측‧설명 과거 미래 Looking Backward Looking Forward
  • 38. 38 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Maturity Model Source: Booz Allen Hamilton 데이터 수집 → 데이터 기술(묘사) → 패턴 발견 → 예측 → 활용 우측으로 갈수록 성숙해진다기보다는 자기에게 필요한 단계를 잘 하면 됨
  • 39. 39 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 통계 · 기계학습 · 인공지능
  • 40. 40 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know EDA Source: Booz Allen Hamilton EDA(Exploratory Data Analysis) = DESCRIBE (기술 분석) + EXPLORE (탐험 분석) • inspect data structure • data quality • summarize • visualize data • hypothesis generation • != modeling EDA, 데이터와 함께 떠나는 창의적 여행
  • 41. 41 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Descriptive Data Analysis Description 요약 Comparison 비교 Relationship 관계 데이터에 대해 사실적으로 묘사하는 법 변수의 대표값과 모양이 어떻나? 개별 변수(Y)의 통계값과 분포 확인 변수값의 차이가 어디서 얼마나 나나? 서로 다른 범주(X) 간 Y의 특성‧모양 비교 변수(Y)의 변화와 관계를 갖는 다른 변수(X)는? X와 Y 사이의 상관관계 파악
  • 42. 42 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Analysis-Ready Dataset 분석하기 좋은 데이터셋 • 국가별로 1999/2000년에 결핵으로 사망한 환자수(Cases)와 전체인구 (Population)를 정리한 데이터셋들 • 국가별 연도별 인구 10,000명당 결핵 사망률을 계산하기 가장 좋은 데이터는? NOT SO GREAT GREAT 1 2 3 4 tabular data rectangular data data frame data table tidy dataset
  • 43. 43 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Rectangular Dataset and Key Terms 분석하기 좋은 데이터셋 • Dataset: 값(Values)들의 집합으로 숫자 또는 범주로 구성 • Values: 변수(Variable)와 관측점(Observation)으로 구성 • Variable: 동일한 속성(나이, 매출)에 대한 측정값들로 행(Column)을 구성 • Observation: 동일한 대상(사람, 매장)에 대한 측정값들로 열(Row)를 구성 X features independent variables input (variables) predictor attribute Y target/label dependent variables output (variable) response record sample Instance case
  • 44. 44 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Raw vs. Aggregated Dataset Q. 2001년 남녀 구매 비율은? 추가 질문 Q. 2001년 Regular Coffee 구매한 여자 고객수? Q. 남자 고객이 선호하는 커피 종류는? Raw Data: Zoom-in(새로운 질문) 가능 Raw Data Aggregated Data
  • 45. 45 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Non-Rectangular Data Structures TIME-SERIES SPATIAL GRAPH • 동일 변수 연속적 기록 • Seasonality; Event • Object에 대한 위치좌표 • Location Analytics; Geo-Statistics • Physical, Social, Abstract 관계 • Social Graph From To Weight Russia China 10 USA Korea 7 Rectangular 구조가 아닌 데이터도 있음; 각 구조에 맞는 별도의 처리 및 분석 기법이 존재
  • 46. 46 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Features Engineering Feature Engineering: From Raw Variable to Derived Variable Y를 더 잘 설명하거나 분류(예측)할 수 있도록 기존 변수를 창의적으로 가공하여 새로운 변수를 만드는 일 당뇨병 위험도와 상관관계가 높은 변수 • 같은 몸무게라도 비만도는 키에 좌우됨 • 비만도를 더 잘 반영할 수 있는(키와 몸무게의 상호작 용을 잡아낼 수 있는) 새로운 변수 가공 • *BMI(Body Mass Index) = kg/m2 *발명한 사람의 이름을 따서 Quetelet Index라고도 함
  • 47. 47 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Type 숫자형(Quantitative)과 범주형(Qualitative) 분석: 숫자와 숫자 사이의 연관성, 숫자의 차이를 가져오는 범주를 발견하는 것 • 숫자형 자료는 이산형(discrete)이나 연속형(continuous)으로 나뉨 • 범주형 자료는 명목형(nominal)이나 순서형(ordinal)으로 나뉨
  • 48. 48 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 숫자형 변수를 나누는 또 다른 기준: Interval vs. Ratio Q. 나누거나(Ratio) 곱해도 말이 되는 것은? 온도 vs. 몸무게 Interval (구간 자료) 10도 + 10도 = 20도 20도 / 10도 = 2배? Ratio (비율 자료) 50kg + 50kg = 100kg 100kg / 50kg = 2배? 절대적 원점(True Zero)이 있으면 Ratio, 없으면 Interval 시간 = 00:00 : 시간이 없다(빵시)? 나이 = 0살 : 나이가 없다(빵살)
  • 49. 49 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Type에 따른 시각화 방법 변수 유형에 따라 분석 방법과 효과적 시각화 방법이 달라짐 숫자 x 숫자 = Scatterplot Overplotting (점이 겹침)! Alcohol(%): 와인 알코올 함량, Quality: 소비자가 매긴 점수 소비자 만족도를 범주로 처리 Boxplotting (분포 시각화)! Jittering 기법으로 Noise 추가 Jittering (인위적으로 퍼지게)! 순서형(Ordinal) 변수는 범주(Category)로 다루는 게 좋다! 소비자만족도 소비자만족도 소비자 만족도알코올 함유량 알코올 함유량 알코올함유량
  • 50. 50 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Type에 따른 시각화 방법 순서형(Ordinal) 변수는 범주(Category)로 다루는 게 좋다. X를 숫자로 처리 X와 Y 간 상관관계(0.06)가 매우 약함 Y: 리더십 점수, X: 평가 점수(등급) X를 범주로 처리 서로 다른 범주(점수)간 Y값 차이가 존재함
  • 51. 51 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module II-b Data Understanding 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 52. 52 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Description (Data Profiling) Central Tendency 중심 경향 • 평균(Mean) • 중앙값(Median) • 최빈값(Mode) Dispersion 퍼진 정도 • 범위(Range) • 분산(Variance) • 표준편차(SD) • Percentile Shape of Distribution 퍼진 모양(대칭) • 왜도 (Skewness) 데이터의 특성과 모양을 요약하여 기술하는 방법 양(+)의 왜도음(-)의 왜도
  • 53. 53 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know The Philosophy of Statistics [19th Century] 초기의 통계학 - 결정론적 세계관에 바탕을 둔 이데아/본질의 추구 평균값이 대상이 보유한 이상적인 속성이고(Idealized Mean) Variation(차이)은 제거해야 할 오류라는 생각이 지배적이었음 Species(종; 種): An Ideal Type
  • 54. 54 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Darwin and Statistical Population [Late 19th~Early 20th Century] 다윈의 등장: Type/Essence(본질) → Variation(차이) 차이(변이)의 점진적 누적에 의해 진화가 이루어진다는 발견 개별 개체에 존재하는 의미있는 차이(변이)에 관심을 갖기 시작
  • 55. 55 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Vital Statistics vs. Mathematical Statistics Average: 집단을 요약 → Variation: 개인(개체)들에 존재하는 차이에 관심 인구통계 평균, 비율 수리통계 분산, 관계, 추론 확률, 유의성
  • 56. 56 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Average Man → Ranked Man Quetelet: 평균적 인간의 탄생 → Galton: 서열화된 인간의 탄생 Average Man Ranked Man
  • 57. 57 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 평균의 문제 – One Dimensional Thinking Which Man Is Bigger?
  • 58. 58 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 평균의 문제 – One Dimensional Thinking Which Man Is Bigger? JAGGED SIZE PROFILE: 사람의 SIZE(크기)는 서로 상관관계가 약한 다양한 차원(신장, 체중, 가슴둘레 등)으로 구성되어 있음
  • 59. 59 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 평균의 문제 - Data Aggregation Average Man Galton’s Composite Portraits 골튼의 합성 초상화 The Problems with Average: Not Robust! 범죄자 사진을 자꾸 포갤수록 범죄자의 특징이 평범함에 묻힌다.
  • 60. 60 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 평균의 문제 - Linear Thinking vs. Non-Linear Relationship 잠재 고객 세그먼트 환경 관심도 평균 점수 A 4 B 3 A = [4, 4, 4, 4, 4, 4, 4, 4] B = [1, 1, 1, 1, 5, 5, 5, 5] 친환경 제품을 출시하려 한다. 어떤 세그먼트에 프로모션할까? 잠재 고객 세그먼트 환경 관심도 가중 평균 점수 A 4 B 5.5 A = [4, 4, 4, 4, 4, 4, 4, 4] B = [1, 1, 1, 1, 5, 5, 5, 5, 5, 5, 5, 5] 5점에 가중치 2를 부여
  • 61. 61 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 3 Types of Average: Mean, Median, Mode 병-1 병-2 병-3 병-4 병-5 병-6 병-7 병-8 병-9 13 18 13 15 13 16 14 21 13 Q. 어떤 값을 대표값으로 선택할까? A. 평균 (13+18+13+14+13+16+14+21+13) ÷ 9 = 15 B. 중앙값 13, 13, 13, 13, 14, 14, 16, 18, 21 C. 최빈값 13 (3번 측정; 다른 값들은 1번씩만 측정됨) D. 선호값 16 (병-6) 성벽의 벽돌 갯수를 병사들이 측정한 값들
  • 62. 62 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Histogram vs. Frequency Distribution Table 계급 (0,3] (3,6] (6,9] (9,12] (12,15] (15,18] (18,21] (21,24] (24,27] (27,30] (30,33] (33,36] (36,39] (39,42] (42,45] (45,48] 빈도 26.0 17.0 15.0 32.0 34.0 51.0 55.0 56.0 55.0 60.0 58.0 43.0 18.0 14.0 5.0 2.0 누적 빈도 26.0 43.0 58.0 90.0 124.0 175.0 230.0 286.0 341.0 401.0 459.0 502.0 520.0 534.0 539.0 541.0 비율 4.8 3.1 2.8 5.9 6.3 9.4 10.2 10.4 10.2 11.1 10.7 7.9 3.3 2.6 0.9 0.4 누적 비율 4.8 7.9 10.7 16.6 22.9 32.3 42.5 52.9 63.1 74.2 84.9 92.8 96.1 98.7 99.6 100.0 히스토그램과 도수분포표
  • 63. 63 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Histogram vs. Density Plot Probability Density Curve Histogram – Bin Size: 1시간 Histogram – Bin Size: 4시간1 2 3 1 2 3  히스토그램: 도수(빈도)의 분포[도수분포표] 를 차트로 표현한 것  계급: X축에 표현된 변수의 구간[4시간]  X축 변수 구간의 크기(Bin Size)를 4시간에 서 1시간으로 조정하였음  확률밀도: X가 연속형 변수일 경우 X값과 이에 대응하는 확률을 나타낸 그래프  좌측에서 X가 10~20시간 사이의 값을 가 질 확률은 해당 구간의 면적과 동일함
  • 64. 64 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Histogram vs. Density Plot: 서로 다른 두 집단의 분포를 비교 Histogram: 두 그룹의 분포의 차이 비교 Density Plot: 두 그룹의 분포의 차이 비교
  • 65. 65 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Larger Variation, Greater Sampling Error 변화의 폭 ↗ 샘플 데이터 신뢰도 ↘ 평균값에 대한 확신↘ A B Q. 고객들(모집단)의 지출금액 분포, A와 B 중, 신규 캠페인의 효과를 주장(일반화)하기에 더 좋은 것은? 캠페인 고객수 평균 지출 신규 30 10,000 기존 1,500 8,000
  • 66. 66 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know World Cup Match between Brazil vs. Croatia
  • 67. 67 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Percentile Score [정렬된 점수] Percentile Rank Quartile [사분위] 29 8th Q1, 1사분위 (최하위 25%) 32 17th 38 25th 41 33th Q2, 2사분위 (차하위 25%) 53 42th 54 50th 55 58th Q3, 3사분위 (차상위 25%) 74 67th 93 75th 99 83th Q4, 4사분위 (최상위 25%) 134 92th 209 100th Percentile: 전체 관측값들의 분포를 고려했을 때 특정값의 상대적 위치 내 키가 185cm로 20명 중 네번째로 키가 크다면 185cm = 80th Percentile 내 밑으로 80%가 있다!
  • 68. 68 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Percentile 활용하여 주성분(Principal Component) 찾기 비타민, 지방, 섬유질 변수로 채소와 육류 분류하기 • PCA(Principal Component Analysis): 데이터 분류를 쉽게 하는(=데이터가 최대한 퍼지게 하는) 주성분(Principal Component)을 찾는 일. • “Vitamin C – Fat”: Percentile 값으로 바꾸면 해당 변수를 정규화하는 효과 가 있어서 서로 다른 단위를 갖는 변 수들 간 연산이 가능해짐 비타민 C만으로 분류한 경우 육류 아이템이 한 곳에 와글와글 “비타민 C – 지방” 육류가 아래로 퍼지게 됨
  • 69. 69 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Finding Secret Feature Variable Percentile Height 56% Weight 61% Pedigree 70% Left Ventricle 99.61% Percentile과 남들은 모르는 좋은 Feature로 돈 번 사례 gait analysis American Pharoah: 2015년도에 37년 만에 Triple Crown 달성 (삼관마) Jeff Seder: “Sell your house. But, do NOT sell this horse.”
  • 70. 70 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Summary Statistics and Visualization 1 2 33
  • 71. 71 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Distribution (boxplot) Box-and-whiskers plot (예시) 2천 4천 6천 8천 소 득 분 포 중앙값 Median *IQR 1억 Outlier  중앙값(median) 파악 최소값 (Lower whisker) Box-and-whiskers plot 해석 대칭성 및 분포 특이값(Outlier) 최대값 (Upper whisker)  *IQR(Inter Quartile Range)의 1.5배 이상 벗어나 있는 값들을 Outlier로 정의  대칭성(symmetry): 최대값과 최소값까지 의 수염 길이 비교 중심 경향 Q1 Q3 1 2 3 1 2 3 2 3
  • 72. 72 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Distribution (boxplot) Q. 아마 아닐꺼야(Probably Not)에 대해 a. Range를 구해보세요. b. 중앙값을 구해보세요. c. 평균을 가늠해보세요. d. 1Q(하위 25%)의 답변의 범위를 구해 보세요. e. 응답자의 75%는 최소 몇%(X축) 이 상으로 답변했나요? Q. 분산(퍼진 정도)이 가장 큰(작은) Phrase는 무언가요? Q. 음(-)의 왜도(비대칭성)가 가장 큰 Phrase는 무엇인가요?
  • 73. 73 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Description • 평균: 요약값을 사용하여 서로 다른 범주들의 순위를 비교 • 분포: 퍼진 정도를 관찰하여, 개별 범주 내 차이를 이해 Bar Chart (평균) Box Plot (분포) Density Plot (분포)
  • 74. 74 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module II-c Data Understanding 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 75. 75 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 제한된‧익숙한 관점 - Simpson’s Paradox 지원자 수 합격자 수 합격률 여자 1,000 150 15% 남자 1,000 250 25% 지원자 수 합격자 수 합격률 여자 800 80 10% 남자 200 10 5% 지원자 수 합격자 수 합격률 여자 200 70 35% 남자 800 240 30% 문과대 합결률 이공대 합격률 심슨의 역설 뭉뚱그린 수치는 현실을 왜곡할 수 있음 쪼개보는 일(Segmentation; Drill-Down; Dimensions)의 중요성 남녀 지원자 합격률
  • 76. 76 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 제한된‧익숙한 관점 - Simpson’s Paradox 새로운 관점(Dimension) 연봉과 까칠함과의 관계 → 직급별 연봉과 까칠함과의 관계
  • 77. 77 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know The Curse of Dimensionality 차원의 저주 “If you test enough things, just by random chance, one of them will be statistically significant.” S&P 지수 Coin 1 Coin 2 Coin 3 Coin 4 Coin 5 ….. ….. Coin 1217 ….. ….. Coin 1999 Coin 2000 1 상승 앞 뒤 앞 앞 뒤 앞 앞 뒤 2 하락 뒤 뒤 앞 앞 뒤 앞 뒤 뒤 3 상승 뒤 앞 뒤 앞 뒤 앞 뒤 앞 4 상승 앞 뒤 앞 뒤 뒤 앞 앞 뒤 5 하락 뒤 앞 뒤 앞 앞 뒤 뒤 뒤 … 248 상승 앞 뒤 뒤 뒤 앞 앞 뒤 뒤 249 하락 뒤 앞 뒤 뒤 뒤 뒤 뒤 앞 250 하락 앞 뒤 앞 앞 앞 뒤 뒤 뒤 Lucky Coin #1217 • 1년 동안 S&P 상승/하락과 2,000개 동전을 던진 후 결과를 기록 • 95%의 정확도로 앞면이면 S&P지수 상승, 뒷면이면 하락했음
  • 78. 78 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization 101 – 1차원 Bar Chart • 서로 다른 범주(사업부)간 평균값(매출 평균)의 차이를 비교하는데 효과적 • 시계열에 따른 변화를 표현하기에는 부적절 1 Dimension Pie Chart • 서로 다른 범주가 전체(매출 총합)에서 차지하는 비율을 대비하는데 효과적 • 범주의 갯수가 많거나 비율이 비슷한 경우 부적절
  • 79. 79 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization 101 – 2차원 Line Chart • 시계열에 따른 추세를 보는데 효과적 • 너무 많은 범주(4~5개 이상)가 함께 표현되는 경우 헤깔림 2 Dimensions Stacked Area Chart • 시간의 흐름에 따른 개별 범주의 전체 크기 내에서의 상대적 크기 변화를 표현하는데 효과적 • 범주가 너무 많으면 역시 헤깔림 Scatter Plot • 두개의 숫자형 변수 간 관계를 파악하는데 효과적 • Outlier를 발견하는데도 효과적 • 원 크기/색상으로 4 Dimensions 표현
  • 80. 80 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization 101 – 계층적 데이터 Hierarchical Data Treemap Sunburst
  • 81. 81 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization 101 – 기본 문법 숙지 데이터를 통해 알(리)고 싶은 것을 잘 표현할 방법이 무언가?
  • 82. 82 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Florence Nightingale, the Lady with the Lamp • 크림 전쟁에 여성 최초로 영국군 보건위생장교로 참여 • 표준화되지 않은 질병 분류체계; 주먹구구 사망 데이터 관리 • 전사자 데이터 정리 후, 보고 방식 고민 (테이블? 파이차트?) • Data Storytelling: 파이차트를 변형하여 데이터를 시각화 “신의 생각을 이해하기 위해 우리는 통계를 공부해야 해요. 통계를 통해 신이 목적하신 바를 측정할 수 있다구요.” • 파랑: 예방/치료가능한 질병 • 빨강: 전쟁 중 발생한 상처 • 검정: 나머지
  • 83. 83 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization Visual Affirmation 검증된 사실을 주장/보고 Visual Confirmation 가설을 시각적으로 검증 Visual Exploration 뭐라도 하나 걸렸으면 Data: A New Language of Business Data Viz: A Medium of Data Communication 목적에 맞는 데이터 시각화 방법 선택
  • 84. 84 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation and Scatter Plot (source: WHY) 1 2 3 기온(X)과 상인수(Y) 커피음용량(X)과 시험점수(Y) r=0.96 r=-0.96 r=0.78 r=-0.78 r=0.0 r=0.0
  • 85. 85 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Uncorrelated Doesn’t Mean Unrelated (source: how not to be wrong) 진보 관심 보수 무관심 “정치적 관심도”와 “정칙적 성향(보수-진보)” 간 관계 해석
  • 86. 86 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터 요약 & 시각화 동일한 평균, 분산, 상관계수 시각화를 통해 현실의 복잡성이 드러남 I II III IV X Y X Y X Y X Y 평균 9 7.5 9 7.5 9 7.5 9 7.5 분산 11 4.1 11 4.1 11 4.1 11 4.1 상관계수 0.82 0.82 0.82 0.82 평균: 평균적 이해; 시각화: 차이에 대한 이해
  • 87. 87 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization - Seeing is Believing 통계치와 시각화 결과를 함께 확인
  • 88. 88 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Viz: Understand and Explain Data Noise? 이상한 애? vs. 특별한 애? Signal 패턴, 일반적 경향
  • 89. 89 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation vs. Causation Spurious Correlation (허위상관) 마요네즈 덜 먹으면 이혼을 덜 할까? 참고) http://www.tylervigen.com/spurious-correlations
  • 90. 90 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation vs. Causation Omitted Variable Bias O X Y 물가 인상 교통비 인상 백반 가격 인상 Causation Causation Correlation교통비 인상 백반 가격 인상 Correlation • Correlation: X의 변화로 Y의 변화 예측 가능 • Causation: X에 개입해서 Y를 바꿀 수 있음 대표적인 오류 Correlation helps you predict the future Causality lets you change the future
  • 91. 91 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 참고) When Knowing Correlation is Enough Correlation을 의사결정에 언제 어떻게 활용하나? 수영장 장난감 광고를 하려고 하는데 누가 수영장을 소유했는지 모름 Causation Correlation 부자 수영장 소유 수영장 장난감 구매 전기 사용 Targeted Ad 전기회사와 제휴, 전기요금 사용량이 큰 가정에 광고 집행
  • 92. 92 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Secret to Success: Finding the Right Angle Home Run MLB DatasetDemo with Analysts pinpointed the range of 25-35 degrees as the sweet spot for home runs, when paired with an exit velocity — a measure of the speed of the ball off the bat — of 95 mph or greater. Fly Ball Ground Ball
  • 93. 93 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module III Machine Learning and Enterprise Decision-Making 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 94. 94 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Techniques 데이터 분석 주요기술  DESCRIBE (기술 분석) - 엑셀, 대쉬보드 • 데이터 특성과 모양을 요약  EXPLORE (탐험적 분석) - 데이터 시각화 도구 • 가설수립‧데이터 감 잡기 위해 패턴 탐험  PREDICT/INFER (예측‧추론 분석) - 통계/ML • 패턴(모형)을 통해 주어진 문제를 예측‧설명 과거 미래 Looking Backward Looking Forward
  • 95. 95 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Machine Learning and Decision Making Machine Learning: Decision Making Technology • 인공지능의 한 분야로 알고리즘에 아주 제한된 지시와 데이터를 제공, 통계적 학습을 통해 발견한 패턴을, 의사결정에 활용하는 기술 • 폴라니의 역설: 할 줄은 아는데 어떻게 하는지 말 못함 (언어의 해상도가 인식의 해상도보다 낮다) • From Instruction to Examples: 기계에게 언어로 기술(codify)하기 힘든 것을 정답(Label)을 알고 있는 과거 데이터를 제공하여 학습하도록 함 AI Machine Learning Linear Regression Decision Tree Deep Learning Random Forest Robotics NLP,..... White Box Decision Making Augmentation Black Box Decision Making Automation
  • 96. 96 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Machine Learning Supervised Machine Learning (지도 학습): X → Y Mapping 예측하고 싶은 문제와 관련하여 정답을 알고 있는 데이터가 충분히 있는 경우 X로부터 Y를 유추하는 패턴을 찾는 일 X (Input; Feature) Y (Output; Label) APPLICATION Voice recording Transcript Speech recognition Transaction records Fraudulent (yes/no) Fraud detection Emails Spam (yes/no) Spam filtering Ad + User Profile Click (yes/no) Personalized AD Images Dog or Cat Image recognition Korean English Language Translation
  • 97. 97 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Supervised Machine Learning Supervised Machine Learning (지도 학습) 모형이 투명한 경우(White Box), 설명‧예측 둘 다 활용 가능 X1 X2 X3 Y 겨울 강수량 수확철 강수량 평균 온도 와인 가격 13 35 35 9.5 22 25 25 3.5 25 21 21 3.2 11 18 18 3.5 47 45 45 4.7 . . . . 예측 12.3$ ML Algo Model 겨울 강수량 수확철 강수량 평균 온도 와인 가격 35 25 21 ? Training Data Set Ashenfelter’s Wine Formula Price = 12 + 0.001 겨울강수량 + 0.06 평 균온도 – 0.004 수확철강수량 설명 선형회귀 알고리즘 Y = a + b X1 + c X2 + d X3
  • 98. 98 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know White Box vs. Black Box 35 25 21 겨울강수량 온도 수확강수량 Input 값 3.5 Output 값 0.35 0.26 5.1 35 25 21 겨울강수량 온도 수확강수량 Input 값 4.2 Output 값 0.025 0.62 2.1 35 25 21 겨울강수량 온도 수확강수량 Input 값 7.1 Output 값 1.42 0.215 -1.2 35 25 21 겨울강수량 온도 수확강수량 Input 값 6.1 Output 값 0.5 0.06 3.1 모형 A 모형 B 모형 C 모형 D Black Box: 더 정확할지언정 인간이 이해하기 힘들다. 6.1 3.5 4.2 7.1가격 = 15.4$ = 0.6 x + 0.1 x + 0.25 x + 0.05 x A B C D
  • 99. 99 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Model Accuracy vs. Interpretability 정확함 vs. 올바름 Model should be Accurate for the Right Reason 대출 총액 대출 총액 수입 수입
  • 100. 100 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Interpretable Machine Learning Why I Should Trust You? 모형 설명: 신뢰도 상승, 규제 준수, 모형 개선 LIME 입력값을 교란시켜서 뭐가 중요한지 찾는 방법 Local Interpretable Model-Agnostic Explanation
  • 101. 101 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Interpretable Machine Learning Wolf Detector가 아니라 Snow Detector
  • 102. 102 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Why Model Transparency Matters! 결핵 치사율 예측모형 결핵환자 중 천식을 앓고 있는 사람은 집으로 돌려 보내세요. 투명한 모형과 사람의 판단이 환자를 살렸습니다. X 결핵환자 with 천식 Intensive Care Unit Y 합병증 ↓ 치사율 ↓
  • 103. 103 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Machine Learning and Enterprise Decision Making 빈번한 덜 중요한 결정 덜 빈번한 중요한 결정 • HR: 직원선발, 성과요인 1 second1 year 1 month 1 week 1 day 1 min1 hour Prediction Explanation Frequent Less Frequent Decision Augmentation Decision Automation • Sales: 제품 판매전략 • Operation: 운영 최적화 • 개인화 광고 • 맞춤형 상품 • 이상 금융거래 탐지 데이터 → 기계학습 → 예측 통한 의사결정 자동화 데이터 → 기계학습 → 사실‧증거 기반 더 좋은 결정 Are You in Prediction Business or Explanation Business?
  • 104. 104 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know features labelunknown 기계학습 x 세상 y Statistics vs. Machine Learning 독립 변수 종속 변수 model 통계 분석 • 연역적 추론(Deductive Reasoning): 가설수립 → 가설검증 • 모형의 타당성: 가설 일반화를 위한 모형의 타당성‧재현성이 중요 • 귀납적 추론(Inductive Reasoning): 데이터 → 패턴 • 모형의 유용성: 의사결정에 활용하기 위한 모형의 유용성이 중요 “Machine Learning is essentially a form of applied statistics” “Machine Learning is statistics scaled up to big data” 둘다 데이터를 통해 문제 를 해결하는 데 사용됨 기술과 방법의 차이라기보 다는 분석 목표의 차이사금채취 연금술
  • 105. 105 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module IV Linear Regression & Decision Tree 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 106. 106 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Techniques 데이터 분석 주요기술  DESCRIBE (기술 분석) - 엑셀, 대쉬보드 • 데이터 특성과 모양을 요약  EXPLORE (탐험적 분석) - 데이터 시각화 도구 • 가설수립‧데이터 감 잡기 위해 패턴 탐험  PREDICT/INFER (예측‧추론 분석) - 통계/ML • 패턴(모형)을 통해 주어진 문제를 예측‧설명 과거 미래 Looking Backward Looking Forward
  • 107. 107 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 선형회귀분석 (Linear Regression Analysis) Linear Regression • 가장 오래되고, 널리 쓰이고, 이해하기 쉬운 지도학습 알고리즘 • 독립변수(X)를 가지고 숫자형 종속변수(Y)를 가장 잘 설명‧예측(Best Fit)하는 선형 관계(Linear Relationship)를 찾는 방법 중 하나 계산방법 (Least Squares) X와 Y 사이에 선형적 관계가 있다는 가정 하에 실제 Y값과 예측한 Y값의 차이를 최소화하는 방정식을 계산 Y = b0 + b1X + error • b0 : Y축 절편(Intercept); 예측변수가 0일 때 기대 점수를 나타냄 • b1 : 기울기로 X가 한 단위 증가했을 때의 Y의 평균적 변화값을 나타냄 *참고: http://students.brown.edu/seeing-theory/regression/index.html Regression Model: Y가 숫자형 변수(매출)인 경우 Classification Model: Y가 범주형 변수(성별)인 경우 Supervised Machine-Learning
  • 108. 108 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 선형회귀분석 (Linear Regression Analysis) P-Value (Probability-Values) Q. X와 Y 사이에 통계적으로 유의미한 관계가 있나? • Statistical Significance (통계적 유의성) • 데이터를 통해 확인한 관계가 우연히 나왔을 확률 • P값이 0.03: 데이터에서 발견한 관계가 운일 확률 3% • 관계의 세기(Size of an Effect)를 나타내는 것은 아님 R2 (R-SQUARED; 결정계수) Q. X가 Y를 얼마나 잘 설명/예측하는가? • Goodness of Fit: X로 설명할 수 있는 Y 변화량의 크기 R2 = 0.81 R2 = 0.24
  • 109. 109 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Statistical Significance and P-Value(Probability-Values) Outcome Campaign A Campaign B Conversion 200 182 No Conversion 23539 22406 Conversion Rate 0.8425% 0.8057% 1. 캠페인 A의 전환률이 0.0368% 높음; 차이가 의미가 있나? 2. 통계적 유의성 검증이 꼭 필요한가? (이 정도면 작은 샘플을 사용하여 일반화하는 일을 걱정할 필요없는 빅데이터 아닌가?) 3. 통계적 유의성: 두 캠페인 사이의 전환율 차이가 우연은 아닌가? • 둘 간 전환율 차이가 없다고 가정(H0)하고 두 캠페인 결과를 하나로 섞는다 • 섞은 데이터에서 23739, 22588개를 Resampling하여 두 캠페인 간 전환율 차이를 기록 (1,000번 반복) • 전환율 차이(test statistic; 검정통계량)가 > 0.0368%보다 큰 경우의 확률을 계산: 30.8% (P-Value: 0.308) • 두 캠페인 간 실제로 전환률 차이가 없는 경우에도 우연의 작용으로 0.0368% 차이 정도는 흔하게 발생. 효과의 크기/차이 0.0368%
  • 110. 110 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 선형회귀분석: 결정계수(R2: R-SQUARED) 낮은 결정계수가 반드시 나쁜 (Inherently Bad) 것은 아님 R2: 0.14 R2: 0.86 • 동일한 회귀방정식: Y = 44 + 2*X; P < 0.001 • 우측 모형이 좌측 모형보다 예측 정확도(R2)는 매우 높음 • 변수 간 경향성은 동일: X 1단위 증가 → Y 2단위 증가 Y값을 정확히 예측하기 위해선 R2 값이 중요 하지만, 경향성 정보가 중요한 경우 R2 가 낮다고 꼭 나쁜 모형은 아님
  • 111. 111 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Simple Linear Regression Analysis – Advertisement 매출에 미치는 매체 영향에 상호작용이 없다고 가정하였을 때 TV, Radio, 신문 중 Sales 증가에 가장 효과적인 광고매체는? Advertising.xlsx 강의 보조자료 참고
  • 112. 112 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Multiple Linear Regression Analysis – Advertisement 이번에는 변수 2개[TV, Radio]를 사용하여 Sales와의 관계를 설명‧예측하는 회귀모형을 만들어 봅시다. Y = b0 + b1X1 + b2X2 Sales = 2.9 + 0.045 x TV + 0.187 x Radio 강의 보조자료 참고
  • 113. 113 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know • Decision Tree: 의사결정트리; 대표적 Classification Model • Classification: 서로 다른 집단을 구분하는 규칙(경계) 찾기 Decision Tree and Classification Linear Classifier Non-Linear Classifier Classification: 집단을 구분하는 경계 찾기 Logistic Decision Tree SVM Regression Model: Y가 숫자형 변수(매출)인 경우 Classification Model: Y가 범주형 변수(성별)인 경우 Supervised Machine-Learning
  • 114. 114 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Case Study 신입사원 성과 분석 – 선형적 관계 없음 신입사원 성과(5년 평균)와 인적성 점수 사이에 선형적 관계 없음 성과점수와 팀워크점수와의 관계 상관계수: 0.00 성과점수 팀워크 점수 성과점수와 인지능력과의 관계 상관계수: 0.06 성과점수 인지능력 점수
  • 115. 115 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Performance에서 Noise와 Signal을 어떻게 구분할까? 기량의 역설 (Paradox of Skill) 전체적 기량↗ 개인 간 기량의 차이↘ 운(Chance)의 영향↗ 낮은 성과점수 높은 성과점수 낮은 노력·역량 높은 노력·역량 높은 노력·역량에도 불구, 낮은 성과 점수를 받거나 낮은 노력·역량에도 불구, 높은 성과 점수를 받을 수 있음 운의 영향으로 Compare The Extremes 성과 분포의 양 극단에 위치한 집단의 차이점을 비교하여 운의 영향을 최소화
  • 116. 116 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree - Minimizing Entropy 성과에 따른 신입사원 분포 동아리 경험 (년) 인내력 ▲ ★ ▲ ▲▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ★ ★▲ ★ ★ ★★ ★ ★ ★ ★ ★ ▲ ▲ ★ ★ ★ ★ ▲ 상위 20% 하위 20% Decision Tree Algorithm • Purity: *엔트로피를 최소화하도록(= 끼리끼리 모이도록) 공간 구획 • Homogeneity: 동질적 집단이 밀집한 세그먼트의 논리적 규칙 찾기 *엔트로피(Entropy): Measure of Impurity
  • 117. 117 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 동아리경험 (년) 인내력 87 74 0.8 ▲ ★ ▲ ▲▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ★ ★▲ ★ ★ ★★ ★ ★ ★ ★ ★ ▲ ▲ ★ ★ ★ 규칙 (Rule Set) 확률 (Probability) IF (동아리경험 < 0.8년) and (인내력역량 < 87) then Class = 저성과 신입사원 100% (12/12) IF (동아리경험 < 0.8년) and (인내력역량 >= 87) then Class = 고성과 신입사원 67% (2/3) IF (동아리경험 >= 0.8년) and (인내력역량 < 74) then Class = 저성과 신입사원 57% (4/7) IF (동아리경험 >= 0.8년) and (인내력역량 >= 74) then Class = 고성과 신입사원 100% (10/10) 성과에 따른 신입사원 분포 분류규칙 Decision Tree - Minimizing Entropy 동아리경험 인내력 역량 인내력 역량 하위 12/12 상위 2/3 하위 4/7 상위 10/10 < 0.8년 >= 0.8년 >= 74< 74>= 87< 87 고성과 신입사원 분류모형 (의사결정트리) ★ ▲상위 20% 하위 20%
  • 118. 118 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Case Study 신입사원 성과 분석 – 성과점수 양극단을 비교 양극단(상위20% vs. 하위20%)을 비교하니 숨겨져 있던 패턴이 보임 의사결정트리가 비선형적 패턴과 변수간 상호작용(interaction)까지 잡아냄 혁신, 실행력, 학점 모두 동시에 높은 경우 • 고성과자 비율: 92%가 됨 Innovation 실행력 학점 혁신 1 1 3 2 혁신 점수만 높은 직원을 보면 • 고성과자 비율: 50%로 높지 않음 3 2 하지만, 혁신 점수와 실행력 모두 높은 경우 • 고성과자 비율: 70%로 높아짐 상위 20% 하위 20%
  • 119. 119 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree – Terminology • Root Node: 최상위 노드 • Leaf Node: 말단 노드 • Decision Node: 의사결정 노드 • Splitting: 동질적 집단으로 쪼개는 일 • Pruning: 트리가 너무 길어지지 않게 하는 일
  • 120. 120 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree vs. Random Forest Trade Off Between Interpretability and Accuracy 모형의 설명력과 정확도 간 길항관계가 존재 Random ForestDecision Tree White Box Interpretability Black Box Accuracy
  • 121. 121 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Ensemble Model: Bagging vs. Boosting • Ensemble: 다수의 모델이 협력하여 예측하는 방식으로 보다 정확하고(Low Bias), 꾸준한 성능을 갖는(Low Variance) 모델을 수립하는 일 • Bagging(Bootstrap Aggregation): Resample한 데 이터로 다수의 모델 생성 후, 각각의 모델이 투표하 는 방식으로 Variance 개선; Random Forest • Boosting: 틀린 문제들 중심으로 순차적으로 다시 푸는 방식으로 정확도 개선; XGBoost
  • 122. 122 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Ensemble Model: Bagging vs. Boosting Decision Tree • Train Set 예측정확도: 71% • Test Set 예측정확도: 58% Random Forest • Train Set 예측정확도: 76% • Test Set 예측정확도: 62% XGBoost • Train Set 예측정확도: 86% • Test Set 예측정확도: 63% Loan Default Prediction • X축: Borrower Score; 신용도 • Y측: Payment Income Ratio; 대출상환 비율
  • 123. 123 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree – Titanic Dataset Variable Definition Key survival Survival (target) 0 = No, 1 = Yes pclass Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd sex Sex Age Age in years sibsp # of siblings / spouses aboard the Titanic Sibling = brother, sister, stepbrother, stepsister Spouse = husband, wife (mistresses and fiancés were ignored) parch # of parents / children aboard the Titanic Parent = mother, father Child = daughter, son, stepdaughter, stepson ticket Ticket number fare Passenger fare cabin Cabin number embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton 강의 보조자료 참고
  • 124. 124 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree – Titanic Dataset confusion matrix Yes (Predicted) No (Predicted) Yes (Actual) 227 True Positive 115 False Negative No (Actual) 28 False Positive 521 True Negative 227 + 28 227Precision(Y) 89% 227 + 115 227Recall(Y) 66% = = Decision Tree • 변수 사이 interaction • 비선형적 관계
  • 125. 125 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree – Confusion Matrix Confusion Matrix Yes (Predicted) No (Predicted) Yes (Actual) 227 True Positive 115 False Negative TYPE II Error No (Actual) 28 False Positive TYPE I Error 521 True Negative 227 + 115 227Recall(Y) 재현률 66% = 227 + 115 + 28 + 521 227 + 521Accuracy 모형 정확도 84% = Confusion Matrix: 분류 모형의 성능을 평가하는 방법 이해하기는 쉬운데 용어가 어려움 • True Positive: 맞는 걸 맞다고 하는 것 • True Negative: 아닌 걸 아니라고 하는 것 • False Positive (I형 오류) : 아닌데 맞다고 하는 것 (거짓을 믿는 것) • False Negative (II형 오류) : 긴데 아니다고 하는 것 (참을 거부하는 것) 227 + 28 227 Precision(Y) 정밀도 89% =
  • 126. 126 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know My Two Cents 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 127. 127 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Literacy: from Data Phobia to Data Fluency Data Phobia Data Fluency
  • 128. 128 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Literacy 데이터에서 발견한 유용한 사실을 공감할 수 있는 형식으로 표현, 이롭게 활용되도록 하는 것
  • 129. 129 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Learn by Doing Let’s Find Out Mean and Median on Density Curve 밀도함수에서 평균과 중앙값 찾아봅시다. Source: https://www.khanacademy.org/math/statistics-probability
  • 130. 130 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Learn by Doing Source: https://www.khanacademy.org/math/statistics-probability Let’s Find Out Mean and Median on Density Curve 중앙값: 면적을 분할 평균: 무게 중심
  • 131. 131 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Linear Thinking vs. Non-Linear Relationship (source: HBR 2017.05월호) 당신 회사에 다음과 같이 두가지 모델의 차량이 있다. 모든 자동차는 일년에 10,000 마일을 주행한다. Q. OPEX(기름값)을 줄이기 위한 당신의 선택은? A. 10 MPG 차량을 20 MPG 차량으로 교체 B. 20 MPG 차량을 50 MPG 차량으로 교체 Fleet A 10 MPG SUV Fleet B 20 MPG Sedan
  • 132. 132 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Linear Thinking vs. Non-Linear Relationship (source: HBR 2017.05월호) 10,000 마일당 사용한 기름 (Gallons) 현재 차량 업그레이드 후 절감분 A. 1,000 (@10 MPG) 500 (@20 MPG) 500 B. 500 (@20 MPG) 200 (@50 MPG) 300
  • 133. 133 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 제한된‧익숙한 관점 - Simpson’s Paradox Story, not Data, should dictate our choice Phone 전환률이 중요한 경우 유료 전환 사용자수가 중요한 경우 Mobile App Conversion Rate: 5.00% iOS Android Devices 5000 10000 Conversinos 200 550 Conversion Rate 4.00%% 5.50% iOS Android Tablet Phone Tablet Phone Devices 1500 3500 8000 2000 Conversinos 100 100 500 50 Conversion Rate 6.67% 2.86% 6.25% 2.50%
  • 134. 134 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation vs. Causation 바람이 많이 불면 나무통 가게가 돈을 번다. O X Y • 교육 받아서 성과가 좋아 졌나? • (경기 탓으로) 성과가 안 좋아서 교육 받았나? Omitted Variable Bias Reverse Causality X Y • 한 업무에 오래 있어서 성과가 낮나? • 성과가 낮아서 한자리에 오래 있었나? Two Types of Causality Problems
  • 135. 135 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation을 언제 의사결정에 활용해야 하나? 관계에 대한 높은 확신 (인과관계) 데이터를 통해 [소고기와 우유]를 구매한 고객들의 자동차 사고 발생률이 [라면과 소주]를 구매한 고객보다 높은 걸 확인했다. 보험회사가 취할 행동은? 관계에 대한 낮은 확신 실>득 실<득 가. 구매패턴에 따른 보험료 차등 적용 나. 저위험군 고객들 타겟 마켓팅 Act Don’t Act
  • 136. 136 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation을 언제 의사결정에 활용해야 하나? 관계에 대한 높은 확신 (인과관계) 관계에 대한 낮은 확신 실>득 실<득 가. 구매패턴에 따른 보험료 차등 적용 나. 저위험군 고객들 타겟 마켓팅 Act Don’t Act 가. 구매패턴에 따른 보험료 차등 적용 나. 저위험군 고객들 타겟 마켓팅 데이터를 통해 [소고기와 우유]를 구매한 고객들의 자동차 사고 발생률이 [라면과 소주]를 구매한 고객보다 높은 걸 확인했다. 보험회사가 취할 행동은? X O
  • 137. 137 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Regression toward the Mean 우연(Chance)의 영향으로 평균(평범함)으로의 회귀 • 왕겨(Bran) 먹은 후 배변에 걸리는 시간(Oral-Anal Transit Time)이 • 평균(48시간)보다 오래걸렸던 사람은 더 빨라졌고 • 평균(48시간)보다 짧았던 사람은 더 길어졌고 • 평균이었던 사람은 큰 변화가 없었다. 추이 평균
  • 138. 138 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 선형회귀분석: P-Value (Probability-Values) P값: (선형적) 관계가 우연히 나왔을 확률 작은 P값: 데이터에서 발견한 관계가 우연이 아니다 (=통계적으로 유의미) • 귀무 가설(H0; Null Hypothesis): X와 Y 사이에 관계가 없다고 가정 P = 0.03: 관계가 없단 가정 하에 데이터에서 발견한 관계 혹은 더 극단적인 관계가 관측될 확률 = 3% 정상적인(앞뒷면 확률이 동일한) 동전을 20번 던져 앞면이 나온 횟수에 대한 확률 분포 동전이 정상이라면 앞면이 연속 18번 이상 나 올 확률이 < 5%. 동전 정상이 아니라고 결론
  • 139. 139 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 선형회귀분석 (Linear Regression Analysis) R2 = 설명한 Y 변화량 / 총 Y 변화량 = (총 Y 변화량 - 설명 못 한 Y 변화량) / 총 Y 변화량 = 1 - (설명 못 한 Y 변화량 / 총 Y 변화량 ) 총 Y 변화량 설명 못한 Y 변화량
  • 140. 140 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Binning (Feature Engineering) Ranking 나이 나이_bin 나이_5분위 1 20 20~23 ~20th (하위 20%) 3개의 레코드 2 24 24~27 3 25 24~27 4 29 28~31 ~40th 3개의 레코드 5 33 31~34 6 33 31~34 7 39 38~41 ~60th 3개의 레코드 8 40 38~41 9 41 38~41 10 42 42~45 ~80th 3개의 레코드 11 43 42~45 12 43 42~45 13 44 42~45 ~100th (상위 20%) 3개의 레코드 14 51 50~53 15 60 58~60 Binning: 연속된 숫자형 변수를 범주형 변수로 변환하는 것 • _bin: 변수(나이)값의 범위(20~59)를 기준으로 최대한 균등하게 10개 구간을 생성 • _percentile: 레코드 갯수가 최대한 균등하게 안분되도록 5개 구간을 생성
  • 141. 141 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Binning: 선형회귀분석으로 비선형적 관계 찾기 Binning: 숫자형 변수를 범주형 변수로 변형 • 이익(Y)과 운송비용(X; 숫자)간에는 선형적 관계 없음 • 운송비용을 범주형 변수로 변형하면 비선형적 관계 발견 • 해석, 서로 다른 운송비용 구간별로 이익의 차이가 존재

Editor's Notes

  1. 안녕하세요. "From D To D" 강의를 진행하게 된 양승준이라고 합니다. Data Literacy가 데이터를 해석하는 소양이라면 Data Fluency는 Data Literacy를 활용하여 데이터에 좋은 질문을 하고, 유용한 패턴을 발견하여 분석결과를 실용적으로 본인 업무에 활용하는 능력이라고 할 수 있겠습니다. 본 강의를 통해 데이터 분석이 막상 해보면 그닥 어렵지 않다는 것, 그리고 Data Literacy를 본인이 하는 일에 유용하게 사용할 수 있다.는 두가지 메세지를 전달해 드리려고 합니다.
  2. https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
  3. 파도타기를 즐기려면 마음: 서핑하고 싶은 마음이 있어야 함. (동경. 호기심, 강요 등등) – 어렵지 않다(할 수 있다). 재밌다(유용하다) -> 자기 효능감 파도가 있어야 함. (이건 주어지는 것이지만 작은 파도는 또 작은 파도대로 즐길 수 있음) 도구가 있어야 함. (파도의 특성과 자기 실력에게 맞는 도구가 있음. 초보자용 롱보드부터 쇼트보드 등. 심지어 Bodysurf라는 것도 있음) 도메인 지식: 데이터에 담기지 않는 것들. 데이터가 수집되고 활용되는 맥락. 바닥에 암초는 없는지 바닥의 지형; 저기서 왜 파도가 솟구치는지;, 뛰어들어도 되는지 파도 타기 기술을 익혀야 함. (파도를 읽는 법 + 자기에게 맞는 서프보드를 선택하고 사용하는 법 등)
  4. Top-Down 방식은 강의의 방법이기도 하지만 데이터 분석에 대해 여러분들이 공부하는 효과적인 방법이기도 합니다. 이론적인 지식부터 시작하기보다는 본인이 지속적인 동기를 유지할 수 있는 주변의 흥미로운 주제를 발굴해서 실제 문제를 – 제한적 지식으로 – 해결하면서 부족한 부분을 채워나가는 게 바람직 참고: https://machinelearningmastery.com/youre-wrong-machine-learning-not-hard/
  5. [시작] 이번 강의에서는 데이터에 좋은 질문을 하는 방법에 대해 이야기 나누어 보겠습니다.
  6. https://simplystatistics.org/2018/04/17/what-is-a-successful-data-analysis/
  7. https://docs.google.com/presentation/d/1kSuQyW5DTnkVaZEjGYCkfOxvzCqGEFzWBy4e9Uedd9k/preview?imm_mid=0f9b7e&cmp=em-data-na-na-newsltr_20171213&slide=id.g22aaaf9c33_0_106
  8. https://medium.com/the-many/moving-from-data-science-to-data-literacy-a2f181ba4167
  9. https://medium.com/financial-times/tim-harfords-guide-to-statistics-in-a-misleading-age-652a597c1d88
  10. https://www.tlnt.com/is-your-data-digging-turning-up-fake-news/
  11. https://ismayc.github.io/talks/ness-infer/slide_deck.html#155
  12. https://www.tlnt.com/is-your-data-digging-turning-up-fake-news/
  13. https://medium.com/financial-times/tim-harfords-guide-to-statistics-in-a-misleading-age-652a597c1d88
  14. https://www.fastcompany.com/1514493/switch-dont-solve-problems-copy-success 예쁜 구석…
  15. https://www.fastcompany.com/1514493/switch-dont-solve-problems-copy-success 예쁜 구석…
  16. http://helper.ipam.ucla.edu/publications/caws3/caws3_13211.pdf https://pdfs.semanticscholar.org/03f1/9834cf528308a1b6b16c95f2706017f96273.pdf?_ga=2.58501865.294890305.1525224488-1337446620.1525224488 https://medium.com/@sidney.yang/%EB%84%A4-%EB%A7%88%EC%9D%8C%EC%9D%98-%EC%86%8C%EB%A6%AC-%EC%84%9C%EB%B2%A0%EC%9D%B4-cb3bfcef795a
  17. https://pdfs.semanticscholar.org/03f1/9834cf528308a1b6b16c95f2706017f96273.pdf?_ga=2.58501865.294890305.1525224488-1337446620.1525224488
  18. 효과적인 데이터 시각화와 관련된 이론 중에 전주의 처리라는 개념이 있습니다. 곰 – 강력한 대비를 통해 곰의 존재가 두드러짐 이빨만 보임 – 손가락은 주의깊게 봐야 인식됨
  19. 시각화는 종종 Storytelling의 새로운 형식으로 거론되기도 한다. 데이터 스토리텔링이 전통적(서사적) 스토리텔링과 비교해서 더 큰 의미를 가질 수 있는 경우는 전통적 스토리텔링의 주된 소재가 되는 일화(anecdotal storytelling)의 일회성/우발성을 극복하고 데이터를 통해서 발견한 뻔하지 않고 유용한 패턴과 구조를 이야기할 때이다. http://blog.visme.co/data-storytelling-tips/
  20. [마지막] 이번 강의에서는 데이터 분서의 과정과 좋은 질문을 하는 일의 주요성에 대해 알아봤습니다. 다음 강의에서는 Data Literacy에 대해 좀 더 깊은 이야기를 나누어 보겠습니다. 감사합니다.
  21. [강의 시작] 이번 강의에서는 Data Literacy가 무엇이고 현업들에게 Data Literacy가 왜 필요한지에 대해 이야기를 나누어 보겠습니다.
  22. Around 3000 BC, the cuneiform script was developed by the Sumerians, who lived in what is now Iraq. This script was a series of pictographs inscribed on clay tablets using a stylus – a sharpened tip of a reed. One site, the city of Uruk, surpassed all others as an urban center surrounded by a group of secondary settlements. It covered approximately 250 hectares, or .96 square miles, and has been called “the first city in world history.” The site was dominated by large temple estates whose need for accounting and disbursing of revenues led to the recording of economic data on these clay tablets. Initially, these pictographs were laid out in vertical columns, but later they were read from left to right.
  23. 데이터 분석가와 데이터 소비자의 분리 소통의 문제 데이터 마트, 파이프는 표준화 가능. The Last Mile은 personal and organization-specific. Personal and Organizational Data Literacy.
  24. 능동적 데이터 소비자 닭잡는데 소잡는 칼…
  25. 데이터로 읽고 쓰고 듣고 말하고 http://www.juiceanalytics.com/writing/4-components-of-the-data-fluency-framework
  26. [강의 끝] 이것으로 Data Literacy에 대한 강의을 마치겠습니다. 다음 강의는 Data Understanding이라는 주제로 주어진 Data를 요모조모 살펴보고 요약하고 데이터의 모양과 변수 간 관계 대해 이야기하는 내용을 다루어 보겠습니다. 감사합니다.
  27. 현실: we can never say what it is…we can only say things about reality 통찰력: 남들은 눈치 채지 못하는 평범한 단서에서 더 큰 무언가를 이끌어내는 능력 https://medium.com/towards-data-science/i-have-data-i-need-insights-where-do-i-start-7ddc935ab365
  28. [시작] 이번 강의는 Data Understanding 주제의 첫번째 소강의입니다. 분석하기 좋은 데이터셋, 데이터의 종류, 변수 가공에 대해 이야기를 나누어 보겠습니다.
  29. 암을 예측하는 것과 설명하는 것
  30. https://www.boozallen.com/s/insight/publication/field-guide-to-data-science.html
  31. https://www.boozallen.com/s/insight/publication/field-guide-to-data-science.html
  32. https://www.boozallen.com/s/insight/publication/field-guide-to-data-science.html
  33. 결핵 Cases
  34. http://galton.org/composite.htm
  35. https://research.fb.com/prophet-forecasting-at-scale/
  36. https://docs.google.com/presentation/d/1kSuQyW5DTnkVaZEjGYCkfOxvzCqGEFzWBy4e9Uedd9k/preview?imm_mid=0f9b7e&cmp=em-data-na-na-newsltr_20171213&slide=id.g22aaaf9c33_0_106
  37. 플라토나이징 platonizing…사물을 분류하는 인간의 강박적 행동 (Nassim Taleb: 블랙 스완) data (명목 자료): nominal data는 여러 categories(예, 청팀, 백팀, 홍팀)들 중 하나의 이름에 데이터를 분류할 수 있을 때 사용된다. 평균을 계산하는 것이 의미 없고 (백팀과 홍팀의 평균은 연분홍팀?) 비율로는 표현해도 된다. (청팀: 33%, 백팀 33%, 홍팀 34%) ordinal data (순서 자료): category에 순서가 있는 경우 ordinal data라고 한다. 청팀이 이길 가능성을 묻는 경우 그 답변을 “A. 매우 높다. B. 높다. C. 중립, D. 낮다. E. 매우 낮다."로 설계할 수 있다. nominal data와 마찬가지로 counting을 하고 비율로 표현해도 좋다. (매우 높다: 33%, 높다: 19%…)
  38. https://towardsdatascience.com/data-types-in-statistics-347e152e8bee
  39. [시작] 이번 강의는 Data Understanding 주제의 두번째 소강의입니다. 평균, 분산, Percentile 등의 개념이 탄생한 배경과 개념을 몇가지 예제를 통해 알아보겠습니다.
  40. 아들 두명 수학 점수 평균… 선생님이 반 아이들 이해 요약
  41. The decision to examine averages or to measure variation is rooted in philosophical ideologies that governed the thinking of statisticians, natural philosophers and scientists throughout the 19th century. The emphasis on statistical averages was underpinned by the philosophical tenets of determinism and typological ideas of biological species, which helped to perpetuate the idea of an idealized mean. Determinism implies that there is order and perfection in the universe … The typological concept of species, which was the dominant thinking of taxonomists,* typologists and morphologists until the end of the 19th century, gave rise to the morphological concept of species. Species were thought to have represented an ideal type.Magnello, Eileen. Introducing Statistics: A Graphic Guide (Introducing...) (Kindle Locations 155-157). Icon Books Ltd. Kindle Edition. The presence of an ideal type was inferred from some sort of morphological similarity, which became the species criterion for typologists. This could have had the effect of creating a proliferation of species since any deviation from the type would have led to the classification of a new species.Magnello, Eileen. Introducing Statistics: A Graphic Guide (Introducing...) (Kindle Locations 158-160). Icon Books Ltd. Kindle Edition.
  42. The decision to examine averages or to measure variation is rooted in philosophical ideologies that governed the thinking of statisticians, natural philosophers and scientists throughout the 19th century. The emphasis on statistical averages was underpinned by the philosophical tenets of determinism and typological ideas of biological species, which helped to perpetuate the idea of an idealized mean. Determinism implies that there is order and perfection in the universe … The typological concept of species, which was the dominant thinking of taxonomists,* typologists and morphologists until the end of the 19th century, gave rise to the morphological concept of species. Species were thought to have represented an ideal type.Magnello, Eileen. Introducing Statistics: A Graphic Guide (Introducing...) (Kindle Locations 155-157). Icon Books Ltd. Kindle Edition. The presence of an ideal type was inferred from some sort of morphological similarity, which became the species criterion for typologists. This could have had the effect of creating a proliferation of species since any deviation from the type would have led to the classification of a new species.Magnello, Eileen. Introducing Statistics: A Graphic Guide (Introducing...) (Kindle Locations 158-160). Icon Books Ltd. Kindle Edition.
  43. 인구통계 vs. 수리통계
  44. Ranked Man: 하나 잘하면 다 잘함
  45. Our minds have a natural tendency to use a one-dimensional scale to think about complex human traits, such as size, intelligence, character, or talent. If we are asked to assess a person’s size, for example, we instinctively judge an individual as large, small, or an Average Joe. If we hear a man described as big, we imagine someone with big arms and big legs and a big body—someone who is large all over. If a woman is described as smart, we assume she is likely good at solving problems across a wide range of domains, and is probably well educated, too. During the Age of Average, our social institutions, particularly our businesses and schools, have reinforced our mind’s natural predilection for one-dimensional thinking by encouraging us to compare people’s merit on simple scales, such as grades, IQ scores, and salaries.18 But one-dimensional thinking fails when applied to just about any individual quality that actually matters—and the easiest way to understand why is to take a closer look at the true nature of human size. The previous image portrays the measurements of two men on nine dimensions of physical size, the same dimensions analyzed by Gilbert Daniels in his breakthrough study of pilots.
  46. Our minds have a natural tendency to use a one-dimensional scale to think about complex human traits, such as size, intelligence, character, or talent. If we are asked to assess a person’s size, for example, we instinctively judge an individual as large, small, or an Average Joe. If we hear a man described as big, we imagine someone with big arms and big legs and a big body—someone who is large all over. If a woman is described as smart, we assume she is likely good at solving problems across a wide range of domains, and is probably well educated, too. During the Age of Average, our social institutions, particularly our businesses and schools, have reinforced our mind’s natural predilection for one-dimensional thinking by encouraging us to compare people’s merit on simple scales, such as grades, IQ scores, and salaries.18 But one-dimensional thinking fails when applied to just about any individual quality that actually matters—and the easiest way to understand why is to take a closer look at the true nature of human size. The previous image portrays the measurements of two men on nine dimensions of physical size, the same dimensions analyzed by Gilbert Daniels in his breakthrough study of pilots.
  47. 통계학자이고 우생학자 였던 프란시스 겔톤 여러 사장을 겹쳐서 한장으로 표현하는 합성하는 초상화 기법의 전문가… 해당 기법을 통해 범죄자 얼굴의 공통적 특성 http://galton.org/composite.htm
  48. 평균점수를 다룰 때 주의할 점을 하나 더 살펴보겠습니다. 고객의 응답점수와 실제 구매로 이어질 확률 간 선형적 관계가 있다면 A 세그먼트가 더 좋은 타겟 세그먼트일수도 있겠습니다. 하지만, 둘 간에 분홍색처럼 비선형적인 관계가 있다면 평균이 높은 세그먼트가 아니라 확률을 최대화할 수 있도록 5점으로 답변한 사람이 많은 세그먼트를 고르는 것이 효과적 이럴때는 5점 응답한 사람에게 가중치를 부여해서 가중평균을 계산할 수도 있습니다.
  49. 아들 두명 수학 점수 평균… 선생님이 반 아이들 이해 요약
  50. 아들 두명 수학 점수 평균… 선생님이 반 아이들 이해 요약
  51. 이번에는 데이터가 퍼져있는 정도, 즉 분산에 따라 평균의 해석이 어떻게 달라질 수 있나 살펴보겠습니다. 왼쪽 표는 신규캠페인과 기존캠페인에 노출된 고객수와 일인당 평균 지출액입니다. 신규 캠페인에 노출된 고객이 기존 캠페인보다 2,000원 더 지출한 걸로 나오고요. 다만, 신규 캠페인에 노출된 고객의 수가 30명으로 크지는 않아 신규캠페인이 정말 효과적인지, 아니면 운이 좋아 지출금액 평균이 높게 나온 건지 판단하기 애매합니다. 주어진 상황에서 기존 고객들 전체(즉, 모집단)의 지출금액 분포가 아래 A와 B 두가지 형태로 존재할 수 있다 가정했을 때, A, B중 어떤 분포가 신규캠페인의 효과를 주장하기에 더 좋은 모양일까요? 여기서는, 통계적 유의성 검사를 수행하지 않고 모양만 보고 판단을 해보도록 하겠습니다. 정답은 A인데요. 그 이유는 B 분포의 경우, 지출금액 변화의 폭이 넓고, 이 경우 극단적인 값이 샘플에 포함될 확률이 높아지고, 따라서 샘플데이터의 대표성이 떨어지게 됩니다. 달리 표현하면, 극단적인 값들이 많이 존재하는 경우 – 즉, 데이터가 넓게 퍼져있는 경우 - 평균의 대표성을 주장하기 어렵다는 걸 기억하면 좋겠습니다.
  52. https://fivethirtyeight.com/wp-content/uploads/2018/06/boice-WORLDCUP-02.png?w=1150
  53. 이번에는 우리가 영향학자라고 잠시 상상해 봅시다. 음식의 종류를 구분하는 최선의 방법이 무엇일까요? 음식에 포함된 비타민 함유량으로 음식을 구분할 수 있을까요? 아니면 단백질 성분을 사용하는 것이 효과적일까요? 만약 주어진 변수를 사용하여 데이터를 효과적으로 구분할 수 있다면, 데이터에 숨어있는 클러스터나 범주를 발견하게 됩니다. 예를 들어 육류와 채소를 분류하는 최선의 방법을 알게될 수도 있고, 채소류 내에서 더 정교하게 채소의 하위 종류를 구분할 수도 있습니다. 문제는 아이템들을 분류하기 위해 주어진 변수를 어떻게 가공하고 활용하느냐가 되겠습니다. 우선, 비타민 C 성분을 활용할 수 있겠습니다. 비타민 C는 야채에는 있지만 고기에는 없으니 첫번째 칼럼과 같이 채소와 고기를 구분할 수 있습니다. 다만, 고기는 한점에 겹쳐서 나타나게 되겠죠. 고기류 아이템들이 퍼지도록 지방성분 함량을 사용하면 될 거 같은데요. 비타민과 지방은 서로 다른 단위로 측정되기 때문에 두 변수를 결합하기 전에 표준화해야 합니다. 표준화하는 여러가지 방법이 있지만 Percentile Rank을 사용하면 표준화하는 효과, 즉 변수들이 동일한 단위를 같게 되서, 변수간 연산이 가능해집니다.
  54. 경마는 정확한 예측이 어려운 시장, 예측이 잘 되면 큰 돈을 벌 수 있는 시장 메이저 경주 3곳에서 모두 우승한 삼관마 -  Kentucky Derby, the Preakness, and the Belmont Stakes Jeff Seder: 평생을 경주마를 연구한 경마 경매 컨설턴트 – 이 말을 팔려거든 차라리 집을 팔아라 말의 온갖 특성 - 배변 특성, 콧구멍 크기, gait analysis(걷고 달리는 특성) - 과 경마에서 우승할 확률 간의 관계를 연구 우승을 점칠 수 있는 하나의 특성을 발견…좌심실의 크기 좋은 변수란 궁금한 변수를 잘 설명하고 예측할 수 있어야 하고, 여기에 더해 해당 변수로 큰 돈을 벌려면, 해당 변수를 자기 혼자만 알아야 하겠습니다. The traditional way of predicting horse success, the data tells us, leaves plenty of room for improvement.’
  55. 이번에는 고객의 나이를, 통계적 요약값과 분포를 시각화한 차트를 함께 살펴보겠습니다. 레코드 전체의 평균이나 중앙값을 확인하는 것은 요약된 통계값을 직접 보면 바로 확인할 수 있습니다. 반면, 빈도가 가장 높은 나이값, 즉 꼭지점이 50세 바로 아래에 있다든지, 100세가 넘는 데이터 값이 존재한다는 것은 시각화한 차트를 통해서만 확인할 수 있습니다. 물론, 100세가 넘거나 아주 작은 나이가 잘못 측정되거나 기록된 값 – 이상치 – 인지 아니면 실제로 존재하는 하위그룹인지는 해당 업무 담당자에게 확인을 하거나 별도의 방법으로 확인을 해야 알 수 있겠습니다.
  56. 이번에는 분포를 나타내는 가장 대표적인 방법인 박스플롯에 대해 살펴보겠습니다. 박스플롯은 데이터의 분포를 상자와 수염으로 표현한다고 해서 박스 & 위스커 플롯이라고도 하는데요. 화면의 박스플롯은 우측 핑크 박스 안의 소득분포를 표현한 것인데 함께 살펴보겠습니다.
  57. 이번에는 확률을 나타내는 다양한 영어표현들에 대해 사람들이 부여한 0~100 사이의 확률에 대한 데이터를 바차트와 박스플롯으로 표현할 내용을 살펴보겠습니다. [끝] 이것으로 Data Understanding 주제의 두번째 소강의를 마치겠습니다. 다음 강의에서는 평균을 활용할 때 주의할 점, 데이터 시각화, 상관관계에 대해 이야기를 나누도록 하겠습니다.
  58. [시작] Data Understanding 주제의 세번째이자 마지막 소강의를 시작하겠습니다. 이번 강의에서는 평균을 활용할 때 주의할 점, 데이터 시각화와 데이터 스토리텔링, 상관관계, 인과관계 등에 대해 이야기를 나누도록 하겠습니다.
  59. http://ftp.cs.ucla.edu/pub/stat_ser/r414.pdf
  60. http://ftp.cs.ucla.edu/pub/stat_ser/r414.pdf http://vudlab.com/simpsons/ n 1973, the University of California-Berkeley was sued for sex discrimination. The numbers looked pretty incriminating: the graduate schools had just accepted 44% of male applicants but only 35% of female applicants. When researchers looked at the evidence, though, they uncovered something surprising: If the data are properly pooled...there is a small but statistically significant bias in favor of women. (p. 403)It was a textbook case of Simpson's paradox.
  61. https://blogs.office.com/en-us/2015/08/11/breaking-down-hierarchical-data-with-treemap-and-sunburst-charts/
  62. 데이터 수집은 현실 세계를 sampling(추상화)하는 것이고, 데이터 시각화는 이런 추상화된 데이터에 대한 추가적인 추상화(abstraction)이다. 추상화의 과정에서 정보는 필연적으로 삭제/압축될 수밖에 없다. 사용자(audience)가 시각화에 사용된 시각적 신호(visual cues)를 해석할 수 없다면 시각화가 아무리 예쁘게 표현되었다 한들 실패한 Data Viz.이다. 달리 말하자면 데이터 시각화는 의미를 전달하기 위한 도구이고, 그렇기 때문에, 매체입니다.. Data Visualization이 데이터의 의미를 전달하는 매체로서 기능하기 위해서는 기본적인 시각화 문법을 숙지하는 것이 중요하다. 평균을 비교할 땐 바차트 관계를 나타낼 땐 스캐터플롯 그외 분포나 구성을 나타내는데 효과적이라 오랜 연구를 통해 입증된 방법이 있습니다. 이런 기본적인 시각화 문법에 대한 지식에 더해 시각화할 때 항상 아래 질문을 염두에 두자. - 데이터를 통해 알고 싶은 게 무엇인가? - 알고 싶은 걸 잘 알기 위해 어떤 시각화 방법이 효과적인가? - 알고 싶은 것이 잘 표현되었나? 시각화 방법이 적절했나?
  63. https://insight.kellogg.northwestern.edu/article/more-than-pretty-pictures/ http://optional.is/required/2010/03/24/ada-lovelace-day-florence-nightingale/
  64. 스스로 다양한 가설을 검증하는 경우 – 남 녀 간 성과점수에 차이의 존재하냐는 가설의 경우, 평균과 함께, 분포, 평균의 신뢰구간 등을 비교 목적없이 탐험하고, 데이터에 대한 전체적 감을 잡는 게 목적이라면 생각의 속도로 데이터를 시각화할 수 있는 자유도가 높은 도구를 사용하는 게 좋고 발견한 패턴을 보고할 때는 메세지가 선명하게 들어나는, 그리고 수용자의 차트 해석 능력이나 조직의 보고 양식을 고려한 시각화 방법
  65. http://www.tylervigen.com/spurious-correlations
  66. [끝] 이것으로 Data Understanding 주제의 세번째이자 마지막 소강의를 마치겠습니다. 다음 강의에서는 기계학습과 기업 내 의사결정이라는 주제를 가지고 이야기를 나누어 보겠습니다.
  67. https://medium.com/@akelleh/speed-vs-accuracy-when-is-correlation-enough-when-do-you-need-causation-708c8ca93753
  68. https://www.washingtonpost.com/graphics/sports/mlb-launch-angles-story/?utm_term=.8e40245ee0f8
  69. [시작] 안녕하세요, . 이번 강의에서는 기계학습과 기업 내 의사결정이라는 주제를 가지고 이야기를 나누어 보겠습니다.
  70. 지금까지의 강의는 데이터 분석의 주요기술 중 데이터의 특성과 모양을 요약하거나, 시각적 분석을 통해 변수 간 관계를 확인하는 것에 관한 내용이었습니다. 이번 강의에서는 데이터에서 발견한 질서를 통계적 또는 기계학습 알고리즘을 사용하여 일반화하여 모형에 담는 내욜을 다루겠습니다.
  71. 기계학습은 의사결정 기술입니다. 계통학적으로 이야기하자면 기계학습은 인공지능의 한 분야로 알고리즘에 아주 제한된 지시와 데이터를 제공, 통계적 학습을 통해 발견한 패턴을, 의사결정에 활용하는 기술 여기서 제한된 지시라는 것은, 과거의 programing이 우리가 문제 해결 과정, 또는 작업 절차를 언어적 형태로 기술하고 정의할 수 있는 것을 – 즉, codify가능한 것을, 기계가 지치고 않고 빠르게하도록 했다면 지금은, 언어로 기술할 줄 모르는 것을 충분한 예제를 제시한 후 기계가 귀납적 추론을 통해 학습하도록 함. 폴라니의 역설: 할 줄은 아는데 어떻게 하는지 말 못하는 상황을 지칭. 인간의 - 인식 능력 (사진속에서 내얼굴을 찾고, 음성을 인식하고 하는 것들이 – 우리가 어려움 없이 곧잘 하지만 어떻게 하는지는 말로 잘 설명 못하는 대표적인 것들이라 할 수 있겠습니다. 기계학습 알고리즘은, 모형의 내부 작동방식 – 즉, 학습한 패턴이 – 사람의 직관적 해석이 가능한지 여부에 따라 화이트박스, 블랙박스로 구분하고 있습니다. Polanyi’s Paradox: We can know more than we can tell, i.e. many of the tasks we perform rely on tacit, intuitive knowledge that is difficult to codify and automate. 우리는 말할 수 있는 것보다 많이 않다. (인식. 물체를 인식하고 바둑에서 전체 판을 읽고 다음 수를 두는 전략을 짜고) we humans know more than we can tell: We can’t explain exactly how we’re able to do a lot of things — from recognizing a face to making a smart move in the ancient Asian strategy game of Go. Prior to ML, this inability to articulate our own knowledge meant that we couldn’t automate many tasks. Now we can. 인식/Perception의 영역에서 발전 (dictation, image인식) 두번째, 과거의 사례에서 배운다. The machine learns from examples, rather than being explicitly programmed for a particular outcome. This is an important break from previous practice. For most of the past 50 years, advances in information technology and its applications have focused on codifying existing knowledge and procedures and embedding them in machines. Indeed, the term “coding” denotes the painstaking process of transferring knowledge from developers’ heads into a form that machines can understand and execute. This approach has a fundamental weakness: Much of the knowledge we all have is tacit, meaning that we can’t fully explain it. It’s nearly impossible for us to write down instructions that would enable another person to learn how to ride a bike or to recognize a friend’s face. Second, ML systems are often excellent learners. They can achieve superhuman performance in a wide range of activities, including detecting fraud and diagnosing disease. Excellent digital learners are being deployed across the economy, and their impact will be profound.
  72. he machine is given lots of examples of the correct answer to a particular problem
  73. ‘Ashenfelter, an economist at Princeton ‘He downloaded thirty years of weather data on the Bordeaux region. He also collected auction prices of wines. The auctions, which occur many years after the wine was originally sold, would tell you how the wine turned out.’ https://www.forbes.com/sites/sap/2014/04/30/how-big-data-can-predict-the-wine-of-the-century/1
  74. https://christophm.github.io/interpretable-ml-book/agnostic.html
  75. https://christophm.github.io/interpretable-ml-book/agnostic.html
  76. 풀어야 하는 문제가 예측이냐 설명이냐에 따라 기계학습 알고리즘이 달라집니다. 의사결정 빈도가 너무 빈번해서 비용 상의 이유로 의사결정을 할 수 없었던 영역이 예측비용의 하락으로 가능해졌다..
  77. 데이터 분석이 x->y 로 가는 mapping 과정을 발견하는 일이라면 통계분석은… 기계학습은… 사금채취: 실험과 반복을 통해 반복가능한 방법을 통해 금을 얻는데 만족이 있다면 연금술: 금 채취의 과정이나 어떻게 금이 나왔냐에 대한 납득할만한 설명보다는, 금이 신기하게도 나온다는 결과에서 만족을 찾는 작업이라고 할 수 있습니다. [끝] 그럼, 이것으로 기계학습과 기업 내 의사결정에 대한 강의를 마치도록 하겠습니다. 다음 강의에서는 회귀분석의 개념과 원리에 대해 이야기를 나누어 보겠습니다. 감사합니다. 참고: https://svds.com/machine-learning-vs-statistics/ 사회과학 증명의 게임
  78. [시작] 이번 강의는 선형회귀분석에 대한 내용입니다.
  79. 지도기계학습을 분리하는 또다른 방법은 Y값이 숫자인 경우 Y값을 예츳하는 Regression 모델 Y값이 Yes/No와 같이 범주인 경우 Y값을 예측하는 Classification으로 나눌 수 있고 선형회귀분석은 가장 역사가 깊고, 결과를 이해하기 쉬운, 고전과도 같은,Regression 모델입니다. 그래서, 일부 학자들은 50년 후에도 살아남을 ML 알고리즘을 하나 꼽으라면 선형회귀분석을 꼽기도 합니다. 아래 그림과 같이 몸무게를 가지고 키를 예측/설명하고자 하는 경우 선형회귀방정식은 직선과 실제 관측점 사이의 차이가 최소화 되도록 최선의 직선을 귿는 일이라고 할 수 있습니다. 수많은 직선 중, Fit이 가장 좋은 직선을 내부 수학공식을 통해 찾게 되는 것이고 계산의 결과 회귀방정식은 아래와 같이 나오게 됩니다. b0은 절편, b1 기울기...
  80. http://allendowney.blogspot.kr/2016/06/there-is-still-only-one-test.html
  81. Decision tree와 random forest 통해 화이트, 블랙 차이점 의사결정트리는 스무고개처럼…연속된 질문을 통해 정답을 찾아가는 방법입니다. 군인여부 Yes/No 남자 입니까? 예 20세 이상~25세 이하입니까? 예 머리가 짧습니까? 예 군인 랜덤포리스트는 개별 트리의 정확성을 높이기 위해…여러개의 트리 실제는 수백개의 트리를 만든 후…결과를 취합하여 투표…
  82. the bootstrap method refers to random sampling with replacement https://medium.com/@SeattleDataGuy/how-to-develop-a-robust-algorithm-c38e08f32201
  83. Decision tree와 random forest 통해 화이트, 블랙 차이점 의사결정트리는 스무고개처럼…연속된 질문을 통해 정답을 찾아가는 방법입니다. 군인여부 Yes/No 남자 입니까? 예 20세 이상~25세 이하입니까? 예 머리가 짧습니까? 예 군인 랜덤포리스트는 개별 트리의 정확성을 높이기 위해…여러개의 트리 실제는 수백개의 트리를 만든 후…결과를 취합하여 투표…
  84. https://www.kaggle.com/c/titanic
  85. [끝]
  86. 제 강의가 데이터에 대한 두려움, 저항감을 조금 걷어내고 Data로 유창하게 이야기하는 경지로 나아가는데 조금이나 도움이 되었으면 합니다.
  87. https://medium.com/the-many/moving-from-data-science-to-data-literacy-a2f181ba4167 Broken leg problem???
  88. 아들 두명 수학 점수 평균… 선생님이 반 아이들 이해 요약
  89. 아들 두명 수학 점수 평균… 선생님이 반 아이들 이해 요약
  90. https://en.wikipedia.org/wiki/Monty_Hall_problem https://course-studies.corsairs.network/understanding-the-monty-hall-problem-a40f7d5a0e4d
  91. https://en.wikipedia.org/wiki/Monty_Hall_problem https://course-studies.corsairs.network/understanding-the-monty-hall-problem-a40f7d5a0e4d
  92. http://ftp.cs.ucla.edu/pub/stat_ser/r414.pdf
  93. 글자크기 [아침햇살] 산불 나면, 보험회사 돈번다 반기성 조선대 대학원 겸임교수 에너지경제ekn@ekn.kr 2016.09.26 19:08:23      ▲반기성 조선대 대학원 겸임교수 [아침햇살] 산불 나면, 보험회사 돈번다   일본 속담에 ‘바람이 많이 불면 나무통 가게가 돈을 번다’는 속담이 있다. 왜 그럴까? 꼭 기차놀이 같은 답이 이어진다. 바람이 불면 먼지가 많이 발생한다. 먼지가 많아지면 눈병이 많이 생긴다. 눈병이 많아지면 실명하는 사람이 많아진다. 맹인은 삼미선을 연주하면서 다닌다. 삼미선은 고양이 가죽으로 만든다. 고양이를 많이 잡으면 쥐가 많아진다. 쥐가 늘어나면 나무통을 갉아먹는다. 결국 통이 많이 팔린다는 이야기다. 
  94. EU GDPR – right to explanation
  95. https://www.farnamstreetblog.com/2015/07/regression-to-the-mean/ why it is that highly intelligent women tend to marry men who are less intelligent than they are? The rule goes that, in any series with complex phenomena that are dependent on many variables, where chance is involved, extreme outcomes tend to be followed by more moderate ones. In statistics, regression toward (or to) the mean is the phenomenon that if a variable is extreme on its first measurement, it will tend to be closer to the average on its second measurement—and if it is extreme on its second measurement, it will tend to have been closer to the average on its first 기량의 역설??? 운의 영향
  96. https://ismayc.github.io/talks/ness-infer/slide_deck.html#155
  97. https://stats.stackexchange.com/questions/183265/what-does-negative-r-squared-mean