[FAST CAMPUS] 1강 data science overview

2014 MACHINE LEARNING CAMP
Introduction to DATA SCIENCE
•강필성
•서울과학기술대학교
•글로벌융합산업공학과

2014 MACHINE LEARNING CAMP, FAST CAMPUS
2
목차
I
II
III
데이터사이언스활용분야
데이터사이언스속의기계학습
데이터사이언스

3
과학(SCIENCE)의의미
Science = Sceadan(to devide, separate)
The study of nature and behavior of natural things and the knowledge that we obtain about them.

사실로부터지혜까지
4
사실
(Fact)
데이터
(Data)
정보
(Information)
지식
(Knowledge)
지혜
(Wisdom)
객관적실재
김수현이맥도널드에서빅맥세트를먹었다.
김우빈이맥도널드에서베이컨토마토디럭스세트를먹었다.
객관적실재의체계화
사실을특정한방식을통해저장
고객명
일자
버거
음료
사이드
가격
리필여부
김수현
12.03.02
빅맥
콜라
감자튀김
7,000
Y
김우빈
12.03.02
베이컨…
사이다
오징어링
8,000
N
…
…
…
…
…
…
…
데이터+의미
데이터를특정목적과문제해결에도움이되도록가공한것
“김수현과김우빈은
3월과9월에두번씩맥도널드를방문한다”
정보+가치
정보를집적하고체계화하여장래의일반적사용에대비한보편성확보
신학기기념할인!
한달내3번방문시, 세번째주문1,000원할인!!
지식+추론
추론및문제해결을위한지적능력
김수현과김우빈의월별방문횟수
2012년3월: 2회방문, 2012년4월: 1회방문
2012년5월: 0회방문…

5
데이터마이닝?
규칙: A속성의사람들은인사를하고B속성의사람들은악수를한다
A와B는무엇일까?

6
데이터마이닝?
아시아계사람들은인사를하고백인들은악수를한다.

7
데이터마이닝
아시아계사람들은인사를하고백인들은악수를한다.

8
데이터마이닝
같은색상의옷을입은사람들은인사를하고,
다른색상의옷을입은사람들은악수를한다.

9
데이터마이닝
같은색상의옷을입은사람들은인사를하고,
다른색상의옷을입은사람들은악수를한다.

귀납적추론
사례, 예시, 데이터로부터전제나법칙을찾아내는bottom-up 방식
수학접귀납법: k=1일때성립증명, k=n일때성립가정하고k=n+1일때성립증명
경영대생들은잘알지도못하면서말만번지르르하게잘해.
공대생들은자기들이아는것도제대로설명을못해.
귀납과선입견의차이: 충분히많은사례를조사했는가?
연역적추론
한명제로부터논리적으로다른명제를도출
사람은모두죽는다.
소크라테스는사람이다.
고로소크라테스도죽는다.
10
데이터마이닝

데이터마이닝
Definition
Extracting useful informationfrom large datasets. (Hand et al., 2001)
The process of exploration and analysis, by automatic or semi-automatic means, of large quantities of datain order to discover meaningful patterns and rules. (Berry and Linoff, 1997, 2000)
The process of discovering meaningful new correlations, patterns and trendsby sifting through large amount data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques. (Gartner Group, 2004)
11

12
데이터마이닝: 전망
1.Tissue Engineers
2.Gene Programmers
3.Pharmers
4.FrankenfoodMonitors
5.DataMiners
6.Hot-lineHandyman
7.VirtualReality Actors
8.Narrowcastors
9.Turing Testors
10.Knowledge Engineers
1.Modeling Surprise
2.Probabilistic Chips
3.NanoRadio
4.Wireless Power
5.Atomic Magnetometers
6.Offline Web Applications
7.GrapheneTransistors
8.Connectomics
9.Reality Mining
10.CellulolyticEnzymes
What will be the 10 hottest jobs?
10 Emerging technologies 2008
-Times, 2000
-Technology Review, 2008

13
데이터마이닝: “빅데이터”의시대

Data Scientist: The sexist job of the 21stCentury
14
(Harvard Business Review, Oct. 2012, 내용요약은최윤섭팀장블로그참조(Link))

What is “Big Data”
15
Volume
Value
Velocity
Variety

16
빅데이터등장배경
1
ICT 패러다임의변화
(Source: Ji-Sun Jeong, New Possibilities of Big Data and Counterstragegy, Mar. 2012)

17
기하급수적으로증가하는데이터의생산및저장
2
(Source: 김현곤, 빅데이터국가비전과전략, Nov. 2012)

18
기하급수적으로증가하는데이터의생산및저장
2
(Source: 박종헌, 서비스및운영관리에서의빅데이터활용, Nov. 2012)

19
데이터의본질적가치증가
3
(Source: 김현곤, 빅데이터국가비전과전략, Nov. 2012)

20
3
(Source: Big Data 미래를여는비밀열쇠, 2012)

21
3

22
3

23
연산능력의비약적인발전
4

24
빅데이터 등장 배경
연산 능력의 비약적인 발전
4
품명 무게 CPU RAM HD 가격
Cray-2s
Parallel
Computing
System
with 3 PCs
2000kg
30kg
4개
16개
1Gb
64Gb
40Gb
4.5Tb
270억
500만
70배 4배 64배 100배 5400배

25
연산능력의비약적인발전
IBM’s super computer Watson won an overwhelming victory in final Jeopardy! In Feb. 2011
4

26
점점심화되는경쟁체제
5

27
점점심화되는경쟁체제
5
(https://www.kaggle.com)

28
데이터분석을가능하게하는인프라와(오픈소스) 소프트웨어
DBMS
Analytics
6

29
A Short History
1960
1980
1990
2000
2010
Related to Statistical Analysisfrom the 60’s with SASand SPSS packages
Machine Learning, Database Engineering methods
Data Dredging or
“beat your data until it confesses”
(Descriptive modeling)
Analytics
(Predictive modeling)
Data Science
(Analyze and deploy
everything you can think of)

데이터사이언스란?
데이터사이언스
다양한학제간학문이융합되어데이터기반의사결정및문제해결을목적으로하는학문
30
(서울대학교데이터과학과지식창출연구센터: http://srcdsc.snu.ac.kr)

31
데이터사이언스관련학문
Statistics
-Deterministic & parametric approaches
Computer science
-Non-parametric approaches
-Machine learning pattern recognition algorithms
Database
-Efficient data structure & query
-Database management
Industrial Engineering
-Operations research and mathematical optimization
-Business intelligence
Data Science

32
목차
I
II
III

33
1
보다직관적인이해를돕기위한시각화

34
1

35
1
“Politiz.org”

36
1

37
1

38
1
세계각국중앙은행총재연설문분석

39
미래의예측, 진단및탐지
2
Asurand Huberman(2010) Predicting the Future with Social Media, WI-IAT10: 492-499

40
2
신생아의혈압, 체온, 심전도, 혈중산소포화도등미숙아모니터링장비에서생성되는환자당일9,000만건이상의생리학데이터스트림실시간분석
의료진보다24시간전에감염사실을밝혀냄으로써조기치료가능

41
2
Kang et. al. (2009) A virtual metrology system for semiconductor manufacturing, Expert Systems with Applications36(10): 12554-12561.

42
일상생활에서의의사결정지원
3

43
일상생활에서의의사결정지원
3

44
삶의질향상
4
언어의문법적구조를컴퓨터가이해할수있는로직으로변환하는기존의방법탈피
6개국어로번영되는UN 회의록과23개국어로번역된유럽의회회의록을번역엔진에입력한뒤통계적추론기법을학습

45
삶의질향상
4
다양한경로로부터축적된민원데이터를종합적/체계적으로분석하여정책에환류
키워드추출, 연관규칙분석, 군집화등의미기반민원분석을통해선제적대응

46
삶의질향상
4
데이터에의한정량적유동인구분포도작성: 서울시를1km 반경의1,250개헥사셀단위로구분KT 휴대전화이력데이터로심야시간(0시~5시) 통화량분석유동인구기반노선최적화및배차간격조정

47
목차
I
II
III

기계학습: Machine Learning
정의
A computer program is said to learnfrom experience E with respect to some class of tasks T and performance measure P, if its performance at task in T, as measured by P, improves with experience E,” –Mitchell (1997)
48
지도학습: Supervised Learning
목적: 특정한타겟을예측하는것
독립변수X와종속변수Y사이의관계(인과관계혹은상관관계)를찾음
과거에타겟정보가있는데이터를사용하여모델학습
새로운데이터를사용하여모델평가
비지도학습: Unsupervised Learning
데이터에내재된특징을분석
데이터의분포추정, 고객집단의구분, 연관규칙분석등
예측하고자하는지정된타겟변수가존재하지않음

49
지도학습vs. 비지도학습
비지도학습
Var. 1
Var. 2
…
Var. d
Ins.1
..
..
…
..
Ins.2
..
..
…
..
…
…
…
…
…
Ins. N
..
..
..
..
Unsupervised learning
Explores intrinsic characteristics
Estimates underlying distribution
Density estimation, clustering, association rule mining, network (graph) analysis, etc.
A given dataset X

50
지도학습 vs. 비지도학습
 지도학습
Var. 1 Var. 2 … Var. d
Ins. 1 .. .. … ..
Ins. 2 .. .. … ..
… … … … …
Ins. N .. .. .. ..
A given dataset X &Y
Y
..
..
…
..
y  f (x)
Supervised learning
 Finds relations between X and Y: estimate the underlying
function
 Classification, regression, novelty detection
y  f (x)

목적에 따른 기계학습 방법론
51
분류: Classification
 목적: 범주형 타겟 변수를 예측
 구매/비구매, 사기 거래/정상거래, 양성 반응/음성 반응 등
 데이터의 각 행은 레코드에 해당하며 각 열은 설명변수에 해당
 이진 분류(binary classification) 문제가 대다수
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1

목적에따른기계학습방법론
52
회귀: Regression
목적: 연속형타겟변수를예측
구매금액, 매출액, 이용고객수등
데이터의각행은레코드에해당하며각열은설명변수에해당
분류문제에비해모델의복잡도가높음
2

53
연관규칙분석: Association Rule Mining
목적: 연관성이높은아이템들로구성된규칙집합을생성
예시:아이폰을구매하는고객들을범퍼를함께구매한다.
데이터의각행은트랜잭션에해당
추천시스템에주로사용되며“장바구니분석”이라고도불림
3

54
군집화: Clustering/Segmentation
목적: 전체데이터를보다일관성과응집성이높은세부그룹으로나눔
동일그룹내의개체들은유사할수록, 다른그룹내의개체들은서로상이할수록좋은군집화결과임
Market/Customer segmentation등에사용
4

55
데이터사이언스절차
프로젝트의목적및문제정의
데이터수집/검증/수정
데이터탐색및전처리
데이터마이닝/기계학습모델구축
결과의평가및해석
모델의적용및모니터링
1
2
3
4
5
6

56
1단계: 프로젝트의목적및문제정의
왜이프로젝트를진행하려고하는가?
정성적목표
고객충성도의증가
마케팅효율성증대
이프로젝트가성공하면무엇을기대할수있는가?
고객기대수명의증가
매출증대/비용감소
1

57
1

58
데이터마이닝/기계학습으로풀고자하는문제정의
이고객은우리제품을구매하는데한달에얼마를소비할것인가?
현재환자의상태로볼때암으로판정될가능성은얼마나되는가?
문제에걸맞는기계학습알고리즘선택
분류방법론
예측방법론
연관규칙분석등
1

59
2단계: 데이터수집/검증/수정
데이터수집/검증/수정: 데이터수집
데이터원천
내부데이터: 데이터웨어하우스, 데이터마트등
외부데이터: 구입데이터, 공공데이터등
필요할경우독립변수와종속변수정의
예시: 신용카드이탈고객예측모형
•독립변수: 나이, 성별, 사용기간, 월평균이용금액, 신용등급
•종속변수: 이탈여부
2

60
데이터수집/검증/수정: 데이터검증
이상치(Outlier)
값은존재하되실질적으로가능하지않은값(나이990살, 키30m)
다양한이유로인해현실DB에는이상치가존재함
결측치(Missing value)
값이있어야할곳에값이존재하지않는상황
운영에러, 휴먼에러등
해결방안
레코드의수가충분히많다제거
레코드의수가충분치않다합리적인값으로대치(imputation)
2

61
데이터수집/검증/수정: 데이터수정
정성적변수
특정한속성을가진자료(성별: 남/여, 혈액형: A/B/O/AB 등)
일반적으로사칙연산적용불가능
명목형(Nominal)
자료값의크기나순서에의미가없음
각속성에대하여편의상숫자를대응시켜사용하기도함
혈액형, 종교, 운동선수등번호, 인종등
순서형(Ordinal)
기준에따라자료값들의순서에의미를부여
각숫자는순서의의미만을가지며, 차이/비율의의미는없음
에너지효율등급, 학점, 올림픽메달등
2

62
정량적변수
많고적음을나타내는수치로된자료
사칙연산가능
계수형/이산형(Count/Discrete)
셀수있는정수의형태
형제수, 보험가입건수등
연속형(Continuous)
셀수없는소수점을포함
키, 무게, 길이등
구간형(Interval)
차이만의미가있음
온도: 20도는10도보다2배뜨겁다(X)
비율형(Ratio)
차이와비율이모두의미가있음
20kg은10kg보다2배무겁다(O)
2

63
변수변환
Binning:
•연속형변수를순서형변수로1-of-C coding:
•1개의명목형변수를C개의이진형변수로
Low
Mid
High
“Color: yellow, red, blue, green”
d1
d2
d3
d4
yellow
1
0
0
0
red
0
1
0
0
blue
0
0
1
0
green
0
0
0
1
2

64
3단계: 데이터 탐색 및 전처리
데이터 탐색 및 전처리: 데이터 탐색
 단변량 분석
히스토그램: Histogram
• 한 변수의 값이 갖는 분포를
파악
• 정규분포 가정 등에 이용
상자그림: Box plot
0
20
40
60
80
100
120
140
160
180
5 10 15 20 25 30 35 40 45 50
Frequency
MEDV
Histogram
median
quartile 1
“max”
“min”
outliers
mean
outlier
quartile 3
3

65
3단계: 데이터 탐색 및 전처리
데이터 탐색 및 전처리: 데이터 탐색
 다변량 분석
 상관계수:
• 어떤 변수들이 서로 상관관계가 높은가?
• 대표성을 갖는 적은 수의 변수를 선택할 때 사용 가능
CRIM ZN INDUS CHAS NOX RM
CRIM 1
ZN -0.20047 1
INDUS 0.406583 -0.53383 1
CHAS -0.05589 -0.0427 0.062938 1
NOX 0.420972 -0.5166 0.763651 0.091203 1
RM -0.21925 0.311991 -0.39168 0.091251 -0.30219 1
3

66
3단계: 데이터탐색및전처리
데이터탐색및전처리: 데이터탐색
Var. 1
Var. 2
Var. 3
Var. 4
3

67
데이터탐색및전처리: 데이터전처리
차원의저주: Curse of dimensionality
변수가증가할수록동일한설명력을유지하기위해필요한레코드의수는기하급수적으로증가함
“If there are various logical ways to explain a certain phenomenon, the simplest is the best” -Occam’s Razor
21=2
22=4
23=8
3

68
데이터탐색및전처리: 데이터전처리
변수선택: Variable Selection
전체변수중에서유의미한변수만을선택
원래변수의형태가그대로보존됨
변수추출: Variable Extraction
전체데이터집합을잘설명할수있는적은수의변수를생성
원래변수의형태가그대로보존되지않음
Original variables: Age, sex, height, weight
Constructed variables: Age+3*I(sex = female)+0.2*height- 0.3*weight
3

69
데이터탐색및전처리: 데이터전처리(데이터분할)
과적합(Over-fitting)
데이터마이닝알고리즘이데이터의필요없는특징(noise)까지외워버리는상태
0
2
4
6
8
10
0
5
10
0
2
4
6
8
10
0
5
10
3

70
데이터탐색및전처리: 데이터전처리(데이터분할)
학습데이터: Training Data
데이터마이닝모델을구축하는데사용
검증데이터: Validation Data
모델의최적파라미터를선택하는데사용
테스트데이터: Test Data
새로운데이터에적용하여모델의실제예측력을평가하는데사용
Training Data
Algorithm A-1
Algorithm A-2
Algorithm A-3
Algorithm B-1 Algorithm B-2
Algorithm B-3
ValidationData
Algorithm A-1
Algorithm A-2
Algorithm A-3
Algorithm B-3
Test Data
Algorithm A-1
Algorithm A-2
Algorithm A-3
Algorithm B-3
3

71
데이터탐색및전처리: 데이터전처리(데이터정규화)
정규화: Normalization
각변수들의측정단위가다름으로인해나타날수있는효과를제거
z-score: (value-mean)/(standard deviation).
Id
Age
Income
1
25
1,000,000
2
35
2,000,000
3
45
3,000,000
…
…
…
Mean
35
2,000,000
Stdev
5
1,000,000
Id
Age
Income
1
-2
-1
2
0
0
3
2
1
…
…
…
Mean
0
0
Stdev
1
1
Original data
Normalized data
3

72
4단계: 데이터마이닝/기계학습모델구축
데이터마이닝/기계학습모델구축
데이터마이닝/기계학습모델
분류
•Logistic regression, k-nearest neighbor, naïve bayes, classification trees, neural networks, linear discriminantanalysis.
예측
•Linear regression, k-nearest neighbor, regression trees, neural networks.
연관규칙분석: A priori algorithm.
군집화: Hierarchical clustering, K-Means clustering.
4

73
5단계: 결과의 평가 및 해석
결과의 평가 및 해석
 분류 성능 평가 지표
 혼동 행렬(confusion matrix)
 Simple accuracy: (A+C)/(A+B+C+D)
 Balanced correction rate:
 Lift charts, receiver operating characteristic (ROC) curve, etc.
Predicted
1(+) 0(-)
Actual
1(+)
True positive,
Sensitivity (A)
False negative,
Type I error (B)
0(-)
False positive,
Type II error (C)
True negative,
Specificity (D)
C D
D
A B
A



5

74
 회귀 성능 평가 지표
 y: actual target value, y’: predicted target value
• Mean squared error, Root mean squared error
• Mean absolute error
• Mean absolute percentage error
 
  
n
i i i y y
n
MSE
1
2 ( )
1
 
  
n
i i i y y
n
RMSE
1
2 ( )
1
 
  
n
i i i y y
n
MAE
1
1
 
  
n
i i i i y y y
n
MAPE
1
/
1
0
2
4
6
8
10
0 5 10
5

75
 군집화 성능 평가 지표
 군집 내 분산: 동일 군집 내 레코드들은 얼마나 가까이 위치하는가
 군집 간 분산: 다른 군집에 속하는 레코드들은 얼마나 멀리 떨어져 있
는가
 좋은 군집화 결과: 군집 내 분산은 작고 군집 간 분산은 큼
 연관규칙분석 성능 평가 지표
 Support:
 Confidence:
 Lift:
P(A,B)
( )
( , )
( | )
P B
P A B
P A B 
( ) ( )
( , )
( )
( | )
P A P B
P A B
P B
P A B


5

76
6단계: 적용및모니터링
적용및모니터링
모델적용
구축된기계학습모델을운영시스템에이식및실행
기계학습모델의예측결과를바탕으로실제action 수행
•“강필성고객이다음달에우리회사서비스를이용하지않을확류이80%이니이탈하지않도록사용쿠폰을발송하시오.”
모니터링
기계학습예측결과를바탕으로수행한캠페인의성과분석
필요할경우모델의업데이트수행
6

[FAST CAMPUS] 1강 data science overview

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (7)

Similar to [FAST CAMPUS] 1강 data science overview

Similar to [FAST CAMPUS] 1강 data science overview (20)

[FAST CAMPUS] 1강 data science overview