데이터 분석과 통계
최재걸
통합검색
1.
Experience in NAVER
네이버&
검색 기술
연관검색어
자동완성
협력필터
LDA
지식그래프
실시간검색어
사용자클러스터링
뉴스클러스터링
이미지그룹화
랭킹시스템
키워드분류기
주변핫검색
Fraud detection
Team matching
…
실시간 검색
음성인식
대화시스템
문장 요약
데이터마이닝
딥러닝
머신러닝
언어처리
수집 ROBOT IR ( 검색모델 )
빅데이터
실시간처리
TOPIC모델
옛날이야기­연관검색어
Support Confidence Frequent Subset
4
연관검색어
5
랭킹시스템
1
2
3
100클릭
200클릭
50클릭
CASE 1
교환
100클릭
100클릭
50클릭
CASE 2
교환
100클릭
90클릭
50클릭
CASE 3
교환?
6
랭킹시스템
1
2
3
[능력] =[순수능력]+[위치능력]
𝜂1
𝜂2
𝜂3
𝜂 = 𝜙		 + 			𝑥𝛽
100 = 70 + 30
90 = 75 + 15
50 = 45 + 5
7
최근이야기-LDA
corpus docume
nt
8
LDA-이기기위해서.
D1
M
개
w1 w2 w3
wN
… …
w4
z1 z2 z3 z4
zN
z = multinomial(θ) θ = <θ1,θ2,θ3 … ,θk >
θ = Dir(α) α = <α1,α2,α3 … ,αk>
z = <z1,z2,z3 … ,zN>
zn = <zn
1, zn
2, zn
3, .., zn
k > Z1
1
=1
β : p(word, topic)
K
V
β11 β12 … β1v
β21 β22 … β2v
… …
βk1 βk2 … βkv
K : topic 수
Latent
Dirichlet
Allocation
9
LDA
10
LDA
11
실시간검색어
12
실시간검색어
www.cs.cmu.edu/~neill/papers/eventdetection.pdf )
13
아직도..­협력필터
14
협력필터
Wij : item i와 j간의 weight
Conditional probability를 이용하여
score를 계산
qi : item의 특성을 n개의 feature로 표현
pu : 사용자의 특성을 n개의 feature로 표현
사용자와 아이템을 똑같은 n차원의 feature
로 표현하여 둘의 곱으로 선호도를 구함. 전역
적인 특성이 있음
w : feature의 weight
Ii : i 번째 아이템의 feature
각 feature의 global한 weght를 구하여 적
용한다.
Neighborhood
model
1 Factor model2 Contents model3
User behavior 이용 Contents 정보 이용User behavior 이용
𝑆𝑐𝑜𝑟𝑒 𝑢𝑖 = 2 𝑤𝑖𝑗 𝑃 𝑑78𝑑9 +
;∈= >
𝑞𝑖
@
A 𝑝𝑢 + 𝑤 A 𝐼𝑖 2 𝐼𝑗
;∈= >
15
UX 그리고 데이터 분석
-네이버 UI 변경
사용감소
2.
분석 5단계
0. 데이터 분석
데이터 분석은 크게 5가지 작업으로 구분된다.
(1) Data Collection ­ 수집
: 필요한 자료수집 ( 생각보다 어려움 )
(2) Descriptive Statistics - 기술통계
: 데이터를 이해하는 지점.
(3) Exploratory data analysis ­ 탐구적 자료분석
: 같음, 다름을 찾아내는 지점.
(4) Hypothesis testing ­ 가설검정
: 확신을 얻는 지점.
(5) Estimation ­ 추정
: 모델을 완성하는 지점.
5가지를 균형있게 수행할 수 있는 사람을 ‘데이터사이언티스트’ 라고 한다.
1. 기술통계 (Descriptive Statistics)
- 데이터가 어떻게 생겼는지 이해하는 부분
“송중기가어떻게생겼는가?”
->잘생겼네.
->눈은어떻고,코는어떻고,…
평균
Median, quantile, variance, …
1. 기술통계 (Descriptive Statistics)
- 데이터가 어떻게 생겼는지 이해하는 부분
“기초통계를보고싶다”
데이터가 어떻게 생겼는지 알고싶다
[ multi modal 예제 ]
가장짧은말로,가장많은모습을설명한다.
! 대부분, 데이터를 이해하는 과정에서 분석의 전체 구조가 나온다.
2. 탐구적 자료분석 (Exploratory Data Analysis )
- 특징 ( 패턴 및 특이점) 찾는 부분
이중에유독다른한장을찾을수있
나?
① ②
③ ④
2. 탐구적 자료분석 (Exploratory Data Analysis )
- 패턴 및 특이점 찾는 부분
- SequenceMining
- Clustering
- Classification
- Topicmodeling
- Deeplearning
[ clustering 예제]
3. 가설검정 (Hypothesis testing)
- 찾아낸 특징이 정말로 그러한지 확신하는 부분
“송중기와송혜교가만나는사이인
가?”
->증거: 반지,커플티..
3. 가설검정 (Hypothesis testing)
- 찾아낸 특징이 정말로 그러한지 확신하는 부분
- P-value
- T test,Chisquaretest
- Likelihoodratio
- Crossvalidation
4. 추정 (Estimation)
- 현재까지의 증거를 가지고, 현상의 본질을 설명하는 모델을 만드는 것
“드라마를같이하면사귄다”
4. 추정 (Estimation)
- 현재까지의 증거를 가지고, 현상의 본질을 설명하는 모델을 만드
는 것
- BayesianInference
- DeepLearning
5. 데이터 수집 (Data Collection)
- 예상되는 결론을 입증하기 위해 필요한 자료를 수집
“드라마를같이하면사귄다”
O
X
?뉴스
SNS
지식인
연애
모델
ML DM STAT
Data
Mining
(KDD)
Machine
Learning
( AI )
Statistics
From
http://www.kdnuggets.com/2014/06/data-science-skills-business-problems.html
1.1Data Mining
From
www.saedasayad.com
-Solving everything
-Algorithmic & Efficient
1.2 Machine Learning
From
http://www.humphreysheil.com/blog/dee
p-learning-and-machine-learning
-AI is all of computer science
-Learn, learn and learn
1.3 Statistics
From
www.quora.com
- The World is probabilistic
- Model and Distribution
Too formal but strong
1.4 Why statistics?
Data
Mining
(KDD)
Machine
Learning
( AI )
Statistics
DATA à Probability ­ inevitably
Association Rule
( Conditional Probability)
K-means ( EM )
1. NO BLACK BOX
2. BREAKTHROUGH
畵龍點睛
3.
Statistics for Computer
Science
3.1 Agony..
D-
재수강
Drop
네번..
3.2 Learn from problem-solving
Gaussian Mixture Model for MUSIC ( 2012 )
Beat빠르기
전자음
가우시언믹스쳐를 알고는 있었지만,
사용할 수 없을 것 같았음.
실제 상황 + 이론
“느리니까 쓰지않는다.”
3.3 Roughly saying about Statistics..
분포통계기술통계 검정통계회귀통계
3.4 기초통계
입사한지 얼마 안되었을 때.. “기초통계를 보고싶다”
“송중기가어떻게생겼는가?”
->잘생겼네.
->눈은어떻고,코는어떻고,…
평균
Median, quantile, variance, …
“데이터가 어떻게 생겼는지 알고싶다”
3.5 분포통계
Dirichlet - 드리쉴레.. 드리끌레.. 그건 어느 나라 말입니까? LDA ( 2010)
분포의 식에 현혹..
분포의 관계로 부터 출발
3.5 분포통계
제가 사용하는 분포 구조입니다.
베르누이 이항분포 정규분표
t분표
카이스퀘
어분표
F분표
다항분포
다변량정
규분표
베타분포
드리쉴레
분포
프아송
분포
감마분포
(지수분포)
검정통계continuousdiscrete
동전던지기
여러번 무한번
평균
제곱:
분산
나누기
일정시간
거꾸로
거꾸로
거꾸로
주사위
여러번
무한번
3.5 분포통계
제가 사용하는 분포 구조입니다.
베르누이 이항분포 정규분표
t분표
카이스퀘
어분표
F분표
다항분포
다변량정
규분표
베타분포
드리쉴레
분포
프아송
분포
감마분포
(지수분포)
검정통계continuousdiscrete
bernuill binomial
poisson
multinomial
Multivariate
normaml
gaussian
beta
dirichlet
Student t
Chi-square
F
Gamma
일정시간
-
3.5 분포통계 예제
Latent DirichletAllocation : LDA ( 2010)
다항분포
드리쉴레
분포
multinomial
dirichlet
실전!
3.6 회귀통계
하고 싶은 것은.. 각 feature의 Weight 학습.
𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝜖
R에서 lm 하면됨.
로지스틱?
쁘아송?
감마?
…
3.6 회귀통계
Y가 좀 너무 크거나, 작으면.. 약간 이상해 지는 느낌…
𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝜖
1년간 회사를 그만둔 사람 수? 좀 작은데..
연봉..? 좀 너무 숫자가 큰데..
poisson
gamma
3.6 회귀통계
Y가 좀 너무 크거나, 작으면.. 약간 이상해 지는 느낌…
𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝜖
1년간 회사를 그만둔 사람 수? 좀 작은데..
연봉..? 좀 너무 숫자가 큰데..
poisson
gamma
logistic
Multi
logistic
identity
3.6 회귀통계 예제
노출되는 랭킹과 클릭수와의 관계
𝑦 = 𝑤1 𝑥1 + 𝜖
10000 = w*1등 + error
5000 = w*2등 + error
중요한건 Y 의 분포 à 분포를 알아야..
log	( 𝑦) = 𝑤1 𝑥1 + 𝜖
LINEARNON-L
3.6 통계
분포 + 회귀 + 검정 à 경험으로 습득
poisson
gamma
logistic
Multi
logistic
identity
평균
분산
3.7 유클리드.
From
wikipedia
마치며..
- 데이터분석 그리고 통계
-Welcome!
Q&A
Thank You

데이터분석과통계2 - 최재걸님