협력필터
Wij : itemi와 j간의 weight
Conditional probability를 이용하여
score를 계산
qi : item의 특성을 n개의 feature로 표현
pu : 사용자의 특성을 n개의 feature로 표현
사용자와 아이템을 똑같은 n차원의 feature
로 표현하여 둘의 곱으로 선호도를 구함. 전역
적인 특성이 있음
w : feature의 weight
Ii : i 번째 아이템의 feature
각 feature의 global한 weght를 구하여 적
용한다.
Neighborhood
model
1 Factor model2 Contents model3
User behavior 이용 Contents 정보 이용User behavior 이용
𝑆𝑐𝑜𝑟𝑒 𝑢𝑖 = 2 𝑤𝑖𝑗 𝑃 𝑑78𝑑9 +
;∈= >
𝑞𝑖
@
A 𝑝𝑢 + 𝑤 A 𝐼𝑖 2 𝐼𝑗
;∈= >
15
0. 데이터 분석
데이터분석은 크게 5가지 작업으로 구분된다.
(1) Data Collection 수집
: 필요한 자료수집 ( 생각보다 어려움 )
(2) Descriptive Statistics - 기술통계
: 데이터를 이해하는 지점.
(3) Exploratory data analysis 탐구적 자료분석
: 같음, 다름을 찾아내는 지점.
(4) Hypothesis testing 가설검정
: 확신을 얻는 지점.
(5) Estimation 추정
: 모델을 완성하는 지점.
5가지를 균형있게 수행할 수 있는 사람을 ‘데이터사이언티스트’ 라고 한다.
19.
1. 기술통계 (DescriptiveStatistics)
- 데이터가 어떻게 생겼는지 이해하는 부분
“송중기가어떻게생겼는가?”
->잘생겼네.
->눈은어떻고,코는어떻고,…
평균
Median, quantile, variance, …
20.
1. 기술통계 (DescriptiveStatistics)
- 데이터가 어떻게 생겼는지 이해하는 부분
“기초통계를보고싶다”
데이터가 어떻게 생겼는지 알고싶다
[ multi modal 예제 ]
가장짧은말로,가장많은모습을설명한다.
! 대부분, 데이터를 이해하는 과정에서 분석의 전체 구조가 나온다.
21.
2. 탐구적 자료분석(Exploratory Data Analysis )
- 특징 ( 패턴 및 특이점) 찾는 부분
이중에유독다른한장을찾을수있
나?
① ②
③ ④
22.
2. 탐구적 자료분석(Exploratory Data Analysis )
- 패턴 및 특이점 찾는 부분
- SequenceMining
- Clustering
- Classification
- Topicmodeling
- Deeplearning
[ clustering 예제]
23.
3. 가설검정 (Hypothesistesting)
- 찾아낸 특징이 정말로 그러한지 확신하는 부분
“송중기와송혜교가만나는사이인
가?”
->증거: 반지,커플티..
24.
3. 가설검정 (Hypothesistesting)
- 찾아낸 특징이 정말로 그러한지 확신하는 부분
- P-value
- T test,Chisquaretest
- Likelihoodratio
- Crossvalidation
3.4 기초통계
입사한지 얼마안되었을 때.. “기초통계를 보고싶다”
“송중기가어떻게생겼는가?”
->잘생겼네.
->눈은어떻고,코는어떻고,…
평균
Median, quantile, variance, …
“데이터가 어떻게 생겼는지 알고싶다”
38.
3.5 분포통계
Dirichlet -드리쉴레.. 드리끌레.. 그건 어느 나라 말입니까? LDA ( 2010)
분포의 식에 현혹..
분포의 관계로 부터 출발
39.
3.5 분포통계
제가 사용하는분포 구조입니다.
베르누이 이항분포 정규분표
t분표
카이스퀘
어분표
F분표
다항분포
다변량정
규분표
베타분포
드리쉴레
분포
프아송
분포
감마분포
(지수분포)
검정통계continuousdiscrete
동전던지기
여러번 무한번
평균
제곱:
분산
나누기
일정시간
거꾸로
거꾸로
거꾸로
주사위
여러번
무한번
40.
3.5 분포통계
제가 사용하는분포 구조입니다.
베르누이 이항분포 정규분표
t분표
카이스퀘
어분표
F분표
다항분포
다변량정
규분표
베타분포
드리쉴레
분포
프아송
분포
감마분포
(지수분포)
검정통계continuousdiscrete
bernuill binomial
poisson
multinomial
Multivariate
normaml
gaussian
beta
dirichlet
Student t
Chi-square
F
Gamma
일정시간
-
3.6 회귀통계
Y가 좀너무 크거나, 작으면.. 약간 이상해 지는 느낌…
𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝜖
1년간 회사를 그만둔 사람 수? 좀 작은데..
연봉..? 좀 너무 숫자가 큰데..
poisson
gamma
44.
3.6 회귀통계
Y가 좀너무 크거나, 작으면.. 약간 이상해 지는 느낌…
𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝜖
1년간 회사를 그만둔 사람 수? 좀 작은데..
연봉..? 좀 너무 숫자가 큰데..
poisson
gamma
logistic
Multi
logistic
identity
45.
3.6 회귀통계 예제
노출되는랭킹과 클릭수와의 관계
𝑦 = 𝑤1 𝑥1 + 𝜖
10000 = w*1등 + error
5000 = w*2등 + error
중요한건 Y 의 분포 à 분포를 알아야..
log ( 𝑦) = 𝑤1 𝑥1 + 𝜖
LINEARNON-L
46.
3.6 통계
분포 +회귀 + 검정 à 경험으로 습득
poisson
gamma
logistic
Multi
logistic
identity
평균
분산