Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Espaรฑol
Portuguรชs
Franรงais
Deutsche
Cancel
Save
EN
Uploaded by
Jeonghun Yoon
PDF, PPTX
1,296 views
03. linear regression
[Machine-learing] 3. linear regression
Data & Analytics
โฆ
Related topics:
Linear Regression
โข
Deep Learning
โข
Read more
0
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 43
2
/ 43
3
/ 43
4
/ 43
5
/ 43
6
/ 43
7
/ 43
8
/ 43
9
/ 43
10
/ 43
11
/ 43
12
/ 43
13
/ 43
14
/ 43
15
/ 43
16
/ 43
17
/ 43
18
/ 43
19
/ 43
20
/ 43
21
/ 43
22
/ 43
23
/ 43
24
/ 43
25
/ 43
26
/ 43
27
/ 43
28
/ 43
29
/ 43
30
/ 43
31
/ 43
32
/ 43
33
/ 43
34
/ 43
35
/ 43
36
/ 43
37
/ 43
38
/ 43
39
/ 43
40
/ 43
41
/ 43
42
/ 43
43
/ 43
More Related Content
PDF
04. logistic regression ( ๋ก์ง์คํฑ ํ๊ท )
by
Jeonghun Yoon
ย
PPTX
0207 1 gradient
by
Jeonghun Yoon
ย
PDF
08. spectal clustering
by
Jeonghun Yoon
ย
PDF
Decision tree
by
Jeonghun Yoon
ย
PDF
02. naive bayes classifier revision
by
Jeonghun Yoon
ย
PPTX
0228 2 sample_distribution
by
Jeonghun Yoon
ย
PPTX
07. PCA
by
Jeonghun Yoon
ย
PPTX
0131 2 spectral_theorem_eigenvalue
by
Jeonghun Yoon
ย
04. logistic regression ( ๋ก์ง์คํฑ ํ๊ท )
by
Jeonghun Yoon
ย
0207 1 gradient
by
Jeonghun Yoon
ย
08. spectal clustering
by
Jeonghun Yoon
ย
Decision tree
by
Jeonghun Yoon
ย
02. naive bayes classifier revision
by
Jeonghun Yoon
ย
0228 2 sample_distribution
by
Jeonghun Yoon
ย
07. PCA
by
Jeonghun Yoon
ย
0131 2 spectral_theorem_eigenvalue
by
Jeonghun Yoon
ย
What's hot
PDF
06. graph mining
by
Jeonghun Yoon
ย
PDF
SVM
by
Jeonghun Yoon
ย
PPTX
Neural network (perceptron)
by
Jeonghun Yoon
ย
PDF
Association rule mining
by
Jeonghun Yoon
ย
PDF
05. k means clustering ( k-means ํด๋ฌ์คํฐ๋ง)
by
Jeonghun Yoon
ย
PPTX
0124 2 linear_algebra_basic_matrix
by
Jeonghun Yoon
ย
PPTX
0307 1 estimation_theory
by
Jeonghun Yoon
ย
PPTX
Ensemble Model (Hybrid model)
by
Jeonghun Yoon
ย
PPTX
0124 1 linear_algebra_basic_vector
by
Jeonghun Yoon
ย
PPTX
Topic models
by
Jeonghun Yoon
ย
PPTX
0314 1 anova
by
Jeonghun Yoon
ย
PPTX
0131 1 spectral_theorem_transformation
by
Jeonghun Yoon
ย
PDF
01. introduction
by
Jeonghun Yoon
ย
PPTX
0221 basic probability theory
by
Jeonghun Yoon
ย
PPTX
0314 2 correlation
by
Jeonghun Yoon
ย
PPTX
0307 2 hypothesis_testing
by
Jeonghun Yoon
ย
PPTX
Variational AutoEncoder(VAE)
by
๊ฐ๋ฏผ๊ตญ ๊ฐ๋ฏผ๊ตญ
ย
PDF
Linear algebra
by
Sungbin Lim
ย
PDF
ESM Mid term Review
by
Mario Cho
ย
PDF
Wasserstein GAN ์ํ ์ดํดํ๊ธฐ I
by
Sungbin Lim
ย
06. graph mining
by
Jeonghun Yoon
ย
SVM
by
Jeonghun Yoon
ย
Neural network (perceptron)
by
Jeonghun Yoon
ย
Association rule mining
by
Jeonghun Yoon
ย
05. k means clustering ( k-means ํด๋ฌ์คํฐ๋ง)
by
Jeonghun Yoon
ย
0124 2 linear_algebra_basic_matrix
by
Jeonghun Yoon
ย
0307 1 estimation_theory
by
Jeonghun Yoon
ย
Ensemble Model (Hybrid model)
by
Jeonghun Yoon
ย
0124 1 linear_algebra_basic_vector
by
Jeonghun Yoon
ย
Topic models
by
Jeonghun Yoon
ย
0314 1 anova
by
Jeonghun Yoon
ย
0131 1 spectral_theorem_transformation
by
Jeonghun Yoon
ย
01. introduction
by
Jeonghun Yoon
ย
0221 basic probability theory
by
Jeonghun Yoon
ย
0314 2 correlation
by
Jeonghun Yoon
ย
0307 2 hypothesis_testing
by
Jeonghun Yoon
ย
Variational AutoEncoder(VAE)
by
๊ฐ๋ฏผ๊ตญ ๊ฐ๋ฏผ๊ตญ
ย
Linear algebra
by
Sungbin Lim
ย
ESM Mid term Review
by
Mario Cho
ย
Wasserstein GAN ์ํ ์ดํดํ๊ธฐ I
by
Sungbin Lim
ย
Similar to 03. linear regression
PDF
Lecture 2: Supervised Learning
by
Sang Jun Lee
ย
PPTX
Python Machine Learning - ML02 Linear Regression(์ ํํ๊ท)
by
๊ฑดํ ์
ย
PPTX
Variational inference intro. (korean ver.)
by
Kiho Hong
ย
PDF
์ง๋ ํ์ต, ํจ์ ๊ทผ์ฌ์ ์ต์ ํ ๋ฌธ์ : ๋ฐ์ดํฐ๋ ์ฐ์ ํ๋ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค๋ผ๋ ์ฐ์ํ๊ฒ
by
Young-Geun Choi
ย
PPTX
[Probability for machine learning]
by
๊ฐ๋ฏผ๊ตญ ๊ฐ๋ฏผ๊ตญ
ย
PDF
7. Linear Regression
by
Jungkyu Lee
ย
PDF
[์ ๊ฒฝ๋ง๊ธฐ์ด] ์ ํํ๊ท๋ถ์
by
jaypi Ko
ย
PDF
8. Logistic Regression
by
Jungkyu Lee
ย
PDF
Coursera Machine Learning (by Andrew Ng)_๊ฐ์์ ๋ฆฌ
by
SANG WON PARK
ย
PPTX
2.supervised learning(epoch#2)-1
by
Haesun Park
ย
PDF
R_datamining
by
์ฃผ์ ์ก
ย
PPTX
Linear regression
by
์ ํฌ์ฒ
ย
PPTX
๋จธํผ's ๋จธ์ ๋ฌ๋, Mixture model and EM algorithm
by
Jungkyu Lee
ย
PDF
แแ ฉแแ ณแ แ ฉ แแ ตแแ ขแแ กแแ ณแซ Back_propagation(cs231n)
by
SANG WON PARK
ย
PDF
ALS WS์ ๋ํ แแ ตแแ ข ์๋ฃ
by
beom kyun choi
ย
PDF
์บ๋น๋จธํผ ๋จธ์ ๋ฌ๋ Kevin Murphy Machine Learning Statistic
by
์ฉ์ง ์กฐ
ย
PDF
Lecture 3: Unsupervised Learning
by
Sang Jun Lee
ย
PDF
[ํ๋ ๋จธ์ ๋ฌ๋ ์คํฐ๋ - ํธ์ฆ์จ ๋จธ์ ๋ฌ๋] 4์ฅ. ๋ชจ๋ธ ํ๋ จ
by
Haesun Park
ย
PDF
01_ML ๊ธฐ์ด_์ ํํ๊ท_Linear Regression
by
AHRA CHO
ย
PDF
Wiki machine learning_and_neuralnet_190920h
by
Seokhyun Yoon
ย
Lecture 2: Supervised Learning
by
Sang Jun Lee
ย
Python Machine Learning - ML02 Linear Regression(์ ํํ๊ท)
by
๊ฑดํ ์
ย
Variational inference intro. (korean ver.)
by
Kiho Hong
ย
์ง๋ ํ์ต, ํจ์ ๊ทผ์ฌ์ ์ต์ ํ ๋ฌธ์ : ๋ฐ์ดํฐ๋ ์ฐ์ ํ๋ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค๋ผ๋ ์ฐ์ํ๊ฒ
by
Young-Geun Choi
ย
[Probability for machine learning]
by
๊ฐ๋ฏผ๊ตญ ๊ฐ๋ฏผ๊ตญ
ย
7. Linear Regression
by
Jungkyu Lee
ย
[์ ๊ฒฝ๋ง๊ธฐ์ด] ์ ํํ๊ท๋ถ์
by
jaypi Ko
ย
8. Logistic Regression
by
Jungkyu Lee
ย
Coursera Machine Learning (by Andrew Ng)_๊ฐ์์ ๋ฆฌ
by
SANG WON PARK
ย
2.supervised learning(epoch#2)-1
by
Haesun Park
ย
R_datamining
by
์ฃผ์ ์ก
ย
Linear regression
by
์ ํฌ์ฒ
ย
๋จธํผ's ๋จธ์ ๋ฌ๋, Mixture model and EM algorithm
by
Jungkyu Lee
ย
แแ ฉแแ ณแ แ ฉ แแ ตแแ ขแแ กแแ ณแซ Back_propagation(cs231n)
by
SANG WON PARK
ย
ALS WS์ ๋ํ แแ ตแแ ข ์๋ฃ
by
beom kyun choi
ย
์บ๋น๋จธํผ ๋จธ์ ๋ฌ๋ Kevin Murphy Machine Learning Statistic
by
์ฉ์ง ์กฐ
ย
Lecture 3: Unsupervised Learning
by
Sang Jun Lee
ย
[ํ๋ ๋จธ์ ๋ฌ๋ ์คํฐ๋ - ํธ์ฆ์จ ๋จธ์ ๋ฌ๋] 4์ฅ. ๋ชจ๋ธ ํ๋ จ
by
Haesun Park
ย
01_ML ๊ธฐ์ด_์ ํํ๊ท_Linear Regression
by
AHRA CHO
ย
Wiki machine learning_and_neuralnet_190920h
by
Seokhyun Yoon
ย
03. linear regression
1.
Jeonghun Yoon
2.
์ง๋ ์๊ฐ.....Naive Bayes
Classifier arg max ๐ฆ ๐ ๐ฅ1, โฆ , ๐ฅ ๐ ๐ฆ ๐(๐ฆ) = arg max ๐ฆ ๐ ๐ฅ๐ ๐ฆ ๐(๐ฆ) ๐ ๐=1 class ๐ฆ ์ ๋ฐ์ ํ๋ฅ ๊ณผ test set์์ class ๐ฆ์ label์ ๊ฐ์ง ๋ฐ์ดํฐ์ ํน์ฑ ๋ฒกํฐ์ ์์ ๐ฅ๐ (๋ฌธ์์ ์์์๋ ๋จ์ด) ๊ฐ ๋์ฌ ํ๋ฅ ์ ๊ณฑ ex) (I, love, you)๊ฐ spam์ธ์ง ์๋์ง ์๊ธฐ ์ํด์๋, test set์์ spam์ด ์ฐจ์งํ๋ ๋น์จ๊ณผ spam์ผ๋ก labeling ๋ ๋ฌธ์์์ I์ love์ you๊ฐ ๋ฐ์ํ๋ ํ๋ฅ ์ ๋ชจ๋ ๊ณฑํ ๊ฒ๊ณผ, test set์์ ham์ด ์ฐจ์งํ๋ ๋น์จ๊ณผ ham์ผ๋ก labeling ๋ ๋ฌธ์์์ I์ love์ you๊ฐ ๋ฐ์ํ๋ ํ๋ฅ ์ ๋ชจ๋ ๊ณฑํ ๊ฒ์, ๋น๊ตํ๋ค.
3.
์ง๋ ์๊ฐ ๋ฏธ๋นํ๋
์ ๋ค... 1. Laplacian Smoothing (appendix ์ฐธ๊ณ ) 2. MLE / MAP 1
4.
Bayesโ Rule ๐ ๐
๐ฉ = ๐ ๐ฉ ๐ ๐(๐) ๐ ๐ฉ ๐ ๐(๐) posteriori (์ฌํ ํ๋ฅ ) likelihood (์ฐ๋ ๊ฐ) prior (์ฌ์ ํ๋ฅ ) ์ฌํ ํ๋ฅ : ๊ด์ฐฐ ๊ฐ๋ค์ด ๊ด์ฐฐ ๋ ํ์ ๋ชจ์(parameter)์ ๋ฐ์ ํ๋ฅ ์ ๊ตฌํ๋ค. ์ฌ์ ํ๋ฅ : ๊ด์ฐฐ ๊ฐ๋ค์ด ๊ด์ฐฐ ๋๊ธฐ ์ ์ ๋ชจ์์ ๋ฐ์ ํ๋ฅ ์ ๊ตฌํ๋ค. ์ฐ๋ ๊ฐ : ๋ชจ์์ ๊ฐ์ด ์ฃผ์ด์ก์ ๋ ๊ด์ฐฐ ๊ฐ๋ค์ด ๋ฐ์ํ ํ๋ฅ
5.
Maximum Likelihood Estimate ๐ฉ
= (๐ฅ1, โฆ , ๐ฅ ๐) ๐ ๐ฝ = ๐ ๐ฉ ๐ฝ ์ฐ๋(likelihood)๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ ๋๋ค. ๋ณ์(parameter) ๐๊ฐ ์ฃผ์ด์ก์ ๋, data set ๐ฉ = (๐ฅ1, โฆ , ๐ฅ ๐) (๊ด์ฐฐ ๋, observed) ๋ฅผ ์ป์ ์ ์๋(obtaining) ํ๋ฅ ๐(๐ฉ|๐) ๐ ๐์ ํจ์. ๐์ pdf๋ ์๋. ๐ฉ = (๐ฅ1, โฆ , ๐ฅ ๐)
6.
Maximum Likelihood Estimate๋
๋ค์๊ณผ ๊ฐ์ด ์ ์ ๋๋ค. ๊ด์ฐฐ ๋ data set ๐ฉ = ๐ฅ1, โฆ , ๐ฅ ๐ ์ ์ป์ ์ ์๋ ํ๋ฅ ์ด ๊ฐ์ฅ ํฐ ๐๊ฐ MLE์ด๋ค. ๐(๐ฉ|๐1) ๐ ๐ฉ = (๐ฅ1, โฆ , ๐ฅ ๐) ๐ฝ = ๐๐ซ๐ ๐ฆ๐๐ฑ ๐ฝ ๐ ๐ฝ = ๐๐ซ๐ ๐ฆ๐๐ฑ ๐ฝ ๐(๐ฉ|๐ฝ)ฬ ๐(๐ฉ|๐2) ๐(๐ฉ|๐3) ๐(๐ฉ|๐) ๐ = ๐2 ฬ
7.
์ฐ๋ฆฌ๊ฐ likelihood function
๐(๐ฉ|๐)์ prior ๐(๐)๋ฅผ ์ ๋, Bayes rule์ ์ํ์ฌ posteriori function์ ๊ฐ์ ๊ตฌํ ์ ์๋ค. ๐ ๐ฝ ๐ฉ โ ๐ ๐ฉ ๐ฝ ๐(๐ฝ) Maximum A Posteriori Estimate ๐ ๐ ๐ฉ = ๐ ๐ฉ ๐ ๐(๐) ๐ ๐ฉ ๐ ๐(๐) posteriori (์ฌํ ํ๋ฅ ) likelihood (์ฐ๋ ๊ฐ) prior (์ฌ์ ํ๋ฅ )
8.
Likelihood ๐(๐ฉ|๐) Prior ๐(๐) Posterior ๐
๐ ๐ฉ โ ๐ ๐ฉ ๐ ๐(๐)
9.
Likelihood ๐(๐ฉ|๐) Prior ๐(๐) Posterior ๐
๐ ๐ฉ โ ๐ ๐ฉ ๐ ๐(๐)
10.
๐ฝ = ๐๐ซ๐
๐ฆ๐๐ฑ ๐ฝ ๐(๐ฝ|๐ฉ) Likelihood ๐(๐ฉ|๐) Prior ๐(๐) Posterior ๐ ๐ ๐ฉ โ ๐ ๐ฉ ๐ ๐(๐)
11.
Regression
12.
๋๋ ํฐ ์ ๋ฐํ์ฌ์
CEO์ด๋ค. ๋ง์ ์ง์ ๋ค์ ๊ฐ์ง๊ณ ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฒ์ ์๋ก์ด ์ง์ ์ ๋ด๊ณ ์ถ๋ค. ์ด๋ ์ง์ญ์ ๋ด์ผ ๋ ๊น? ๋ด๊ฐ ์๋ก์ด ์ง์ ์ ๋ด๊ณ ์ถ์ดํ๋ ์ง์ญ๋ค์ ์์ ์์ต๋ง ํ์ ํ ์ ์์ผ๋ฉด ํฐ ๋์์ด ๋ ๊ฒ์ธ๋ฐ! ๋ด๊ฐ ๊ฐ์ง๊ณ ์๋ ์๋ฃ(data)๋ ๊ฐ ์ง์ ์ ์์ต(profits)๊ณผ ๊ฐ ์ง์ ์ด ์๋ ์ง์ญ์ ์ธ๊ตฌ์(populations)์ด๋ค. ํด๊ฒฐ์ฑ ! Linear Regression! ์ด๊ฒ์ ํตํ์ฌ, ์๋ก์ด ์ง์ญ์ ์ธ๊ตฌ์๋ฅผ ์๊ฒ ๋ ๊ฒฝ์ฐ, ๊ทธ ์ง์ญ์ ์์ ์์ต์ ๊ตฌ ํ ์ ์๋ค. Example 1)
13.
Example 2) ๋๋ ์ง๊ธ
Pittsburgh๋ก ์ด์ฌ๋ฅผ ์๋ค ๋๋ ๊ฐ์ฅ ํฉ๋ฆฌ์ ์ธ ๊ฐ๊ฒฉ์ ์ํํธ๋ฅผ ์ป๊ธฐ ์ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ค์์ ์กฐ๊ฑด๋ค์ ๋ด๊ฐ ์ง์ ์ฌ๊ธฐ ์ํด ๊ณ ๋ คํ๋ ๊ฒ๋ค์ด๋ค. square-ft(ํ๋ฐฉ๋ฏธํฐ), ์นจ์ค์ ์, ํ๊ต ๊น์ง์ ๊ฑฐ๋ฆฌ... ๋ด๊ฐ ์ํ๋ ํฌ๊ธฐ์ ์นจ์ค์ ์๋ฅผ ๊ฐ์ง๊ณ ์๋ ์ง์ ๊ฐ๊ฒฉ์ ๊ณผ์ฐ ์ผ๋ง์ผ๊น?
14.
โ Given an
input ๐ฅ we would like to compute an output ๐ฆ. (๋ด๊ฐ ์ํ๋ ์ง์ ํฌ๊ธฐ์, ๋ฐฉ์ ๊ฐ์๋ฅผ ์ ๋ ฅํ์ ๋, ์ง ๊ฐ๊ฒฉ์ ์์ธก ๊ฐ์ ๊ณ์ฐ) โก For example 1) Predict height from age (height = ๐ฆ, age = ๐ฅ) 2) Predict Google`s price from Yahoo`s price (Google's price = ๐ฆ, Yahoo's price = ๐ฅ) ๐ฆ = ๐0 + ๐1 ๐ฅ ์ฆ, ๊ธฐ์กด์ data๋ค์์ ์ง์ (๐ฆ = ๐0 + ๐1 ๐ฅ)์ ์ฐพ์๋ด๋ฉด, ์๋ก์ด ๊ฐ ๐ฅ ๐๐๐ค๊ฐ ์ฃผ์ด์ก์ ๋, ํด๋นํ๋ ๐ฆ์ ๊ฐ์ ์์ธกํ ์ ์๊ฒ ๊ตฌ๋! learning, training prediction
15.
Input : ์ง์
ํฌ๊ธฐ(๐ฅ1), ๋ฐฉ์ ๊ฐ์(๐ฅ2), ํ๊ต๊น์ง์ ๊ฑฐ๋ฆฌ(๐ฅ3),..... (๐ฅ1, ๐ฅ2, โฆ , ๐ฅ ๐) : ํน์ฑ ๋ฒกํฐ feature vector Output : ์ง ๊ฐ(๐ฆ) ๐ = ๐ฝ ๐ + ๐ฝ ๐ ๐ ๐ + ๐ฝ ๐ ๐ ๐ + โฏ + ๐ฝ ๐ ๐ ๐ training set์ ํตํ์ฌ ํ์ต(learning)
16.
Simple Linear Regression
17.
๐ฆ๐ = ๐0
+ ๐1 ๐ฅ๐ + ๐๐ ๐๋ฒ์งธ ๊ด์ฐฐ์ ๐ฆ๐, ๐ฅ๐ ๊ฐ ์ฃผ์ด์ก์ ๋ ๋จ์ ํ๊ท ๋ชจํ์ ๋ค์๊ณผ ๊ฐ๋ค. ๐3 ๐๐ : ๐๋ฒ์งธ ๊ด์ฐฐ์ ์์ ์ฐ๋ฆฌ๊ฐ ๊ตฌํ๊ณ ์ ํ๋ ํ๊ท์ง์ ๊ณผ ์ค์ ๊ด์ฐฐ๋ ๐ฆ๐์ ์ฐจ์ด (error) ์ฐ๋ฆฌ๋ ์ค๋ฅ์ ํฉ์ ๊ฐ์ฅ ์๊ฒ ๋ง๋๋ ์ง์ ์ ์ฐพ๊ณ ์ถ๋ค. ์ฆ ๊ทธ๋ ๊ฒ ๋ง๋๋ ๐ฝ ๐์ ๐ฝ ๐์ ์ถ์ ํ๊ณ ์ถ๋ค ! How!! ์ต์ ์ ๊ณฑ ๋ฒ! (Least Squares Method) min ๐ฆ๐ โ ๐0 + ๐1 ๐ฅ๐ 2 ๐ = ๐๐๐ ๐๐ 2 ๐ ๐ฆ = ๐0 + ๐1 ๐ฅ ์ค์ ๊ด์ธก ๊ฐ ํ๊ท ์ง์ ์ ๊ฐ(์ด์์ ์ธ ๊ฐ) ์ข ์ ๋ณ์ ์ค๋ช ๋ณ์, ๋ ๋ฆฝ ๋ณ์
18.
min ๐ฆ๐ โ
๐0 + ๐1 ๐ฅ๐ 2 ๐ = min ๐๐ 2 ๐ ์ค์ ๊ด์ธก ๊ฐ ํ๊ท ์ง์ ์ ๊ฐ(์ด์์ ์ธ ๊ฐ) ์์ ์์ ์ต๋ํ ๋ง์กฑ ์ํค๋ ๐0, ๐1์ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ผ๊น? (์ด๋ฌํ ๐1, ๐2๋ฅผ ๐1, ๐2 ๋ผ๊ณ ํ์.) - Normal Equation - Steepest Gradient Descent ห ห
19.
What is normal
equation? ๊ทน๋ ๊ฐ, ๊ทน์ ๊ฐ์ ๊ตฌํ ๋, ์ฃผ์ด์ง ์์ ๋ฏธ๋ถํ ํ์, ๋ฏธ๋ถํ ์์ 0์ผ๋ก ๋ง๋๋ ๊ฐ์ ์ฐพ๋๋ค. min ๐ฆ๐ โ ๐0 + ๐1 ๐ฅ๐ 2 ๐ ๋จผ์ , ๐0์ ๋ํ์ฌ ๋ฏธ๋ถํ์. โ ๐ฆ๐ โ ๐0 + ๐1 ๐ฅ๐ = 0 ๐ ๐ ๐๐0 ๐ฆ๐ โ ๐0 + ๐1 ๐ฅ๐ 2 ๐ = ๋ค์์ผ๋ก, ๐1์ ๋ํ์ฌ ๋ฏธ๋ถํ์. โ ๐ฆ๐ โ ๐0 + ๐1 ๐ฅ๐ ๐ฅ๐ = 0 ๐ ๐ ๐๐1 ๐ฆ๐ โ ๐0 + ๐1 ๐ฅ๐ 2 ๐ = ์ ์ ๋ ์์ 0์ผ๋ก ๋ง์กฑ์ํค๋ ๐0, ๐1๋ฅผ ์ฐพ์ผ๋ฉด ๋๋ค. ์ด์ฒ๋ผ 2๊ฐ์ ๋ฏธ์ง์์ ๋ํ์ฌ, 2๊ฐ์ ๋ฐฉ์ ์(system)์ด ์์ ๋, ์ฐ๋ฆฌ๋ ์ด system์ normal equation(์ ๊ท๋ฐฉ์ ์)์ด๋ผ ๋ถ๋ฅธ๋ค.
20.
The normal equation
form ๐ฉ๐ = 1, ๐ฅ๐ ๐ , ฮ = ๐0, ๐1 ๐ , ๐ช = ๐ฆ1, ๐ฆ2, โฆ , ๐ฆ ๐ ๐ , ๐ = 1 1 โฆ ๐ฅ1 ๐ฅ2 โฆ 1 ๐ฅ ๐ , ๐ = (๐1, โฆ , ๐ ๐) ๋ผ๊ณ ํ์. ๐ช = ๐ฮ + ๐ ๐ฆ1 = ๐0 + ๐1 ๐ฅ1 + ๐1 ๐ฆ2 = ๐0 + ๐1 ๐ฅ2 + ๐2 ....... ๐ฆ ๐โ1 = ๐0 + ๐1 ๐ฅ ๐โ1 + ๐ ๐โ1 ๐ฆ ๐ = ๐0 + ๐1 ๐ฅ ๐ + ๐ ๐ ๐๊ฐ์ ๊ด์ธก ๊ฐ (๐ฅ๐, ๐ฆ๐)์ ์๋์ ๊ฐ์ ํ๊ท ๋ชจํ์ ๊ฐ์ง๋ค๊ณ ๊ฐ์ ํ์. ๐ฆ1 ๐ฆ2 ๐ฆ3 โฆ ๐ฆ ๐ = 1 1 1 โฆ ๐ฅ1 ๐ฅ2 ๐ฅ3 โฆ 1 ๐ฅ ๐ ๐0 ๐1 + ๐1 ๐2 ๐3 โฆ ๐ ๐
21.
๐๐ 2 ๐ ๐=1 = ๐ ๐ ๐
= ๐ช โ ๐ฮ ๐ (๐ช โ ๐ฮ) = ๐ช ๐ ๐ช โ ฮ ๐ ๐ ๐ ๐ช โ ๐ช ๐ ๐ฮ + ฮ ๐ ๐ ๐ ๐ฮ = ๐ช ๐ ๐ช โ 2ฮ ๐ ๐ ๐ ๐ช + ฮ ๐ ๐ ๐ ๐ฮ 1 by 1 ํ๋ ฌ์ด๋ฏ๋ก ์ ์นํ๋ ฌ์ ๊ฐ์ด ๊ฐ๋ค! ๐(๐ ๐ ๐) ๐ฮ = ๐ ๐(๐ ๐ ๐) ๐ฮ = โ2๐ ๐ ๐ช + 2๐ ๐ ๐ฮ = ๐ ๐ ๐ ๐๐ฏ = ๐ ๐ ๐ช ๐ฏ = ๐ ๐ ๐ โ1 ๐ ๐ ๐ชห ์ ๊ท๋ฐฉ์ ์ ๐ช = ๐ฮ + ๐ ๐ = ๐ช โ ๐ฮ Minimize ๐๐ 2 ๐ ๐=1
22.
What is Gradient
Descent? machine learning์์๋ ๋งค๊ฐ ๋ณ์(parameter, ์ ํํ๊ท์์๋ ๐0, ๐1)๊ฐ ์์ญ~ ์๋ฐฑ ์ฐจ์์ ๋ฒกํฐ์ธ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด๋ค. ๋ํ ๋ชฉ์ ํจ์(์ ํํ๊ท์์๋ ฮฃ๐๐ 2 )๊ฐ ๋ชจ๋ ๊ตฌ๊ฐ์์ ๋ฏธ๋ถ ๊ฐ๋ฅํ๋ค๋ ๋ณด์ฅ์ด ํญ์ ์๋ ๊ฒ๋ ์๋๋ค. ๋ฐ๋ผ์ ํ ๋ฒ์ ์์ ์ ๊ฐ๋ก ํด๋ฅผ ๊ตฌํ ์ ์๋ ์ํฉ์ด ์ ์ง ์๊ฒ ์๋ค. ์ด๋ฐ ๊ฒฝ์ฐ์๋ ์ด๊ธฐ ํด์์ ์์ํ์ฌ ํด๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํด ๋๊ฐ๋ ์์น์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. (๋ฏธ๋ถ์ด ์ฌ์ฉ ๋จ)
23.
What is Gradient
Descent? ์ด๊ธฐํด ๐ผ0 ์ค์ ๐ก = 0 ๐ผ ๐ก๊ฐ ๋ง์กฑ์ค๋ฝ๋? ๐ผ ๐ก+1 = ๐ ๐ผ ๐ก ๐ก = ๐ก + 1 ๐ผ = ๐ผ ๐ก หNo Yes
24.
What is Gradient
Descent? Gradient Descent ํ์ฌ ์์น์์ ๊ฒฝ์ฌ๊ฐ ๊ฐ์ฅ ๊ธํ๊ฒ ํ๊ฐํ๋ ๋ฐฉํฅ์ ์ฐพ๊ณ , ๊ทธ ๋ฐฉํฅ์ผ๋ก ์ฝ๊ฐ ์ด๋ํ์ฌ ์๋ก์ด ์์น๋ฅผ ์ก๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ ๋ฐ๋ณตํจ์ผ๋ก์จ ๊ฐ์ฅ ๋ฎ์ ์ง์ (์ฆ ์ต์ ์ )์ ์ฐพ์ ๊ฐ๋ค. Gradient Ascent ํ์ฌ ์์น์์ ๊ฒฝ์ฌ๊ฐ ๊ฐ์ฅ ๊ธํ๊ฒ ์์นํ๋ ๋ฐฉํฅ์ ์ฐพ๊ณ , ๊ทธ ๋ฐฉํฅ์ผ๋ก ์ฝ๊ฐ ์ด๋ํ์ฌ ์๋ก์ด ์์น๋ฅผ ์ก๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ ๋ฐ๋ณตํจ์ผ๋ก์จ ๊ฐ์ฅ ๋์ ์ง์ (์ฆ ์ต๋ ์ )์ ์ฐพ์ ๊ฐ๋ค.
25.
What is Gradient
Descent? Gradient Descent ๐ผ ๐ก+1 = ๐ผ ๐ก โ ๐ ๐๐ฝ ๐๐ผ ๐ผ ๐ก ๐ฝ = ๋ชฉ์ ํจ์ ๐๐ฝ ๐๐ผ ๐ผ ๐ก : ๐ผ ๐ก์์์ ๋ํจ์ ๐๐ฝ ๐๐ผ ์ ๊ฐ ๐ผ ๐ก ๐ผ ๐ก+1 โ ๐๐ฑ ๐๐ถ ๐ถ ๐ ๐๐ฑ ๐๐ถ ๐ถ ๐ ๐ผ ๐ก์์์ ๋ฏธ๋ถ๊ฐ์ ์์์ด๋ค. ๊ทธ๋์ ๐J ๐ฮฑ ฮฑt ๋ฅผ ๋ํ๊ฒ ๋๋ฉด ์ผ์ชฝ์ผ๋ก ์ด๋ํ๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ฉด ๋ชฉ์ ํจ์์ ๊ฐ์ด ์ฆ๊ฐํ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๊ฒ ๋๋ค. ๋ฐ๋ผ์ ๐J ๐ฮฑ ฮฑt ๋ฅผ ๋นผ์ค๋ค. ๊ทธ๋ฆฌ๊ณ ์ ๋นํ ๐๋ฅผ ๊ณฑํด์ฃผ์ด์ ์กฐ๊ธ๋ง ์ด๋ํ๊ฒ ํ๋ค. โ๐ ๐๐ฑ ๐๐ถ ๐ถ ๐
26.
What is Gradient
Descent? Gradient Descent ๐ผ ๐ก+1 = ๐ผ ๐ก โ ๐ ๐๐ฝ ๐๐ผ ๐ผ ๐ก Gradient Ascent ๐ผ ๐ก+1 = ๐ผ ๐ก + ๐ ๐๐ฝ ๐๐ผ ๐ผ ๐ก ๐ฝ = ๋ชฉ์ ํจ์ ๐๐ฝ ๐๐ผ ๐ผ ๐ก : ๐ผ ๐ก์์์ ๋ํจ์ ๐๐ฝ ๐๐ผ ์ ๊ฐ Gradient Descent, Gradient Ascent๋ ์ ํ์ ์ธ Greedy algorithm์ด๋ค. ๊ณผ๊ฑฐ ๋๋ ๋ฏธ๋๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ํ์ฌ ์ํฉ์์ ๊ฐ์ฅ ์ ๋ฆฌํ ๋ค์ ์์น๋ฅผ ์ฐพ์ Local optimal point๋ก ๋๋ ๊ฐ๋ฅ์ฑ์ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
27.
๐ฝ ฮ = 1 2 ๐0
+ ๐1 ๐ฅ๐ โ ๐ฆ๐ 2 ๐ ๐=1 = 1 2 ฮ ๐ ๐ฉ๐ โ ๐ฆ๐ 2 ๐ ๐=1 ๐ฉ๐ = 1, ๐ฅ๐ ๐ , ฮ = ๐0, ๐1 ๐ , ๐ช = ๐ฆ1, ๐ฆ2, โฆ , ๐ฆ๐ ๐ , ๐ = 1 1 โฆ ๐ฅ1 ๐ฅ2 โฆ 1 ๐ฅ ๐ , ๐ = (๐1, โฆ , ๐ ๐) ๋ผ๊ณ ํ์. ๐0 ๐ก+1 = ๐0 ๐ก โ ๐ผ ๐ ๐๐0 ๐ฝ(ฮ)๐ก ๐1 ๐ก+1 = ๐1 ๐ก โ ๐ผ ๐ ๐๐1 ๐ฝ(ฮ)๐ก ๐0์ ๐ก๋ฒ์งธ ๊ฐ์, ๐ฝ(ฮ)๋ฅผ ๐0์ผ๋ก ๋ฏธ๋ถํ ์์๋ค๊ฐ ๋์ . ๊ทธ ํ์, ์ด ๊ฐ์ ๐0์์ ๋นผ ์ค. ๋ฏธ๋ถํ ๋ ์ด์ฉ. Gradient descent๋ฅผ ์ค์งํ๋ ๊ธฐ์ค์ด ๋๋ ํจ์
28.
๐ฝ ฮ = 1 2 ๐0
+ ๐1 ๐ฅ๐ โ ๐ฆ๐ 2 ๐ ๐=1 = 1 2 ฮ ๐ ๐ฉ๐ โ ๐ฆ๐ 2 ๐ ๐=1 ๐ฉ๐ = 1, ๐ฅ๐ ๐ , ฮ = ๐0, ๐1 ๐ , ๐ช = ๐ฆ1, ๐ฆ2, โฆ , ๐ฆ๐ ๐ , ๐ = 1 1 โฆ ๐ฅ1 ๐ฅ2 โฆ 1 ๐ฅ ๐ , ๐ = (๐1, โฆ , ๐ ๐) ๋ผ๊ณ ํ์. Gradient of ๐ฝ(ฮ) ๐ ๐๐0 ๐ฝ ๐ = (ฮ ๐ ๐ฉ๐ โ ๐ฆ๐) ๐ ๐=1 1 ๐ ๐๐1 ๐ฝ ๐ = (ฮ ๐ ๐ฉ๐ โ ๐ฆ๐) ๐ ๐=1 ๐ฅ๐ ๐ป๐ฝ ฮ = ๐ ๐๐0 ๐ฝ ฮ , ๐ ๐๐1 ๐ฝ ฮ ๐ = ฮ ๐ ๐ฉ๐ โ ๐ฆ๐ ๐ฉ๐ ๐ ๐=1
29.
๐ฉ๐ = 1,
๐ฅ๐ ๐ , ฮ = ๐0, ๐1 ๐ , ๐ช = ๐ฆ1, ๐ฆ2, โฆ , ๐ฆ๐ ๐ , ๐ = 1 1 โฆ ๐ฅ1 ๐ฅ2 โฆ 1 ๐ฅ ๐ , ๐ = (๐1, โฆ , ๐ ๐) ๋ผ๊ณ ํ์. ๐0 ๐ก+1 = ๐0 ๐ก โ ๐ผ (ฮ ๐ ๐ฉ๐ โ ๐ฆ๐) ๐ ๐=1 1 ๋จ, ์ด ๋์ ฮ์๋ฆฌ์๋ ๐ก๋ฒ์งธ์ ์ป์ด์ง ฮ๊ฐ์ ๋์ ํด์ผ ํ๋ค. ๐1 ๐ก+1 = ๐1 ๐ก โ ๐ผ ฮ ๐ ๐ฉ๐ โ ๐ฆ๐ ๐ฅ๐ ๐ ๐=1
30.
Steepest Descent
31.
Steepest Descent ์ฅ์ :
easy to implement, conceptually clean, guaranteed convergence ๋จ์ : often slow converging ฮ ๐ก+1 = ฮ ๐ก โ ๐ผ {(ฮ ๐ก) ๐ ๐ฉ๐ โ ๐ฆ๐}๐ฉ๐ ๐ ๐=1 Normal Equations ์ฅ์ : a single-shot algorithm! Easiest to implement. ๋จ์ : need to compute pseudo-inverse ๐ ๐ ๐ โ1 , expensive, numerical issues (e.g., matrix is singular..), although there are ways to get around this ... ๐ = ๐ ๐ ๐ โ1 ๐ ๐ ๐ชห
32.
Multivariate Linear Regression
33.
๐ = ๐ฝ
๐ + ๐ฝ ๐ ๐ ๐ + ๐ฝ ๐ ๐ ๐ + โฏ + ๐ฝ ๐ ๐ ๐ ๋จ์ ์ ํ ํ๊ท ๋ถ์์, input ๋ณ์๊ฐ 1. ๋ค์ค ์ ํ ํ๊ท ๋ถ์์, input ๋ณ์๊ฐ 2๊ฐ ์ด์. Google์ ์ฃผ์ ๊ฐ๊ฒฉ Yahoo์ ์ฃผ์ ๊ฐ๊ฒฉ Microsoft์ ์ฃผ์ ๊ฐ๊ฒฉ
34.
๐ = ๐ฝ
๐ + ๐ฝ ๐ ๐ ๐ ๐ + ๐ฝ ๐ ๐ ๐ ๐ + ๐ ์๋ฅผ ๋ค์ด, ์๋์ ๊ฐ์ ์์ ์ ํ์ผ๋ก ์๊ฐํ์ฌ ํ ์ ์๋๊ฐ? ๋ฌผ๋ก , input ๋ณ์๊ฐ polynomial(๋คํญ์)์ ํํ์ด์ง๋ง, coefficients ๐๐๊ฐ ์ ํ(linear)์ด๋ฏ๋ก ์ ํ ํ๊ท ๋ถ์์ ํด๋ฒ์ผ๋ก ํ ์ ์๋ค. ๐ฏ = ๐ ๐ ๐ โ1 ๐ ๐ ๐ชห ๐0, ๐1, โฆ , ๐ ๐ ๐
35.
General Linear Regression
36.
๐ = ๐ฝ
๐ + ๐ฝ ๐ ๐ ๐ + ๐ฝ ๐ ๐ ๐ + โฏ + ๐ฝ ๐ ๐ ๐์ค ํ๊ท ๋ถ์ ์ผ๋ฐ ํ๊ท ๋ถ์ ๐ = ๐ฝ ๐ + ๐ฝ ๐ ๐ ๐(๐ ๐) + ๐ฝ ๐ ๐ ๐(๐ ๐) + โฏ + ๐ฝ ๐ ๐ ๐(๐ ๐) ๐๐๋ ๐ฅ ๐ ๋๋ (๐ฅโ๐ ๐) 2๐ ๐ ๋๋ 1 1+exp(โ๐ ๐ ๐ฅ) ๋ฑ์ ํจ์๊ฐ ๋ ์ ์๋ค. ์ด๊ฒ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ์ ํ ํ๊ท ํ์ด ๋ฐฉ๋ฒ์ผ๋ก ๋ฌธ์ ๋ฅผ ํ ์ ์๋ค.
37.
๐ค ๐ = (๐ค0,
๐ค1, โฆ , ๐ค ๐) ๐ ๐ฅ ๐ ๐ = ๐0 ๐ฅ ๐ , ๐1 ๐ฅ ๐ , โฆ , ๐ ๐ ๐ฅ ๐
38.
๐ค ๐ = (๐ค0,
๐ค1, โฆ , ๐ค ๐) ๐ ๐ฅ ๐ ๐ = ๐0 ๐ฅ ๐ , ๐1 ๐ฅ ๐ , โฆ , ๐ ๐ ๐ฅ ๐ normal equation
39.
[ ์๋ฃ์ ๋ถ์
] โ ๋ชฉ์ : ์ง์ ํ๊ธฐ ์ํจ. ์๋ง์ ๊ฐ๊ฒฉ์ ์ฐพ๊ธฐ ์ํจ. โก ๊ณ ๋ คํ ๋ณ์(feature) : ์ง์ ํฌ๊ธฐ(in square feet), ์นจ์ค์ ๊ฐ์, ์ง ๊ฐ๊ฒฉ
40.
(์ถ์ฒ : http://aimotion.blogspot.kr/2011/10/machine-learning-with-python-linear.html) โข
์ฃผ์์ฌํญ : ์ง์ ํฌ๊ธฐ์ ์นจ์ค์ ๊ฐ์์ ์ฐจ์ด๊ฐ ํฌ๋ค. ์๋ฅผ ๋ค์ด, ์ง์ ํฌ๊ธฐ๊ฐ 4000 square feet์ธ๋ฐ, ์นจ์ค์ ๊ฐ์๋ 3๊ฐ์ด๋ค. ์ฆ, ๋ฐ์ดํฐ ์ feature๋ค ๊ฐ ๊ท๋ชจ์ ์ฐจ์ด๊ฐ ํฌ๋ค. ์ด๋ด ๊ฒฝ์ฐ, feature์ ๊ฐ์ ์ ๊ทํ(normalizing)๋ฅผ ํด์ค๋ค. ๊ทธ๋์ผ, Gradient Descent๋ฅผ ์ํํ ๋, ๊ฒฐ๊ณผ๊ฐ์ผ๋ก ๋น ๋ฅด๊ฒ ์๋ ดํ๋ค. โฃ ์ ๊ทํ์ ๋ฐฉ๋ฒ - feature์ mean(ํ๊ท )์ ๊ตฌํ ํ, feature๋ด์ ๋ชจ๋ data์ ๊ฐ์์ mean์ ๋นผ์ค๋ค. - data์์ mean์ ๋นผ ์ค ๊ฐ์, ๊ทธ data๊ฐ ์ํ๋ standard deviation(ํ์ค ํธ์ฐจ)๋ก ๋๋์ด ์ค๋ค. (scaling) ์ดํด๊ฐ ์ ๋๋ฉด, ์ฐ๋ฆฌ๊ฐ ๊ณ ๋ฑํ๊ต ๋ ๋ฐฐ์ ๋ ์ ๊ท๋ถํฌ๋ฅผ ํ์ค์ ๊ท๋ถํฌ๋ก ๋ฐ๊พธ์ด์ฃผ๋ ๊ฒ์ ๋ ์ฌ๋ ค๋ณด์. ํ์ค์ ๊ท๋ถํฌ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ์ค ํ๋๋, ์๋ก ๋ค๋ฅธ ๋ ๋ถํฌ, ์ฆ ๋น๊ต๊ฐ ๋ถ๊ฐ๋ฅํ๊ฑฐ๋ ์ด๋ ค์ด ๋ ๋ถํฌ๋ฅผ ์ฝ๊ฒ ๋น๊ตํ ์ ์๊ฒ ํด์ฃผ๋ ๊ฒ์ด์๋ค. ๐ = ๐ โ ๐ ๐ If ๐~(๐, ๐) then ๐~๐(1,0)
41.
1. http://www.cs.cmu.edu/~epxing/Class/10701/Lecture/lecture5-LiR.pdf 2. http://www.cs.cmu.edu/~10701/lecture/RegNew.pdf 3.
ํ๊ท๋ถ์ ์ 3ํ (๋ฐ์ฑํ ์ ) 4. ํจํด์ธ์ (์ค์ผ์ ์ง์) 5. ์๋ฆฌํต๊ณํ ์ 3ํ (์ ๋ช ์ ์ง์)
42.
Laplacian Smoothing multinomial random
variable ๐ง : ๐ง๋ 1๋ถํฐ ๐๊น์ง์ ๊ฐ์ ๊ฐ์ง ์ ์๋ค. ์ฐ๋ฆฌ๋ test set์ผ๋ก ๐๊ฐ์ ๋ ๋ฆฝ์ธ ๊ด์ฐฐ ๊ฐ ๐ง 1 , โฆ , ๐ง ๐ ์ ๊ฐ์ง๊ณ ์๋ค. ์ฐ๋ฆฌ๋ ๊ด์ฐฐ ๊ฐ์ ํตํด, ๐(๐ = ๐) ๋ฅผ ์ถ์ ํ๊ณ ์ถ๋ค. (๐ = 1, โฆ , ๐) ์ถ์ ๊ฐ(MLE)์, ๐ ๐ง = ๐ = ๐ผ{๐ง ๐ = ๐}๐ ๐=1 ๐ ์ด๋ค. ์ฌ๊ธฐ์ ๐ผ . ๋ ์ง์ ํจ์ ์ด๋ค. ๊ด์ฐฐ ๊ฐ ๋ด์์์ ๋น๋์๋ฅผ ์ฌ์ฉํ์ฌ ์ถ์ ํ๋ค. ํ ๊ฐ์ง ์ฃผ์ ํ ๊ฒ์, ์ฐ๋ฆฌ๊ฐ ์ถ์ ํ๋ ค๋ ๊ฐ์ ๋ชจ์ง๋จ(population)์์์ ๋ชจ์ ๐(๐ง = ๐)๋ผ๋ ๊ฒ์ด๋ค. ์ถ์ ํ๊ธฐ ์ํ์ฌ test set(or ํ๋ณธ ์ง๋จ)์ ์ฌ์ฉํ๋ ๊ฒ ๋ฟ์ด๋ค. ์๋ฅผ ๋ค์ด, ๐ง(๐) โ 3 for all ๐ = 1, โฆ , ๐ ์ด๋ผ๋ฉด, ๐ ๐ง = 3 = 0 ์ด ๋๋ ๊ฒ์ด๋ค. ์ด๊ฒ์, ํต๊ณ์ ์ผ๋ก ๋ณผ ๋, ์ข์ง ์์ ์๊ฐ์ด๋ค. ๋จ์ง, ํ๋ณธ ์ง๋จ์์ ๋ณด์ด์ง ์๋ ๋ค๋ ์ด์ ๋ก ์ฐ๋ฆฌ๊ฐ ์ถ์ ํ๊ณ ์ ํ๋ ๋ชจ์ง๋จ์ ๋ชจ์ ๊ฐ์ 0์ผ๋ก ํ๋ค๋ ๊ฒ์ ํต๊ณ์ ์ผ๋ก ์ข์ง ์์ ์๊ฐ(bad idea)์ด๋ค. (MLE์ ์ฝ์ )
43.
์ด๊ฒ์ ๊ทน๋ณตํ๊ธฐ ์ํด์๋, โ
๋ถ์๊ฐ 0์ด ๋์ด์๋ ์ ๋๋ค. โก ์ถ์ ๊ฐ์ ํฉ์ด 1์ด ๋์ด์ผ ํ๋ค. ๐ ๐ง = ๐๐ง =1 (โต ํ๋ฅ ์ ํฉ์ 1์ด ๋์ด์ผ ํจ) ๋ฐ๋ผ์, ๐ ๐ = ๐ = ๐ฐ ๐ ๐ = ๐ + ๐๐ ๐=๐ ๐ + ๐ ์ด๋ผ๊ณ ํ์. โ ์ ์ฑ๋ฆฝ : test set ๋ด์ ๐์ ๊ฐ์ด ์์ด๋, ํด๋น ์ถ์ ๊ฐ์ 0์ด ๋์ง ์๋๋ค. โก์ ์ฑ๋ฆฝ : ๐ง(๐) = ๐์ธ data์ ์๋ฅผ ๐๐๋ผ๊ณ ํ์. ๐ ๐ง = 1 = ๐1+1 ๐+๐ , โฆ , ๐ ๐ง = ๐ = ๐ ๐+1 ๐+๐ ์ด๋ค. ๊ฐ ์ถ์ ๊ฐ์ ๋ค ๋ํ๊ฒ ๋๋ฉด 1์ด ๋์จ๋ค. ์ด๊ฒ์ด ๋ฐ๋ก Laplacian smoothing์ด๋ค. ๐ง๊ฐ ๋ ์ ์๋ ๊ฐ์ด 1๋ถํฐ ๐๊น์ง ๊ท ๋ฑํ๊ฒ ๋์ฌ ์ ์๋ค๋ ๊ฐ์ ์ด ์ถ๊ฐ๋์๋ค๊ณ ์ง๊ด์ ์ผ๋ก ์ ์ ์๋ค. 1
Download