SlideShare a Scribd company logo
1 of 20
Download to read offline
Maximum Likelihood Estimation
( M L E )
작성자: 차 호 성
Contents
1.
2.
3.
4.
probability density function
Maximum Likelihood Estimation
Likelihood
OLS ? VS MLE ?
Contents
1.
2.
3.
4.
probability density function
Maximum Likelihood Estimation
Likelihood
OLS ? VS MLE ?
probability density function
연속확률변수(continuous random variable)
실수(real number) 집합처럼 연속적이고 무한개의 경우의 수를 가지는 확률변수.
연속 확률 변수의 분포를 연속 확률 분포 라고 한다.
경우의 수가 무한대인 연속 확률 변수의 분포를 설명하려면 특정한 값이 아니라 구간을 지정하여 확률을 설명해야 한다
probability density function
누적확률변수(cumulative probability density function)
하나의 숫자로 확률 변수의 범위를 지정하는 방법 중 하나는 범위를 지정하는 두개의 숫자 중 작은 숫자 즉, 범위가 시작
하는 숫자를 미리 가장 작은 숫자로 고정하는 방법이다. 위와 같은 방법으로 서술된 확률 분포를 누적 확률 밀도 함수라 한다.
(누적확률분포의 범위는 일반적으로 음의 무한대 값을 사용한다.)
probability density function
확률 밀도 함수 (probability density function)
누적 밀도 함수의 단점 중의 하나는 어떤 값이 더 자주 나오는지 혹은 더 가능성이 높은 지에 대한 정보를 알기 힘들다는 것.
연속형 변수의 확률 정보를 알기 위해서 누적 밀도 함수를 미분하여 만든 도함수인 확률 밀도 함수를 사용할 수 있다.
probability density function
Contents
1.
2.
3.
4.
probability density function
Maximum Likelihood Estimation
Likelihood
OLS ? VS MLE ?
Likelihood
확률 변수 X 에 대한 확률 모형은 확률 밀도 함수 fX 에 의해 정의된다. 확률 밀도 함수는 일반적으로
fX(x;θ) 와 같은 형태를 가진다. 여기에서 x 는 확률 변수가 가질 수 있는 실수값이고 θ 는 확률 밀도
함수 즉, 확률 모형의 모수(parameter) 집합을 대표하는 기호이다.
예를 들어 가우시안 확률 변수 X 의 확률 밀도 함수는 다음과 같은 형태를 가진다. 이 식에서 θ=(μ,σ2) 이다
함수의 관점에서 일반적으로 θ 는 고정된 값, 즉 상수 계수이고 x 를 변수(variable)로 가정한다. 즉, 이미 확률 변수 모형은 고정되어 있
고 주어진 실수 입력값에 대해 그 실수값이 나올 상대적 가능성을 출력하는 것이 x 를 변수로 가지는 확률 밀도 함수이다.
Logistic regression
하지만 추정 문제에서는 x 즉, 이미 실현된 샘플값은 알고 있지만 모수 θ 를 모른다.
이 경우에는 확률 밀도 함수라는 수식에서 x 를 이미 결정되어 버린 상수 계수로 놓고 θ 를 찾아내야 할 변수로 생각할 수 있다.
확률 밀도 함수를 랜덤변수의 값 x 의 함수가 아닌 파라미터 θ 의 함수로 보는 것을 우도(likelihood)라 한다.
Contents
1.
2.
3.
4.
probability density function
Maximum Likelihood Estimation
Likelihood
OLS ? VS MLE ?
MLE
최대 우도 추정(MLE: Maximum Likelihood Estimation) 방법은 주어진 샘플 x 에 대해
우도 를 가장 크게 해 주는 모수 θ 를 찾는 방법이다.
Maximum Likelihood Estimation
MLE
예를 들어,
정규 분포를 가지는 확률 변수의 분산이 1인 것은 (σ2 = 1) 알고 있지만
평균 μ 를 모르는 상황에서 μ 를 추정해야 하는 문제를 생각해 보자.
이 때 이 확률 변수의 샘플 하나 x0=1 를 가지고 있다.
이 x0 값에서 어떤 μ 값이 가장 가능성(우도: likelihood)이 있어보는가?
MLE
그래프를 통한 직관적 이해 (우도를 사용한 두 개의선형회귀직선 비교)
The green line seems more likely given the data. That means MLE will choose the appropriate coefficients for a model
such that the probability of observing the data is as high as possible.
( 일반적으로는 추정을 위해 확보하고 있는 확률 변수 샘플의 수가 하나가 아니라 복수 x1,x2,⋯xN 이므로 우도는 이 샘플값에 대한 결합 확률 밀도 fX1,X2,⋯,XN(x1,x2,⋯,xN;θ) 에서 구해야 한다.)
MLE
우도가 최대가 되는 θ 를 수치적으로 계산하기 위해 수치적 최적화(numerical optimization) 문제를 선형회귀식으로 접근하면 다음과 같다.
(우도를 직접 사용하는 것이 아니라 우도를 로그변환한 로그 우도(Log likelihood)함수 를 사용.
샘플의 수가 복수인 경우 결합 확률 밀도 함수 즉 우도 함수가 동일한 함수의 곱으로 나타나는 경
우가 많은데 이 때 로그 변환에 의해 곱셈이 덧셈으로 변하여 계산이 용이해지기 때문이다.)
Contents
1.
2.
3.
4.
probability density function
Maximum Likelihood Estimation
Likelihood
OLS ? VS MLE ?
OLS ? VS MLE ?
βi 값의 MLE을 살펴보면 OLS와 같은 값이 나온다는 것을 확인할 수 있다.
이는 도출과정에서 사실상 같은 proces를 밟았기 때문.
OLS를 추정하는 방법의 핵심은 바로 ei = Yi – β1 – β2 Xi 를 최소화하는 것이었다.
Log-likelihood functio을 살펴보면 OLS에서 최소화하려고 했던 그 term이 음의 값으로 나와있는데 log-likelihood function을 최대화하고
자 한다는 것은 곧 그 음의 term을 최소화해야 한다는 것과 같은 말과 같다.
결국 같은 process를 다른 방향으로 풀어낸 것 일뿐이다. (하지만 OLS estimator와 MLE는 항상 이렇게 같은 값을 갖는 것은 아님에 주의할 것)
하지만 σ^2에 대한 추정값은 다르게 나온다. σ^2의 MLE는 Σ (^ei)^2 / n 이 나오는데, 이는 OLS의 Σ (^ei)^2 / n-2 와 차이를 보인다.
σ^2의 OLS 추정량이 unbiased였다는 점을 간안하였을 때 (실제로 계산해보면) σ^2의 MLE는 biased 되어 있음을 확인할 수 있다. 하지만, 만약
n의 값이 무한히 커진다면 OLS와 MLE의 차이 또한 매우 작아지며 동시에 MLE 또한 unbiased estimator가 된다는 점에서 σ^2의 MLE는
asymptotically unbiased라고 할 수 있다.
OLS ? VS MLE ?
[참고문헌]
-ratsgo’s blog
-datascienceschool
-위키피디아
-A comparison of Least Squares and Maximum Likelihood Estimation(https://vimeo.com/60578610)
Thank you :-)

More Related Content

More from chs71

Credit default risk
Credit default riskCredit default risk
Credit default riskchs71
 
Tensorflow
TensorflowTensorflow
Tensorflowchs71
 
Pandas
PandasPandas
Pandaschs71
 
Seoul square[mock project]
Seoul square[mock project]Seoul square[mock project]
Seoul square[mock project]chs71
 
Learning method
Learning methodLearning method
Learning methodchs71
 
Vip detection sensor
Vip detection sensorVip detection sensor
Vip detection sensorchs71
 
Share house
Share houseShare house
Share housechs71
 
Logistic regression1
Logistic regression1Logistic regression1
Logistic regression1chs71
 
Class imbalance problem1
Class imbalance problem1Class imbalance problem1
Class imbalance problem1chs71
 
Credit default risk
Credit default riskCredit default risk
Credit default riskchs71
 

More from chs71 (11)

Credit default risk
Credit default riskCredit default risk
Credit default risk
 
Tensorflow
TensorflowTensorflow
Tensorflow
 
Pandas
PandasPandas
Pandas
 
Seoul square[mock project]
Seoul square[mock project]Seoul square[mock project]
Seoul square[mock project]
 
Learning method
Learning methodLearning method
Learning method
 
CNN
CNNCNN
CNN
 
Vip detection sensor
Vip detection sensorVip detection sensor
Vip detection sensor
 
Share house
Share houseShare house
Share house
 
Logistic regression1
Logistic regression1Logistic regression1
Logistic regression1
 
Class imbalance problem1
Class imbalance problem1Class imbalance problem1
Class imbalance problem1
 
Credit default risk
Credit default riskCredit default risk
Credit default risk
 

Maximum likelihood estimation

  • 1. Maximum Likelihood Estimation ( M L E ) 작성자: 차 호 성
  • 2. Contents 1. 2. 3. 4. probability density function Maximum Likelihood Estimation Likelihood OLS ? VS MLE ?
  • 3. Contents 1. 2. 3. 4. probability density function Maximum Likelihood Estimation Likelihood OLS ? VS MLE ?
  • 4. probability density function 연속확률변수(continuous random variable) 실수(real number) 집합처럼 연속적이고 무한개의 경우의 수를 가지는 확률변수. 연속 확률 변수의 분포를 연속 확률 분포 라고 한다. 경우의 수가 무한대인 연속 확률 변수의 분포를 설명하려면 특정한 값이 아니라 구간을 지정하여 확률을 설명해야 한다
  • 5. probability density function 누적확률변수(cumulative probability density function) 하나의 숫자로 확률 변수의 범위를 지정하는 방법 중 하나는 범위를 지정하는 두개의 숫자 중 작은 숫자 즉, 범위가 시작 하는 숫자를 미리 가장 작은 숫자로 고정하는 방법이다. 위와 같은 방법으로 서술된 확률 분포를 누적 확률 밀도 함수라 한다. (누적확률분포의 범위는 일반적으로 음의 무한대 값을 사용한다.)
  • 6. probability density function 확률 밀도 함수 (probability density function) 누적 밀도 함수의 단점 중의 하나는 어떤 값이 더 자주 나오는지 혹은 더 가능성이 높은 지에 대한 정보를 알기 힘들다는 것. 연속형 변수의 확률 정보를 알기 위해서 누적 밀도 함수를 미분하여 만든 도함수인 확률 밀도 함수를 사용할 수 있다.
  • 8. Contents 1. 2. 3. 4. probability density function Maximum Likelihood Estimation Likelihood OLS ? VS MLE ?
  • 9. Likelihood 확률 변수 X 에 대한 확률 모형은 확률 밀도 함수 fX 에 의해 정의된다. 확률 밀도 함수는 일반적으로 fX(x;θ) 와 같은 형태를 가진다. 여기에서 x 는 확률 변수가 가질 수 있는 실수값이고 θ 는 확률 밀도 함수 즉, 확률 모형의 모수(parameter) 집합을 대표하는 기호이다. 예를 들어 가우시안 확률 변수 X 의 확률 밀도 함수는 다음과 같은 형태를 가진다. 이 식에서 θ=(μ,σ2) 이다 함수의 관점에서 일반적으로 θ 는 고정된 값, 즉 상수 계수이고 x 를 변수(variable)로 가정한다. 즉, 이미 확률 변수 모형은 고정되어 있 고 주어진 실수 입력값에 대해 그 실수값이 나올 상대적 가능성을 출력하는 것이 x 를 변수로 가지는 확률 밀도 함수이다.
  • 10. Logistic regression 하지만 추정 문제에서는 x 즉, 이미 실현된 샘플값은 알고 있지만 모수 θ 를 모른다. 이 경우에는 확률 밀도 함수라는 수식에서 x 를 이미 결정되어 버린 상수 계수로 놓고 θ 를 찾아내야 할 변수로 생각할 수 있다. 확률 밀도 함수를 랜덤변수의 값 x 의 함수가 아닌 파라미터 θ 의 함수로 보는 것을 우도(likelihood)라 한다.
  • 11. Contents 1. 2. 3. 4. probability density function Maximum Likelihood Estimation Likelihood OLS ? VS MLE ?
  • 12. MLE 최대 우도 추정(MLE: Maximum Likelihood Estimation) 방법은 주어진 샘플 x 에 대해 우도 를 가장 크게 해 주는 모수 θ 를 찾는 방법이다. Maximum Likelihood Estimation
  • 13. MLE 예를 들어, 정규 분포를 가지는 확률 변수의 분산이 1인 것은 (σ2 = 1) 알고 있지만 평균 μ 를 모르는 상황에서 μ 를 추정해야 하는 문제를 생각해 보자. 이 때 이 확률 변수의 샘플 하나 x0=1 를 가지고 있다. 이 x0 값에서 어떤 μ 값이 가장 가능성(우도: likelihood)이 있어보는가?
  • 14. MLE 그래프를 통한 직관적 이해 (우도를 사용한 두 개의선형회귀직선 비교) The green line seems more likely given the data. That means MLE will choose the appropriate coefficients for a model such that the probability of observing the data is as high as possible. ( 일반적으로는 추정을 위해 확보하고 있는 확률 변수 샘플의 수가 하나가 아니라 복수 x1,x2,⋯xN 이므로 우도는 이 샘플값에 대한 결합 확률 밀도 fX1,X2,⋯,XN(x1,x2,⋯,xN;θ) 에서 구해야 한다.)
  • 15. MLE 우도가 최대가 되는 θ 를 수치적으로 계산하기 위해 수치적 최적화(numerical optimization) 문제를 선형회귀식으로 접근하면 다음과 같다. (우도를 직접 사용하는 것이 아니라 우도를 로그변환한 로그 우도(Log likelihood)함수 를 사용. 샘플의 수가 복수인 경우 결합 확률 밀도 함수 즉 우도 함수가 동일한 함수의 곱으로 나타나는 경 우가 많은데 이 때 로그 변환에 의해 곱셈이 덧셈으로 변하여 계산이 용이해지기 때문이다.)
  • 16. Contents 1. 2. 3. 4. probability density function Maximum Likelihood Estimation Likelihood OLS ? VS MLE ?
  • 17. OLS ? VS MLE ? βi 값의 MLE을 살펴보면 OLS와 같은 값이 나온다는 것을 확인할 수 있다. 이는 도출과정에서 사실상 같은 proces를 밟았기 때문. OLS를 추정하는 방법의 핵심은 바로 ei = Yi – β1 – β2 Xi 를 최소화하는 것이었다. Log-likelihood functio을 살펴보면 OLS에서 최소화하려고 했던 그 term이 음의 값으로 나와있는데 log-likelihood function을 최대화하고 자 한다는 것은 곧 그 음의 term을 최소화해야 한다는 것과 같은 말과 같다. 결국 같은 process를 다른 방향으로 풀어낸 것 일뿐이다. (하지만 OLS estimator와 MLE는 항상 이렇게 같은 값을 갖는 것은 아님에 주의할 것) 하지만 σ^2에 대한 추정값은 다르게 나온다. σ^2의 MLE는 Σ (^ei)^2 / n 이 나오는데, 이는 OLS의 Σ (^ei)^2 / n-2 와 차이를 보인다. σ^2의 OLS 추정량이 unbiased였다는 점을 간안하였을 때 (실제로 계산해보면) σ^2의 MLE는 biased 되어 있음을 확인할 수 있다. 하지만, 만약 n의 값이 무한히 커진다면 OLS와 MLE의 차이 또한 매우 작아지며 동시에 MLE 또한 unbiased estimator가 된다는 점에서 σ^2의 MLE는 asymptotically unbiased라고 할 수 있다.
  • 18. OLS ? VS MLE ?
  • 19. [참고문헌] -ratsgo’s blog -datascienceschool -위키피디아 -A comparison of Least Squares and Maximum Likelihood Estimation(https://vimeo.com/60578610)