SlideShare a Scribd company logo
1 of 55
패턴인식
Classifiers Based on Bayes Decision Theory
2018-07-19 도정찬
1. INTRODUCTION
첫 챕터에서는 패턴 인식 시스템에서 분류기 디자인을 다룬다.
여기서는 생성된 특징들(features)의 통계적 특성에서 생겨난 확률적 매개변수로 접근한다.
이는 이미 앞 장에서 설명했듯이 측정 센서의 오차 뿐만아니라 패턴의 통계적 편차 때문이다.
클래스들 중에서 알수 없는 패턴(Unknown Pattern)을 분류하는 분류기(Classifier)를 설계한다.
그래서 지금 가장 가능성(most probable)있는 평균을 정의한다.
1. INTRODUCTION
특징 백터 x로 표현하는 M 가지 클래스들의 분류 작업 − 𝝎1, 𝝎2, . . ., 𝝎M과 알수없는 패턴이 주어
지면, M 개의 조건부 확률 P(𝝎i|x), i= 1, 2, . . .,M 구성한다. 이를 사후 확률(Posterior
Probabilities) 이라 한다.
각 확률은 특징 백터 x를 따르는 클래스 𝝎i에 속하는 알수 없는 패턴들의 확률을 나타낸다.
이러한 조건부 확률은 뭐가 가장 가능성있는지 선택하는데 합리적이지 않을 수 있다.
이 챕터에서 소개하는 분류기는 M 까지의 확률들 중 최댓값 또는 적절하게 정의된 함수의 최댓값을
계산하여 찾아낸다.
알수없는 패턴은 최댓값을 갖는 클래스로 분류된다.
1. INTRODUCTION
먼저 할일은 먼저 조건부 확률을 계산해야한다.
베이즈 법칙(Bayes rule)이 얼마나 유용한지 증명하고
이번 챕터에서는 훈련 데이터의 패턴을 따르는 특징 백터를 사용 가능한 실험 증거(Experimental
evidance)로 확률 밀도 함수(Probability Density Functions:PDF)를 추정하는 기술들에 대해 설명
한다.
2. BAYES DECISION THEORY
먼저 2가지 클래스의 경우를 보면 𝝎1, 𝝎2 이 두 클래스가 패턴에 속한다.
사전 확률(priori probabilities)은 P(𝝎1), P(𝝎2)로 훈련에 사용가능한 특징 백터를 알지 못하기 때문이다.
만약 훈련 가능한 패턴 갯수가 N이면 N1, N2는 𝝎1와 𝝎2에 속하는 갯수를 나타낸다 .
각 P(𝝎1) ≈ 𝑵1/𝑵 and P(𝝎 𝟐) ≈ 𝑵 𝟐/𝑵 이 된다.
2. BAYES DECISION THEORY
다른 통계적 확률은 클래스-조건부 확률밀도함수 p(x|𝝎𝒊), i = 1, 2,로 각 클래스에서 특징 백터의 분포를
나타낸다.
만야 이걸 알수없으면 훈련된 데이터로 추정가능하다. 이 방법은후에 설명한다.
확률밀도함수 p(x|𝝎𝒊)는 특징백터 x에 대한 𝝎𝒊의 우도비 함수이다.
여기서 햇갈리는게 특징 백터는 다차원 특징 공간에서 값을 가질수 있다.
하지만 이 경우 특징백터는 이산 값을 가지며, 밀도함수 p(x|𝝎𝒊)는 확률이 된다.
2. BAYES DECISION THEORY
이제 Introduction에서 설명한 조건부 확률 계산에 필요한 내용들을 설명했다. 이제 베이즈 정리를 보자
P(𝝎𝒊|x)=
𝑝 𝑥 𝝎𝒊 𝑝(𝝎𝒊)
𝑝(𝑥)
p(x)는 x의 확률 밀도 함수로 아래와 같다.
𝑝 𝑥 =
𝑖=1
2
𝑝 𝑥 𝝎𝒊 𝑝(𝝎𝒊)
베이즈 분류 정리는 다음과 같이 설명할 수 있다.
If P(𝝎 𝟏 𝒙 > 𝑷(𝝎 𝟐 𝒙 , 𝒙 𝒊𝒔 𝒄𝒍𝒂𝒔𝒔𝒊𝒇𝒊𝒆𝒅 𝒕𝒐 𝝎 𝟏
If P(𝝎 𝟏 𝒙 < 𝑷(𝝎 𝟐 𝒙 , 𝒙 𝒊𝒔 𝒄𝒍𝒂𝒔𝒔𝒊𝒇𝒊𝒆𝒅 𝒕𝒐 𝝎 𝟐
2. BAYES DECISION THEORY
두 클래스가 같은 경우는 좋지 않지만 그 패턴에서는 두개의 클래스중 하나가 선택되야한다.
베이즈 정리를 사용하여 같은 학률의 결정은 부등호로 나타낼수 있다.
P(𝝎 𝟏|x)p(𝝎 𝟏) ≷ P(𝝎 𝟐|x)p(𝝎 𝟐)
여기서 p(x)는 모든 클래스에 대하여 같고 결정에 영향을 주지않기 때문에 감안할수없다. 그러므로 만약
사전 확률이 같다면. P(𝝎 𝟏)=P(𝝎 𝟐)=1/2 이고, 아래와 같이 된다.
P(𝝎 𝟏|x) ≷ P(𝝎 𝟐|x)
그래서 최댓값 찾기는 x를 나타내는 조건부 확률의 값을 기반으로 한다.
2. BAYES DECISION THEORY
그림 1은 같은 확률을 갖는 클래스들과 특징이 하나(l=1)
인 x의 함수로서, 단순한 경우의 p(x|𝝎𝒊), i = 1, 2의 편차를
보여준다.
𝒙 𝟎에서 점선은 두 영역으로 특징 공간을 나누는 임계선이다.
베이즈 결정 규칙에 따르면, 𝑹 𝟏에 존재하는 x의 모든 값은 분
류기가 𝝎 𝟏로 결정하고, 𝑹 𝟐의 모든 값은 𝝎 𝟐로 결정한다.
하지만 이 그림에서는 결정 에러가 무조건 발생한다.
그림 1 두 클래스의 확률이 같은 경우 베이지안
분류기로 구성된 두 영역 𝑹 𝟏과 𝑹 𝟐의 예시
2. BAYES DECISION THEORY
𝑹 𝟐의 영역에서 클래스 𝝎 𝟏에 속하는 확률은 결정 에러가 된다.
두 클래스의 크기가 같은 경우의 결정 에러 확률의 총합은 크
지 않아보이는데 아래와 같이 나타낸다.
𝑷 𝒆=
𝟏
𝟐 −∞
𝒙 𝟎
𝒑 𝒙 𝝎 𝟐 𝒅𝒙+
𝟏
𝟐 𝒙 𝟎
+∞
𝒑 𝒙 𝝎 𝟏 𝒅𝒙
이 식은 그림 1의 곡선 아래의 전체 그림자 공간과 같다.
이제 중요한 이슈까지 왔다.
베이지안 분류 규칙에 대해 전체적으로 봤다.
그림 1 두 클래스의 확률이 같은 경우 베이지안
분류기로 구성된 두 영역 𝑹 𝟏과 𝑹 𝟐의 예시
2. BAYES DECISION THEORY
이제 베이지안 분류기를 에러 분류 확률을 최소화하여 최적화 시키는 측면에서 본다.
보는 사람은 그림 1에서 쉽게 확인하고 𝒙 𝟎에서 임계값을 멀어지게 움직일수 있지만 항상 그림자 공간은
커지게 된다.
증명을 해보면 𝑹 𝟏은 𝝎 𝟏로 분류하기 위한 특징공간에서의 영역이고 𝑹 𝟐는 𝝎 𝟐에 대한 영역이다. 그러면 에
러는 𝝎 𝟐에 속하지만 x가 𝑹 𝟏의 집합인 경우와 𝝎 𝟏에 속하지만 x가 𝑹 𝟐의 집합이 되는경우에 만들어진다.
𝑷 𝒆 = P(x ∈ 𝑹 𝟐, 𝝎 𝟏) + P(x ∈ 𝑹 𝟏, 𝝎 𝟐)
P( ~ , ~ )는 두 사건의 결합 확률을 나타낸다.
분류 에러 확률 최소화
2. BAYES DECISION THEORY
다시 식을 보면 아래와 같이 되지만
𝑷 𝒆 = P(x ∈ 𝑹 𝟐|𝝎 𝟏)P(𝝎 𝟏) + P(x ∈ 𝑹 𝟏|𝝎 𝟐)P(𝝎 𝟐)
= P(𝝎 𝟏) 𝑹 𝟐
𝒑 𝒙 𝝎 𝟏 𝒅𝒙+ P(𝝎 𝟐) 𝑹 𝟏
𝒑 𝒙 𝝎 𝟐 𝒅𝒙
베이즈 정리를 사용하면
𝑷 𝒆 = 𝑹 𝟐
𝒑 𝝎 𝟏 𝒙 𝒑 𝒙 𝒅𝒙+ 𝑹 𝟏
𝒑 𝝎 𝟐 𝒙 𝒑 𝒙 𝒅𝒙
이제 특징공간의 𝑹 𝟏나 𝑹 𝟐가 선택이 되면 에러를 최소화시키는게 보기 쉬워진다.
𝑹 𝟏 : P(𝝎 𝟏|x)>P(𝝎 𝟐|x)
𝑹 𝟐 : P(𝝎 𝟐|x)>P(𝝎 𝟏|x)
2. BAYES DECISION THEORY
다시 𝑹 𝟏나 𝑹 𝟐의 합은 모든 공간을 덮기 때문에 확률밀도함수의 정의로 다음과 같이 된다.
P(𝝎 𝟏)= 𝑹 𝟏
𝒑 𝝎 𝟏 𝒙 𝒑 𝒙 𝒅𝒙+ 𝑹 𝟐
𝒑 𝝎 𝟐 𝒙 𝒑 𝒙 𝒅𝒙
위 식과 𝑷 𝒆의 식을 조합하면 다음을 얻을 수 있다.
𝑷 𝒆 = P(𝝎 𝟏) - 𝑹 𝟏
𝒑 𝝎 𝟏 𝒙 − 𝑷(𝝎 𝟐|𝒙) 𝒑(𝒙)𝒅𝒙
만약 𝑹 𝟏에서 P(𝝎 𝟏|x) > P(𝝎 𝟐|x) 이라면 에러 확률은 최소화 된다. 𝑹 𝟐에서 또한 역은 성립한다.
2. BAYES DECISION THEORY
지금까지 클래스가 두개 뿐인 단순한 경우를 다뤄왔다. 여러 클래스를 일반화하는 경우도 복잡하지는 않
다.
M개의 클래스 분류 작업에서는 𝝎 𝟏, 𝝎 𝟐, . . . , 𝝎 𝑴과 알수없는 패턴이 특징백터에 나타나고 클래스 𝝎𝒊로
할당된다. 만약
P(𝝎𝒊|x) > P(𝝎𝒋|x) j ≠ i
분류 에러 확률의 최소화로 해결할 수 있다.
2. BAYES DECISION THEORY
분류 에러 확률은 항상 최소화의 좋은 기준은 되지않는다. 모든 에러에 대해 가중치가 같기 때문이다.
잘못된 결정을 하게 되는 경우도 있다. 예를 들면 의사가 암진단 할때 잘못 판단하면 심각해진다.
양성 종양이 악성으로 진단되면 잘못 판단해도 다시 검사해서 확인 있지만 반대의 경우는 큰일이 된다.
그래서 각 에러마다 가중치를 주는게 적절하다.
평균 위험 최소화
Minimizing the Average Risk
2. BAYES DECISION THEORY
예를 들어 𝝎 𝟏를 악성 종양의 클래스로 하고 𝝎 𝟐를 양성인 경우의 클래스로 한다.
𝑹 𝟏, 𝑹 𝟐 는 𝝎 𝟏, 𝝎 𝟐 각각의 특징 공간이 된다. 에러 확률 𝑷 𝒆를 최소화 하기위해 𝑹 𝟏, 𝑹 𝟐을 선택하는 대신에
아래의 변형된 식을 사용한다.
r = 𝝀 𝟏𝟐 𝐩(𝝎 𝟏) 𝑹 𝟐
𝒑 𝒙 𝝎 𝟏 𝒅𝒙+ 𝝀 𝟐𝟏 𝐩(𝝎 𝟐) 𝑹 𝟏
𝒑 𝒙 𝝎 𝟐 𝒅𝒙
각각의 용어는 에러 확률에서 중요함에 따라 가중을 준다.
현재의 경우에는 𝝀 𝟏𝟐 > 𝝀 𝟐𝟏 이 된다.
클래스 𝝎 𝟏에서 𝝎 𝟐로 비롯되어 패턴의 할당 때문에 에러는 비용 함수에서 더 큰 영향을 받는다.
2. BAYES DECISION THEORY
M 클래스의 경우를 생각하면 𝑹𝒋, j = 1, 2, . . ., M 이며 특징 공간의 영역은 각 클래스 𝝎𝒋에 할당된다.
특징 백터 x에서 𝝎 𝒌가 𝑹𝒊 i≠k 에 속한다 가정하면 특징 백터는 오분류하게 된다.
손실(loss)라 할수있는 패널티 단어 𝝀 𝒌𝒊는 잘못된 결정과 관련있다.
행렬 L은 (k,i)의 패널티 행렬로 손실 행렬(loss matrix)라 부른다.
r을 설명하는 이전의 식과는 다르게 이제 손실 행렬(𝝀 𝒌𝒌)를 이용하여 가중치를 줄수있다.
𝝎 𝒌에 대한 손실은 아래와 같이 정의한다.
𝒓 𝒌 = 𝒊=𝟏
𝑴
𝝀 𝒌𝒊 𝑹 𝒊
𝒑 𝒙 𝝎 𝒌 𝒅𝒙
2. BAYES DECISION THEORY
해당 식의 적분은 𝝎𝒊로 분류되는 클래스 𝝎 𝒌에대한 특징 백터의 전반적인 확률로 𝝀 𝒌𝒊로 가중받는다.
여기서 목표는 평균 손실을 최소화 하기 위한 부분 영역 𝑹𝒋를 선택해야 한다.
𝒓 = 𝒊=𝟏
𝑴
𝒓 𝒌 𝒑(𝝎 𝒌)
= 𝒊=𝟏
𝑴
𝑹 𝒊
𝒊=𝟏
𝑴
𝝀 𝒌𝒊 𝒑 𝒙 𝝎 𝒌 𝒑 𝝎 𝒌 𝒅𝒙
각 적분을 최소화 하면 부분 영역을 선택하는것과 동일하게 된다.
x∈ 𝑹𝒊 if 𝒍𝒊 ≡ 𝒌=𝟏
𝑴
𝝀 𝒌𝒊 𝒑 𝒙 𝝎 𝒌 𝒑(𝝎 𝒌) < 𝒍𝒋 ≡ 𝒌=𝟏
𝑴
𝝀 𝒌𝒋 𝒑 𝒙 𝝎 𝒌 𝒑(𝝎 𝒌) ∀𝒋 ≠ 𝒊
2. BAYES DECISION THEORY
𝜹 𝒌𝒊 가 크로네커 델타이고 𝝀 𝒌𝒊 = 1 - 𝜹 𝒌𝒊 라면 평균 위험을 최소화 시키는건 분류에러확률 최소화와 똑같
이 된다.
클래스가 두개인 경우에 다음과 같이 구한다.
𝒍 𝟏 = 𝝀 𝟏𝟏p(x|𝝎 𝟏)p(𝝎 𝟏) + 𝝀 𝟐𝟏p(x|𝝎 𝟐)p(𝝎 𝟐)
𝒍 𝟐 = 𝝀 𝟏𝟐p(x|𝝎 𝟏)p(𝝎 𝟏) + 𝝀 𝟐𝟐p(x|𝝎 𝟐)p(𝝎 𝟐)
𝒍 𝟏 < 𝒍 𝟐가 되면 x에서는 𝝎 𝟏로 분류하게 된다.
(𝝀 𝟐𝟏 − 𝝀 𝟐𝟐)p(x|𝝎 𝟐)p(𝝎 𝟐) < (𝝀 𝟏𝟐 − 𝝀 𝟏𝟏)p(x|𝝎 𝟏)p(𝝎 𝟏)
2. BAYES DECISION THEORY
올바르게 선택을 하면 잘못된 선택보다 덜 페널티를 받으므
로 𝝀𝒊𝒋 > 𝝀𝒊𝒊 가 된다.
이에 따라 두 클래스의 경우 선택 규칙은 아래와 같이 된다.
x∈ 𝝎 𝟏(𝝎 𝟐) if 𝒍 𝟏𝟐 ≡
𝒑 𝒙 𝝎 𝟏
𝒑 𝒙 𝝎 𝟐
>(<)
𝒑(𝝎 𝟏)
𝒑(𝝎 𝟐)
𝝀 𝟐𝟏 −𝝀 𝟐𝟐
𝝀 𝟏𝟐 − 𝝀 𝟏𝟏
비율 𝒍 𝟏𝟐은 우도비(likehood ratio)이고 이전의 시험을 우도
비 시험이라 한다.
그림 1에다 위의 식을 보면 손실 행렬(loss matrix)는 다음
과 같다.
L =
𝟎 𝝀 𝟏𝟐
𝝀 𝟐𝟏 𝟎
그림 1 두 클래스의 확률이 같은 경우 베이지안
분류기로 구성된 두 영역 𝑹 𝟏과 𝑹 𝟐의 예시
2. BAYES DECISION THEORY
클래스 𝝎 𝟐 에대한 패턴 오분류로 안 좋은 결과가 나온다면
𝝀 𝟐𝟏 > 𝝀 𝟏𝟐 가 된다.
그래서 p(𝝎 𝟏) = p(𝝎 𝟐) = ½ 로 가정했었다면 클래스 𝝎 𝟐
에 아래의 패턴이 적용된다.
p(x|𝝎 𝟐) < p(x|𝝎 𝟏)
𝝀 𝟏𝟐
𝝀 𝟐𝟏
p(x|𝝎 𝟏)은 1보다 작은 위의 수를 곱하는데, 그림 1의 임계
치를 𝒙 𝟎의 왼편으로 이동시킨다.
다르게 말하면 𝑹 𝟐는 커지고 𝑹 𝟏는 줄어들게 된다.
반대인 𝝀 𝟐𝟏 < 𝝀 𝟏𝟐의 경우에도 참이 된다.
그림 1 두 클래스의 확률이 같은 경우 베이지안
분류기로 구성된 두 영역 𝑹 𝟏과 𝑹 𝟐의 예시
2. BAYES DECISION THEORY
다른 비용 함수 최소화 방법으로 Neyman-pearson criterion이 있다.
클래스 중 하나의 에러를 고정시키거나 다른 선택한 값과 똑같이 한다.
레이더 감지 문제에서 이런 결정 규칙이 사용디는데 잡음의 존재로 물체를 감지한다.
에러의 한 종류로 목표물 존재에 대한 노이즈를 잘못 감지 한걸 false alarm이라 한다.
다른 종류의 에러는 신호를 놓치고 노이즈를 결정한다. – 오감지(missed detection)
많은 경우에 거짓 경고의 에러확률 이전에 지정한 임계값과 똑같이 된다.
3. DISCRIMINANT FUNCTIONS AND DECISION SURFACES
이제 평균 위험, 에러 확률 또는 Neyman-pearson criterion을 이용하여 최소화로 M개의 클래스와 특징
공간을 영역들로 나눌 수 있었다.
만약 𝑹𝒊, 𝑹𝒋가 연속적으로 있다면 다차원 특징 공간에서 결정 표면(Decision Surface)로 나눠진다.
최소 에러 확률 경우 이걸 다음의 식으로 나타낸다.
p(𝝎𝒊|x) – p(𝝎𝒋|x) = 0
한면에서 이 차이가 양수면 반대편은 음수가 된다.
가끔 직접적인 확률(또는 위험함수) 대신 위 처럼 동등한 함수로 수치 점을 계산하는게 편할수있다.
예를 들어 f(~)는 계속 증가하는 함수이면 𝒈𝒊(x) ≡ f(p(𝝎𝒊|x)) 처럼 정의한다.
𝒈𝒊(x)는 결정 함수(discriminant function)가 된다.
3. DISCRIMINANT FUNCTIONS AND DECISION SURFACES
결정 시험(desicion test)는 아래와 같다.
classify x in 𝝎𝒊 if 𝒈𝒊(x) > 𝒈𝒋(x) ∀ 𝒋 ≠ 𝒊
연속적인 영역을 나누는 결정 표면(decision surfaces)은 다음과 같이 나타낸다.
𝒈𝒊𝒋(x) ≡ 𝒈𝒊(x) - 𝒈𝒋(x) = 0, i, j = 1, 2, 3, . . ., M, i ≠ j
지금까지 분류 에러 확률 또는 위험 최소화를 목표로 베이지안 확률 방법을 통해 분류 문제를 봤다.
그러나 이런 접근으로 모든 문제를 다루기는 어렵다.
3. DISCRIMINANT FUNCTIONS AND DECISION SURFACES
예를들면 많은 종류의 확률밀도함수를 포함하여 예측은 쉬운 작업이 아니다.
대안비용의 평균(means of alternative costs)으로 결정 표면 계산이 선호되는데 이는 3,4장에서 다룬다
베이지안 분류와 관계없는 개체를 결정 함수와 결정 표면으로 처리시에는 각 베이지안 분류기는 차선책
으로 사용해야한다.
다음으로 가우시안 밀도 함수의 특정 경우에 대해 베이지안 분류기로 결정 표면을 보자
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.1 The Gaussian Probability Density Function
현실에서 가장 많이 만나는 확률 밀도 함수 중 하나는 가우시안 또는 정규 확률 밀도 함수이다.
왜냐면 계산하기 좋고 많은 수의 경우에도 잘 적용하기 때문이다.
통계학에서 가장 주목받는 이론 중 하나로 중심 극한 이론(Central limit theorem)이 있다.
이 이론은 만약 어느 확률 변수가 많은 독립 확률 변수들의 합이 되면 정규 분포가 되어진다.
실제로 갯수가 충분히 많아지면 확률 변수들의 합은 가우시안 분포를 따르게 된다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.1 The Gaussian Probability Density Function
1 차원 또는 다차원 가우시안은 다음과 같이 정의된다.
p(x) =
𝟏
𝟐𝝅𝝈
𝒆𝒙𝒑(−
(𝒙−𝝁) 𝟐
𝟐𝝈 𝟐 )
여기서 파라미터인 𝝁 와 𝝈 𝟐 는 특정한 값들의 평균으로 𝝁 는 확률 변수 x의 평균 값이 된다.
𝝁 = E(x) ≡ −∞
+∞
𝒙𝒑 𝒙 𝒅𝒙
E(~)는 어느 확률 변수의 평균을 의미한다. 파라미터 𝝈 𝟐는 x의 분산으로 다음과 같다.
𝝈 𝟐 = 𝐄 𝒙 − 𝝁 𝟐 ≡ −∞
+∞
𝒙 − 𝝁 𝟐 𝒑 𝒙 𝒅𝒙
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.1 The Gaussian Probability Density Function
그림 2 (a)는 평균이 0 이고 분산이 1인 가우시안 함수 그래프와
그림 2 (b)는 평균이 1 이고 분산이 0.2인 경우를 나타낸다.
큰 분산을 가질수록 대칭 그래프는 넓게 퍼지게 되고
항상 평균을 원점으로 갖는다.그림 2. 1차원 가우시안 pdf
(a) 𝝁 =0, 𝝈 𝟐
=1 (b) 𝝁 =1, 𝝈 𝟐
=0.2
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.1 The Gaussian Probability Density Function
l 차원 공간에서 가우시안 함수는 다음과 같다.
p(x) =
𝟏
𝟐𝝅
𝒍
𝟐 𝚺
𝒍
𝟐
𝒆𝒙𝒑(−
𝟏
𝟐
(𝒙 − 𝝁) 𝑻
𝚺−𝟏
(𝒙 − 𝝁))
𝝁 = E(x)는 평균 값이고 𝚺은 l x l 크기의 공분산 행렬(covariance matrix)로 정의 된다.
𝚺 = E((𝒙 − 𝝁)(𝒙 − 𝝁) 𝑻)
𝚺 는 공분산 행렬 𝚺 의 행렬식(determinant)를 의미하고 l = 1 이면 1차원 가우시안 확률이 된다.
다차원 가우시안 확률 밀도함수를 나타낼때 N(𝝁 ,𝚺) 처럼 평균 𝝁 과 공분산 𝚺 을 표시한다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.1 The Gaussian Probability Density Function
더 쉽게 볼수 있게 하는 방법으로 2차원 공간의 예를 들어 볼수 있다.
𝚺 = E[[
𝒙 𝟏 − 𝝁 𝟏
𝒙 𝟐 − 𝝁 𝟐
] [ 𝒙 𝟏 − 𝝁 𝟏 𝒙 𝟐 − 𝝁 𝟐]]
=
𝝈 𝟏
𝟐 𝝈 𝟏𝟐
𝝈 𝟏𝟐 𝝈 𝟐
𝟐
E(𝒙 𝟏) = 𝝁𝒊, i = 1, 2 이고, 확률변수 𝒙 𝟏, 𝒙 𝟐의 공 분산은 𝝈 𝟏𝟐 = E[(𝒙 𝟏 − 𝝁 𝟏)(𝒙 𝟐 − 𝝁 𝟐)] 으로 정의된다.
만약 변수들이 통계적으로 독립이라면 공분산은 0이 되며
𝚺의 대각 요소가 각 요소들의 분산이 된다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.1 The Gaussian Probability Density Function
그림 3-6은 2차원 가우시안 확률 밀도 함수의 4가지 경우를 보여준다. 그림 3 (a)는 가우시안 공분산 대
각 행렬을 따른다.
𝚺 =
𝟑 𝟎
𝟎 𝟑
그림 3
(a) 2차원 가우시안 pdf 그래프
(b) 공분산 행렬 𝚺 에서 𝝈 𝟏
𝟐
= 𝝈 𝟐
𝟐
일 때 isovalue-curve
*이 그래프는 어느 방향으로 치우쳐지지 않고 대칭이 된다.
그림 4
(a) 2차원 가우시안 pdf 그래프
(b) 공분산 행렬 𝚺 에서 𝝈 𝟏
𝟐
>> 𝝈 𝟐
𝟐
일 때 isovalue-curve
*이 그래프는 𝒙 𝟏방향으로 길게 늘어진다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.1 The Gaussian Probability Density Function
그림 5
(a) 2차원 가우시안 pdf 그래프
(b) 공분산 행렬 𝚺 에서 𝝈 𝟏
𝟐
<< 𝝈 𝟐
𝟐
일 때 isovalue-curve
*이 그래프는 𝒙 𝟐방향으로 길게 늘어진다.
그림 6
(a) 2차원 가우시안 pdf 그래프
(b) 공분산 행렬 𝚺 가 대각 행렬이 아닐 때 isovalue-curve
*이 그래프는 다른 형태와 방향을 갖는다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.1 The Gaussian Probability Density Function
특징 𝒙 𝟏, 𝒙 𝟐 둘 다 3이고 공분산이 0 일때 해당 가우시안 그래프는 대칭이 된다.
isovalue curves(확률 밀도 값을 나타내는 곡선)은 초구(hyperspheres)이고 그림 3(b)에서 설명한다.
아래의 경우는 그림 4 (a)에 맞는 공분산 행렬로 𝝈 𝟏
𝟐 = 15 >> 𝝈 𝟐
𝟐 = 3 이 된다.
𝚺 =
𝝈 𝟏
𝟐
𝟎
𝟎 𝝈 𝟐
𝟐
이 그래프는 큰 분포의 방향인 𝒙 𝟏 축으로 늘어진다.
그림 4 (b)에 나타나는 isovalue curves는 타원형이 된다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.1 The Gaussian Probability Density Function
그림 6 (a), (b)는 더 일반적인 경우로
다음의 공분산 행렬은 𝝈 𝟏
𝟐 = 15 , 𝝈 𝟐
𝟐 = 3, 𝝈 𝟏𝟐=6 이 된다.
𝚺 =
𝝈 𝟏
𝟐 𝝈 𝟏𝟐
𝝈 𝟏𝟐 𝝈 𝟐
𝟐
𝝈 𝟏
𝟐
, 𝝈 𝟐
𝟐
, 𝝈 𝟏𝟐 을 조절하여 다른 모양과 방향으로 수정할 수 있다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.1 The Gaussian Probability Density Function
isovalue curves는 서로 다른 축 길이의 비와 다른 방향의 타원으로
대각 공분산 행렬을 가진 평균 0 랜덤 백터의 경우
isovalue curve를 계산하는건 C로 상수 곡선을 계산하는것과 같다.
𝒙 𝑻 𝚺−𝟏 𝒙 = 𝒙 𝟏 𝒙 𝟐
𝟏
𝝈 𝟏
𝟐 𝟎
𝟎
𝟏
𝝈 𝟐
𝟐
𝒙 𝟏
𝒙 𝟐
= C
or
𝒙 𝟏
𝟐
𝝈 𝟏
𝟐 +
𝒙 𝟐
𝟐
𝝈 𝟐
𝟐 = C
이 식은 특징 분포에 의해 축이 결정되는 타원의 식으로
타원의 주요 축은 공분산 행렬의 고유 백터(eigenvectors)/고유치(eigenvalue)로 제어된다.
선형대수를 알면 대각 행렬의 고유치는 각각의 대각 요소와 일치하게 된다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
이번 섹션의 목표는 각 클레스 분포 데이터를 표현하는 pdf
p(x|𝝎𝒊), i = 1, 2, . . ., M(각 x에 대한 𝝎𝒊의 우도비 함수 )는 N(𝝁 𝒊, 𝚺𝒊), i = 1, 2, . . .,M 인 정규분포로
베이지안 분류기를 최적화 하는 방법을 본다.
연관된 밀도의 지수 형태 때문에 로그 함수 ln(~)를 활용하는 결정 함수를 사용한다.
𝒈𝒊(𝒙) = ln(p(x|𝝎𝒊)p(𝝎𝒊)) = ln(p(x|𝝎𝒊) + ln P(𝝎𝒊)
or
𝒈𝒊 𝒙 = -
𝟏
𝟐
(x − 𝝁𝒊) 𝑻
𝚺𝒊
−𝟏
(x − 𝝁𝒊) + ln P(𝝎𝒊) + 𝒄𝒊
𝒄𝒊 는 상수로 –(l/2)ln2𝝅 – (1/2)ln|𝚺𝒊| 와 같다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
이 식을 풀면
𝒈𝒊 𝒙 = -
𝟏
𝟐
x 𝑻
𝚺𝒊
−𝟏
x +
𝟏
𝟐
x 𝑻
𝚺𝒊
−𝟏
𝝁𝒊 -
𝟏
𝟐
𝝁𝒊
𝑻
𝚺𝒊
−𝟏
𝝁𝒊 +
𝟏
𝟐
𝝁𝒊
𝑻
𝚺𝒊
−𝟏
x + ln P(𝝎𝒊) + 𝒄𝒊
비 선형 2 차원 형태가 된다. l = 2인 경우
𝚺𝒊 =
𝝈𝒊
𝟐 𝟎
𝟎 𝝈𝒊
𝟐
𝒈𝒊 𝒙 = -
𝟏
𝟐𝝈 𝒊
𝟐 (𝒙 𝟏
𝟐 + 𝒙 𝟏
𝟐) +
𝟏
𝝈 𝒊
𝟐 𝝁𝒊𝟏 𝒙 𝟏
𝟐 + 𝝁𝒊𝟐 𝒙 𝟏
𝟐 -
𝟏
𝟐𝝈 𝒊
𝟐 𝝁𝒊𝟏
𝟐 + 𝝁𝒊𝟐
𝟐 + ln P(𝝎𝒊) + 𝒄𝒊
위 식과 같이 되며 결정 커브(decision curves) 𝒈𝒊 𝒙 - 𝒈𝒋 𝒙 = 0 은 이 차식이 된다.
이러한 경우 베이지안 분류기는 특징 공간 분할이 이차 결정 표면(quadric decision surfaces)로 이루어
지는 이차 분류기(quadratic classifier)가 된다.
l > 2가 되면 결정 표면은 다차원(hyperquadrics)이 된다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
그림 7 (a)는 타원형의 결정 곡선을 나타낸다.
그림 7(b)는 그림 9에 해당하며 쌍곡선의 형태를 이룬다.
그림 7 이차 결정 곡선의 예시
가우시안 함수의 공분산 행렬에 따라 타원체(ellipsoid)
, 포물선(parabolas), 쌍곡선(hyperbolas), 선의 짝
(pairs of lines) 현태의 결정 곡선이 나온다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
그림 8. 2차원 공간의 개연성(equip
robable) 있는 두 클래스의 pdf 예시
양 클래스의 특징 백터는 서로 다른 공분산 행렬의 정규 분포로
이 경우 그림 7 (a)의 결정 곡선은 타원형이 된다.
색이 있는 부분은 각 pdf의 값이 상대적으로 더 큰 영역을 나타낸다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
이전의 식에서 이차 식이 되는 부분으로 x 𝑻
𝚺𝒊
−𝟏
x 식이 있다.
만약 공분산 행렬이 모든 클래스에 대해서 같다면 공분산 행렬은 𝚺𝒊 = 𝚺 이며
이차식의 형태에서 모든 결정 함수들이 같게 된다.
그래서 최대값 계싼을 위해 비교하지 않고 결졍 표면 식(decision surface equation)을 상쇄한다.
상수 𝒄𝒊 의 경우도 같아서 생략해도 되고 𝒈𝒊 𝒙 를 다음과 같이 재정의 한다.
𝒈𝒊 𝒙 = 𝝎𝒊
𝑻
𝒙 + 𝝎𝒊𝟎
초평면 결정 (Decision Hyperplanes)
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
그림 9. 2차원 공간의 개연성(equip
robable) 있는 두 클래스의 pdf 예시
각 클래스의 특징 백터들은 다른 공분산의 정규분포를 따르며
이 경우 쌍곡선 형태의 결정 곡선을 갖는다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
결정 함수 𝒈𝒊 𝒙 는
𝒈𝒊 𝒙 = 𝝎𝒊
𝑻 𝒙 + 𝝎𝒊𝟎
where
𝝎𝒊 = 𝚺−𝟏
𝝁𝒊
and
𝝎𝒊𝟎 = ln P(𝝎𝒊) -
𝟏
𝟐
𝝁𝒊
𝑻
𝚺−𝟏
𝝁𝒊
그래서 𝒈𝒊 𝒙 는 x의 선형 함수로 각 결정 표면들은 쌍곡선이 된다.
이걸 조금 더 보면
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
같은 요소를 갖는 대각 공분산 행렬
- 특징 백터를 구성하는 각 특징들은 상호 관계를 갖지 않는다(mutual uncorrelated) 그리고 분산이 같
다.(E((𝒙𝒊 − 𝝁𝒊)(𝒙𝒋 − 𝝁𝒋)) = 𝝈 𝟐 𝜹𝒊𝒋) 그래서 I가 l차원 단위 행렬인 부록 A의 𝚺 = 𝝈 𝟐 I 와 같이
𝒈𝒊 𝒙 =
𝟏
𝝈 𝟐 𝝁𝒊
𝑻
𝒙 + 𝝎𝒊𝟎
𝒈𝒊 𝒙 은 위의 식과 같이 되고 초평면 결정(decision hyperplane)은 아래와 같이 정의한다.
𝒈𝒊𝒋 𝒙 ≡ 𝒈𝒊 𝒙 - 𝒈𝒋 𝒙 = 𝝎 𝑻
(x - 𝒙 𝟎) = 0
where
𝝎 = 𝝁𝒊 − 𝝁𝒋
and
𝒙 𝟎 =
𝟏
𝟐
(𝝁𝒊 + 𝝁𝒋) - 𝝈 𝟐
ln(
𝒑(𝝎𝒊)
𝒑(𝝎 𝒋)
)
𝝁 𝒊 −𝝁 𝒋
||𝝁𝒊 −𝝁 𝒋|| 𝟐
여기서 ||𝒙|| = 𝒙 𝟏
𝟐 + 𝒙 𝟏
𝟐+. . . +𝒙𝒊
𝟐 는 x의 유클리디안 놈(Euclidean norm) 이라 한다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
그래서 결졍면(decision surface)은 점 𝒙 𝟎을 지나는 초평면(hyperplane)이다.
P(𝝎𝒊) = P(𝝎𝒋) 이면 𝒙 𝟎 =
𝟏
𝟐
(𝝁𝒊 + 𝝁𝒋) 이 되고, 초평면은 분할의 중간 점인 𝝁𝒊 , 𝝁𝒋 의 평균을 지난다.
그러나 만약 P(𝝎𝒋) > P(𝝎𝒊) (P(𝝎𝒋) < P(𝝎𝒊)) 이면 초평면은 𝝁𝒊(𝝁𝒋)에 더 가까워진다.
결국 두 클래스중 더 가능성 있는 영역이 증가하게 된다.
그림 10은 2차원에서 2가지의 경우인데 P(𝝎𝒋) = P(𝝎𝒊) (검은 선) 이고, P(𝝎𝒋) > P(𝝎𝒊) (빨간선) 이다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
여기서 직선으로된 두 경우의 결졍 표면이 𝝁𝒊 − 𝝁𝒋에 직교(orthogonal)하는 모습을 볼수있다.
임의의 점 x가 결졍 초평면(decision hyperplane)에 있다면 벡터 𝒙 - 𝒙 𝟎 역시 초평면에 존재한다.
𝒈𝒊𝒋 𝒙 = 0 => 𝝎 𝑻(x - 𝒙 𝟎) = (𝝁𝒊 − 𝝁𝒋) 𝑻(x - 𝒙 𝟎) = 0
𝝁𝒊 − 𝝁𝒋 이 결정 초평면에 직교하기 때문으로 만약 ||𝝁𝒊 − 𝝁𝒋||에 대해 𝝈 𝟐이 작다면
초평면의 위치는 P(𝝎𝒊),P(𝝎𝒋)의 값에 민감하게(insensitive) 된다.
작은 분산은 각 평균 값 주변의 작은 원안에 랜덤 백터들을 나타내기 때문이다.
그래서 결정 초평면의 약간 이동시키면 결과에 조금 영향을 미친다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
그림 10. 𝚺 = 𝝈 𝟐I 인 정규분포 백터
의 결정선(decision lines)
검은 선은 P(𝝎j) = P(𝝎i)의 경우로 두 클래스의 평군을 나누는
지점을 통과한다.
파란 선은 P(𝝎𝒋) > P(𝝎𝒊)인 경우로 𝝁𝒊에 가까우며 두 클래스중
더 가능성 있는 방향으로 향한다.
만약 P(𝝎𝒋) < P(𝝎𝒊)이면 결정 선은 𝝁𝒋 에 더 가까워진다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
그림 11. (a) 분포가 촘촘한 클래스의
결정 선 (b) 분포가 촘촘하지 않은 클
래스의 결정 선
클래스들이 평균값 주위로 촘촘하게(compact) 모여 있을때
초평면의 위치는 P(𝝎1)과 P(𝝎2)의 값에 비교적 덜 민감하다.
하지만 촘촘하지 않은(noncompact) 클래스의 경우에서는
초평면이 좌우 방향으로 조금만 움직여도 크게 영향을 받는다.
그림 11 (a)는 작은 분산의 경우이고 (b)는 큰 분산에 해당하는
경우이고
(b)에서 (a)의 경우 보다 결정 면의 위치가 더 영향을 크게 미친
다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
비대각 공분산 행렬(Nondiagonal covariance matrix)
비대각 공분산 행렬에서 초평면은 아래의 식과 같이 나타낸다.
𝒈𝒊𝒋 𝒙 = 𝝎 𝑻
(x - 𝒙 𝟎) = 0
where
𝝎 = −1(𝝁𝒊 − 𝝁𝒋)
and
𝒙 𝟎 =
𝟏
𝟐
(𝝁𝒊 + 𝝁𝒋) - 𝝈 𝟐ln(
𝒑(𝝎𝒊)
𝒑(𝝎 𝒋)
)
𝝁 𝒊 −𝝁 𝒋
||𝝁𝒊 −𝝁 𝒋|| −1
2
||x|| −1 ≡ (x 𝑻 −1
x)1/2
에서 −1
는 특징백터 x의 놈이다.
위 식은 이전에 본 대각 공분산 행렬의 한 예외를 제외하고 동일하다.
다만 더 이상 백터 𝝁𝒊 − 𝝁𝒋에서 직교하지 않고 선형 변환 −1(𝝁𝒊 − 𝝁𝒋)에서 직교한다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
그림 12는 같은 공분산 행렬을 가진 두개의 가우시안 pdf로
가능성있는(equiprobable) 두 클래스의 데이터 분포를 나타낸다.
각 클래스들에서 데이터는 평균갑의 주위로 같은 방향을 향해 분
포되어있으며
최적의 결정 곡선(optimal decision curve)는 직선이 된다.
그림 12. 2차원에서 같은 공분산 행
렬을 가진 두 가우시안 pdf
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
이제 조금 다른 각도로 보자. 같은 공분산 행렬을 가진 가능성 있는 클래스들이 있다면 𝒈𝒊 𝒙 는 상수를
무시하고 다음과 같이 요약할 수 있다.
𝒈𝒊 𝒙 = −
𝟏
𝟐
(x − 𝝁𝒊) 𝑻
𝚺𝒊
−𝟏
(x − 𝝁𝒊)
𝚺 = 𝝈 𝟐I : 최대 𝒈𝒊 𝒙 최소를 의미할 때
유클리디안 거리 : de = ||x - 𝝁i||
그래서 각 평균 점으로 부터 유클리디안 거리에 따라 해당 클래스의 특징백터가 할당된다.
그림 13 은 각 클래스의 원첨에서 de = c 거리와 같은 곡선으로 일반적인 경우 초구로 지름 c인 원이다.
최소 거리 분류기(Minimum Distance Classifier)
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
대각 행렬이 아닌(Nondiagonal) 𝚺 : 𝒈𝒊 𝒙 최대화는 𝚺−1
놈의 최소화로 마할라노비스 거리(Mahalanobis
distance)로 알려져있다.
Mahalanobis distance : dm = ((x − 𝝁𝒊) 𝑻
𝚺𝒊
−𝟏
(x − 𝝁𝒊))1/2
이경우 상수 거리 dm = c 곡선은 타원형(ellipses – hyperellipses)이다.
원래 공분산 행렬은 대칭형이고 부록 B를 보면 항상 unitary transform으로 대각화 할수 있다.
𝚺 = 𝚽𝚲𝚽T
𝚽T = 𝚽−1 이고 𝚲 는 공분산 행렬 𝚺의 고유값(eigenvalue)들을 요소로 하는 대각 행렬이다.
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
𝚽는 직교하는 공분산 행렬 𝚺 의 고유백터에 대한 컬럼으로
𝚽 = [v 𝟏, v2, . . . ,vl]
이전의 식들을 조합하여 다음을 구할 수 있다.
(x − 𝝁𝒊) 𝑻
𝚽𝚲−𝟏
𝚽T
(x − 𝝁𝒊)) = c2
x’ = 𝚽Tx 를 정의 하면, x’의 좌표들은 vk
Tx, k = 1, 2, . . ., l,와 같으며 고유벡터에대한 x의 투영(projecti
ons)이 된다.
축이 vk, k = 1, 2, . . ., l로 결정되는 좌표 시스템의 각 각에 대한 x의 좌표와 같으며 아래와 같이 식을 구
한다.
(x1
’− xi
’
1)2
𝝀1
+ . . . +
(xl
’− xi
’
l)2
𝝀l
= c2
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
그림 13의 2차원 공간에서는 유클리디안 거리의 예시로 원과 마
할라노비스 거리의 예로 타원이 존재한다.
후자의 경우 결정 선이 평균값 분할 선과 직교하지 않는 모습을
볼 수 있으며
이는 타원의 형태이기 때문이다.
그림 13. 각 클래스에 대한 (a)의 곡선
은 유클리디안 거리
(b)는 중심점에대한 마할라노비스 거리
4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.2 The Bayesian Classifier for Normally Distributed Classes
(x1
’− xi
’
1)2
𝝀1
+ . . . +
(xl
’− xi
’
l)2
𝝀l
= c2
위 식은 새 좌표 시스템에서 초타원체(hyperellipsoid)의 식으로
그림 13 (b)는 l = 2 인 경우이다.
타원의 중점은 𝝁 i 에 있으며 기준 축은 고유백터에 따라 정렬되고 길이는 각각 2 𝝀kc 가 된다.
그래서 특정 점에서부터 마할라 노비스 거리를 가지는 모든 점들은 타원에 위치한다.
감사합니다

More Related Content

Similar to 패턴인식-베이즈결정이론기반 분류기 part1

04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )Jeonghun Yoon
 
0131 1 spectral_theorem_transformation
0131 1 spectral_theorem_transformation0131 1 spectral_theorem_transformation
0131 1 spectral_theorem_transformationJeonghun Yoon
 
0131 2 spectral_theorem_eigenvalue
0131 2 spectral_theorem_eigenvalue0131 2 spectral_theorem_eigenvalue
0131 2 spectral_theorem_eigenvalueJeonghun Yoon
 
Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)Jeonghun Yoon
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]강민국 강민국
 
Probability with MLE, MAP
Probability with MLE, MAPProbability with MLE, MAP
Probability with MLE, MAPJunho Lee
 
Eigendecomposition and pca
Eigendecomposition and pcaEigendecomposition and pca
Eigendecomposition and pcaJinhwan Suk
 
Neural network (perceptron)
Neural network (perceptron)Neural network (perceptron)
Neural network (perceptron)Jeonghun Yoon
 
03. linear regression
03. linear regression03. linear regression
03. linear regressionJeonghun Yoon
 
[기초수학] 미분 적분학
[기초수학] 미분 적분학[기초수학] 미분 적분학
[기초수학] 미분 적분학KyeongWon Koo
 
데이터처리와 통계 기본 머신러닝
데이터처리와 통계 기본 머신러닝데이터처리와 통계 기본 머신러닝
데이터처리와 통계 기본 머신러닝Sunggon Song
 
4. Gaussian Model
4. Gaussian Model4. Gaussian Model
4. Gaussian ModelJungkyu Lee
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)SANG WON PARK
 
0307 1 estimation_theory
0307 1 estimation_theory0307 1 estimation_theory
0307 1 estimation_theoryJeonghun Yoon
 
08. spectal clustering
08. spectal clustering08. spectal clustering
08. spectal clusteringJeonghun Yoon
 
Deep learning study 1
Deep learning study 1Deep learning study 1
Deep learning study 1San Kim
 
2.supervised learning
2.supervised learning2.supervised learning
2.supervised learningHaesun Park
 

Similar to 패턴인식-베이즈결정이론기반 분류기 part1 (20)

04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )
 
0131 1 spectral_theorem_transformation
0131 1 spectral_theorem_transformation0131 1 spectral_theorem_transformation
0131 1 spectral_theorem_transformation
 
06. graph mining
06. graph mining06. graph mining
06. graph mining
 
0131 2 spectral_theorem_eigenvalue
0131 2 spectral_theorem_eigenvalue0131 2 spectral_theorem_eigenvalue
0131 2 spectral_theorem_eigenvalue
 
Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)
 
Variational AutoEncoder(VAE)
Variational AutoEncoder(VAE)Variational AutoEncoder(VAE)
Variational AutoEncoder(VAE)
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]
 
Probability with MLE, MAP
Probability with MLE, MAPProbability with MLE, MAP
Probability with MLE, MAP
 
Eigendecomposition and pca
Eigendecomposition and pcaEigendecomposition and pca
Eigendecomposition and pca
 
Neural network (perceptron)
Neural network (perceptron)Neural network (perceptron)
Neural network (perceptron)
 
03. linear regression
03. linear regression03. linear regression
03. linear regression
 
[기초수학] 미분 적분학
[기초수학] 미분 적분학[기초수학] 미분 적분학
[기초수학] 미분 적분학
 
데이터처리와 통계 기본 머신러닝
데이터처리와 통계 기본 머신러닝데이터처리와 통계 기본 머신러닝
데이터처리와 통계 기본 머신러닝
 
4. Gaussian Model
4. Gaussian Model4. Gaussian Model
4. Gaussian Model
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)
 
0307 1 estimation_theory
0307 1 estimation_theory0307 1 estimation_theory
0307 1 estimation_theory
 
08. spectal clustering
08. spectal clustering08. spectal clustering
08. spectal clustering
 
07. PCA
07. PCA07. PCA
07. PCA
 
Deep learning study 1
Deep learning study 1Deep learning study 1
Deep learning study 1
 
2.supervised learning
2.supervised learning2.supervised learning
2.supervised learning
 

More from jdo

[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리jdo
 
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수jdo
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others
 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Othersjdo
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNetjdo
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNetjdo
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16
 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16jdo
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷jdo
 
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2jdo
 
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1jdo
 
[컴퓨터비전과 인공지능] 6. 역전파 2
[컴퓨터비전과 인공지능] 6. 역전파 2[컴퓨터비전과 인공지능] 6. 역전파 2
[컴퓨터비전과 인공지능] 6. 역전파 2jdo
 
[컴퓨터비전과 인공지능] 6. 역전파 1
[컴퓨터비전과 인공지능] 6. 역전파 1[컴퓨터비전과 인공지능] 6. 역전파 1
[컴퓨터비전과 인공지능] 6. 역전파 1jdo
 
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수jdo
 
[리트코드 문제 풀기] 연결 리스트
[리트코드 문제 풀기] 연결 리스트[리트코드 문제 풀기] 연결 리스트
[리트코드 문제 풀기] 연결 리스트jdo
 
[컴퓨터비전과 인공지능] 5. 신경망
[컴퓨터비전과 인공지능] 5. 신경망[컴퓨터비전과 인공지능] 5. 신경망
[컴퓨터비전과 인공지능] 5. 신경망jdo
 
[리트코드 문제 풀기] 배열
[리트코드 문제 풀기] 배열[리트코드 문제 풀기] 배열
[리트코드 문제 풀기] 배열jdo
 
[컴퓨터비전과 인공지능] 4. 최적화
[컴퓨터비전과 인공지능] 4. 최적화[컴퓨터비전과 인공지능] 4. 최적화
[컴퓨터비전과 인공지능] 4. 최적화jdo
 
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제jdo
 
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부jdo
 
Titanic kaggle competition
Titanic kaggle competitionTitanic kaggle competition
Titanic kaggle competitionjdo
 
1 2. 직선과 평면에서의 벡터 방정식
1 2. 직선과 평면에서의 벡터 방정식1 2. 직선과 평면에서의 벡터 방정식
1 2. 직선과 평면에서의 벡터 방정식jdo
 

More from jdo (20)

[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리
 
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others
 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16
 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷
 
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2
 
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1
 
[컴퓨터비전과 인공지능] 6. 역전파 2
[컴퓨터비전과 인공지능] 6. 역전파 2[컴퓨터비전과 인공지능] 6. 역전파 2
[컴퓨터비전과 인공지능] 6. 역전파 2
 
[컴퓨터비전과 인공지능] 6. 역전파 1
[컴퓨터비전과 인공지능] 6. 역전파 1[컴퓨터비전과 인공지능] 6. 역전파 1
[컴퓨터비전과 인공지능] 6. 역전파 1
 
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수
 
[리트코드 문제 풀기] 연결 리스트
[리트코드 문제 풀기] 연결 리스트[리트코드 문제 풀기] 연결 리스트
[리트코드 문제 풀기] 연결 리스트
 
[컴퓨터비전과 인공지능] 5. 신경망
[컴퓨터비전과 인공지능] 5. 신경망[컴퓨터비전과 인공지능] 5. 신경망
[컴퓨터비전과 인공지능] 5. 신경망
 
[리트코드 문제 풀기] 배열
[리트코드 문제 풀기] 배열[리트코드 문제 풀기] 배열
[리트코드 문제 풀기] 배열
 
[컴퓨터비전과 인공지능] 4. 최적화
[컴퓨터비전과 인공지능] 4. 최적화[컴퓨터비전과 인공지능] 4. 최적화
[컴퓨터비전과 인공지능] 4. 최적화
 
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제
 
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부
 
Titanic kaggle competition
Titanic kaggle competitionTitanic kaggle competition
Titanic kaggle competition
 
1 2. 직선과 평면에서의 벡터 방정식
1 2. 직선과 평면에서의 벡터 방정식1 2. 직선과 평면에서의 벡터 방정식
1 2. 직선과 평면에서의 벡터 방정식
 

패턴인식-베이즈결정이론기반 분류기 part1

  • 1. 패턴인식 Classifiers Based on Bayes Decision Theory 2018-07-19 도정찬
  • 2. 1. INTRODUCTION 첫 챕터에서는 패턴 인식 시스템에서 분류기 디자인을 다룬다. 여기서는 생성된 특징들(features)의 통계적 특성에서 생겨난 확률적 매개변수로 접근한다. 이는 이미 앞 장에서 설명했듯이 측정 센서의 오차 뿐만아니라 패턴의 통계적 편차 때문이다. 클래스들 중에서 알수 없는 패턴(Unknown Pattern)을 분류하는 분류기(Classifier)를 설계한다. 그래서 지금 가장 가능성(most probable)있는 평균을 정의한다.
  • 3. 1. INTRODUCTION 특징 백터 x로 표현하는 M 가지 클래스들의 분류 작업 − 𝝎1, 𝝎2, . . ., 𝝎M과 알수없는 패턴이 주어 지면, M 개의 조건부 확률 P(𝝎i|x), i= 1, 2, . . .,M 구성한다. 이를 사후 확률(Posterior Probabilities) 이라 한다. 각 확률은 특징 백터 x를 따르는 클래스 𝝎i에 속하는 알수 없는 패턴들의 확률을 나타낸다. 이러한 조건부 확률은 뭐가 가장 가능성있는지 선택하는데 합리적이지 않을 수 있다. 이 챕터에서 소개하는 분류기는 M 까지의 확률들 중 최댓값 또는 적절하게 정의된 함수의 최댓값을 계산하여 찾아낸다. 알수없는 패턴은 최댓값을 갖는 클래스로 분류된다.
  • 4. 1. INTRODUCTION 먼저 할일은 먼저 조건부 확률을 계산해야한다. 베이즈 법칙(Bayes rule)이 얼마나 유용한지 증명하고 이번 챕터에서는 훈련 데이터의 패턴을 따르는 특징 백터를 사용 가능한 실험 증거(Experimental evidance)로 확률 밀도 함수(Probability Density Functions:PDF)를 추정하는 기술들에 대해 설명 한다.
  • 5. 2. BAYES DECISION THEORY 먼저 2가지 클래스의 경우를 보면 𝝎1, 𝝎2 이 두 클래스가 패턴에 속한다. 사전 확률(priori probabilities)은 P(𝝎1), P(𝝎2)로 훈련에 사용가능한 특징 백터를 알지 못하기 때문이다. 만약 훈련 가능한 패턴 갯수가 N이면 N1, N2는 𝝎1와 𝝎2에 속하는 갯수를 나타낸다 . 각 P(𝝎1) ≈ 𝑵1/𝑵 and P(𝝎 𝟐) ≈ 𝑵 𝟐/𝑵 이 된다.
  • 6. 2. BAYES DECISION THEORY 다른 통계적 확률은 클래스-조건부 확률밀도함수 p(x|𝝎𝒊), i = 1, 2,로 각 클래스에서 특징 백터의 분포를 나타낸다. 만야 이걸 알수없으면 훈련된 데이터로 추정가능하다. 이 방법은후에 설명한다. 확률밀도함수 p(x|𝝎𝒊)는 특징백터 x에 대한 𝝎𝒊의 우도비 함수이다. 여기서 햇갈리는게 특징 백터는 다차원 특징 공간에서 값을 가질수 있다. 하지만 이 경우 특징백터는 이산 값을 가지며, 밀도함수 p(x|𝝎𝒊)는 확률이 된다.
  • 7. 2. BAYES DECISION THEORY 이제 Introduction에서 설명한 조건부 확률 계산에 필요한 내용들을 설명했다. 이제 베이즈 정리를 보자 P(𝝎𝒊|x)= 𝑝 𝑥 𝝎𝒊 𝑝(𝝎𝒊) 𝑝(𝑥) p(x)는 x의 확률 밀도 함수로 아래와 같다. 𝑝 𝑥 = 𝑖=1 2 𝑝 𝑥 𝝎𝒊 𝑝(𝝎𝒊) 베이즈 분류 정리는 다음과 같이 설명할 수 있다. If P(𝝎 𝟏 𝒙 > 𝑷(𝝎 𝟐 𝒙 , 𝒙 𝒊𝒔 𝒄𝒍𝒂𝒔𝒔𝒊𝒇𝒊𝒆𝒅 𝒕𝒐 𝝎 𝟏 If P(𝝎 𝟏 𝒙 < 𝑷(𝝎 𝟐 𝒙 , 𝒙 𝒊𝒔 𝒄𝒍𝒂𝒔𝒔𝒊𝒇𝒊𝒆𝒅 𝒕𝒐 𝝎 𝟐
  • 8. 2. BAYES DECISION THEORY 두 클래스가 같은 경우는 좋지 않지만 그 패턴에서는 두개의 클래스중 하나가 선택되야한다. 베이즈 정리를 사용하여 같은 학률의 결정은 부등호로 나타낼수 있다. P(𝝎 𝟏|x)p(𝝎 𝟏) ≷ P(𝝎 𝟐|x)p(𝝎 𝟐) 여기서 p(x)는 모든 클래스에 대하여 같고 결정에 영향을 주지않기 때문에 감안할수없다. 그러므로 만약 사전 확률이 같다면. P(𝝎 𝟏)=P(𝝎 𝟐)=1/2 이고, 아래와 같이 된다. P(𝝎 𝟏|x) ≷ P(𝝎 𝟐|x) 그래서 최댓값 찾기는 x를 나타내는 조건부 확률의 값을 기반으로 한다.
  • 9. 2. BAYES DECISION THEORY 그림 1은 같은 확률을 갖는 클래스들과 특징이 하나(l=1) 인 x의 함수로서, 단순한 경우의 p(x|𝝎𝒊), i = 1, 2의 편차를 보여준다. 𝒙 𝟎에서 점선은 두 영역으로 특징 공간을 나누는 임계선이다. 베이즈 결정 규칙에 따르면, 𝑹 𝟏에 존재하는 x의 모든 값은 분 류기가 𝝎 𝟏로 결정하고, 𝑹 𝟐의 모든 값은 𝝎 𝟐로 결정한다. 하지만 이 그림에서는 결정 에러가 무조건 발생한다. 그림 1 두 클래스의 확률이 같은 경우 베이지안 분류기로 구성된 두 영역 𝑹 𝟏과 𝑹 𝟐의 예시
  • 10. 2. BAYES DECISION THEORY 𝑹 𝟐의 영역에서 클래스 𝝎 𝟏에 속하는 확률은 결정 에러가 된다. 두 클래스의 크기가 같은 경우의 결정 에러 확률의 총합은 크 지 않아보이는데 아래와 같이 나타낸다. 𝑷 𝒆= 𝟏 𝟐 −∞ 𝒙 𝟎 𝒑 𝒙 𝝎 𝟐 𝒅𝒙+ 𝟏 𝟐 𝒙 𝟎 +∞ 𝒑 𝒙 𝝎 𝟏 𝒅𝒙 이 식은 그림 1의 곡선 아래의 전체 그림자 공간과 같다. 이제 중요한 이슈까지 왔다. 베이지안 분류 규칙에 대해 전체적으로 봤다. 그림 1 두 클래스의 확률이 같은 경우 베이지안 분류기로 구성된 두 영역 𝑹 𝟏과 𝑹 𝟐의 예시
  • 11. 2. BAYES DECISION THEORY 이제 베이지안 분류기를 에러 분류 확률을 최소화하여 최적화 시키는 측면에서 본다. 보는 사람은 그림 1에서 쉽게 확인하고 𝒙 𝟎에서 임계값을 멀어지게 움직일수 있지만 항상 그림자 공간은 커지게 된다. 증명을 해보면 𝑹 𝟏은 𝝎 𝟏로 분류하기 위한 특징공간에서의 영역이고 𝑹 𝟐는 𝝎 𝟐에 대한 영역이다. 그러면 에 러는 𝝎 𝟐에 속하지만 x가 𝑹 𝟏의 집합인 경우와 𝝎 𝟏에 속하지만 x가 𝑹 𝟐의 집합이 되는경우에 만들어진다. 𝑷 𝒆 = P(x ∈ 𝑹 𝟐, 𝝎 𝟏) + P(x ∈ 𝑹 𝟏, 𝝎 𝟐) P( ~ , ~ )는 두 사건의 결합 확률을 나타낸다. 분류 에러 확률 최소화
  • 12. 2. BAYES DECISION THEORY 다시 식을 보면 아래와 같이 되지만 𝑷 𝒆 = P(x ∈ 𝑹 𝟐|𝝎 𝟏)P(𝝎 𝟏) + P(x ∈ 𝑹 𝟏|𝝎 𝟐)P(𝝎 𝟐) = P(𝝎 𝟏) 𝑹 𝟐 𝒑 𝒙 𝝎 𝟏 𝒅𝒙+ P(𝝎 𝟐) 𝑹 𝟏 𝒑 𝒙 𝝎 𝟐 𝒅𝒙 베이즈 정리를 사용하면 𝑷 𝒆 = 𝑹 𝟐 𝒑 𝝎 𝟏 𝒙 𝒑 𝒙 𝒅𝒙+ 𝑹 𝟏 𝒑 𝝎 𝟐 𝒙 𝒑 𝒙 𝒅𝒙 이제 특징공간의 𝑹 𝟏나 𝑹 𝟐가 선택이 되면 에러를 최소화시키는게 보기 쉬워진다. 𝑹 𝟏 : P(𝝎 𝟏|x)>P(𝝎 𝟐|x) 𝑹 𝟐 : P(𝝎 𝟐|x)>P(𝝎 𝟏|x)
  • 13. 2. BAYES DECISION THEORY 다시 𝑹 𝟏나 𝑹 𝟐의 합은 모든 공간을 덮기 때문에 확률밀도함수의 정의로 다음과 같이 된다. P(𝝎 𝟏)= 𝑹 𝟏 𝒑 𝝎 𝟏 𝒙 𝒑 𝒙 𝒅𝒙+ 𝑹 𝟐 𝒑 𝝎 𝟐 𝒙 𝒑 𝒙 𝒅𝒙 위 식과 𝑷 𝒆의 식을 조합하면 다음을 얻을 수 있다. 𝑷 𝒆 = P(𝝎 𝟏) - 𝑹 𝟏 𝒑 𝝎 𝟏 𝒙 − 𝑷(𝝎 𝟐|𝒙) 𝒑(𝒙)𝒅𝒙 만약 𝑹 𝟏에서 P(𝝎 𝟏|x) > P(𝝎 𝟐|x) 이라면 에러 확률은 최소화 된다. 𝑹 𝟐에서 또한 역은 성립한다.
  • 14. 2. BAYES DECISION THEORY 지금까지 클래스가 두개 뿐인 단순한 경우를 다뤄왔다. 여러 클래스를 일반화하는 경우도 복잡하지는 않 다. M개의 클래스 분류 작업에서는 𝝎 𝟏, 𝝎 𝟐, . . . , 𝝎 𝑴과 알수없는 패턴이 특징백터에 나타나고 클래스 𝝎𝒊로 할당된다. 만약 P(𝝎𝒊|x) > P(𝝎𝒋|x) j ≠ i 분류 에러 확률의 최소화로 해결할 수 있다.
  • 15. 2. BAYES DECISION THEORY 분류 에러 확률은 항상 최소화의 좋은 기준은 되지않는다. 모든 에러에 대해 가중치가 같기 때문이다. 잘못된 결정을 하게 되는 경우도 있다. 예를 들면 의사가 암진단 할때 잘못 판단하면 심각해진다. 양성 종양이 악성으로 진단되면 잘못 판단해도 다시 검사해서 확인 있지만 반대의 경우는 큰일이 된다. 그래서 각 에러마다 가중치를 주는게 적절하다. 평균 위험 최소화 Minimizing the Average Risk
  • 16. 2. BAYES DECISION THEORY 예를 들어 𝝎 𝟏를 악성 종양의 클래스로 하고 𝝎 𝟐를 양성인 경우의 클래스로 한다. 𝑹 𝟏, 𝑹 𝟐 는 𝝎 𝟏, 𝝎 𝟐 각각의 특징 공간이 된다. 에러 확률 𝑷 𝒆를 최소화 하기위해 𝑹 𝟏, 𝑹 𝟐을 선택하는 대신에 아래의 변형된 식을 사용한다. r = 𝝀 𝟏𝟐 𝐩(𝝎 𝟏) 𝑹 𝟐 𝒑 𝒙 𝝎 𝟏 𝒅𝒙+ 𝝀 𝟐𝟏 𝐩(𝝎 𝟐) 𝑹 𝟏 𝒑 𝒙 𝝎 𝟐 𝒅𝒙 각각의 용어는 에러 확률에서 중요함에 따라 가중을 준다. 현재의 경우에는 𝝀 𝟏𝟐 > 𝝀 𝟐𝟏 이 된다. 클래스 𝝎 𝟏에서 𝝎 𝟐로 비롯되어 패턴의 할당 때문에 에러는 비용 함수에서 더 큰 영향을 받는다.
  • 17. 2. BAYES DECISION THEORY M 클래스의 경우를 생각하면 𝑹𝒋, j = 1, 2, . . ., M 이며 특징 공간의 영역은 각 클래스 𝝎𝒋에 할당된다. 특징 백터 x에서 𝝎 𝒌가 𝑹𝒊 i≠k 에 속한다 가정하면 특징 백터는 오분류하게 된다. 손실(loss)라 할수있는 패널티 단어 𝝀 𝒌𝒊는 잘못된 결정과 관련있다. 행렬 L은 (k,i)의 패널티 행렬로 손실 행렬(loss matrix)라 부른다. r을 설명하는 이전의 식과는 다르게 이제 손실 행렬(𝝀 𝒌𝒌)를 이용하여 가중치를 줄수있다. 𝝎 𝒌에 대한 손실은 아래와 같이 정의한다. 𝒓 𝒌 = 𝒊=𝟏 𝑴 𝝀 𝒌𝒊 𝑹 𝒊 𝒑 𝒙 𝝎 𝒌 𝒅𝒙
  • 18. 2. BAYES DECISION THEORY 해당 식의 적분은 𝝎𝒊로 분류되는 클래스 𝝎 𝒌에대한 특징 백터의 전반적인 확률로 𝝀 𝒌𝒊로 가중받는다. 여기서 목표는 평균 손실을 최소화 하기 위한 부분 영역 𝑹𝒋를 선택해야 한다. 𝒓 = 𝒊=𝟏 𝑴 𝒓 𝒌 𝒑(𝝎 𝒌) = 𝒊=𝟏 𝑴 𝑹 𝒊 𝒊=𝟏 𝑴 𝝀 𝒌𝒊 𝒑 𝒙 𝝎 𝒌 𝒑 𝝎 𝒌 𝒅𝒙 각 적분을 최소화 하면 부분 영역을 선택하는것과 동일하게 된다. x∈ 𝑹𝒊 if 𝒍𝒊 ≡ 𝒌=𝟏 𝑴 𝝀 𝒌𝒊 𝒑 𝒙 𝝎 𝒌 𝒑(𝝎 𝒌) < 𝒍𝒋 ≡ 𝒌=𝟏 𝑴 𝝀 𝒌𝒋 𝒑 𝒙 𝝎 𝒌 𝒑(𝝎 𝒌) ∀𝒋 ≠ 𝒊
  • 19. 2. BAYES DECISION THEORY 𝜹 𝒌𝒊 가 크로네커 델타이고 𝝀 𝒌𝒊 = 1 - 𝜹 𝒌𝒊 라면 평균 위험을 최소화 시키는건 분류에러확률 최소화와 똑같 이 된다. 클래스가 두개인 경우에 다음과 같이 구한다. 𝒍 𝟏 = 𝝀 𝟏𝟏p(x|𝝎 𝟏)p(𝝎 𝟏) + 𝝀 𝟐𝟏p(x|𝝎 𝟐)p(𝝎 𝟐) 𝒍 𝟐 = 𝝀 𝟏𝟐p(x|𝝎 𝟏)p(𝝎 𝟏) + 𝝀 𝟐𝟐p(x|𝝎 𝟐)p(𝝎 𝟐) 𝒍 𝟏 < 𝒍 𝟐가 되면 x에서는 𝝎 𝟏로 분류하게 된다. (𝝀 𝟐𝟏 − 𝝀 𝟐𝟐)p(x|𝝎 𝟐)p(𝝎 𝟐) < (𝝀 𝟏𝟐 − 𝝀 𝟏𝟏)p(x|𝝎 𝟏)p(𝝎 𝟏)
  • 20. 2. BAYES DECISION THEORY 올바르게 선택을 하면 잘못된 선택보다 덜 페널티를 받으므 로 𝝀𝒊𝒋 > 𝝀𝒊𝒊 가 된다. 이에 따라 두 클래스의 경우 선택 규칙은 아래와 같이 된다. x∈ 𝝎 𝟏(𝝎 𝟐) if 𝒍 𝟏𝟐 ≡ 𝒑 𝒙 𝝎 𝟏 𝒑 𝒙 𝝎 𝟐 >(<) 𝒑(𝝎 𝟏) 𝒑(𝝎 𝟐) 𝝀 𝟐𝟏 −𝝀 𝟐𝟐 𝝀 𝟏𝟐 − 𝝀 𝟏𝟏 비율 𝒍 𝟏𝟐은 우도비(likehood ratio)이고 이전의 시험을 우도 비 시험이라 한다. 그림 1에다 위의 식을 보면 손실 행렬(loss matrix)는 다음 과 같다. L = 𝟎 𝝀 𝟏𝟐 𝝀 𝟐𝟏 𝟎 그림 1 두 클래스의 확률이 같은 경우 베이지안 분류기로 구성된 두 영역 𝑹 𝟏과 𝑹 𝟐의 예시
  • 21. 2. BAYES DECISION THEORY 클래스 𝝎 𝟐 에대한 패턴 오분류로 안 좋은 결과가 나온다면 𝝀 𝟐𝟏 > 𝝀 𝟏𝟐 가 된다. 그래서 p(𝝎 𝟏) = p(𝝎 𝟐) = ½ 로 가정했었다면 클래스 𝝎 𝟐 에 아래의 패턴이 적용된다. p(x|𝝎 𝟐) < p(x|𝝎 𝟏) 𝝀 𝟏𝟐 𝝀 𝟐𝟏 p(x|𝝎 𝟏)은 1보다 작은 위의 수를 곱하는데, 그림 1의 임계 치를 𝒙 𝟎의 왼편으로 이동시킨다. 다르게 말하면 𝑹 𝟐는 커지고 𝑹 𝟏는 줄어들게 된다. 반대인 𝝀 𝟐𝟏 < 𝝀 𝟏𝟐의 경우에도 참이 된다. 그림 1 두 클래스의 확률이 같은 경우 베이지안 분류기로 구성된 두 영역 𝑹 𝟏과 𝑹 𝟐의 예시
  • 22. 2. BAYES DECISION THEORY 다른 비용 함수 최소화 방법으로 Neyman-pearson criterion이 있다. 클래스 중 하나의 에러를 고정시키거나 다른 선택한 값과 똑같이 한다. 레이더 감지 문제에서 이런 결정 규칙이 사용디는데 잡음의 존재로 물체를 감지한다. 에러의 한 종류로 목표물 존재에 대한 노이즈를 잘못 감지 한걸 false alarm이라 한다. 다른 종류의 에러는 신호를 놓치고 노이즈를 결정한다. – 오감지(missed detection) 많은 경우에 거짓 경고의 에러확률 이전에 지정한 임계값과 똑같이 된다.
  • 23. 3. DISCRIMINANT FUNCTIONS AND DECISION SURFACES 이제 평균 위험, 에러 확률 또는 Neyman-pearson criterion을 이용하여 최소화로 M개의 클래스와 특징 공간을 영역들로 나눌 수 있었다. 만약 𝑹𝒊, 𝑹𝒋가 연속적으로 있다면 다차원 특징 공간에서 결정 표면(Decision Surface)로 나눠진다. 최소 에러 확률 경우 이걸 다음의 식으로 나타낸다. p(𝝎𝒊|x) – p(𝝎𝒋|x) = 0 한면에서 이 차이가 양수면 반대편은 음수가 된다. 가끔 직접적인 확률(또는 위험함수) 대신 위 처럼 동등한 함수로 수치 점을 계산하는게 편할수있다. 예를 들어 f(~)는 계속 증가하는 함수이면 𝒈𝒊(x) ≡ f(p(𝝎𝒊|x)) 처럼 정의한다. 𝒈𝒊(x)는 결정 함수(discriminant function)가 된다.
  • 24. 3. DISCRIMINANT FUNCTIONS AND DECISION SURFACES 결정 시험(desicion test)는 아래와 같다. classify x in 𝝎𝒊 if 𝒈𝒊(x) > 𝒈𝒋(x) ∀ 𝒋 ≠ 𝒊 연속적인 영역을 나누는 결정 표면(decision surfaces)은 다음과 같이 나타낸다. 𝒈𝒊𝒋(x) ≡ 𝒈𝒊(x) - 𝒈𝒋(x) = 0, i, j = 1, 2, 3, . . ., M, i ≠ j 지금까지 분류 에러 확률 또는 위험 최소화를 목표로 베이지안 확률 방법을 통해 분류 문제를 봤다. 그러나 이런 접근으로 모든 문제를 다루기는 어렵다.
  • 25. 3. DISCRIMINANT FUNCTIONS AND DECISION SURFACES 예를들면 많은 종류의 확률밀도함수를 포함하여 예측은 쉬운 작업이 아니다. 대안비용의 평균(means of alternative costs)으로 결정 표면 계산이 선호되는데 이는 3,4장에서 다룬다 베이지안 분류와 관계없는 개체를 결정 함수와 결정 표면으로 처리시에는 각 베이지안 분류기는 차선책 으로 사용해야한다. 다음으로 가우시안 밀도 함수의 특정 경우에 대해 베이지안 분류기로 결정 표면을 보자
  • 26. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.1 The Gaussian Probability Density Function 현실에서 가장 많이 만나는 확률 밀도 함수 중 하나는 가우시안 또는 정규 확률 밀도 함수이다. 왜냐면 계산하기 좋고 많은 수의 경우에도 잘 적용하기 때문이다. 통계학에서 가장 주목받는 이론 중 하나로 중심 극한 이론(Central limit theorem)이 있다. 이 이론은 만약 어느 확률 변수가 많은 독립 확률 변수들의 합이 되면 정규 분포가 되어진다. 실제로 갯수가 충분히 많아지면 확률 변수들의 합은 가우시안 분포를 따르게 된다.
  • 27. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.1 The Gaussian Probability Density Function 1 차원 또는 다차원 가우시안은 다음과 같이 정의된다. p(x) = 𝟏 𝟐𝝅𝝈 𝒆𝒙𝒑(− (𝒙−𝝁) 𝟐 𝟐𝝈 𝟐 ) 여기서 파라미터인 𝝁 와 𝝈 𝟐 는 특정한 값들의 평균으로 𝝁 는 확률 변수 x의 평균 값이 된다. 𝝁 = E(x) ≡ −∞ +∞ 𝒙𝒑 𝒙 𝒅𝒙 E(~)는 어느 확률 변수의 평균을 의미한다. 파라미터 𝝈 𝟐는 x의 분산으로 다음과 같다. 𝝈 𝟐 = 𝐄 𝒙 − 𝝁 𝟐 ≡ −∞ +∞ 𝒙 − 𝝁 𝟐 𝒑 𝒙 𝒅𝒙
  • 28. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.1 The Gaussian Probability Density Function 그림 2 (a)는 평균이 0 이고 분산이 1인 가우시안 함수 그래프와 그림 2 (b)는 평균이 1 이고 분산이 0.2인 경우를 나타낸다. 큰 분산을 가질수록 대칭 그래프는 넓게 퍼지게 되고 항상 평균을 원점으로 갖는다.그림 2. 1차원 가우시안 pdf (a) 𝝁 =0, 𝝈 𝟐 =1 (b) 𝝁 =1, 𝝈 𝟐 =0.2
  • 29. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.1 The Gaussian Probability Density Function l 차원 공간에서 가우시안 함수는 다음과 같다. p(x) = 𝟏 𝟐𝝅 𝒍 𝟐 𝚺 𝒍 𝟐 𝒆𝒙𝒑(− 𝟏 𝟐 (𝒙 − 𝝁) 𝑻 𝚺−𝟏 (𝒙 − 𝝁)) 𝝁 = E(x)는 평균 값이고 𝚺은 l x l 크기의 공분산 행렬(covariance matrix)로 정의 된다. 𝚺 = E((𝒙 − 𝝁)(𝒙 − 𝝁) 𝑻) 𝚺 는 공분산 행렬 𝚺 의 행렬식(determinant)를 의미하고 l = 1 이면 1차원 가우시안 확률이 된다. 다차원 가우시안 확률 밀도함수를 나타낼때 N(𝝁 ,𝚺) 처럼 평균 𝝁 과 공분산 𝚺 을 표시한다.
  • 30. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.1 The Gaussian Probability Density Function 더 쉽게 볼수 있게 하는 방법으로 2차원 공간의 예를 들어 볼수 있다. 𝚺 = E[[ 𝒙 𝟏 − 𝝁 𝟏 𝒙 𝟐 − 𝝁 𝟐 ] [ 𝒙 𝟏 − 𝝁 𝟏 𝒙 𝟐 − 𝝁 𝟐]] = 𝝈 𝟏 𝟐 𝝈 𝟏𝟐 𝝈 𝟏𝟐 𝝈 𝟐 𝟐 E(𝒙 𝟏) = 𝝁𝒊, i = 1, 2 이고, 확률변수 𝒙 𝟏, 𝒙 𝟐의 공 분산은 𝝈 𝟏𝟐 = E[(𝒙 𝟏 − 𝝁 𝟏)(𝒙 𝟐 − 𝝁 𝟐)] 으로 정의된다. 만약 변수들이 통계적으로 독립이라면 공분산은 0이 되며 𝚺의 대각 요소가 각 요소들의 분산이 된다.
  • 31. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.1 The Gaussian Probability Density Function 그림 3-6은 2차원 가우시안 확률 밀도 함수의 4가지 경우를 보여준다. 그림 3 (a)는 가우시안 공분산 대 각 행렬을 따른다. 𝚺 = 𝟑 𝟎 𝟎 𝟑 그림 3 (a) 2차원 가우시안 pdf 그래프 (b) 공분산 행렬 𝚺 에서 𝝈 𝟏 𝟐 = 𝝈 𝟐 𝟐 일 때 isovalue-curve *이 그래프는 어느 방향으로 치우쳐지지 않고 대칭이 된다. 그림 4 (a) 2차원 가우시안 pdf 그래프 (b) 공분산 행렬 𝚺 에서 𝝈 𝟏 𝟐 >> 𝝈 𝟐 𝟐 일 때 isovalue-curve *이 그래프는 𝒙 𝟏방향으로 길게 늘어진다.
  • 32. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.1 The Gaussian Probability Density Function 그림 5 (a) 2차원 가우시안 pdf 그래프 (b) 공분산 행렬 𝚺 에서 𝝈 𝟏 𝟐 << 𝝈 𝟐 𝟐 일 때 isovalue-curve *이 그래프는 𝒙 𝟐방향으로 길게 늘어진다. 그림 6 (a) 2차원 가우시안 pdf 그래프 (b) 공분산 행렬 𝚺 가 대각 행렬이 아닐 때 isovalue-curve *이 그래프는 다른 형태와 방향을 갖는다.
  • 33. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.1 The Gaussian Probability Density Function 특징 𝒙 𝟏, 𝒙 𝟐 둘 다 3이고 공분산이 0 일때 해당 가우시안 그래프는 대칭이 된다. isovalue curves(확률 밀도 값을 나타내는 곡선)은 초구(hyperspheres)이고 그림 3(b)에서 설명한다. 아래의 경우는 그림 4 (a)에 맞는 공분산 행렬로 𝝈 𝟏 𝟐 = 15 >> 𝝈 𝟐 𝟐 = 3 이 된다. 𝚺 = 𝝈 𝟏 𝟐 𝟎 𝟎 𝝈 𝟐 𝟐 이 그래프는 큰 분포의 방향인 𝒙 𝟏 축으로 늘어진다. 그림 4 (b)에 나타나는 isovalue curves는 타원형이 된다.
  • 34. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.1 The Gaussian Probability Density Function 그림 6 (a), (b)는 더 일반적인 경우로 다음의 공분산 행렬은 𝝈 𝟏 𝟐 = 15 , 𝝈 𝟐 𝟐 = 3, 𝝈 𝟏𝟐=6 이 된다. 𝚺 = 𝝈 𝟏 𝟐 𝝈 𝟏𝟐 𝝈 𝟏𝟐 𝝈 𝟐 𝟐 𝝈 𝟏 𝟐 , 𝝈 𝟐 𝟐 , 𝝈 𝟏𝟐 을 조절하여 다른 모양과 방향으로 수정할 수 있다.
  • 35. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.1 The Gaussian Probability Density Function isovalue curves는 서로 다른 축 길이의 비와 다른 방향의 타원으로 대각 공분산 행렬을 가진 평균 0 랜덤 백터의 경우 isovalue curve를 계산하는건 C로 상수 곡선을 계산하는것과 같다. 𝒙 𝑻 𝚺−𝟏 𝒙 = 𝒙 𝟏 𝒙 𝟐 𝟏 𝝈 𝟏 𝟐 𝟎 𝟎 𝟏 𝝈 𝟐 𝟐 𝒙 𝟏 𝒙 𝟐 = C or 𝒙 𝟏 𝟐 𝝈 𝟏 𝟐 + 𝒙 𝟐 𝟐 𝝈 𝟐 𝟐 = C 이 식은 특징 분포에 의해 축이 결정되는 타원의 식으로 타원의 주요 축은 공분산 행렬의 고유 백터(eigenvectors)/고유치(eigenvalue)로 제어된다. 선형대수를 알면 대각 행렬의 고유치는 각각의 대각 요소와 일치하게 된다.
  • 36. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 이번 섹션의 목표는 각 클레스 분포 데이터를 표현하는 pdf p(x|𝝎𝒊), i = 1, 2, . . ., M(각 x에 대한 𝝎𝒊의 우도비 함수 )는 N(𝝁 𝒊, 𝚺𝒊), i = 1, 2, . . .,M 인 정규분포로 베이지안 분류기를 최적화 하는 방법을 본다. 연관된 밀도의 지수 형태 때문에 로그 함수 ln(~)를 활용하는 결정 함수를 사용한다. 𝒈𝒊(𝒙) = ln(p(x|𝝎𝒊)p(𝝎𝒊)) = ln(p(x|𝝎𝒊) + ln P(𝝎𝒊) or 𝒈𝒊 𝒙 = - 𝟏 𝟐 (x − 𝝁𝒊) 𝑻 𝚺𝒊 −𝟏 (x − 𝝁𝒊) + ln P(𝝎𝒊) + 𝒄𝒊 𝒄𝒊 는 상수로 –(l/2)ln2𝝅 – (1/2)ln|𝚺𝒊| 와 같다.
  • 37. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 이 식을 풀면 𝒈𝒊 𝒙 = - 𝟏 𝟐 x 𝑻 𝚺𝒊 −𝟏 x + 𝟏 𝟐 x 𝑻 𝚺𝒊 −𝟏 𝝁𝒊 - 𝟏 𝟐 𝝁𝒊 𝑻 𝚺𝒊 −𝟏 𝝁𝒊 + 𝟏 𝟐 𝝁𝒊 𝑻 𝚺𝒊 −𝟏 x + ln P(𝝎𝒊) + 𝒄𝒊 비 선형 2 차원 형태가 된다. l = 2인 경우 𝚺𝒊 = 𝝈𝒊 𝟐 𝟎 𝟎 𝝈𝒊 𝟐 𝒈𝒊 𝒙 = - 𝟏 𝟐𝝈 𝒊 𝟐 (𝒙 𝟏 𝟐 + 𝒙 𝟏 𝟐) + 𝟏 𝝈 𝒊 𝟐 𝝁𝒊𝟏 𝒙 𝟏 𝟐 + 𝝁𝒊𝟐 𝒙 𝟏 𝟐 - 𝟏 𝟐𝝈 𝒊 𝟐 𝝁𝒊𝟏 𝟐 + 𝝁𝒊𝟐 𝟐 + ln P(𝝎𝒊) + 𝒄𝒊 위 식과 같이 되며 결정 커브(decision curves) 𝒈𝒊 𝒙 - 𝒈𝒋 𝒙 = 0 은 이 차식이 된다. 이러한 경우 베이지안 분류기는 특징 공간 분할이 이차 결정 표면(quadric decision surfaces)로 이루어 지는 이차 분류기(quadratic classifier)가 된다. l > 2가 되면 결정 표면은 다차원(hyperquadrics)이 된다.
  • 38. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 그림 7 (a)는 타원형의 결정 곡선을 나타낸다. 그림 7(b)는 그림 9에 해당하며 쌍곡선의 형태를 이룬다. 그림 7 이차 결정 곡선의 예시 가우시안 함수의 공분산 행렬에 따라 타원체(ellipsoid) , 포물선(parabolas), 쌍곡선(hyperbolas), 선의 짝 (pairs of lines) 현태의 결정 곡선이 나온다.
  • 39. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 그림 8. 2차원 공간의 개연성(equip robable) 있는 두 클래스의 pdf 예시 양 클래스의 특징 백터는 서로 다른 공분산 행렬의 정규 분포로 이 경우 그림 7 (a)의 결정 곡선은 타원형이 된다. 색이 있는 부분은 각 pdf의 값이 상대적으로 더 큰 영역을 나타낸다.
  • 40. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 이전의 식에서 이차 식이 되는 부분으로 x 𝑻 𝚺𝒊 −𝟏 x 식이 있다. 만약 공분산 행렬이 모든 클래스에 대해서 같다면 공분산 행렬은 𝚺𝒊 = 𝚺 이며 이차식의 형태에서 모든 결정 함수들이 같게 된다. 그래서 최대값 계싼을 위해 비교하지 않고 결졍 표면 식(decision surface equation)을 상쇄한다. 상수 𝒄𝒊 의 경우도 같아서 생략해도 되고 𝒈𝒊 𝒙 를 다음과 같이 재정의 한다. 𝒈𝒊 𝒙 = 𝝎𝒊 𝑻 𝒙 + 𝝎𝒊𝟎 초평면 결정 (Decision Hyperplanes)
  • 41. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 그림 9. 2차원 공간의 개연성(equip robable) 있는 두 클래스의 pdf 예시 각 클래스의 특징 백터들은 다른 공분산의 정규분포를 따르며 이 경우 쌍곡선 형태의 결정 곡선을 갖는다.
  • 42. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 결정 함수 𝒈𝒊 𝒙 는 𝒈𝒊 𝒙 = 𝝎𝒊 𝑻 𝒙 + 𝝎𝒊𝟎 where 𝝎𝒊 = 𝚺−𝟏 𝝁𝒊 and 𝝎𝒊𝟎 = ln P(𝝎𝒊) - 𝟏 𝟐 𝝁𝒊 𝑻 𝚺−𝟏 𝝁𝒊 그래서 𝒈𝒊 𝒙 는 x의 선형 함수로 각 결정 표면들은 쌍곡선이 된다. 이걸 조금 더 보면
  • 43. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 같은 요소를 갖는 대각 공분산 행렬 - 특징 백터를 구성하는 각 특징들은 상호 관계를 갖지 않는다(mutual uncorrelated) 그리고 분산이 같 다.(E((𝒙𝒊 − 𝝁𝒊)(𝒙𝒋 − 𝝁𝒋)) = 𝝈 𝟐 𝜹𝒊𝒋) 그래서 I가 l차원 단위 행렬인 부록 A의 𝚺 = 𝝈 𝟐 I 와 같이 𝒈𝒊 𝒙 = 𝟏 𝝈 𝟐 𝝁𝒊 𝑻 𝒙 + 𝝎𝒊𝟎 𝒈𝒊 𝒙 은 위의 식과 같이 되고 초평면 결정(decision hyperplane)은 아래와 같이 정의한다. 𝒈𝒊𝒋 𝒙 ≡ 𝒈𝒊 𝒙 - 𝒈𝒋 𝒙 = 𝝎 𝑻 (x - 𝒙 𝟎) = 0 where 𝝎 = 𝝁𝒊 − 𝝁𝒋 and 𝒙 𝟎 = 𝟏 𝟐 (𝝁𝒊 + 𝝁𝒋) - 𝝈 𝟐 ln( 𝒑(𝝎𝒊) 𝒑(𝝎 𝒋) ) 𝝁 𝒊 −𝝁 𝒋 ||𝝁𝒊 −𝝁 𝒋|| 𝟐 여기서 ||𝒙|| = 𝒙 𝟏 𝟐 + 𝒙 𝟏 𝟐+. . . +𝒙𝒊 𝟐 는 x의 유클리디안 놈(Euclidean norm) 이라 한다.
  • 44. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 그래서 결졍면(decision surface)은 점 𝒙 𝟎을 지나는 초평면(hyperplane)이다. P(𝝎𝒊) = P(𝝎𝒋) 이면 𝒙 𝟎 = 𝟏 𝟐 (𝝁𝒊 + 𝝁𝒋) 이 되고, 초평면은 분할의 중간 점인 𝝁𝒊 , 𝝁𝒋 의 평균을 지난다. 그러나 만약 P(𝝎𝒋) > P(𝝎𝒊) (P(𝝎𝒋) < P(𝝎𝒊)) 이면 초평면은 𝝁𝒊(𝝁𝒋)에 더 가까워진다. 결국 두 클래스중 더 가능성 있는 영역이 증가하게 된다. 그림 10은 2차원에서 2가지의 경우인데 P(𝝎𝒋) = P(𝝎𝒊) (검은 선) 이고, P(𝝎𝒋) > P(𝝎𝒊) (빨간선) 이다.
  • 45. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 여기서 직선으로된 두 경우의 결졍 표면이 𝝁𝒊 − 𝝁𝒋에 직교(orthogonal)하는 모습을 볼수있다. 임의의 점 x가 결졍 초평면(decision hyperplane)에 있다면 벡터 𝒙 - 𝒙 𝟎 역시 초평면에 존재한다. 𝒈𝒊𝒋 𝒙 = 0 => 𝝎 𝑻(x - 𝒙 𝟎) = (𝝁𝒊 − 𝝁𝒋) 𝑻(x - 𝒙 𝟎) = 0 𝝁𝒊 − 𝝁𝒋 이 결정 초평면에 직교하기 때문으로 만약 ||𝝁𝒊 − 𝝁𝒋||에 대해 𝝈 𝟐이 작다면 초평면의 위치는 P(𝝎𝒊),P(𝝎𝒋)의 값에 민감하게(insensitive) 된다. 작은 분산은 각 평균 값 주변의 작은 원안에 랜덤 백터들을 나타내기 때문이다. 그래서 결정 초평면의 약간 이동시키면 결과에 조금 영향을 미친다.
  • 46. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 그림 10. 𝚺 = 𝝈 𝟐I 인 정규분포 백터 의 결정선(decision lines) 검은 선은 P(𝝎j) = P(𝝎i)의 경우로 두 클래스의 평군을 나누는 지점을 통과한다. 파란 선은 P(𝝎𝒋) > P(𝝎𝒊)인 경우로 𝝁𝒊에 가까우며 두 클래스중 더 가능성 있는 방향으로 향한다. 만약 P(𝝎𝒋) < P(𝝎𝒊)이면 결정 선은 𝝁𝒋 에 더 가까워진다.
  • 47. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 그림 11. (a) 분포가 촘촘한 클래스의 결정 선 (b) 분포가 촘촘하지 않은 클 래스의 결정 선 클래스들이 평균값 주위로 촘촘하게(compact) 모여 있을때 초평면의 위치는 P(𝝎1)과 P(𝝎2)의 값에 비교적 덜 민감하다. 하지만 촘촘하지 않은(noncompact) 클래스의 경우에서는 초평면이 좌우 방향으로 조금만 움직여도 크게 영향을 받는다. 그림 11 (a)는 작은 분산의 경우이고 (b)는 큰 분산에 해당하는 경우이고 (b)에서 (a)의 경우 보다 결정 면의 위치가 더 영향을 크게 미친 다.
  • 48. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 비대각 공분산 행렬(Nondiagonal covariance matrix) 비대각 공분산 행렬에서 초평면은 아래의 식과 같이 나타낸다. 𝒈𝒊𝒋 𝒙 = 𝝎 𝑻 (x - 𝒙 𝟎) = 0 where 𝝎 = −1(𝝁𝒊 − 𝝁𝒋) and 𝒙 𝟎 = 𝟏 𝟐 (𝝁𝒊 + 𝝁𝒋) - 𝝈 𝟐ln( 𝒑(𝝎𝒊) 𝒑(𝝎 𝒋) ) 𝝁 𝒊 −𝝁 𝒋 ||𝝁𝒊 −𝝁 𝒋|| −1 2 ||x|| −1 ≡ (x 𝑻 −1 x)1/2 에서 −1 는 특징백터 x의 놈이다. 위 식은 이전에 본 대각 공분산 행렬의 한 예외를 제외하고 동일하다. 다만 더 이상 백터 𝝁𝒊 − 𝝁𝒋에서 직교하지 않고 선형 변환 −1(𝝁𝒊 − 𝝁𝒋)에서 직교한다.
  • 49. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 그림 12는 같은 공분산 행렬을 가진 두개의 가우시안 pdf로 가능성있는(equiprobable) 두 클래스의 데이터 분포를 나타낸다. 각 클래스들에서 데이터는 평균갑의 주위로 같은 방향을 향해 분 포되어있으며 최적의 결정 곡선(optimal decision curve)는 직선이 된다. 그림 12. 2차원에서 같은 공분산 행 렬을 가진 두 가우시안 pdf
  • 50. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 이제 조금 다른 각도로 보자. 같은 공분산 행렬을 가진 가능성 있는 클래스들이 있다면 𝒈𝒊 𝒙 는 상수를 무시하고 다음과 같이 요약할 수 있다. 𝒈𝒊 𝒙 = − 𝟏 𝟐 (x − 𝝁𝒊) 𝑻 𝚺𝒊 −𝟏 (x − 𝝁𝒊) 𝚺 = 𝝈 𝟐I : 최대 𝒈𝒊 𝒙 최소를 의미할 때 유클리디안 거리 : de = ||x - 𝝁i|| 그래서 각 평균 점으로 부터 유클리디안 거리에 따라 해당 클래스의 특징백터가 할당된다. 그림 13 은 각 클래스의 원첨에서 de = c 거리와 같은 곡선으로 일반적인 경우 초구로 지름 c인 원이다. 최소 거리 분류기(Minimum Distance Classifier)
  • 51. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 대각 행렬이 아닌(Nondiagonal) 𝚺 : 𝒈𝒊 𝒙 최대화는 𝚺−1 놈의 최소화로 마할라노비스 거리(Mahalanobis distance)로 알려져있다. Mahalanobis distance : dm = ((x − 𝝁𝒊) 𝑻 𝚺𝒊 −𝟏 (x − 𝝁𝒊))1/2 이경우 상수 거리 dm = c 곡선은 타원형(ellipses – hyperellipses)이다. 원래 공분산 행렬은 대칭형이고 부록 B를 보면 항상 unitary transform으로 대각화 할수 있다. 𝚺 = 𝚽𝚲𝚽T 𝚽T = 𝚽−1 이고 𝚲 는 공분산 행렬 𝚺의 고유값(eigenvalue)들을 요소로 하는 대각 행렬이다.
  • 52. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 𝚽는 직교하는 공분산 행렬 𝚺 의 고유백터에 대한 컬럼으로 𝚽 = [v 𝟏, v2, . . . ,vl] 이전의 식들을 조합하여 다음을 구할 수 있다. (x − 𝝁𝒊) 𝑻 𝚽𝚲−𝟏 𝚽T (x − 𝝁𝒊)) = c2 x’ = 𝚽Tx 를 정의 하면, x’의 좌표들은 vk Tx, k = 1, 2, . . ., l,와 같으며 고유벡터에대한 x의 투영(projecti ons)이 된다. 축이 vk, k = 1, 2, . . ., l로 결정되는 좌표 시스템의 각 각에 대한 x의 좌표와 같으며 아래와 같이 식을 구 한다. (x1 ’− xi ’ 1)2 𝝀1 + . . . + (xl ’− xi ’ l)2 𝝀l = c2
  • 53. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes 그림 13의 2차원 공간에서는 유클리디안 거리의 예시로 원과 마 할라노비스 거리의 예로 타원이 존재한다. 후자의 경우 결정 선이 평균값 분할 선과 직교하지 않는 모습을 볼 수 있으며 이는 타원의 형태이기 때문이다. 그림 13. 각 클래스에 대한 (a)의 곡선 은 유클리디안 거리 (b)는 중심점에대한 마할라노비스 거리
  • 54. 4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS 4.2 The Bayesian Classifier for Normally Distributed Classes (x1 ’− xi ’ 1)2 𝝀1 + . . . + (xl ’− xi ’ l)2 𝝀l = c2 위 식은 새 좌표 시스템에서 초타원체(hyperellipsoid)의 식으로 그림 13 (b)는 l = 2 인 경우이다. 타원의 중점은 𝝁 i 에 있으며 기준 축은 고유백터에 따라 정렬되고 길이는 각각 2 𝝀kc 가 된다. 그래서 특정 점에서부터 마할라 노비스 거리를 가지는 모든 점들은 타원에 위치한다.