패턴인식-베이즈결정이론기반 분류기 part1

패턴인식
Classifiers Based on Bayes Decision Theory
2018-07-19 도정찬

1. INTRODUCTION
첫 챕터에서는 패턴 인식 시스템에서 분류기 디자인을 다룬다.
여기서는 생성된 특징들(features)의 통계적 특성에서 생겨난 확률적 매개변수로 접근한다.
이는 이미 앞 장에서 설명했듯이 측정 센서의 오차 뿐만아니라 패턴의 통계적 편차 때문이다.
클래스들 중에서 알수 없는 패턴(Unknown Pattern)을 분류하는 분류기(Classifier)를 설계한다.
그래서 지금 가장 가능성(most probable)있는 평균을 정의한다.

1. INTRODUCTION
특징 백터 x로 표현하는 M 가지 클래스들의 분류 작업 − 𝝎1, 𝝎2, . . ., 𝝎M과 알수없는 패턴이 주어
지면, M 개의 조건부 확률 P(𝝎i|x), i= 1, 2, . . .,M 구성한다. 이를 사후 확률(Posterior
Probabilities) 이라 한다.
각 확률은 특징 백터 x를 따르는 클래스 𝝎i에 속하는 알수 없는 패턴들의 확률을 나타낸다.
이러한 조건부 확률은 뭐가 가장 가능성있는지 선택하는데 합리적이지 않을 수 있다.
이 챕터에서 소개하는 분류기는 M 까지의 확률들 중 최댓값 또는 적절하게 정의된 함수의 최댓값을
계산하여 찾아낸다.
알수없는 패턴은 최댓값을 갖는 클래스로 분류된다.

1. INTRODUCTION
먼저 할일은 먼저 조건부 확률을 계산해야한다.
베이즈 법칙(Bayes rule)이 얼마나 유용한지 증명하고
이번 챕터에서는 훈련 데이터의 패턴을 따르는 특징 백터를 사용 가능한 실험 증거(Experimental
evidance)로 확률 밀도 함수(Probability Density Functions:PDF)를 추정하는 기술들에 대해 설명
한다.

2. BAYES DECISION THEORY
먼저 2가지 클래스의 경우를 보면 𝝎1, 𝝎2 이 두 클래스가 패턴에 속한다.
사전 확률(priori probabilities)은 P(𝝎1), P(𝝎2)로 훈련에 사용가능한 특징 백터를 알지 못하기 때문이다.
만약 훈련 가능한 패턴 갯수가 N이면 N1, N2는 𝝎1와 𝝎2에 속하는 갯수를 나타낸다 .
각 P(𝝎1) ≈ 𝑵1/𝑵 and P(𝝎 𝟐) ≈ 𝑵 𝟐/𝑵 이 된다.

다른 통계적 확률은 클래스-조건부 확률밀도함수 p(x|𝝎𝒊), i = 1, 2,로 각 클래스에서 특징 백터의 분포를
나타낸다.
만야 이걸 알수없으면 훈련된 데이터로 추정가능하다. 이 방법은후에 설명한다.
확률밀도함수 p(x|𝝎𝒊)는 특징백터 x에 대한 𝝎𝒊의 우도비 함수이다.
여기서 햇갈리는게 특징 백터는 다차원 특징 공간에서 값을 가질수 있다.
하지만 이 경우 특징백터는 이산 값을 가지며, 밀도함수 p(x|𝝎𝒊)는 확률이 된다.

이제 Introduction에서 설명한 조건부 확률 계산에 필요한 내용들을 설명했다. 이제 베이즈 정리를 보자
P(𝝎𝒊|x)=
𝑝 𝑥 𝝎𝒊 𝑝(𝝎𝒊)
𝑝(𝑥)
p(x)는 x의 확률 밀도 함수로 아래와 같다.
𝑝 𝑥 =
𝑖=1
2
𝑝 𝑥 𝝎𝒊 𝑝(𝝎𝒊)
베이즈 분류 정리는 다음과 같이 설명할 수 있다.
If P(𝝎 𝟏 𝒙 > 𝑷(𝝎 𝟐 𝒙 , 𝒙 𝒊𝒔 𝒄𝒍𝒂𝒔𝒔𝒊𝒇𝒊𝒆𝒅 𝒕𝒐 𝝎 𝟏
If P(𝝎 𝟏 𝒙 < 𝑷(𝝎 𝟐 𝒙 , 𝒙 𝒊𝒔 𝒄𝒍𝒂𝒔𝒔𝒊𝒇𝒊𝒆𝒅 𝒕𝒐 𝝎 𝟐

두 클래스가 같은 경우는 좋지 않지만 그 패턴에서는 두개의 클래스중 하나가 선택되야한다.
베이즈 정리를 사용하여 같은 학률의 결정은 부등호로 나타낼수 있다.
P(𝝎 𝟏|x)p(𝝎 𝟏) ≷ P(𝝎 𝟐|x)p(𝝎 𝟐)
여기서 p(x)는 모든 클래스에 대하여 같고 결정에 영향을 주지않기 때문에 감안할수없다. 그러므로 만약
사전 확률이 같다면. P(𝝎 𝟏)=P(𝝎 𝟐)=1/2 이고, 아래와 같이 된다.
P(𝝎 𝟏|x) ≷ P(𝝎 𝟐|x)
그래서 최댓값 찾기는 x를 나타내는 조건부 확률의 값을 기반으로 한다.

그림 1은 같은 확률을 갖는 클래스들과 특징이 하나(l=1)
인 x의 함수로서, 단순한 경우의 p(x|𝝎𝒊), i = 1, 2의 편차를
보여준다.
𝒙 𝟎에서 점선은 두 영역으로 특징 공간을 나누는 임계선이다.
베이즈 결정 규칙에 따르면, 𝑹 𝟏에 존재하는 x의 모든 값은 분
류기가 𝝎 𝟏로 결정하고, 𝑹 𝟐의 모든 값은 𝝎 𝟐로 결정한다.
하지만 이 그림에서는 결정 에러가 무조건 발생한다.
그림 1 두 클래스의 확률이 같은 경우 베이지안
분류기로 구성된 두 영역 𝑹 𝟏과 𝑹 𝟐의 예시

𝑹 𝟐의 영역에서 클래스 𝝎 𝟏에 속하는 확률은 결정 에러가 된다.
두 클래스의 크기가 같은 경우의 결정 에러 확률의 총합은 크
지 않아보이는데 아래와 같이 나타낸다.
𝑷 𝒆=
𝟏
𝟐 −∞
𝒙 𝟎
𝒑 𝒙 𝝎 𝟐 𝒅𝒙+
𝟏
𝟐 𝒙 𝟎
+∞
𝒑 𝒙 𝝎 𝟏 𝒅𝒙
이 식은 그림 1의 곡선 아래의 전체 그림자 공간과 같다.
이제 중요한 이슈까지 왔다.
베이지안 분류 규칙에 대해 전체적으로 봤다.

이제 베이지안 분류기를 에러 분류 확률을 최소화하여 최적화 시키는 측면에서 본다.
보는 사람은 그림 1에서 쉽게 확인하고 𝒙 𝟎에서 임계값을 멀어지게 움직일수 있지만 항상 그림자 공간은
커지게 된다.
증명을 해보면 𝑹 𝟏은 𝝎 𝟏로 분류하기 위한 특징공간에서의 영역이고 𝑹 𝟐는 𝝎 𝟐에 대한 영역이다. 그러면 에
러는 𝝎 𝟐에 속하지만 x가 𝑹 𝟏의 집합인 경우와 𝝎 𝟏에 속하지만 x가 𝑹 𝟐의 집합이 되는경우에 만들어진다.
𝑷 𝒆 = P(x ∈ 𝑹 𝟐, 𝝎 𝟏) + P(x ∈ 𝑹 𝟏, 𝝎 𝟐)
P( ~ , ~ )는 두 사건의 결합 확률을 나타낸다.
분류 에러 확률 최소화

다시 식을 보면 아래와 같이 되지만
𝑷 𝒆 = P(x ∈ 𝑹 𝟐|𝝎 𝟏)P(𝝎 𝟏) + P(x ∈ 𝑹 𝟏|𝝎 𝟐)P(𝝎 𝟐)
= P(𝝎 𝟏) 𝑹 𝟐
𝒑 𝒙 𝝎 𝟏 𝒅𝒙+ P(𝝎 𝟐) 𝑹 𝟏
𝒑 𝒙 𝝎 𝟐 𝒅𝒙
베이즈 정리를 사용하면
𝑷 𝒆 = 𝑹 𝟐
𝒑 𝝎 𝟏 𝒙 𝒑 𝒙 𝒅𝒙+ 𝑹 𝟏
𝒑 𝝎 𝟐 𝒙 𝒑 𝒙 𝒅𝒙
이제 특징공간의 𝑹 𝟏나 𝑹 𝟐가 선택이 되면 에러를 최소화시키는게 보기 쉬워진다.
𝑹 𝟏 : P(𝝎 𝟏|x)>P(𝝎 𝟐|x)
𝑹 𝟐 : P(𝝎 𝟐|x)>P(𝝎 𝟏|x)

다시 𝑹 𝟏나 𝑹 𝟐의 합은 모든 공간을 덮기 때문에 확률밀도함수의 정의로 다음과 같이 된다.
P(𝝎 𝟏)= 𝑹 𝟏
𝒑 𝝎 𝟏 𝒙 𝒑 𝒙 𝒅𝒙+ 𝑹 𝟐
𝒑 𝝎 𝟐 𝒙 𝒑 𝒙 𝒅𝒙
위 식과 𝑷 𝒆의 식을 조합하면 다음을 얻을 수 있다.
𝑷 𝒆 = P(𝝎 𝟏) - 𝑹 𝟏
𝒑 𝝎 𝟏 𝒙 − 𝑷(𝝎 𝟐|𝒙) 𝒑(𝒙)𝒅𝒙
만약 𝑹 𝟏에서 P(𝝎 𝟏|x) > P(𝝎 𝟐|x) 이라면 에러 확률은 최소화 된다. 𝑹 𝟐에서 또한 역은 성립한다.

지금까지 클래스가 두개 뿐인 단순한 경우를 다뤄왔다. 여러 클래스를 일반화하는 경우도 복잡하지는 않
다.
M개의 클래스 분류 작업에서는 𝝎 𝟏, 𝝎 𝟐, . . . , 𝝎 𝑴과 알수없는 패턴이 특징백터에 나타나고 클래스 𝝎𝒊로
할당된다. 만약
P(𝝎𝒊|x) > P(𝝎𝒋|x) j ≠ i
분류 에러 확률의 최소화로 해결할 수 있다.

분류 에러 확률은 항상 최소화의 좋은 기준은 되지않는다. 모든 에러에 대해 가중치가 같기 때문이다.
잘못된 결정을 하게 되는 경우도 있다. 예를 들면 의사가 암진단 할때 잘못 판단하면 심각해진다.
양성 종양이 악성으로 진단되면 잘못 판단해도 다시 검사해서 확인 있지만 반대의 경우는 큰일이 된다.
그래서 각 에러마다 가중치를 주는게 적절하다.
평균 위험 최소화
Minimizing the Average Risk

예를 들어 𝝎 𝟏를 악성 종양의 클래스로 하고 𝝎 𝟐를 양성인 경우의 클래스로 한다.
𝑹 𝟏, 𝑹 𝟐 는 𝝎 𝟏, 𝝎 𝟐 각각의 특징 공간이 된다. 에러 확률 𝑷 𝒆를 최소화 하기위해 𝑹 𝟏, 𝑹 𝟐을 선택하는 대신에
아래의 변형된 식을 사용한다.
r = 𝝀 𝟏𝟐 𝐩(𝝎 𝟏) 𝑹 𝟐
𝒑 𝒙 𝝎 𝟏 𝒅𝒙+ 𝝀 𝟐𝟏 𝐩(𝝎 𝟐) 𝑹 𝟏
𝒑 𝒙 𝝎 𝟐 𝒅𝒙
각각의 용어는 에러 확률에서 중요함에 따라 가중을 준다.
현재의 경우에는 𝝀 𝟏𝟐 > 𝝀 𝟐𝟏 이 된다.
클래스 𝝎 𝟏에서 𝝎 𝟐로 비롯되어 패턴의 할당 때문에 에러는 비용 함수에서 더 큰 영향을 받는다.

M 클래스의 경우를 생각하면 𝑹𝒋, j = 1, 2, . . ., M 이며 특징 공간의 영역은 각 클래스 𝝎𝒋에 할당된다.
특징 백터 x에서 𝝎 𝒌가 𝑹𝒊 i≠k 에 속한다 가정하면 특징 백터는 오분류하게 된다.
손실(loss)라 할수있는 패널티 단어 𝝀 𝒌𝒊는 잘못된 결정과 관련있다.
행렬 L은 (k,i)의 패널티 행렬로 손실 행렬(loss matrix)라 부른다.
r을 설명하는 이전의 식과는 다르게 이제 손실 행렬(𝝀 𝒌𝒌)를 이용하여 가중치를 줄수있다.
𝝎 𝒌에 대한 손실은 아래와 같이 정의한다.
𝒓 𝒌 = 𝒊=𝟏
𝑴
𝝀 𝒌𝒊 𝑹 𝒊
𝒑 𝒙 𝝎 𝒌 𝒅𝒙

해당 식의 적분은 𝝎𝒊로 분류되는 클래스 𝝎 𝒌에대한 특징 백터의 전반적인 확률로 𝝀 𝒌𝒊로 가중받는다.
여기서 목표는 평균 손실을 최소화 하기 위한 부분 영역 𝑹𝒋를 선택해야 한다.
𝒓 = 𝒊=𝟏
𝑴
𝒓 𝒌 𝒑(𝝎 𝒌)
= 𝒊=𝟏
𝑴
𝑹 𝒊
𝒊=𝟏
𝑴
𝝀 𝒌𝒊 𝒑 𝒙 𝝎 𝒌 𝒑 𝝎 𝒌 𝒅𝒙
각 적분을 최소화 하면 부분 영역을 선택하는것과 동일하게 된다.
x∈ 𝑹𝒊 if 𝒍𝒊 ≡ 𝒌=𝟏
𝑴
𝝀 𝒌𝒊 𝒑 𝒙 𝝎 𝒌 𝒑(𝝎 𝒌) < 𝒍𝒋 ≡ 𝒌=𝟏
𝑴
𝝀 𝒌𝒋 𝒑 𝒙 𝝎 𝒌 𝒑(𝝎 𝒌) ∀𝒋 ≠ 𝒊

올바르게 선택을 하면 잘못된 선택보다 덜 페널티를 받으므
로 𝝀𝒊𝒋 > 𝝀𝒊𝒊 가 된다.
이에 따라 두 클래스의 경우 선택 규칙은 아래와 같이 된다.
x∈ 𝝎 𝟏(𝝎 𝟐) if 𝒍 𝟏𝟐 ≡
𝒑 𝒙 𝝎 𝟏
𝒑 𝒙 𝝎 𝟐
>(<)
𝒑(𝝎 𝟏)
𝒑(𝝎 𝟐)
𝝀 𝟐𝟏 −𝝀 𝟐𝟐
𝝀 𝟏𝟐 − 𝝀 𝟏𝟏
비율 𝒍 𝟏𝟐은 우도비(likehood ratio)이고 이전의 시험을 우도
비 시험이라 한다.
그림 1에다 위의 식을 보면 손실 행렬(loss matrix)는 다음
과 같다.
L =
𝟎 𝝀 𝟏𝟐
𝝀 𝟐𝟏 𝟎

클래스 𝝎 𝟐 에대한 패턴 오분류로 안 좋은 결과가 나온다면
𝝀 𝟐𝟏 > 𝝀 𝟏𝟐 가 된다.
그래서 p(𝝎 𝟏) = p(𝝎 𝟐) = ½ 로 가정했었다면 클래스 𝝎 𝟐
에 아래의 패턴이 적용된다.
p(x|𝝎 𝟐) < p(x|𝝎 𝟏)
𝝀 𝟏𝟐
𝝀 𝟐𝟏
p(x|𝝎 𝟏)은 1보다 작은 위의 수를 곱하는데, 그림 1의 임계
치를 𝒙 𝟎의 왼편으로 이동시킨다.
다르게 말하면 𝑹 𝟐는 커지고 𝑹 𝟏는 줄어들게 된다.
반대인 𝝀 𝟐𝟏 < 𝝀 𝟏𝟐의 경우에도 참이 된다.

다른 비용 함수 최소화 방법으로 Neyman-pearson criterion이 있다.
클래스 중 하나의 에러를 고정시키거나 다른 선택한 값과 똑같이 한다.
레이더 감지 문제에서 이런 결정 규칙이 사용디는데 잡음의 존재로 물체를 감지한다.
에러의 한 종류로 목표물 존재에 대한 노이즈를 잘못 감지 한걸 false alarm이라 한다.
다른 종류의 에러는 신호를 놓치고 노이즈를 결정한다. – 오감지(missed detection)
많은 경우에 거짓 경고의 에러확률 이전에 지정한 임계값과 똑같이 된다.

3. DISCRIMINANT FUNCTIONS AND DECISION SURFACES
이제 평균 위험, 에러 확률 또는 Neyman-pearson criterion을 이용하여 최소화로 M개의 클래스와 특징
공간을 영역들로 나눌 수 있었다.
만약 𝑹𝒊, 𝑹𝒋가 연속적으로 있다면 다차원 특징 공간에서 결정 표면(Decision Surface)로 나눠진다.
최소 에러 확률 경우 이걸 다음의 식으로 나타낸다.
p(𝝎𝒊|x) – p(𝝎𝒋|x) = 0
한면에서 이 차이가 양수면 반대편은 음수가 된다.
가끔 직접적인 확률(또는 위험함수) 대신 위 처럼 동등한 함수로 수치 점을 계산하는게 편할수있다.
예를 들어 f(~)는 계속 증가하는 함수이면 𝒈𝒊(x) ≡ f(p(𝝎𝒊|x)) 처럼 정의한다.
𝒈𝒊(x)는 결정 함수(discriminant function)가 된다.

결정 시험(desicion test)는 아래와 같다.
classify x in 𝝎𝒊 if 𝒈𝒊(x) > 𝒈𝒋(x) ∀ 𝒋 ≠ 𝒊
연속적인 영역을 나누는 결정 표면(decision surfaces)은 다음과 같이 나타낸다.
𝒈𝒊𝒋(x) ≡ 𝒈𝒊(x) - 𝒈𝒋(x) = 0, i, j = 1, 2, 3, . . ., M, i ≠ j
지금까지 분류 에러 확률 또는 위험 최소화를 목표로 베이지안 확률 방법을 통해 분류 문제를 봤다.
그러나 이런 접근으로 모든 문제를 다루기는 어렵다.

예를들면 많은 종류의 확률밀도함수를 포함하여 예측은 쉬운 작업이 아니다.
대안비용의 평균(means of alternative costs)으로 결정 표면 계산이 선호되는데 이는 3,4장에서 다룬다
베이지안 분류와 관계없는 개체를 결정 함수와 결정 표면으로 처리시에는 각 베이지안 분류기는 차선책
으로 사용해야한다.
다음으로 가우시안 밀도 함수의 특정 경우에 대해 베이지안 분류기로 결정 표면을 보자

4. BAYESIAN CLASSIFICATION FOR NORMAL DISTRIBUTIONS
4.1 The Gaussian Probability Density Function
현실에서 가장 많이 만나는 확률 밀도 함수 중 하나는 가우시안 또는 정규 확률 밀도 함수이다.
왜냐면 계산하기 좋고 많은 수의 경우에도 잘 적용하기 때문이다.
통계학에서 가장 주목받는 이론 중 하나로 중심 극한 이론(Central limit theorem)이 있다.
이 이론은 만약 어느 확률 변수가 많은 독립 확률 변수들의 합이 되면 정규 분포가 되어진다.
실제로 갯수가 충분히 많아지면 확률 변수들의 합은 가우시안 분포를 따르게 된다.

1 차원 또는 다차원 가우시안은 다음과 같이 정의된다.
p(x) =
𝟏
𝟐𝝅𝝈
𝒆𝒙𝒑(−
(𝒙−𝝁) 𝟐
𝟐𝝈 𝟐 )
여기서 파라미터인 𝝁 와 𝝈 𝟐 는 특정한 값들의 평균으로 𝝁 는 확률 변수 x의 평균 값이 된다.
𝝁 = E(x) ≡ −∞
+∞
𝒙𝒑 𝒙 𝒅𝒙
E(~)는 어느 확률 변수의 평균을 의미한다. 파라미터 𝝈 𝟐는 x의 분산으로 다음과 같다.
𝝈 𝟐 = 𝐄 𝒙 − 𝝁 𝟐 ≡ −∞
+∞
𝒙 − 𝝁 𝟐 𝒑 𝒙 𝒅𝒙

그림 2 (a)는 평균이 0 이고 분산이 1인 가우시안 함수 그래프와
그림 2 (b)는 평균이 1 이고 분산이 0.2인 경우를 나타낸다.
큰 분산을 가질수록 대칭 그래프는 넓게 퍼지게 되고
항상 평균을 원점으로 갖는다.그림 2. 1차원 가우시안 pdf
(a) 𝝁 =0, 𝝈 𝟐
=1 (b) 𝝁 =1, 𝝈 𝟐
=0.2

l 차원 공간에서 가우시안 함수는 다음과 같다.
p(x) =
𝟏
𝟐𝝅
𝒍
𝟐 𝚺
𝒍
𝟐
𝒆𝒙𝒑(−
𝟏
𝟐
(𝒙 − 𝝁) 𝑻
𝚺−𝟏
(𝒙 − 𝝁))
𝝁 = E(x)는 평균 값이고 𝚺은 l x l 크기의 공분산 행렬(covariance matrix)로 정의 된다.
𝚺 = E((𝒙 − 𝝁)(𝒙 − 𝝁) 𝑻)
𝚺 는 공분산 행렬 𝚺 의 행렬식(determinant)를 의미하고 l = 1 이면 1차원 가우시안 확률이 된다.
다차원 가우시안 확률 밀도함수를 나타낼때 N(𝝁 ,𝚺) 처럼 평균 𝝁 과 공분산 𝚺 을 표시한다.

더 쉽게 볼수 있게 하는 방법으로 2차원 공간의 예를 들어 볼수 있다.
𝚺 = E[[
𝒙 𝟏 − 𝝁 𝟏
𝒙 𝟐 − 𝝁 𝟐
] [ 𝒙 𝟏 − 𝝁 𝟏 𝒙 𝟐 − 𝝁 𝟐]]
=
𝝈 𝟏
𝟐 𝝈 𝟏𝟐
𝝈 𝟏𝟐 𝝈 𝟐
𝟐
E(𝒙 𝟏) = 𝝁𝒊, i = 1, 2 이고, 확률변수 𝒙 𝟏, 𝒙 𝟐의 공 분산은 𝝈 𝟏𝟐 = E[(𝒙 𝟏 − 𝝁 𝟏)(𝒙 𝟐 − 𝝁 𝟐)] 으로 정의된다.
만약 변수들이 통계적으로 독립이라면 공분산은 0이 되며
𝚺의 대각 요소가 각 요소들의 분산이 된다.

그림 3-6은 2차원 가우시안 확률 밀도 함수의 4가지 경우를 보여준다. 그림 3 (a)는 가우시안 공분산 대
각 행렬을 따른다.
𝚺 =
𝟑 𝟎
𝟎 𝟑
그림 3
(a) 2차원 가우시안 pdf 그래프
(b) 공분산 행렬 𝚺 에서 𝝈 𝟏
𝟐
= 𝝈 𝟐
𝟐
일 때 isovalue-curve
*이 그래프는 어느 방향으로 치우쳐지지 않고 대칭이 된다.
그림 4
𝟐
>> 𝝈 𝟐
𝟐
*이 그래프는 𝒙 𝟏방향으로 길게 늘어진다.

그림 5
𝟐
<< 𝝈 𝟐
𝟐
*이 그래프는 𝒙 𝟐방향으로 길게 늘어진다.
그림 6
(b) 공분산 행렬 𝚺 가 대각 행렬이 아닐 때 isovalue-curve
*이 그래프는 다른 형태와 방향을 갖는다.

특징 𝒙 𝟏, 𝒙 𝟐 둘 다 3이고 공분산이 0 일때 해당 가우시안 그래프는 대칭이 된다.
isovalue curves(확률 밀도 값을 나타내는 곡선)은 초구(hyperspheres)이고 그림 3(b)에서 설명한다.
아래의 경우는 그림 4 (a)에 맞는 공분산 행렬로 𝝈 𝟏
𝟐 = 15 >> 𝝈 𝟐
𝟐 = 3 이 된다.
𝚺 =
𝝈 𝟏
𝟐
𝟎
𝟎 𝝈 𝟐
𝟐
이 그래프는 큰 분포의 방향인 𝒙 𝟏 축으로 늘어진다.
그림 4 (b)에 나타나는 isovalue curves는 타원형이 된다.

그림 6 (a), (b)는 더 일반적인 경우로
다음의 공분산 행렬은 𝝈 𝟏
𝟐 = 15 , 𝝈 𝟐
𝟐 = 3, 𝝈 𝟏𝟐=6 이 된다.
𝚺 =
𝝈 𝟏
𝟐 𝝈 𝟏𝟐
𝝈 𝟏𝟐 𝝈 𝟐
𝟐
𝝈 𝟏
𝟐
, 𝝈 𝟐
𝟐
, 𝝈 𝟏𝟐 을 조절하여 다른 모양과 방향으로 수정할 수 있다.

isovalue curves는 서로 다른 축 길이의 비와 다른 방향의 타원으로
대각 공분산 행렬을 가진 평균 0 랜덤 백터의 경우
isovalue curve를 계산하는건 C로 상수 곡선을 계산하는것과 같다.
𝒙 𝑻 𝚺−𝟏 𝒙 = 𝒙 𝟏 𝒙 𝟐
𝟏
𝝈 𝟏
𝟐 𝟎
𝟎
𝟏
𝝈 𝟐
𝟐
𝒙 𝟏
𝒙 𝟐
= C
or
𝒙 𝟏
𝟐
𝝈 𝟏
𝟐 +
𝒙 𝟐
𝟐
𝝈 𝟐
𝟐 = C
이 식은 특징 분포에 의해 축이 결정되는 타원의 식으로
타원의 주요 축은 공분산 행렬의 고유 백터(eigenvectors)/고유치(eigenvalue)로 제어된다.
선형대수를 알면 대각 행렬의 고유치는 각각의 대각 요소와 일치하게 된다.

4.2 The Bayesian Classifier for Normally Distributed Classes
이번 섹션의 목표는 각 클레스 분포 데이터를 표현하는 pdf
p(x|𝝎𝒊), i = 1, 2, . . ., M(각 x에 대한 𝝎𝒊의 우도비 함수 )는 N(𝝁 𝒊, 𝚺𝒊), i = 1, 2, . . .,M 인 정규분포로
베이지안 분류기를 최적화 하는 방법을 본다.
연관된 밀도의 지수 형태 때문에 로그 함수 ln(~)를 활용하는 결정 함수를 사용한다.
𝒈𝒊(𝒙) = ln(p(x|𝝎𝒊)p(𝝎𝒊)) = ln(p(x|𝝎𝒊) + ln P(𝝎𝒊)
or
𝒈𝒊 𝒙 = -
𝟏
𝟐
(x − 𝝁𝒊) 𝑻
𝚺𝒊
−𝟏
(x − 𝝁𝒊) + ln P(𝝎𝒊) + 𝒄𝒊
𝒄𝒊 는 상수로 –(l/2)ln2𝝅 – (1/2)ln|𝚺𝒊| 와 같다.

이 식을 풀면
𝒈𝒊 𝒙 = -
𝟏
𝟐
x 𝑻
𝚺𝒊
−𝟏
x +
𝟏
𝟐
x 𝑻
𝚺𝒊
−𝟏
𝝁𝒊 -
𝟏
𝟐
𝝁𝒊
𝑻
𝚺𝒊
−𝟏
𝝁𝒊 +
𝟏
𝟐
𝝁𝒊
𝑻
𝚺𝒊
−𝟏
x + ln P(𝝎𝒊) + 𝒄𝒊
비 선형 2 차원 형태가 된다. l = 2인 경우
𝚺𝒊 =
𝝈𝒊
𝟐 𝟎
𝟎 𝝈𝒊
𝟐
𝒈𝒊 𝒙 = -
𝟏
𝟐𝝈 𝒊
𝟐 (𝒙 𝟏
𝟐 + 𝒙 𝟏
𝟐) +
𝟏
𝝈 𝒊
𝟐 𝝁𝒊𝟏 𝒙 𝟏
𝟐 + 𝝁𝒊𝟐 𝒙 𝟏
𝟐 -
𝟏
𝟐𝝈 𝒊
𝟐 𝝁𝒊𝟏
𝟐 + 𝝁𝒊𝟐
𝟐 + ln P(𝝎𝒊) + 𝒄𝒊
위 식과 같이 되며 결정 커브(decision curves) 𝒈𝒊 𝒙 - 𝒈𝒋 𝒙 = 0 은 이 차식이 된다.
이러한 경우 베이지안 분류기는 특징 공간 분할이 이차 결정 표면(quadric decision surfaces)로 이루어
지는 이차 분류기(quadratic classifier)가 된다.
l > 2가 되면 결정 표면은 다차원(hyperquadrics)이 된다.

그림 7 (a)는 타원형의 결정 곡선을 나타낸다.
그림 7(b)는 그림 9에 해당하며 쌍곡선의 형태를 이룬다.
그림 7 이차 결정 곡선의 예시
가우시안 함수의 공분산 행렬에 따라 타원체(ellipsoid)
, 포물선(parabolas), 쌍곡선(hyperbolas), 선의 짝
(pairs of lines) 현태의 결정 곡선이 나온다.

그림 8. 2차원 공간의 개연성(equip
robable) 있는 두 클래스의 pdf 예시
양 클래스의 특징 백터는 서로 다른 공분산 행렬의 정규 분포로
이 경우 그림 7 (a)의 결정 곡선은 타원형이 된다.
색이 있는 부분은 각 pdf의 값이 상대적으로 더 큰 영역을 나타낸다.

이전의 식에서 이차 식이 되는 부분으로 x 𝑻
𝚺𝒊
−𝟏
x 식이 있다.
만약 공분산 행렬이 모든 클래스에 대해서 같다면 공분산 행렬은 𝚺𝒊 = 𝚺 이며
이차식의 형태에서 모든 결정 함수들이 같게 된다.
그래서 최대값 계싼을 위해 비교하지 않고 결졍 표면 식(decision surface equation)을 상쇄한다.
상수 𝒄𝒊 의 경우도 같아서 생략해도 되고 𝒈𝒊 𝒙 를 다음과 같이 재정의 한다.
𝒈𝒊 𝒙 = 𝝎𝒊
𝑻
𝒙 + 𝝎𝒊𝟎
초평면 결정 (Decision Hyperplanes)

그림 9. 2차원 공간의 개연성(equip
robable) 있는 두 클래스의 pdf 예시
각 클래스의 특징 백터들은 다른 공분산의 정규분포를 따르며
이 경우 쌍곡선 형태의 결정 곡선을 갖는다.

결정 함수 𝒈𝒊 𝒙 는
𝒈𝒊 𝒙 = 𝝎𝒊
𝑻 𝒙 + 𝝎𝒊𝟎
where
𝝎𝒊 = 𝚺−𝟏
𝝁𝒊
and
𝝎𝒊𝟎 = ln P(𝝎𝒊) -
𝟏
𝟐
𝝁𝒊
𝑻
𝚺−𝟏
𝝁𝒊
그래서 𝒈𝒊 𝒙 는 x의 선형 함수로 각 결정 표면들은 쌍곡선이 된다.
이걸 조금 더 보면

같은 요소를 갖는 대각 공분산 행렬
- 특징 백터를 구성하는 각 특징들은 상호 관계를 갖지 않는다(mutual uncorrelated) 그리고 분산이 같
다.(E((𝒙𝒊 − 𝝁𝒊)(𝒙𝒋 − 𝝁𝒋)) = 𝝈 𝟐 𝜹𝒊𝒋) 그래서 I가 l차원 단위 행렬인 부록 A의 𝚺 = 𝝈 𝟐 I 와 같이
𝒈𝒊 𝒙 =
𝟏
𝝈 𝟐 𝝁𝒊
𝑻
𝒙 + 𝝎𝒊𝟎
𝒈𝒊 𝒙 은 위의 식과 같이 되고 초평면 결정(decision hyperplane)은 아래와 같이 정의한다.
𝒈𝒊𝒋 𝒙 ≡ 𝒈𝒊 𝒙 - 𝒈𝒋 𝒙 = 𝝎 𝑻
(x - 𝒙 𝟎) = 0
where
𝝎 = 𝝁𝒊 − 𝝁𝒋
and
𝒙 𝟎 =
𝟏
𝟐
(𝝁𝒊 + 𝝁𝒋) - 𝝈 𝟐
ln(
𝒑(𝝎𝒊)
𝒑(𝝎 𝒋)
)
𝝁 𝒊 −𝝁 𝒋
||𝝁𝒊 −𝝁 𝒋|| 𝟐
여기서 ||𝒙|| = 𝒙 𝟏
𝟐 + 𝒙 𝟏
𝟐+. . . +𝒙𝒊
𝟐 는 x의 유클리디안 놈(Euclidean norm) 이라 한다.

그래서 결졍면(decision surface)은 점 𝒙 𝟎을 지나는 초평면(hyperplane)이다.
P(𝝎𝒊) = P(𝝎𝒋) 이면 𝒙 𝟎 =
𝟏
𝟐
(𝝁𝒊 + 𝝁𝒋) 이 되고, 초평면은 분할의 중간 점인 𝝁𝒊 , 𝝁𝒋 의 평균을 지난다.
그러나 만약 P(𝝎𝒋) > P(𝝎𝒊) (P(𝝎𝒋) < P(𝝎𝒊)) 이면 초평면은 𝝁𝒊(𝝁𝒋)에 더 가까워진다.
결국 두 클래스중 더 가능성 있는 영역이 증가하게 된다.
그림 10은 2차원에서 2가지의 경우인데 P(𝝎𝒋) = P(𝝎𝒊) (검은 선) 이고, P(𝝎𝒋) > P(𝝎𝒊) (빨간선) 이다.

여기서 직선으로된 두 경우의 결졍 표면이 𝝁𝒊 − 𝝁𝒋에 직교(orthogonal)하는 모습을 볼수있다.
임의의 점 x가 결졍 초평면(decision hyperplane)에 있다면 벡터 𝒙 - 𝒙 𝟎 역시 초평면에 존재한다.
𝒈𝒊𝒋 𝒙 = 0 => 𝝎 𝑻(x - 𝒙 𝟎) = (𝝁𝒊 − 𝝁𝒋) 𝑻(x - 𝒙 𝟎) = 0
𝝁𝒊 − 𝝁𝒋 이 결정 초평면에 직교하기 때문으로 만약 ||𝝁𝒊 − 𝝁𝒋||에 대해 𝝈 𝟐이 작다면
초평면의 위치는 P(𝝎𝒊),P(𝝎𝒋)의 값에 민감하게(insensitive) 된다.
작은 분산은 각 평균 값 주변의 작은 원안에 랜덤 백터들을 나타내기 때문이다.
그래서 결정 초평면의 약간 이동시키면 결과에 조금 영향을 미친다.

그림 10. 𝚺 = 𝝈 𝟐I 인 정규분포 백터
의 결정선(decision lines)
검은 선은 P(𝝎j) = P(𝝎i)의 경우로 두 클래스의 평군을 나누는
지점을 통과한다.
파란 선은 P(𝝎𝒋) > P(𝝎𝒊)인 경우로 𝝁𝒊에 가까우며 두 클래스중
더 가능성 있는 방향으로 향한다.
만약 P(𝝎𝒋) < P(𝝎𝒊)이면 결정 선은 𝝁𝒋 에 더 가까워진다.

그림 11. (a) 분포가 촘촘한 클래스의
결정 선 (b) 분포가 촘촘하지 않은 클
래스의 결정 선
클래스들이 평균값 주위로 촘촘하게(compact) 모여 있을때
초평면의 위치는 P(𝝎1)과 P(𝝎2)의 값에 비교적 덜 민감하다.
하지만 촘촘하지 않은(noncompact) 클래스의 경우에서는
초평면이 좌우 방향으로 조금만 움직여도 크게 영향을 받는다.
그림 11 (a)는 작은 분산의 경우이고 (b)는 큰 분산에 해당하는
경우이고
(b)에서 (a)의 경우 보다 결정 면의 위치가 더 영향을 크게 미친
다.

비대각 공분산 행렬(Nondiagonal covariance matrix)
비대각 공분산 행렬에서 초평면은 아래의 식과 같이 나타낸다.
𝒈𝒊𝒋 𝒙 = 𝝎 𝑻
(x - 𝒙 𝟎) = 0
where
𝝎 = −1(𝝁𝒊 − 𝝁𝒋)
and
𝒙 𝟎 =
𝟏
𝟐
(𝝁𝒊 + 𝝁𝒋) - 𝝈 𝟐ln(
𝒑(𝝎𝒊)
𝒑(𝝎 𝒋)
)
𝝁 𝒊 −𝝁 𝒋
||𝝁𝒊 −𝝁 𝒋|| −1
2
||x|| −1 ≡ (x 𝑻 −1
x)1/2
에서 −1
는 특징백터 x의 놈이다.
위 식은 이전에 본 대각 공분산 행렬의 한 예외를 제외하고 동일하다.
다만 더 이상 백터 𝝁𝒊 − 𝝁𝒋에서 직교하지 않고 선형 변환 −1(𝝁𝒊 − 𝝁𝒋)에서 직교한다.

그림 12는 같은 공분산 행렬을 가진 두개의 가우시안 pdf로
가능성있는(equiprobable) 두 클래스의 데이터 분포를 나타낸다.
각 클래스들에서 데이터는 평균갑의 주위로 같은 방향을 향해 분
포되어있으며
최적의 결정 곡선(optimal decision curve)는 직선이 된다.
그림 12. 2차원에서 같은 공분산 행
렬을 가진 두 가우시안 pdf

이제 조금 다른 각도로 보자. 같은 공분산 행렬을 가진 가능성 있는 클래스들이 있다면 𝒈𝒊 𝒙 는 상수를
무시하고 다음과 같이 요약할 수 있다.
𝒈𝒊 𝒙 = −
𝟏
𝟐
𝚺𝒊
−𝟏
(x − 𝝁𝒊)
𝚺 = 𝝈 𝟐I : 최대 𝒈𝒊 𝒙 최소를 의미할 때
유클리디안 거리 : de = ||x - 𝝁i||
그래서 각 평균 점으로 부터 유클리디안 거리에 따라 해당 클래스의 특징백터가 할당된다.
그림 13 은 각 클래스의 원첨에서 de = c 거리와 같은 곡선으로 일반적인 경우 초구로 지름 c인 원이다.
최소 거리 분류기(Minimum Distance Classifier)

대각 행렬이 아닌(Nondiagonal) 𝚺 : 𝒈𝒊 𝒙 최대화는 𝚺−1
놈의 최소화로 마할라노비스 거리(Mahalanobis
distance)로 알려져있다.
Mahalanobis distance : dm = ((x − 𝝁𝒊) 𝑻
𝚺𝒊
−𝟏
(x − 𝝁𝒊))1/2
이경우 상수 거리 dm = c 곡선은 타원형(ellipses – hyperellipses)이다.
원래 공분산 행렬은 대칭형이고 부록 B를 보면 항상 unitary transform으로 대각화 할수 있다.
𝚺 = 𝚽𝚲𝚽T
𝚽T = 𝚽−1 이고 𝚲 는 공분산 행렬 𝚺의 고유값(eigenvalue)들을 요소로 하는 대각 행렬이다.

𝚽는 직교하는 공분산 행렬 𝚺 의 고유백터에 대한 컬럼으로
𝚽 = [v 𝟏, v2, . . . ,vl]
이전의 식들을 조합하여 다음을 구할 수 있다.
𝚽𝚲−𝟏
𝚽T
(x − 𝝁𝒊)) = c2
x’ = 𝚽Tx 를 정의 하면, x’의 좌표들은 vk
Tx, k = 1, 2, . . ., l,와 같으며 고유벡터에대한 x의 투영(projecti
ons)이 된다.
축이 vk, k = 1, 2, . . ., l로 결정되는 좌표 시스템의 각 각에 대한 x의 좌표와 같으며 아래와 같이 식을 구
한다.
(x1
’− xi
’
1)2
𝝀1
+ . . . +
(xl
’− xi
’
l)2
𝝀l
= c2

그림 13의 2차원 공간에서는 유클리디안 거리의 예시로 원과 마
할라노비스 거리의 예로 타원이 존재한다.
후자의 경우 결정 선이 평균값 분할 선과 직교하지 않는 모습을
볼 수 있으며
이는 타원의 형태이기 때문이다.
그림 13. 각 클래스에 대한 (a)의 곡선
은 유클리디안 거리
(b)는 중심점에대한 마할라노비스 거리

(x1
’− xi
’
1)2
𝝀1
+ . . . +
(xl
’− xi
’
l)2
𝝀l
= c2
위 식은 새 좌표 시스템에서 초타원체(hyperellipsoid)의 식으로
그림 13 (b)는 l = 2 인 경우이다.
타원의 중점은 𝝁 i 에 있으며 기준 축은 고유백터에 따라 정렬되고 길이는 각각 2 𝝀kc 가 된다.
그래서 특정 점에서부터 마할라 노비스 거리를 가지는 모든 점들은 타원에 위치한다.

패턴인식-베이즈결정이론기반 분류기 part1

Recommended

Recommended

More Related Content

Similar to 패턴인식-베이즈결정이론기반 분류기 part1

Similar to 패턴인식-베이즈결정이론기반 분류기 part1 (20)

More from jdo

More from jdo (20)

패턴인식-베이즈결정이론기반 분류기 part1