CT 720 Tópicos em Aprendizagem de Máquina e
Classificação de Padrões

2-Teoria Bayesiana de Decisão

ProfFernandoGomide

©...
Conteúdo
1.
2.
3.
4.
5.
6.
7.
8.
9.

ProfFernandoGomide

Introdução
Teoria Bayesiana de decisão: atributos contínuos
Class...
1-Introdução
Teoria Bayesiana de decisão
– abordagem estatística para reconhecimento padrões
– assume problema de decisão ...
Previsão próximo tipo peixe?
ω = estado : variável aleatória
ω = ω1 sea bass
ω = ω2 salmon

Assumindo
P(ω1): probabilidade...
Decidir tipo próximo peixe
– classificação incorreta: mesmo custo
– informação disponíveis: somente P(ω1) e P(ω2)

Regra d...
Na prática
– temos mais informação
– e.g. medida luminosidade (x)
– densidade probabilidade condicional de classe p(x/ω)
–...
ProfFernandoGomide

©DCA-FEEC-Unicamp
Supor que conhecemos:
– P(ω1) e P(ω2)
– p(x|ω1) e p(x|ω2)
– medida de luminosidade x

Como x influencia a escolha correta ...
Classificação usando luminosidade como atributo
p ( ω j , x ) = P (ω j | x ) p ( x ) = p ( x | ω j ) P (ω j )

P (ω j | x ...
P(ω1) = 2/3
P(ω2) = 1/3

Regra de decisão de Bayes
decidir ω1 se P(ω1| x) > P(ω2| x) ; caso contrário decidir ω2 (*)
ProfF...
Regra de Bayes minimiza a probabilidade de erro
 P (ω1 | x) se decidimos ω2
P (error | x) = 
 P (ω2 | x) se decidimos ω...
– em média a probabilidade do erro é
∞

−∞

P (error ) =

∞

−∞

∫ P(error , x)dx = ∫ P(error | x) p( x)dx

– logo a integ...
2-Teoria Bayesiana de decisão: atributos contínuos
Generalização
– uso de vários atributos
– mais de dois estados
– outras...
Notação
x : atributo, x ∈ Rd
Rd : espaço (Euclideano) de atributos
{ω1, ..., ωc}: conjunto (finito) de c estados (categori...
– supor observação x e ação αi correspondente
– se estado verdadeiro é ωj, então custo associado é λ(αi, ωj)
– valor esper...
Regra (estratégia) de decisão
– α(x): fornece a decisão para cada valor de x
– para cada x, α(x) assume um dos a valores α...
Regra de Bayes
para minimizar risco global:
1 – calcular
c

R ( α i | x ) = ∑ λ ( α i | ω j ) P ( ω j | x ),
i =1

i = 1,K...
Exemplo com duas classes
– α1 : decide que estado verdadeiro é ω1
– α2 : decide que estado verdadeiro é ω2
– λij = λ(αi, ω...
– alternativamente, em termos das probabilidades a posteriori
 decidir ω1 se (λ21 – λ11)P(ω1| x) > (λ12 – λ22) P(ω2| x)
–...
3-Classificação com taxa de erro mínima
0 i = j
λ (α i | ω j ) = 
1 i ≠ j

i, j = 1,K, c

c

R (α i | x ) = ∑ λ ( α i |...
Regra Bayes para taxa de erro mínima
– minimizar risco: selecionar ação que minimiza risco condicional
– minimizar taxa de...
4-Funções discriminação e classificadores
Função discriminação
gi(x), i = 1,..., c
classificador atribui classe ωi a x se ...
Estrutura funcional de classificadores estatísticos

ProfFernandoGomide

©DCA-FEEC-Unicamp
Propriedades
– funções discriminação não são únicas
– transformações: f(gi(x)), f monotônica crescente
– simplificação ana...
– formas funções diferentes, mas regras de decisão equivalentes
– efeito: dividir o espaço de atributos em c regiões disti...
– exemplo: duas categorias (classes)
atribuir ω1 a x se g1(x) > g2(x) ∀ j ≠ i
g (x) = g1(x) – g2(x)
atribuir ω1 a x se g(x...
ProfFernandoGomide

©DCA-FEEC-Unicamp
5-Densidade normal
p ( x) =

 1

exp − (x − µ)t Σ −1 (x − µ)

 2
(2π)d / 2 | Σ |1/ 2

µ = E[x] =

1

∞

∫ x p(x)dx ,...
( x − µ)t Σ −1( x − µ) = cte

ProfFernandoGomide

©DCA-FEEC-Unicamp
λ2

γ1

γ2

µ

λ1

(x − µ)t Σ −1(x − µ) = 1

ProfFernandoGomide

©DCA-FEEC-Unicamp
Transformações lineares
– combinações lineares de variáveis aleatórias normais são normais
p(x) = N(µ, ∑)
µ
A (d × k)
y = ...
ProfFernandoGomide

©DCA-FEEC-Unicamp
Observações
r 2 = (x − µ)t Σ −1( x − µ)

V = Vd | Σ |1/ 2 r d

Volume hiperelipsóide

πd / 2 /(d / 2)!
d par
Vd =  d ( d...
6-Funções discriminação p/ densidade normal
gi (x) = ln p (x | ωi ) + ln P (ωi )
p (x | ωi ) ~ N (µi , Σi )
1
d
1
gi (x) =...
Caso 1: ∑i = σ2I
g i ( x) = −

g i ( x) = −

x − µi
2σ

1
2σ

2

+ ln P (ωi )

2

[xt x − 2µt x + µt µi ] + ln P (ωi )
i
2...
g i ( x) − g j ( x) = 0
w t (x − xo ) = 0

Hiperplano separa R i e R j
passa por xo e é ortogonal
à reta que une as médias...
P(ωi) ≠ P(ωj)
xo se afasta da média mais provável
P(ωi) = P(ωj), ∀i, j termo
g i ( x) = x − µ i

2

ln P(ωi) irrelevante

...
Caso 2: ∑i = ∑

independente de i

1
d
1
gi (x) = − ( x − µ)t Σ −1( x − µ) − ln 2π − ln | Σi | + ln P(ωi )
2
2
2
1
gi (x) ...
1
d
1
gi (x) = − (x − µ)t Σ −1 (x − µ) − ln 2π − ln | Σi | + ln P(ωi )
2
2
2

eliminando xt ∑–1x da expansão de (x – µ)t ∑...
se R i e R j são contíguas, a superfície de decisão é um hiperplano
w t (x − xo ) = 0
w = Σ −1 (µi − µ j )
ln[ P (ωi ) / P...
Caso 3: ∑i = arbitrária

único termo independente de i

1
d
1
gi (x) = − ( x − µ)t Σ −1( x − µ) − ln 2π − ln | Σi | + ln P...
– caso com duas classes
– superfícies de decisão são hiperquadráticas
• hiperplanos
• hiperesferas
• hiperelipsóides
• hip...
Quatro classes
Exemplo: região de decisão, dados Gaussianos
x2

 3
1 / 2 0
µ1 =   Σ1 = 
6
0 2




10
8

µ1

6

3
2 0
µ2 =...
x2
10
2
x2 = 3.514 − 1.125 x1 + 0.1875 x1

8

µ1

6
4
2
-2

2
-2

µ2

4

6

8

10

x1
7-Teoria Bayesiana de decisão: atributos discretos
x ∈ {v1, ...., vm}
P (ω j | x ) =

P ( x) =

P ( x | ω j ) P (ω j )
P (...
Regra de Bayes para taxa de erro mínima
decidir ωi se P(ωi | x) > P(ωj | x)
Funções de discriminação
gi (x) = P (ωi | x) =...
Exemplo: atributos binários independentes
– duas categorias (classes)
– cada componente é um valor binário
– componentes s...
– Razão de verosimilhança

P (x | ω1 ) d  pi 
= ∏ 

P (x | ω2 ) i =1  qi 


g (x) = ln

xi

1− xi

 1 − pi 

 ...
d

g (x) = ∑ wi xi + w0
i =1

wi = ln

pi (1 − qi )
,
qi (1 − pi )

d

w0 = ∑ ln
i =1

i = 1,K, d

(1 − qi )
P (ω1 )
+ ln
...
Análise
– g(x) é uma combinação linear (ponderada) das componentes de x
– valor de wi é a relevância de uma resposta xi = ...
Exemplo: dados binários 3-d
– duas categorias (classes)
– cada componente é um valor binário
– componentes são independent...
x3

x3

0

0

1

1

1

1

x2

0

x1

x2

0
0

1

pi = 0.8 qi = 0.5
i = 1,2,3

x1

0

1

pi = 0.8 qi = 0.5, i = 1,2
p3 = q3
8-Redes Bayesianas
Conhecimento sobre distribuições
– parâmetros de distribuições
– dependência/independência estatística
...
estados de A {a1, a2,...} ≡ a
P(a)

B

A

P(b) estados de B {b1, b2,...} ≡ b

arco
nó
P(d|a,c)

C

D

P(c|b)

pai
E

P(e|d...
P(b)

P(a)
P(a1)

P(a2)

P(a3)

P(a4)

0.25

0.25

0.25

0.25

P(x1|ai,bj)

a1 = winter
a2 = spring
a3 = summer
a4 = autum...
Redes Bayesianas formalmente
– grafo acíclico
– nó: variável aleatória (atributo)
– arco: efeito, causa (A afeta B → B con...
Exemplo
P(a)

P(b|a)

P(c|b)

P(d|c)

A

B

C

D

P(a, b, c, d) = P(a) P(b | a) P(c | b) P(d | c)
P(d) = ∑ P(a, b, c, d)
a...
– em geral: dados os valores de algumas variáveis (evidência: e)
qual é o valor de uma configuração das outras variáveis (...
Em classificação (erro mínimo): salmon or sea bass ?
– sabe-se que
• peixe é claro (c1)
• origem é Atlântico Norte (b2)
– ...
P( x1 | c1, b2 ) =

P( x1, c1, b2 )
= α ∑ P( x1, a, b2 , c1, d)
P (c1, b2 )
a,d

= α ∑ P (a) P (b2 ) P ( x1 | a, b2 )P(c1 ...
P( x1 | c1, b2 ) = α(0.4)(0.6)[(0.25)(0.7) + (025)(0.8)
+ (0.25)(0.1) + (0.25)(0.3)]1.0
P( x1 | c1, b2 ) = α 0.114
P( x2 |...
Naive Bayes
– relações de dependência entre atributos desconhecidas
– neste caso assume-se independência condicional

P ( ...
9-Resumo
Teoria Bayesiana de decisão é simples
Regras de decisão
– minimizar risco: ação que minimiza risco condicional
– ...
Observação
Este material refere-se às notas de aula do curso CT 720 Tópicos Especiais
em Aprendizagem de Máquina e Classif...
Teoria decisao bayes
Teoria decisao bayes
Teoria decisao bayes
Teoria decisao bayes
Teoria decisao bayes
Teoria decisao bayes
Teoria decisao bayes
Teoria decisao bayes
Teoria decisao bayes
Teoria decisao bayes
Teoria decisao bayes
Teoria decisao bayes
Upcoming SlideShare
Loading in …5
×

Teoria decisao bayes

743 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
743
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
25
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Teoria decisao bayes

  1. 1. CT 720 Tópicos em Aprendizagem de Máquina e Classificação de Padrões 2-Teoria Bayesiana de Decisão ProfFernandoGomide ©DCA-FEEC-Unicamp
  2. 2. Conteúdo 1. 2. 3. 4. 5. 6. 7. 8. 9. ProfFernandoGomide Introdução Teoria Bayesiana de decisão: atributos contínuos Classificação com taxa de erro mínima Funções de discriminação e classificadores Densidade normal Funções de discriminação para densidade normal Teoria Bayesiana de decisão: atributos discretos Redes Bayesianas Resumo ©DCA-FEEC-Unicamp
  3. 3. 1-Introdução Teoria Bayesiana de decisão – abordagem estatística para reconhecimento padrões – assume problema de decisão formulado probabilisticamente – todos valores relevantes de probabilidade conhecidos – identificação de sequências DNA Este capítulo – apresenta fundamentos da teoria – teoria: formaliza procedimentos intuitivos ProfFernandoGomide ©DCA-FEEC-Unicamp
  4. 4. Previsão próximo tipo peixe? ω = estado : variável aleatória ω = ω1 sea bass ω = ω2 salmon Assumindo P(ω1): probabilidade a priori próximo tipo é sea bass P(ω1): probabilidade a priori próximo tipo é salmon P(ω1) + P(ω2) = 1 ProfFernandoGomide ©DCA-FEEC-Unicamp
  5. 5. Decidir tipo próximo peixe – classificação incorreta: mesmo custo – informação disponíveis: somente P(ω1) e P(ω2) Regra de decisão decidir ω1 se P(ω1) > P(ω2) ; caso contrário decidir ω2 – regra: mesma decisão, mesmo sabendo que existem 2 tipos – desempenho depende da escolha de P(ω1) e P(ω2) ProfFernandoGomide ©DCA-FEEC-Unicamp
  6. 6. Na prática – temos mais informação – e.g. medida luminosidade (x) – densidade probabilidade condicional de classe p(x/ω) – função densidade de probabilidade de x dado estado ω – p(x/ω1) e p(x/ω2) descrevem diferenças de luminosidade ProfFernandoGomide ©DCA-FEEC-Unicamp
  7. 7. ProfFernandoGomide ©DCA-FEEC-Unicamp
  8. 8. Supor que conhecemos: – P(ω1) e P(ω2) – p(x|ω1) e p(x|ω2) – medida de luminosidade x Como x influencia a escolha correta do tipo? – estimativa correta do estado ? – como decidir o tipo (classe) ProfFernandoGomide ©DCA-FEEC-Unicamp
  9. 9. Classificação usando luminosidade como atributo p ( ω j , x ) = P (ω j | x ) p ( x ) = p ( x | ω j ) P (ω j ) P (ω j | x ) = p( x) = p ( x | ω j ) P (ω j ) p ( x) Bayes 2 ∑ p ( x | ω j ) P (ω j ) j =1 p (efeito / causa) P (causa) P (efeito) likelyhood × prior posterior = evidence P (causa / efeito) = ProfFernandoGomide ©DCA-FEEC-Unicamp
  10. 10. P(ω1) = 2/3 P(ω2) = 1/3 Regra de decisão de Bayes decidir ω1 se P(ω1| x) > P(ω2| x) ; caso contrário decidir ω2 (*) ProfFernandoGomide ©DCA-FEEC-Unicamp
  11. 11. Regra de Bayes minimiza a probabilidade de erro  P (ω1 | x) se decidimos ω2 P (error | x) =   P (ω2 | x) se decidimos ω1 – para uma observação x minimiza-se a probabilidade de erro: decidindo ω1 se P(ω1| x) > P(ω2| x); ou ω2 caso contrário – esta regra minimiza a probabilidade de erro para qualquer x, em média? ProfFernandoGomide ©DCA-FEEC-Unicamp
  12. 12. – em média a probabilidade do erro é ∞ −∞ P (error ) = ∞ −∞ ∫ P(error , x)dx = ∫ P(error | x) p( x)dx – logo a integral P(error) é mínima se P(error/x) é mínima, isto é, se decidir ω1 se P(ω1| x) > P(ω2| x); caso contrário decidir ω2 – P(error/x) = min [P(ω1| x) , P(ω2| x) ] Regra de decisão de Bayes (alternativa) decidir ω1 se p(x|ω1)P(ω1) > p(x|ω2) P(ω2); caso contrário decidir ω2 ProfFernandoGomide ©DCA-FEEC-Unicamp
  13. 13. 2-Teoria Bayesiana de decisão: atributos contínuos Generalização – uso de vários atributos – mais de dois estados – outras decisões e não só classificação – critério mais geral que probabilidade de erro ProfFernandoGomide ©DCA-FEEC-Unicamp
  14. 14. Notação x : atributo, x ∈ Rd Rd : espaço (Euclideano) de atributos {ω1, ..., ωc}: conjunto (finito) de c estados (categorias) {α1, ..., αa}: conjunto (finito) de a decisões (ações) λ(αi, ωj): loss function = custo decisão αi quando em ωj Regra de Bayes P (ω j | x ) = p ( x) = ProfFernandoGomide p ( x | ω j ) P (ω j ) p ( x) c ∑ p ( x | ω j ) P (ω j ) j =1 ©DCA-FEEC-Unicamp
  15. 15. – supor observação x e ação αi correspondente – se estado verdadeiro é ωj, então custo associado é λ(αi, ωj) – valor esperado do custo da ação αi será: c R (α i | x ) = ∑ λ ( α i | ω j ) P ( ω j | x ) i =1 Risco condicional – dado x, que ação αi minimiza o risco condicional, ∀x ? – solução (ótima): regra de Bayes ! ProfFernandoGomide ©DCA-FEEC-Unicamp
  16. 16. Regra (estratégia) de decisão – α(x): fornece a decisão para cada valor de x – para cada x, α(x) assume um dos a valores α1, ..., αa – risco global: risco associado com uma estratégia de decisão R = ∫ R (α(x) | x) p (x) dx Risco global – se α(x) é tal que o valor de R(αi(x)) é o menor possível ∀x, então risco global é minimizado; isto motiva o seguinte: ProfFernandoGomide ©DCA-FEEC-Unicamp
  17. 17. Regra de Bayes para minimizar risco global: 1 – calcular c R ( α i | x ) = ∑ λ ( α i | ω j ) P ( ω j | x ), i =1 i = 1,K, a 2 – selecionar ação αi que minimiza R(αi|x) R* = risco de Bayes ProfFernandoGomide ©DCA-FEEC-Unicamp
  18. 18. Exemplo com duas classes – α1 : decide que estado verdadeiro é ω1 – α2 : decide que estado verdadeiro é ω2 – λij = λ(αi, ωj) custo quando decisão ⇒ ωi mas verdadeiro é ωj risco condicional R(α1 | x) = λ11P (ω1 | x) + λ12 P(ω2 | x) R(α 2 | x) = λ 21P (ω1 | x) + λ 22 P(ω2 | x) decidir ω1 se R(α1|x) < R(α2|x) ProfFernandoGomide ©DCA-FEEC-Unicamp
  19. 19. – alternativamente, em termos das probabilidades a posteriori  decidir ω1 se (λ21 – λ11)P(ω1| x) > (λ12 – λ22) P(ω2| x) – em geral λ21 > λ11 e λ12 > λ22 – utilizando Bayes, probabilidades a priori e densidades condicionais P (x | ω1 ) (λ12 − λ 22 ) P (ω2 ) > P (x | ω2 ) (λ 21 − λ11 ) P(ω1 ) ProfFernandoGomide Razão de verosimilhança ©DCA-FEEC-Unicamp
  20. 20. 3-Classificação com taxa de erro mínima 0 i = j λ (α i | ω j ) =  1 i ≠ j i, j = 1,K, c c R (α i | x ) = ∑ λ ( α i | ω j ) P (ω j | x ) i =1 = ∑ P(ω j | x) i≠ j = 1 − P(ωi | x) ProfFernandoGomide ©DCA-FEEC-Unicamp
  21. 21. Regra Bayes para taxa de erro mínima – minimizar risco: selecionar ação que minimiza risco condicional – minimizar taxa de erro de classificação: decidir ωi se P(ωi | x) > P(ωj | x) ProfFernandoGomide ∀ i, j (ver *) ©DCA-FEEC-Unicamp
  22. 22. 4-Funções discriminação e classificadores Função discriminação gi(x), i = 1,..., c classificador atribui classe ωi a x se gi(x) > gi(x) ∀ j ≠ i Exemplos: gi(x) = – R(αi|x) gi(x) = P(ωi | x) ProfFernandoGomide risco condicional mínimo erro classificação mínimo ©DCA-FEEC-Unicamp
  23. 23. Estrutura funcional de classificadores estatísticos ProfFernandoGomide ©DCA-FEEC-Unicamp
  24. 24. Propriedades – funções discriminação não são únicas – transformações: f(gi(x)), f monotônica crescente – simplificação analítica e computacional – exemplos de classificadores (erro classificação mínimo): gi (x) = P (ωi | x) = p( x | ωi ) P (ωi ) c ∑ p ( x | ω j ) P (ω j ) j =1 gi (x) = p( x | ωi ) P (ωi ) gi (x) = ln p (x | ωi ) + ln P(ωi ) ProfFernandoGomide ©DCA-FEEC-Unicamp
  25. 25. – formas funções diferentes, mas regras de decisão equivalentes – efeito: dividir o espaço de atributos em c regiões distintas se gi(x) > gi(x) ∀ j ≠ i então x ∈ R i – Ri∩ Rj = ∅ – R 1 ,..., R c formam uma partição do espaço de atributos ProfFernandoGomide ©DCA-FEEC-Unicamp
  26. 26. – exemplo: duas categorias (classes) atribuir ω1 a x se g1(x) > g2(x) ∀ j ≠ i g (x) = g1(x) – g2(x) atribuir ω1 a x se g(x) > 0 (***) g (x) = P (ω1 | x) − P (ω2 | x) g (x) = ln p (x | ω1 ) P(ω1) + ln p (x | ω2 ) P(ω2 ) (**)
  27. 27. ProfFernandoGomide ©DCA-FEEC-Unicamp
  28. 28. 5-Densidade normal p ( x) =  1  exp − (x − µ)t Σ −1 (x − µ)   2 (2π)d / 2 | Σ |1/ 2 µ = E[x] = 1 ∞ ∫ x p(x)dx , −∞ Σ = E[(x − µ)(x − µ) ] = t µi = E[ xi ] ∞ (x − µ)(x − µ)t p (x)dx ∫ −∞ [ ] Σ = σij , σij = E[( xi − µi )( x j − µ j )], Σ > 0 ProfFernandoGomide ©DCA-FEEC-Unicamp
  29. 29. ( x − µ)t Σ −1( x − µ) = cte ProfFernandoGomide ©DCA-FEEC-Unicamp
  30. 30. λ2 γ1 γ2 µ λ1 (x − µ)t Σ −1(x − µ) = 1 ProfFernandoGomide ©DCA-FEEC-Unicamp
  31. 31. Transformações lineares – combinações lineares de variáveis aleatórias normais são normais p(x) = N(µ, ∑) µ A (d × k) y = Atx (k × 1) p(y) = N(Atµ, At∑A) – se A = a (d × 1), k = 1, ||a|| = 1 então y = atx (escalar que representa projeção de x ao longo de a) at ∑a variância da projeção de x ao longo de a ProfFernandoGomide ©DCA-FEEC-Unicamp
  32. 32. ProfFernandoGomide ©DCA-FEEC-Unicamp
  33. 33. Observações r 2 = (x − µ)t Σ −1( x − µ) V = Vd | Σ |1/ 2 r d Volume hiperelipsóide πd / 2 /(d / 2)! d par Vd =  d ( d −1) / 2 (d − 1 / 2)!/ d! d impar 2 π ProfFernandoGomide Distância de Mahalanobis Volume hiperesfera ©DCA-FEEC-Unicamp
  34. 34. 6-Funções discriminação p/ densidade normal gi (x) = ln p (x | ωi ) + ln P (ωi ) p (x | ωi ) ~ N (µi , Σi ) 1 d 1 gi (x) = − (x − µ)t Σ −1 (x − µ) − ln 2π − ln | Σi | + ln P(ωi ) 2 2 2
  35. 35. Caso 1: ∑i = σ2I g i ( x) = − g i ( x) = − x − µi 2σ 1 2σ 2 + ln P (ωi ) 2 [xt x − 2µt x + µt µi ] + ln P (ωi ) i 2 termo quadrático é o mesmo ∀ i gi (x) = w t x + wio i wi = 1 σ µ , 2 i wio = Máquina linear −1 2σ µt µi + ln P(ωi ) 2 i Limiar (bias) para i-ésima classe
  36. 36. g i ( x) − g j ( x) = 0 w t (x − xo ) = 0 Hiperplano separa R i e R j passa por xo e é ortogonal à reta que une as médias w = µi − µ j 1 σ2 xo = (µi + µ j ) − 2 µi − µ j ln 2 P(ωi ) (µ i − µ j ) P (ω j ) 1 P (ωi ) = P (ω j ) ⇒ xo = (µi + µ j ) 2
  37. 37. P(ωi) ≠ P(ωj) xo se afasta da média mais provável P(ωi) = P(ωj), ∀i, j termo g i ( x) = x − µ i 2 ln P(ωi) irrelevante Classificador distância mínima
  38. 38. Caso 2: ∑i = ∑ independente de i 1 d 1 gi (x) = − ( x − µ)t Σ −1( x − µ) − ln 2π − ln | Σi | + ln P(ωi ) 2 2 2 1 gi (x) = − ( x − µ)t Σ −1( x − µ) + ln P (ωi ) 2 se P(ωi) = P(ωj), ∀i, j termo 1 gi (x) = (x − µ)t Σ −1( x − µ) 2 ln P(ωi) irrelevante, logo: Classificador distância (Mahalanobis) mínima
  39. 39. 1 d 1 gi (x) = − (x − µ)t Σ −1 (x − µ) − ln 2π − ln | Σi | + ln P(ωi ) 2 2 2 eliminando xt ∑–1x da expansão de (x – µ)t ∑–1 (x – µ) (independe de i) gi (x) = w t x + wio i w i = Σ −1µi Máquina linear 1 wio = − µt Σ −1µi + ln P(ωi ) i 2
  40. 40. se R i e R j são contíguas, a superfície de decisão é um hiperplano w t (x − xo ) = 0 w = Σ −1 (µi − µ j ) ln[ P (ωi ) / P (ω j )] 1 xo = (µi + µ j ) − (µi − µ j ) t −1 2 (µi − µ j ) Σ (µi − µ j ) – hiperplano separa R i e R j não é ortogonal à reta que une as médias – hiperplano intercepta esta reta em xo – se P(ωi) = P(ωj), ∀i, j então está no meio das médias – se P(ωi) ≠ P(ωj), então hiperplano se afasta da média mais provável
  41. 41. Caso 3: ∑i = arbitrária único termo independente de i 1 d 1 gi (x) = − ( x − µ)t Σ −1( x − µ) − ln 2π − ln | Σi | + ln P(ωi ) 2 2 2 expandindo gi (x) = xt Wi x + w t x + wio i 1 Wi = − Σi−1 2 w i = Σi−1µi 1 1 wio = − µt Σi−1µi − ln | Σi−1 | + ln P (ωi ) i 2 2 Classificador quadrático
  42. 42. – caso com duas classes – superfícies de decisão são hiperquadráticas • hiperplanos • hiperesferas • hiperelipsóides • hiperparabolóides – regiões (decisão) não necessariamente conectadas
  43. 43. Quatro classes
  44. 44. Exemplo: região de decisão, dados Gaussianos x2  3 1 / 2 0 µ1 =   Σ1 =  6 0 2    10 8 µ1 6 3 2 0 µ2 =   Σ2 =    − 2 0 2 4 2 -2 P(ω1) = P(ω2 ) = 0.5 2 -2 µ2 4 6 8 10 x1 t g1 (x) = xt W1x + w1x + w10 t g1 (x) = xt W1x + w1x + w10 g1 (x) = g 2 (x)
  45. 45. x2 10 2 x2 = 3.514 − 1.125 x1 + 0.1875 x1 8 µ1 6 4 2 -2 2 -2 µ2 4 6 8 10 x1
  46. 46. 7-Teoria Bayesiana de decisão: atributos discretos x ∈ {v1, ...., vm} P (ω j | x ) = P ( x) = P ( x | ω j ) P (ω j ) P ( x) Regra de Bayes c ∑ P ( x | ω j ) P (ω j ) j =1 α* = arg min R (αi | x) i Regra de decisão mínimo risco
  47. 47. Regra de Bayes para taxa de erro mínima decidir ωi se P(ωi | x) > P(ωj | x) Funções de discriminação gi (x) = P (ωi | x) = P( x | ωi ) P(ωi ) c ∑ P ( x | ω j ) P (ω j ) j =1 gi (x) = P (x | ωi ) P (ωi ) gi (x) = ln P (x | ωi ) + ln P(ωi ) ∀ i, j (ver *)
  48. 48. Exemplo: atributos binários independentes – duas categorias (classes) – cada componente é um valor binário – componentes são independentes x = ( x1,K, xd )t , xi ∈{0,1} pi = Pr[ xi = 1 | ω1 ) qi = Pr[ xi = 1 | ω2 ) d P(x | ω1 ) = ∏ pixi (1 − pi )1− xi i =1 d P(x | ω2 ) = ∏ qixi (1 − qi )1− xi i =1
  49. 49. – Razão de verosimilhança P (x | ω1 ) d  pi  = ∏   P (x | ω2 ) i =1  qi   g (x) = ln xi 1− xi  1 − pi    1− q    i  P ( x | ω1 ) P (ω1 ) + ln P ( x | ω2 ) P (ω2 )  p 1 − pi  P (ω1) g (x) = ∑  xi ln i + (1 − xi ) ln + ln  qi 1 − qi  P (ω2 ) i =1  d (**) Linear em xi
  50. 50. d g (x) = ∑ wi xi + w0 i =1 wi = ln pi (1 − qi ) , qi (1 − pi ) d w0 = ∑ ln i =1 i = 1,K, d (1 − qi ) P (ω1 ) + ln (1 − pi ) P (ω2 ) lembrar: decidir ω1 se g(x) > 0 e ω2 se g(x) ≥ 0 (***)
  51. 51. Análise – g(x) é uma combinação linear (ponderada) das componentes de x – valor de wi é a relevância de uma resposta xi = 1 na classificação – se pi = qi então valor de xi é irrelevante (wi = 0) – se pi > qi então (1 – pi) < (1 – qi), wi > 0 e xi = 1 ⇒ wi votos para ω1 – se pi < qi então (1 – pi) > (1 – qi), wi < 0 e xi = 1 ⇒ |wi|votos para ω2
  52. 52. Exemplo: dados binários 3-d – duas categorias (classes) – cada componente é um valor binário – componentes são independentes P(ω1 ) = P(ω2 ) = 0.5 pi = 0.5, qi = 0.8, i = 1,2,3 wi = ln pi (1 − qi ) , qi (1 − pi ) i = 1,K, d (1 − qi ) P (ω1 ) w0 = ∑ ln + ln (1 − pi ) P (ω2 ) i =1 d wi = ln 0.8(1 − 0.5) = 1.3863 i = 1,K,3 0.5(1 − 0.8) 3 w0 = ∑ ln i =1 (1 − 0.8) 0.5 + ln = −1.75 (1 − 0.5) 0.5
  53. 53. x3 x3 0 0 1 1 1 1 x2 0 x1 x2 0 0 1 pi = 0.8 qi = 0.5 i = 1,2,3 x1 0 1 pi = 0.8 qi = 0.5, i = 1,2 p3 = q3
  54. 54. 8-Redes Bayesianas Conhecimento sobre distribuições – parâmetros de distribuições – dependência/independência estatística – relações causais entre variáveis Redes Bayesianas – explora informação estrutural no raciocínio com variáveis – usa relações probabilísticas entre variáveis – assume relações causais
  55. 55. estados de A {a1, a2,...} ≡ a P(a) B A P(b) estados de B {b1, b2,...} ≡ b arco nó P(d|a,c) C D P(c|b) pai E P(e|d) filho Regra de Bayes + probabilidades condicionais ⇓ probabilidade conjunta de qualquer configuração de variáveis
  56. 56. P(b) P(a) P(a1) P(a2) P(a3) P(a4) 0.25 0.25 0.25 0.25 P(x1|ai,bj) a1 = winter a2 = spring a3 = summer a4 = autumn B locale b1 = north Atlantic b2 = south Atlantic P(b1) P(b2) 0.6 0.4 P(x2|ai,bj) a1, b1 0.5 0.5 a1, b2 0.7 0.3 a2, b1 0.6 0.4 a2, b2 0.8 0.2 a3, b1 0.4 0.6 a3, b2 0.1 0.9 a4, b1 0.2 0.8 a4, b2 P(x|a,b) A season 0.3 0.7 X fish x1 = salmon x2 = sea bass P(d|x) P(c|x) P(c1|xk) P(c1|xk) P(c1|xk) x1 0.6 0.2 0.2 x2 0.2 0.3 0.5 c1 = light c2 = medium c3 = dark C light D tick P(d1|xk) d1 = wide d2 = thin P(d2|xk) x1 0.3 0.7 x2 0.6 0.4 P(a3 , b1, x2 , c3 , d 2 ) = P(a3 ) P (b1 ) P( x2 | a3 , b1 ) P(c3 | x2 ) P(d 2 | x2 ) = 0.25 × 0.6 × 0.4 × 0.5 × 0.4 = 0.012
  57. 57. Redes Bayesianas formalmente – grafo acíclico – nó: variável aleatória (atributo) – arco: efeito, causa (A afeta B → B condicionado a A) – cada nó condicionalmente independente dos não descendentes – representa probabilidade conjunta das variáveis x2 x1 P(xi|x1,x2) x3 xi xj xn n P( x1,K, xn ) = ∏ P( xi | PaiDe( xi )) i =1
  58. 58. Exemplo P(a) P(b|a) P(c|b) P(d|c) A B C D P(a, b, c, d) = P(a) P(b | a) P(c | b) P(d | c) P(d) = ∑ P(a, b, c, d) a,b,c = ∑ P(a) P(b | a) P(c | b) P(d | c) a,b,c = ∑ P(d | c)∑ P(c | b)∑ P(b | a) P(a) c b a P(b) P(c) P(d)
  59. 59. – em geral: dados os valores de algumas variáveis (evidência: e) qual é o valor de uma configuração das outras variáveis (x) ? P ( x | e) = P(x, e) = αP (x, e) P(e) Exemplo: salmon and sea bass – probabilidade peixe veio do Atlântico Norte (b1) – sabendo que é primavera (spring a2) – peixe é salmão (salmon x1) claro (light c1) P(b1 | a2 , x1, c1 ) ?
  60. 60. Em classificação (erro mínimo): salmon or sea bass ? – sabe-se que • peixe é claro (c1) • origem é Atlântico Norte (b2) – não se sabe: • estação do ano • espessura – problema de classificação: P( x1 | c1, b2 ) ? P( x2 | c1, b2 ) ?
  61. 61. P( x1 | c1, b2 ) = P( x1, c1, b2 ) = α ∑ P( x1, a, b2 , c1, d) P (c1, b2 ) a,d = α ∑ P (a) P (b2 ) P ( x1 | a, b2 )P(c1 | x1 ) P(d | x1 ) a,d    = αP(b2 ) P(c1 | x1 ) ∑ P (a) P( x1 | a, b2 ) ∑ P(d | x1 ) a  d  = αP(b2 ) P(c1 | x1 ) × [ P(a1 ) P( x1 | a1, b2 ) + P(a2 ) P( x1 | a2 , b2 ) + P (a3 ) P ( x1 | a3 , b2 ) + P (a4 ) P( x1 | a4 , b2 )] × [ P(d1 | x1 ) + P (d 2 | x1 )] =1
  62. 62. P( x1 | c1, b2 ) = α(0.4)(0.6)[(0.25)(0.7) + (025)(0.8) + (0.25)(0.1) + (0.25)(0.3)]1.0 P( x1 | c1, b2 ) = α 0.114 P( x2 | c1, b2 ) = α 0.066 classificação: salmon !
  63. 63. Naive Bayes – relações de dependência entre atributos desconhecidas – neste caso assume-se independência condicional P ( x | a, b ) = P ( x | a ) P ( x | b )
  64. 64. 9-Resumo Teoria Bayesiana de decisão é simples Regras de decisão – minimizar risco: ação que minimiza risco condicional – minimizar Pr[erro]: estado que maximiza densidade a posteriori P(ωj |x) Superfícies decisão hiperquadráticas no caso Gaussiano Redes: relações dependência/independência entre variáveis
  65. 65. Observação Este material refere-se às notas de aula do curso CT 720 Tópicos Especiais em Aprendizagem de Máquina e Classificação de Padrões da Faculdade de Engenharia Elétrica e de Computação da Unicamp e do Centro Federal de Educação Tecnológica do Estado de Minas Gerais. Não substitui o livro texto, as referências recomendadas e nem as aulas expositivas. Este material não pode ser reproduzido sem autorização prévia dos autores. Quando autorizado, seu uso é exclusivo para atividades de ensino e pesquisa em instituições sem fins lucrativos. ProfFernandoGomide ©DCA-FEEC-Unicamp

×