Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Redes Neurais: Estimação de Densidades

621 views

Published on

Published in: Education
  • Be the first to comment

  • Be the first to like this

Redes Neurais: Estimação de Densidades

  1. 1. Estimação de Densidades Renato Vicente rvicente@if.usp.br10/01, mpmmf, IME/FEA – USP
  2. 2. Estimação de DensidadesMétodos ParamétricosMétodos de Núcleo (Kernel Methods)Misturas de DistribuiçõesAlgoritmo EM
  3. 3. Métodos ParamétricosUma forma funcional p ( x | θ ) específica, parametrizada por θé assumida para a densidade de probabilidade..Na ausência de dados há uma incerteza com relação ao valor dos parâmetros representada pela distribuição a priori p (θ )Uma vez os dados D são observados, nossa idéia sobre quaisparâmetros melhor ajustam os dados é modificada para o posterior p (θ | D) 0 .8 0 .7 0 .6 p(θ⏐ D) 0 .5 0 .4 0 .3 0 .2 0 .1 p(θ) 0 -1 0 -5 0 5 10 θ
  4. 4. Métodos ParamétricosA densidade que se deseja inferir a partir dos dados D é p( x | D)Considerando a parametrização p ( x | D) = ∫ p ( x,θ | D) dθ = ∫ p ( x | θ , D) p (θ | D) dθ =∫ p( x | θ ) p (θ | D) dθ densidade assumida posterior = a priori atualizado
  5. 5. Métodos ParamétricosO posterior pode ser obtido do a priori via Teorema deBayes: p( D | θ ) p (θ | D) = p (θ ) ∫ p( D | θ ′) p(θ ′) dθ ′Assumindo independência entre cada uma das amostrasdo conjunto de dados D a verossimilhança pode serfatorada: N p ( D | θ ) = ∏ p ( xn | θ ) n =1
  6. 6. Métodos Paramétricos θ O a priori p ( ) pode ser escolhido utilizando critérios de tratabilidade das integrais ou critérios informacionais. Se o a priori e o posterior estiverem na mesma família o a priori é dito conjugado. A densidade p (θ | D) pode ser utilizada como novo a priori e atualizada com um novo dado xN+1 segundo: p ( D, xN +1 | θ )p (θ | D, xN +1 ) = p (θ | D) ∫ p( D, xN +1 | θ ′) p(θ ′ | D) dθ ′
  7. 7. Exemplo: Estimação Bayesiana em 1DSuponhamos um conjunto de dados D = {x1 , , xN }Assumimos que os dados são gerados de forma independentecom distribuição gaussiana com desvio padrão σconhecido.Queremos inferir a média m.Assim p ( x D ) = ∫ p ( x | m) p (m | D ) dm 1 1 − ( x − m )2 p ( x m) = 2σ 2Onde assumimos que e 2πσ 2
  8. 8. Exemplo Assumimos a seguinte estrutura para a densidade a priori: 1 − ( m − m0 ) 2 1 2σ 0 p ( m) = 2 e 2πσ 2 0 A densidade posterior para o parâmetro m após aapresentação dos dados é N ∏ p( x n | m) p(m | D) = n =1 N p ( m) ∫ p(m′)∏ p( x n =1 n | m′) dm′
  9. 9. ExemploIntegral necessária para a avaliação da distribuição inferida somenteenvolve gaussianas e é, portanto, trivial, resultando em: Nσ 0 ⎛ 1 2 N ⎞ σ2 mN = Nσ 0 + σ 2 ⎜ N 2 ⎝ ∑ xn ⎟ + Nσ 2 + σ 2 m0 n =1 ⎠ 0 1 N 1 = + σN 2 σ2 σ0 2 12 10 8 ) N=50 N D 6 ⏐ m ( P 4 2 N=5 N=0 N=1 0 -3 -2 -1 0 1 2 3 m
  10. 10. Métodos de KernelA probabilidade de que um vetor x, amostrado de umadensidade p(x) desconhecida, caia em uma região R doespaço dos vetores é P = ∫ p (x′) d x′ RA probabilidade de que em N amostras, K estejam em R é ⎛N⎞ K PN ( K ) = ⎜ ⎟ P (1 − P ) N − K ⎝K⎠ ⎡K ⎤ P= E⎢ ⎥Um estimador para a probabilidade de R é ⎣N ⎦
  11. 11. Métodos de KernelA variância em torno deste estimador é ⎡⎛ K ⎞ ⎤ P(1 − P) 2 E ⎢⎜ − P ⎟ ⎥ = ⎯⎯⎯ 0 N →∞ → ⎢⎝ N ⎣ ⎠ ⎥⎦ N KAssim P N P = ∫ p (x′) dx′ p (x)V R Mas P K p ( x) = V NV
  12. 12. Janela de Parzen ⎧ 1 ⎪1 se u j < , j = 1,..., dH (u) = ⎨ 2 X ⎪ ⎩ 0, c.c. h N ⎛x−x ⎞ n K = ∑H ⎜ ⎟ n =1 ⎝ h ⎠ K 1 1 ⎛ x − xn ⎞ N p ( x) = = ∑ d H⎜ ⎟ NV N n =1 h ⎝ h ⎠
  13. 13. Mixture Models Mp (x) = ∑ Pj p (x | j ) j =1M∑wj =1 j =1 ⎧ x−μ 2 ⎫ 1 ⎪ ⎪p(x | j ) = exp ⎨− j ⎬ d ⎪ 2σ j 2 ⎪ (2πσ j ) 2 2 ⎩ ⎭
  14. 14. Mixture ModelsOs parâmetros μ j e σ j podem ser inferidosminimizando uma função erro (maximizando averossimilhança) N E ( μ j , σ j ) = −∑ ln p(x n ) n =1 N M = −∑ ln ∑ Pj p (x n | j ) n =1 j =1
  15. 15. Algoritmo EMA variação da função erro pode ser escrita : ⎛ P ′( x n ) ⎞ ΔE = − ∑ ln ⎜ ⎜ P (x ) ⎟ ⎟ n ⎝ n ⎠ ⎛ Pj′ P ′( x n | j ) P ( j | x n ) ⎞ = − ∑ ln ⎜ ∑ ⎜ j ⎟ n ⎝ P ( xn ) P( j | xn ) ⎟ ⎠Utilizando a desigualdade de Jensen ⎛ ⎞ ln ⎜ ∑ λ j x j ⎟ ≥ ∑ λ j ln( x j ) ⎝ j ⎠ j
  16. 16. Algoritmo EM ⎛ 1 P( j | x n ) ⎞ΔE = −∑ ln ⎜ ∑ Pj′ P′(xn | j ) P( j | x ) ⎟ ⎜ P (x ) j ⎟ n ⎝ n n ⎠ ⎛ Pj′ P′(x n | j ) ⎞ ≤ −∑∑ P ( j | x n ) ln ⎜ ⎜ P ( x ) P( j | x ) ⎟ ⎟ n j ⎝ n n ⎠O erro pode ser minimizado através da minimização de um upper bound para o erro com parâmetros novos: E′ ≤ E + Q Q ≡ −∑∑ P ( j | x n ) ln ( Pj′ P′(x n | j ) )Com n j
  17. 17. E-stepSe o modelo for uma mistura de gaussianas ⎡ x n − μ ′j ⎤ Q ≡ −∑∑ P( j | x n ) ⎢ln ( Pj′ ) − d ln(σ ′j ) − ⎥ ⎢ 2σ ′j ⎥ n j ⎣ ⎦ Assume-se uma distribuição Pj e um conjunto de parâmetros iniciais e calcula-se a esperança acima.
  18. 18. M-StepMinimiza-se o upper bound dado por Q sujeito ao vínculo ∑ P′ = 1 j jImposto pela introdução de um multiplicador de Lagrange: ⎡N ⎤ ∂ϕ ϕ = Q + λ ⎢ ∑ Pj ⎥ =0⇒λ = N ⎣ j =1 ⎦ ∂Pj
  19. 19. M-Step Equações de extremo em relação aos outros parâmetros fornecem: ∑ P( j | x ) x − μ ′ 2 ∂ϕ n n j = 0 ⇒ (σ ′ ) = 12 n ∂σ ′ ∑ P( j | x ) j j d n n∂ϕ 1∂Pj′ = 0 ⇒ Pj′ = N ∑ P( j | x n n ) ∂ϕ ∑ P( j | x )x n n = 0 ⇒ μ′ = n ∂μ ′ ∑ P( j | x ) j j n n
  20. 20. BibiliografiaBishop, Neural Networks for Pattern Recognition, Cap 2Bayesian Theory(Wiley Series in Probability and Statistics)Jose M. Bernardo, Adrian F. M. Smith

×