Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Redes Neurais: Técnicas Bayesianas

1,137 views

Published on

Published in: Education
  • Be the first to comment

  • Be the first to like this

Redes Neurais: Técnicas Bayesianas

  1. 1. Técnicas Bayesianas Renato Vicente rvicente@if.usp.br 10/01, mpmmf, IME/FEA – USP
  2. 2. Técnicas BayesianasTeorema de BayesModelos HierárquicosInferência de ParâmetrosInferência de HiperparâmetrosSeleção de Modelos
  3. 3. Teorema de BayesSeja dado um conjunto de dados D e um conjunto dehipóteses sobre os dados H1 , H2 , ..., Hn.A teoria elementar de probabilidades nos fornece: P ( D, H k ) = P ( D H k ) P ( H k ) = P ( H k D ) P ( D )Daí decorre que: P( D H k ) P( H k ) P( H k D) = P( D)
  4. 4. Bayes em Palavras VEROSSIMILHANÇA × A PRIORIPOSTERIOR = ˆ EVIDENCIA
  5. 5. Bayesianos X FreqüencistasFreqüencistas: Probabilidades como “freqüência” de ocorrência de um evento ao repetir-se o experimento infinitas vezes. N 1 P( A) = lim N ∑χ j =1 A (x j ) N →∞ χ A ( x j ) = 1 se x j ∈ A, ou = 0 c.c.Bayesianos: Probabilidades como “grau de crença” na ocorrência deum evento. Jaynes, Probability: The Logic of Science http://omega.albany.edu:8008/JaynesBook.html
  6. 6. Perceptron Contínuo ⎛ ⎞ 1 y = g ⎜ ∑ wj x j + μ ⎟ Função de 0.8 ⎝ j ⎠ transferência 0.6 1g (a ) = 0.4 −a 1+ e 0.2 -4 -2 2 4
  7. 7. Bayes, Perceptron e ClassificaçãoDados em duas classes C1 e C2 são geradosa partir de duas Gaussianas centradas em m1 e m2. Assim: 1 ⎧ 1 ⎫ P (x C1 ) = exp ⎨ − ( x - m1 ) ⋅ Σ -1 (x - m1 ) ⎬ ( 2π ) ⎩ 2 ⎭ d /2 Det ( Σ)1/ 2Utilizando o Teorema de Bayes: P ( x C1 ) P (C1 ) P (C1 x ) = P ( x C1 ) P (C1 ) + P ( x C2 ) P (C2 )
  8. 8. Bayes, Perceptron e Classificação Assumindo a seguinte forma para o posterior P(C1|x): 1 P (C1 x) = −a = g (a) 1+ e ⎡ P ( x C1 ) P (C1 ) ⎤ a ≡ ln ⎢ ⎥ ⎣ P ( x C2 ) P (C2 ) ⎦ Retomando o Perceptron: ⎛ ⎞ y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x) ⎝ j ⎠
  9. 9. Bayes, Perceptron e ClassificaçãoRetomando o Perceptron: ⎛ ⎞ y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x) ⎝ j ⎠Com w = Σ -1 (m1 - m 2 ) 1 1 ⎛ P (C1 ) ⎞ μ = − m1 ⋅ Σ m 2 + m1 ⋅ Σ m 2 + log ⎜ -1 -1 ⎟ 2 2 ⎝ P(C2 ) ⎠
  10. 10. Modelos HierárquicosDados D são produzidos por um processo estocástico comparâmetros w , P(D|w).Os parâmetros w são, por sua vez, produzidos por um processoestocástico com hiperparâmetros α , P(w| α).A hierarquia pode continuar indefinidamente ...... inclusive acomodando diversas hipóteses a serem testadas H1 , H2 ,..., HN e seus respectivos graus de plausibilidade P(w,α|Hk).
  11. 11. Inferência de ParâmetrosDado um conjunto de dados D e um modelo Hi , encontrar osparâmetros mais prováveis w* . P( D | w, H i ) P(w | H i ) P ( w | D, H i ) = P( D | H i )Deve-se minimizar a função “erro” a seguir E (w ) = − ln P(w | D, H i ) = = − ln P ( D | w, H i ) − ln P(w | H i ) + cte max verossimilhança conhecimento a priori
  12. 12. Ex: Perceptron ContínuoH i : y ( x, w ) = g ( w ⋅ x ) t = t0 + ε , ε ∼ N (0, σ ) D = {( xn , tn )}n =1 N N 1 P( D | w ) = ∏ P(tn | xn ,w ) P(w | H i ) = n =1 Ωi 1 ⎧ [ yn ( x, w ) − tn ]2 ⎫ P(tn | xn , w ) = exp ⎨− ⎬ 2πσ 2 ⎩ 2σ 2 ⎭ 1 N E ( w ) = ∑ [ yn ( x, w ) − t n ] 2 2 n =1
  13. 13. Intervalos de Confiança ln P(w | D, H i ) ≈ ln P (w* | D, H i ) − (w − w*)∇E * 1 − (w − w*) ⋅ H *(w − w*) 2 ⎡ 1 ⎤P (w | D, H i ) ≈ P (w* | D, H i ) exp ⎢ − (w − w*) ⋅ H *(w − w*) ⎥ ⎣ 2 ⎦ 0.8 0.6 0.4 0.2 0 2 1 2 0 1 0 -1 -1 -2 -2
  14. 14. Inferência de HiperparâmetrosD = {xm , tm } H = {g } K j j =1 Ky ( x) = ∑ w j g j ( x) j =1Ruido : tm = y ( xm ) + ε ε ∼ N (0, σ )
  15. 15. Hiperparâmetro da Verossimilhança 1P( D | w, β , H , Ruido) = exp [ − β ED ( D | w, H ) ] ZD (β ) N ⎛ 1 ⎞ ⎡ 1 N 2⎤P(D| w, β, H, Ruido) =⎜ 2 ⎟ exp⎢− 2 ∑ y(xm)−tm) ⎥ ( 2 ⎝ 2πσ ⎠ ⎣ 2σ m=1 ⎦ 1 β= σ 2
  16. 16. Hiperparâmetro da Distribuição a Priori P( y | α , R) = 1 Z y (α ) { exp −α ∫ dx [ y′′( x) ] 2 } K H : y′′( x) = ∑ w j g ′′( x) j j =1 1 P(w | α , H , R) = exp [ −α EW (w | H , R) ] ZW (α ) K EW (w | H , R) = ∑ w w ∫ dx g ′′( x) g ′′( x) j ,i =1 j i j i ZW (α ) = ∫ d w exp [ −α EW (w | H , R) ]
  17. 17. Estimação de hiperparâmetros verossimilhança Pr ior flat P( D | α , β , H ) P(α , β | H )P(α , β | D, H ) = P( D | H ) Evidencia Z E (α , β ) P( D | α , β , H ) = Z D ( β ) ZW (α ) (α *, β *) = arg max P(α , β | D, H )
  18. 18. Seleção de Modelos Maximiza-se a evidência P( H i | D) ∝ P( D | H i ) P( H i ) Não há necessidade de normalização já que semprepodemos introduzir um novo modelo para comparação com os demais.
  19. 19. Navalha de OccamEntre modelos de mesma capacidade explicativa o maissimples deve ser preferido. P ( D | H1 ) P( D | H 2 ) D Ω P( D) prior
  20. 20. Avaliando a EvidênciaP ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i )P( D | H i ) P( D | w*, H i ) P (w* | H i )Δw Evidencia max verossimilhança Fator de Occam Δw j F .O. = Δw 2 Δw 0 Δw1 D Δw 0
  21. 21. Aproximação para a EvidênciaP ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i ) ⎡ 1 ⎤P( D | H i ) P( D | w*, H i ) P(w* | H i ) ∫ dw exp ⎢ − (w − w*) ⋅ H (w − w*) ⎥ ⎣ 2 ⎦ = P( D | w*, H i ) P(w* | H i ) (2π ) K / 2 Det ( H ) Fator de Occam
  22. 22. Bibliografia David MacKay, Information Theory, Inference, and LearningAlgorithms (http://wol.ra.phy.cam.ac.uk/mackay/) David MacKay, Bayesian Methods for Adaptive Models(http://wol.ra.phy.cam.ac.uk/mackay/) Differential Geometry in Statistical Inference(Ims Lecture Notes-Monograph Ser.: Vol. 10)by S. Amari

×