Estatística: Introduçao à Estimacao Bayesiana
Upcoming SlideShare
Loading in...5
×
 

Estatística: Introduçao à Estimacao Bayesiana

on

  • 1,264 views

 

Statistics

Views

Total Views
1,264
Views on SlideShare
1,264
Embed Views
0

Actions

Likes
1
Downloads
34
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Estatística: Introduçao à Estimacao Bayesiana Estatística: Introduçao à Estimacao Bayesiana Document Transcript

  • Cap´ ıtulo 9Introdu¸˜o ` Estima¸˜o ca a caBayesiana9.1 L´gica dedutiva versus indutiva oNa l´gica dedutiva dada uma causa ´ poss´ determinar suas conseq¨ˆncias. o e ıvel ueEsta ´ o tipo de l´gica que se emprega em matem´tica para construir resultados e o acomplexos a partir de um conjunto limitado de axiomas. Da mesma maneirajogos de azar simples se encaixam nesta categoria. Por exemplo, se o jogoconsistir no arremesso de uma moeda 10 vezes ´ poss´ e ıvel deduzir as probabil-idades de cada um dos resultados poss´ ıveis (pontos no espa¸o amostral). No centanto, os problemas encontrados tanto em ciˆncia como em engenharia s˜o e ade natureza diferente: dados certos efeitos observados, determinar suas causas.Suponha, por exemplo, que vocˆ arremesse uma moeda dez vezes e obtenha 7 ecaras. Seria esta moeda honesta? Este tipo de quest˜o s´ pode ser respondido a ocom o aux´ da l´gica indutiva. Na l´gica dedutiva as conseq¨ˆncias s˜o de- ılio o o ue aterminadas necessariamente pelas causas. Ja na l´gica indutiva o melhor que o Causas Causa Efeitos Efeitos provaveis (a) (b)Figura 9.1: Representa¸ao esquem´tica: (a) l´gica dedutiva; (b)l´gica indutiva. c˜ a o o 75
  • 76 CAP´ ¸˜ ` ¸˜ ITULO 9. INTRODUCAO A ESTIMACAO BAYESIANApodemos fazer ´ determinar as causas mais prov´veis baseados nos dados e em e aqualquer informa¸ao a priori que tenhamos a nossa disposi¸ao. Nesta situa¸ao c˜ c˜ c˜nos reservamos o direito de revisar aquilo que acreditamos prov´vel dependendo ade novas evidˆncias que nos sejam apresentadas. e9.2 Axiomas de Cox revisitadosOs Axiomas de Cox foram discutidos no cap´ ıtulo 2 e podem ser traduzidosem propriedades de probabilidades. Estes axiomas e as respectivas equa¸oesc˜relacionando probabilidades s˜o: a Axioma 1. A probabilidade de uma inferˆncia dada determinada evidˆncia e edetermina a probabilidade da seu oposto dada a mesma evidˆncia. Assim, a eprobabilidade de chover dado que o c´u est´ nublado determina a probabilidade e ade n˜o chover dado que o c´u est´ nublado. a e a ¯ P (X|I) + P (X|I) = 1. (9.1) Axioma 2. A probabilidade de que duas inferˆncias (X e Y) sejam si- emultaneamente verdadeiras dada certa evidˆncia (I) ´ determinada pela proba- e ebilidade de que X seja verdadeira dada I e, separadamente, pela probabilidadede Y ser verdadeira dada I e X. Por exemplo, a probabilidade do Brasil serhexacampe˜o na Alemanha e Adriano ser o artilheiro, dada a experiˆncia que a etemos em assistir jogos da sele¸ao, ´ determinada pela probabilidade do Brasil c˜ eser hexa, dados os jogos que assistimos, e pela probabilidade de Adriano ser o a ´artilheiro, dados os jogos que assistimos e se o Brasil for hexacampe˜o. E claroque o evento composto s´ pode ocorrer se, pelo menos, o Brasil for primeiro ohexacampe˜o.a P (X, Y |I) = P (X|Y, I)P (Y |I). (9.2) Como corol´rios imediatos dos axiomas de Cox temos o, tamb´m j´ apre- a e asentados, Teorema de Bayes: P (Y |X, I)P (X|I) P (X|Y, I) = , (9.3) P (Y |I)e a propriedade de marginaliza¸ao: c˜ P (X|I) = dy P (X, y|I). (9.4) O teorema de Bayes resume o procedimento assumido para an´lise de dados ada seguinte maneira: P (Hipotese|Dados, I) ∝ P (Dados|Hipotese, I)P (Hipotese|I). (9.5)O termo P (Hipotese|I) ´ conhecido como probabilidade a priori e designa o ecren¸a que temos na veracidade da hip´tese antes de examinarmos os dados. c o
  • ´9.3. UM POUCO DE HISTORIA 77 P(M|O,I) m1 m2 Massa de SaturnoFigura 9.2: Representa¸ao esquem´tica do resultado da an´lise de Laplace para c˜ a aa massa de Saturno.O termo P (Dados|Hipotese, I) ´ conhecido por verossimilhan¸a (no inglˆs like- e c elihood) e expressa o qu˜o bem a hip´tese escolhida ´ capaz de reproduzir os a o edados observados. Finalmente, o termo P (Hipotese|Dados, I) ´ a probabilidade eposterior e indica a nossa cren¸a na hip´tese ap´s a an´lise dos dados. Note que c o o atodos os termos carregam dependˆncia condicional na informa¸ao dispon´ I. e c˜ ıvelEm estat´ıstica Bayesiana todas as probabilidades s˜o condicionais. a9.3 Um pouco de hist´ria oJames Bernoulli (1713) foi, possivelmente, o primeiro a notar a diferen¸a entre a cl´gica dedutiva utilizada em matem´tica e na an´lise dos jogos de azar e a l´gica o a a oindutiva empregada na maioria dos problemas do dia a dia. Para ele a quest˜o aimportante era como a l´gica dedutiva, bem conhecida desde Arist´teles, pode- o oria ser utilizada para ajudar a resolver os problemas que exigissem racioc´ ınioindutivo. A primeira resposta aos questionamentos de Bernoulli surgiram com oReverendo Thomas Bayes em um artigo publicado postumamente por um amigo.No entanto, a forma moderna do teorema somente nasceu em 1812 com Laplace,que redescobriu por conta pr´pria a id´ia de Bayes e a utilizou com enorme o esucesso para resolver problemas em mecˆnica celeste, medicina e at´ mesmo ju- a e e ´risprudˆncia. E poss´ dizer com tranquilidade que a inferˆncia bayesiana foi ıvel edescoberta e utilizada em situa¸oes pr´ticas antes da inferˆncia cl´ssica. Ape- c˜ a e asar dos in´meros sucessos obtidos por Laplace, esta forma de inferˆncia passou a u eser ignorada a partir da metade do s´culo dezenove por decis˜o de matem´ticos e a aque assumiram o desenvolvimento do tema. Esta decis˜o foi motivada pela acren¸a de que n˜o seria poss´ desenvolver-se uma teoria matem´tica rigorosa c a ıvel asobre probabilidades que representassem graus de cren¸a, intrinsecamente sub- cjetivos, como sustentavam os Bernoullis, Bayes e Laplace. Estes matem´ticos aoptaram por definir probabilidades como a freq¨ˆncia relativa de ocorrˆncia do ue e
  • 78 CAP´ ¸˜ ` ¸˜ ITULO 9. INTRODUCAO A ESTIMACAO BAYESIANAevento no limite de infinitas repeti¸oes do experimento. Apesar desta defini¸ao c˜ c˜de probabilidade parecer mais objetiva, ela tamb´m ´ mais limitada nas suas e eaplica¸oes. Por exemplo, Laplace utilizou a teoria de probabilidades (bayesiana) c˜para estimar a massa de Saturno, dada informa¸ao orbital dispon´ em v´rios c˜ ıvel aobservat´rios astronˆmicos. Essencialmente, Laplace calculou a probabilidade o oposterior da massa M dados os dados de orbitas O e toda informa¸ao dispon´ ´ c˜ ıvelI (as leis da mecˆnica como o melhor exemplo desta informa¸ao) P (M |O, I) (ex- a c˜ibida na figura). Para Laplace a area sob a curva entre m1 e m2 representava sua cren¸a em um ´ cvalor de massa em m1 ≤ M ≤ m2 dados a informa¸ao dispon´ (observa¸oes e c˜ ıvel c˜leis f´ ısicas). Assim sendo o m´ximo do posterior representa a melhor estimativa ae sua largura representa a incerteza relacionada. Laplace completou sua an´lise adizendo: “´ uma aposta de 11000 para 1 que o erro no resultado n˜o seja de um e acent´simo de seu valor”. Laplace teria ganhado a aposta, visto que 150 anos de edados s´ modificaram sua estimativa em 0, 63%. o9.4 Estima¸˜o de parˆmetros ca aO problema que Laplace buscou resolver consistia na obten¸ao de um unico c˜ ´parˆmetro a partir de nosso conhecimento pr´vio e dos dados. Nesta se¸ao detal- a e c˜haremso o procedimento bayesiano em situa¸oes nas quais apenas um parˆmetro c˜ aest´ envolvido. a9.4.1 Uma moeda ´ honesta? eSuponha que vocˆ esteve em Las Vegas nas f´rias e l´ tenha encontrado uma e e amoeda que achou muito estranha: ao arremessala 11 vezes, obteve 4 Caras. Seriaesta moeda honesta? Por honesta entendemos uma moeda na qual vocˆ estaria edisposto a apostar 50 contra 50 em uma cara ou coroa. Em princ´ ıpio podemosdescrever a propriedade de honestidade da moeda com pesos, H = 0 represen-taria uma moeda que apenas desse como resultado Coroa, H = 1 representariauma moeda que apenas desse como resultado Cara. Uma moeda honesta cor-responderia, portanto, a H = 0, 5. Poder´ ıamos assim formular proposi¸oes do c˜tipo: (a) 0 ≤ H ≤ 0, 01; (b) 0.01 ≤ H ≤ 0, 02 ou (c) 0.02 ≤ H < 0.03.Nosso estado de conhecimento sobre a honestidade da moeda pode, portanto,ser resumido na especifica¸ao de quanto n´s acreditamos na veracidade de c˜ ocada proposi¸ao. Se n´s associamos uma probabilidade alta a uma particu- c˜ olar proposi¸ao isso ir´ refletir nosso grau de confian¸a nessa proposi¸ao. O que c˜ a c c˜desejamos ´ calcular o posterior p(H|D, I) onde D s˜o os resultados observados. e aPelo teorema de Bayes temos que: p(H|D, I) ∝ p(D|H, I)p(H|I). (9.6)Nosso conhecimento a priori consiste na observa¸ao de que encontramos uma c˜moeda que consideramos muito estranha em Las Vegas. Como sabemos que oscassinos n˜o s˜o os lugares mais confi´veis do mundo em se tratando de jogos, a a a
  • ¸˜ ˆ9.4. ESTIMACAO DE PARAMETROS 79 1 0.8 0.6 P(H|D,I) 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 H Figura 9.3: Posterior para a moeda que exibiu 4 caras em 11 arremessos.devemos manter a mente aberta sobre o grau de honestidade da moeda. Paraisso introduzimos uma distribui¸ao a priori uniforme: c˜ 1 , se 0 ≤ H ≤ 1; p(H|I) = (9.7) 0 , c.c. Esta distribui¸ao a priori uniforme expressa um estado de completa ig- c˜norˆncia. Os resultados dos lan¸amentos D ir˜o modificar nosso estado inicial a c ade completa ignorˆncia. Para sabermos como se dar´ este processo de modi- a afica¸ao precisamos avaliar a verossimilhan¸a p(D|H, I). A verossimilhan¸a ir´ c˜ c c adepender de nosso modelo para uma moeda com uma dada honestidade H. Seassumirmos que os lan¸amentos s˜o independentes, poderemos imaginar que c auma seq¨ˆncia particular D ´ resultado de um processo de Bernoulli com prob- ue eabilidade H de resultar em Cara e com probabilidade 1 − H de resultar emCoroa. Dessa maneira a verossimilhan¸a de uma seq¨ˆncia D com r Caras em c ueum total de N lan¸amentos seria descrita por: c p(D|H, I) ∝ H r (1 − H)N −r . (9.8)Note que para o nosso uso a constante de normaliza¸ao do modelo binomial ser´ c˜ airrelevante (por que?). Finalmente, obtemos a distribui¸ao posterior de nosso c˜interesse como: p(H|D, I) ∝ H r (1 − H)N −r . (9.9)O posterior ´ exibido na figura. Note que o m´ximo do posterior esta situado e aem 0.27 = 3/11, que ´ justamente a probabilidade emp´ e ırica que esperar´ ıamos. Vejamos agora o problema de uma outra maneira. Inicialmente nosso estadoera de completa ignorˆncia. Suponha que tivessemos jogado a moeda uma unica a ´vez, qual seria nosso estado de conhecimento ap´s observarmos uma Cara em oum unico lan¸amento? E ap´s dois lan¸amentos resultando em duas Caras? A ´ c o cfigura mostra a evolu¸ao de nossa cren¸a ap´s estes dois resultados. Note que, c˜ c o
  • 80 CAP´ ¸˜ ` ¸˜ ITULO 9. INTRODUCAO A ESTIMACAO BAYESIANA 2 P(H|I) 1 0 0 0.2 0.4 0.6 0.8 1 1 P(H|D,I) 0.5 0 0 0.2 0.4 0.6 0.8 1 1 P(H|D,I) 0.5 0 0 0.2 0.4 0.6 0.8 1 HFigura 9.4: Topo: Distribui¸ao a priori. Meio: Posterior ap´s uma Cara. Baixo: c˜ oPosterior ap´s 2 caras. oap´s duas Caras seguidas, tendemos a acreditar que a moeda seja viciada para o olado das Caras. Isso mudaria caso os pr´ximos lan¸amentos exibissem Coroas e o cCaras de forma mais equitativa. Podemos visulaizar o Teorema de Bayes comoum procedimento iterativo de atualiza¸ao a cada nova observa¸ao, assim: c˜ c˜ p(Ht |Dt , I) ∝ H δ(xt ;Cara) (1 − H)1−δ(xt ;Cara) p(Ht−1 |Dt−1 , I), (9.10)onde δ(xt ; Cara) = 1 se xt = Cara e δ(xt ; Cara) = 0 se xt = Coroa. Na pr´xima figura mostramos a evolu¸ao do posterior no caso de uma sim- o c˜ula¸ao de uma moeda justa. c˜ Mas o que ocorreria se partissemos de uma distribui¸ao a priori diferente? c˜Suponhamos, por exemplo, que acreditemos que a moeda seja enviesada oupara o lado da Cara ou para o lado da Coroa. Para representarmos tal vi´s eescolhemos um a priori com picos em H = 0 e H = 1 (vide figura). Note queap´s um n´mero suficientemente grande de observa¸oes o efeito da probabilidade o u c˜a priori ´ eliminado. Isso ´ compat´ com a mudan¸a em nossa cren¸a em um e e ıvel c cvi´s ap´s obtermos evidˆncia experimental suficiente. e o e9.5 Intervalos de Confian¸a cNo m´ximo da desnsidade posterior p(M | O, I) estimativa de maior probabil- aidade M0 , dados o conjunto de observa¸oes O e a informa¸ao extra I, assim, c˜ c˜temos a seguinte caracteriza¸ao para M0 : c˜ dp =0 (9.11) dM M0e d2 p < 0. (9.12) dM 2 M0
  • 9.5. INTERVALOS DE CONFIANCA ¸ 81 1 0.5 0 0 0.2 0.4 0.6 0.8 1 1 0.5 0 0 0.2 0.4 0.6 0.8 1 1 0.5 0 0 0.2 0.4 0.6 0.8 1 1 0.5 0 0 0.2 0.4 0.6 0.8 1 1 0.5 0 0 0.2 0.4 0.6 0.8 1 HFigura 9.5: Simula¸ao de uma moeda honesta. De cima para baixo: ap´s 5, 10, c˜ o100, 500 e 1000 lan¸amentos. c 1 0.9 0.8 P(H|I) 0.7 0.6 0.5 0.4 0 0.2 0.4 0.6 0.8 1 H Figura 9.6: Prior representado nossa cren¸a em um forte vi´s. c e
  • 82 CAP´ ¸˜ ` ¸˜ ITULO 9. INTRODUCAO A ESTIMACAO BAYESIANA 1 0.5 0 0 0.2 0.4 0.6 0.8 1 1 0.5 0 0 0.2 0.4 0.6 0.8 1 1 0.5 0 0 0.2 0.4 0.6 0.8 1 HFigura 9.7: A utiliza¸ao do prior considerando forte vi´s apenas modifica o c˜ eposterior nas primeiras jogadas. Ap´s um n´mero suficiente de observa¸oes nos o u c˜convencemos de que a moeda na realidade n˜o possui o vi´s pressuposto. a eEquivalentemente podemos utilizar a fun¸ao L(M ) = log p(M | O, I). Al´m da c˜ eestimativa do valor mais prov´vel para M , queremos conhecer a incerteza desta aestimativa. Esta incerteza est´ relacionada a largura do posterior, conforme a `representa a figura. Assim um intervalo de confian¸a com probabilidade α ´ c edefinido como o intervalo de menor amplitude que contenha a estimativa M 0 detal forma que: m2 P (m1 ≤ M ≤ m2 ) = dm p(m | O, I) = α. (9.13) m1 Podemos avaliar o intervalo de confian¸a numericamente utilizando (??) di- cretamente. Podemos tamb´m buscar uma aproxima¸ao que permita o c´lculo e c˜ aanal´ıtico deste intervalo. Para isso podemos expandir L(M ) em uma s´rie de eTaylor em torno do m´ximo e aproximarmos o posterior por uma distribui¸ao a c˜normal cuja largura ´ definida simplesmente pelo desvio padr˜o σ. Dessa e amaneira teremos: 1 d2 L L(M ) ≈ L(M0 ) + (M − M0 )2 . (9.14) 2 dM 2 M0A aproxima¸ao para o posterior ser´, portanto: c˜ a 1 d2 L p(M |O, I) ≈ A exp (M − M0 )2 , (9.15) 2 dM 2 M0que podemos relacionar a distribui¸ao normal adotando: ` c˜ −1/2 1 d2 L σ= − . (9.16) 2 dM 2 M0 ˆDessa forma uma estimativa com 67% de confian¸a seria dada por M = M0 ± σ, ccom 95% de confina¸a ter´ c ˆ ıamos M = M0 ± 2σ.
  • 9.6. EXERC´ ICIOS 83 P(M|O,I) m1 M0 m2Figura 9.8: Representa¸ao para o intervalo de confian¸a da estimativa do c˜ cparˆmetro M . a9.5.1 Exemplo 1: Estimando a honestidade de uma moedaSe assumirmos independˆncia entre diferentes lan¸amentos da moeda e uma e cdistribui¸ao a priori representando ignorˆncia teremos a seguinte distribui¸ao c˜ a c˜posterior: p(H|D, I) ∝ H r (1 − H)N −r . (9.17) Assim teremos que: L(H) = constante + r log(H) + (N − r) log(1 − H). (9.18) A estimativa de H ´ dada pelo m´ximo de L(H), definido por: e a dL r N −r = − = 0. (9.19) dH H0 H0 1 − H0O que resulta em r H0 = . NA barra de erro para esta estimativa ser´ dada na aproxima¸ao normal por: a c˜ −1/2 1 d2 L H0 (1 − H0 ) σ= − = . (9.20) 2 dH 2 H0 NDessa maneira a estimativa com intervalo de confian¸a de, por exemplo, 95% c a ˆser´ H = H0 ± 2σ. Note que o enfoque bayesiano permite que reobtamos oresultado cl´ssico sem necessidade de descri¸ao de distribui¸oes amostrais. a c˜ c˜9.6 Exerc´ ıciosEstima¸ao da m´dia de dados com erro de medida gaussianos. Estime a m´dia c˜ e ede um conjunto de N medidas independentes com erros distribuios de formanormal com desvio padr˜o conhecido σ. a
  • 84 CAP´ ¸˜ ` ¸˜ ITULO 9. INTRODUCAO A ESTIMACAO BAYESIANA 1. Escreva a distribui¸ao normal que descreve cada medida xk em torno da c˜ m´dia µ. e 2. Escreva a fun¸ao de verossimilhan¸a para o conjunto de N medidas lem- c˜ c brando que a propriedade de independˆncia implica em e N p(xk | µ, σ, I) = p(xk | µ, σ, I). k=1 3. Escreva o teorema de Bayes para obten¸ao do posterior p(µ | xk , σ, I). c˜ Assuma a seguinte distribui¸ao a priori c˜ A , se µmin ≤ µ ≤ µmax ; p(µ|σ, I) = 0 , c.c. 4. Calcule o log-posterior L(µ) = log p(µ|σ, I). 5. Encontre a estimativa µ calculando o ponto de m´ximo do log-posterior. ˆ a Mostre que esta estimativa ´ e N 1 µ0 = xk . N k=1 6. Encontre a barra de erro aproximada s para a estimativa µ calculando a ˆ segunda derivada do log-posterior. Mostre que σ s= √ . N9.7 Referˆncias eUm excelente livro sobre a an´lise de dados bayesiana ´: a e • Sivia, D.S., Data Analysis: A Bayesian Tutorial, Claredon Press, 1997.Sobre os axiomas de Cox e t´picos avan¸ados veja: o c • Cox,R., The Algebra of Probable Inference, John Hopkins Press, 1961. • Jaynes, E.T., Probability Theory: The Logic of Science, Cambridge Uni- versity Press, 2003.