Probabilità a priori informative - Statistica bayesiana

474
-1

Published on

Relazione di statistica bayesiana sulle probabilità a priori informative:
- definizione
- concetto di buona assegnazione di probabilità
- formula di Bayes
- esempi di aggiornamento delle probabilità per distribuzioni discrete e continue
- misture di famiglie coniugate
- probabilità a priori di massima entropia

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
474
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Probabilità a priori informative - Statistica bayesiana

  1. 1. Corso di Laurea Magistrale in Scienze Statistiche LE PROBABILITA’ A PRIORI INFORMATIVE A.A. 2008/2009
  2. 2. Le probabilità a priori: una questione controversa Fine di un paradigma o sua evoluzione? APPROCCIO DECISIONALE Determinanti di una decisione: esperienza a priori campione conseguenze potenziali Concetto di “informazione allargata”, che comprende anche quella inosservabile, consente di formalizzare l’esperienza a priori tramite modelli probabilistici.
  3. 3. Le probabilità a priori: una questione controversa Fine di un paradigma o sua evoluzione? SOGGETTIVITA’ nella scelta delle probabilità mette in discussione la scientificità della statistica mancanza di protezione da rappresentazioni distorte della realtà
  4. 4. Le probabilità a priori: una questione controversa La scelta dipende dall’ammontare di informazione disponibile Se esiste tanta informazione in materia In letteratura esiste una distribuzione a priori usata comunemente con valori dei parametri già specificati Se l’informazione è parziale Si ricorre alle probabilità a priori informative Se non si hanno informazioni Si utilizzano probabilità a priori non informative, tali da non veicolare alcun tipo di conoscenza a priori all’interno del modello utilizzato
  5. 5. Le probabilità a priori informative Le probabilità a priori informative sono probabilità stabilite dal soggetto che effettua lo studio - prima di procedere all’osservazione della realtà - in base alla plausibilità che egli attribuisce a ciascun valore del parametro. Legame indissolubile con il giudizio del soggetto “assertore”, che esprime il “grado di credibilità”– degree of belief – che egli attribuisce ad un insieme di valori plausibili del parametro.
  6. 6. Le probabilità a priori informative Regole nella scelta delle probabilità a priori Osservabilità Solo gli eventi verificabili (osservabili) nella realtà possono essere oggetto di assegnazione di probabilità Coerenza Rispetto degli assiomi di Kolmogorov, così da garantire la comprensibilità del linguaggio probabilistico e l’assenza di contraddizioni
  7. 7. Le probabilità a priori informative Una “buona” assegnazione di probabilità Definizione A chi compete? Bontà sostanziale dipende dalla conoscenza che l’assertore ha riguardo l’oggetto dell’asserzione all’ esperto in materia Bontà normativa legata all’abilità dell’assertore ad esprimere le sue opinioni in forma probabilistica. allo statistico Necessità di una integrazione tra le due competenze per raggiungere un’assegnazione il più possibile vicina alla realtà.
  8. 8. Le probabilità a priori informative Tipologie di probabilità a priori informative Probabilità a priori coniugate Probabilità a priori di massima entropia
  9. 9. Probabilità a priori coniugate La trattabilità matematica della formula di Bayes Una probabilità a priori verosimiglianza coniugata con la funzione di consente la semplificazione matematica della formula di Bayes: poiché la probabilità a posteriori apparterrà alla stessa famiglia di quella a priori.
  10. 10. Probabilità a priori coniugate La libertà di scelta è assicurata da: i parametri della curva, che per certe distribuzioni – per es. la Beta – possono modificare radicalmente l’andamento della curva l’esistenza di famiglie coniugate mistura, che ampliano lo spettro di distribuzioni che possono esser utilizzate
  11. 11. Probabilità a priori coniugate Definizione di famiglia coniugata Sia F= f X ( x | s), s S una classe di funzioni di verosimiglianza e P un insieme di funzioni di probabilità – discrete o continue; se, per ogni x, ciascun f X ( x | sF e ) probabilità a posteriori p S s | x P, p S s la risultante funzione di f X ( x | s) p S s è ancora in P, allora P è chiamata famiglia coniugata, o famiglia di probabilità a priori coniugate, per F.
  12. 12. Probabilità a priori coniugate Caratteristiche di una famiglia coniugata Le famiglie sono: • il più piccole possibile • parametrizzate il calcolo delle probabilità a posteriori si riduce ad un aggiornamento dei parametri associati alla probabilità a priori coniugata.
  13. 13. Probabilità a priori coniugate Famiglie coniugate di particolari distribuzioni di probabilità
  14. 14. Probabilità a priori coniugate Esempio di updating per variabili aleatorie discrete  Distribuzione a priori: Beta g ( ; a, b) ( a b) (a ) (b) a 1 (1 ) b 1 ,0 1  Verosimiglianza del parametro rispetto alle osservazioni: Binomiale g( y | ) n y y (1 )n y  Nel calcolo delle probabilità a posteriori le costanti possono essere omesse. Allora sarà: ( a b) e (a) (b) n y
  15. 15. Probabilità a priori coniugate Esempio di updating per variabili aleatorie discrete g ( | y) a 1 (1 )b 1 y (1 )n y a y 1 (1 )b n y 1  cioè la probabilità a posteriori è ancora della famiglia Beta, con i parametri aggiornati: ( | y) Beta(a a y, b b n y)
  16. 16. Probabilità a priori coniugate Esempio di updating per variabili aleatorie continue  Quando la probabilità a priori e la funzione di verosimiglianza sono entrambe normali, cioè: - - g( ) exp( f (y | ) ( m) 2 ) 2 2s (y exp( 2 N ( m, s 2 ) )2 2 ) y N( , 2 )
  17. 17. Probabilità a priori coniugate Esempio di updating per variabili aleatorie continue  la probabilità a posteriori ha questa forma: g ( | y1 , y2 ,..., yn ) exp 1 1 2 ( 2 2 s 2 ns 2 n 2 s n 2 1 m s 2 n 2 2 1 y s2  quindi la distribuzione a posteriori è ancora normale, ma con i parametri aggiornati N (m ' , ( s 2 ) ' )
  18. 18. Probabilità a priori coniugate Esempio di updating per variabili aleatorie continue  Infatti, definendo la precisione di una distribuzione come il reciproco della varianza, con la proprietà dell’additività, la varianza a posteriori viene calcolata proprio dalla precisione a posteriori, ottenuta come somma tra la precisione a priori e la precisione delle osservazioni: 1 2 ' (s ) n 2 1 s 2 (s ) , da cui 2 2 2 2 ' s 2 ns 2  mentre la media a posteriori è la media ponderata della media a priori e quella osservata, dove i pesi sono dati rispettivamente dalla proporzione della precisione a posteriori dovuta alla distribuzione a priori e da quella dovuta alla distribuzione campionaria: 1 m' n 2 s n 2 1 m s 2 n 2 2 1 y s2
  19. 19. Probabilità a priori coniugate Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilità a priori coniugate - quota di mercato ottenuta da un nuovo brand. - distribuzione triangolare, cioè g( )=2(1- g(π) . π ), o anche Beta(3,1)
  20. 20. Probabilità a priori coniugate Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilità a priori coniugate  Si estragga un campione casuale di 5 consumatori: solo uno dei 5 compra il nuovo prodotto.  Dal momento che la quota di mercato è una proporzione e . supponendo le decisioni degli individui estratti indipendenti, si può . ipotizzare una f.d.v. Binomiale, cioè f (x | ) 5 x x (1 ) 5 x 5 1 (1 )4 5 (1 )4
  21. 21. Probabilità a priori coniugate Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilità a priori coniugate  Calcolo delle probabilità a posteriori g ( | x) g( ) f (x | ) 1 2(1- ) * 5 (1 1 g ( ) f ( x | )d . 0 )4 10 (1 )5 10 (1 )5 d 1 2(1- . ) * 5 (1 4 ) d 0  La distribuzione a posteriori è quindi 10 (1 ) 5 10 / 42 0 ( | x) Beta(8,2) 42 (1 )5
  22. 22. Probabilità a priori coniugate Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilità a priori coniugate Posterior ( | x) 0.4 0.6 Beta(8,2) 3 f 2 . 1 0 -1 0 . 0.2 0.8 1 x  In realtà, sarebbe bastato osservare che la distribuzione beta è la famiglia coniugata delle funzioni di verosimiglianza binomiali e, al fine di individuare le probabilità a posteriori, procedere all’updating dei parametri
  23. 23. Probabilità a priori coniugate Misture di famiglie coniugate . L’introduzione di misture di famiglie coniugate permette di raggiungere una maggiore libertà e flessibilità nella formalizzazione delle conoscenze a priori . Proprietà di approssimazione universale
  24. 24. Probabilità a priori coniugate Definizione di mistura di famiglie coniugate Se P è una famiglia coniugata per F, lo è qualsiasi mistura m-dimensionale costruita con elementi di P. Se però è la verosimiglianza ad essere una mistura di funzioni di F, la probabilità a posteriori risultante dalla combinazione di questa verosimiglianza con una probabilità a priori da P, non appartiene a P. E’ possibile adottare una famiglia coniugata mistura per verosimiglianze di tipo mistura.
  25. 25. Probabilità a priori coniugate Applicazione sulle misture di famiglie coniugate  CAMPIONE Sia S una quantità ignota osservata n volte (cioè si estrae un campione casuale composto da n unità x1,x2,…xn) da una popolazione che si suppone ( s, 2 ) con varianza nota. La funzione di verosimiglianza sarà:
  26. 26. Probabilità a priori coniugate Applicazione sulle misture di famiglie coniugate  PROBABILITA’ A PRIORI Si supponga che la conoscenza a priori del fenomeno spinga a ritenere che: - la probabilità che s sia vicina allo 0 è molto alta cioè p(s=0)→1; - c’è una probabilità positiva, ma bassa, che il parametro assuma valori molto lontani dallo 0. Questo tipo di comportamento fa pensare ad una distribuzione a code pesanti, non contemplata nella famiglia coniugata normale. E’ quindi necessario ricorrere ad un modello mistura per le probabilità a priori:
  27. 27. Probabilità a priori coniugate Applicazione sulle misture di famiglie coniugate Una distribuzione N(s| 2 0 ), con 2 0 =1 Una distribuzione N(s| Il modello mistura di a) e b), con 0 0 .2 2 1), con 2 1 =20
  28. 28. Probabilità a priori coniugate Applicazione sulle misture di famiglie coniugate  PROBABILITA’ A POSTERIORI NELLA MIXTURE FORM Aggiornamento del peso:
  29. 29. Probabilità a priori di massima entropia Il metodo della massima entropia ha come obiettivo la ricerca di una probabilità a priori il più oggettiva (il meno informativa) possibile, pur non rinunciando all’informazione parziale disponibile.
  30. 30. Probabilità a priori di massima entropia L’informazione L’informazione può essere rappresentata da un codice costituito da una sequenza di bit. Quando viene posta una domanda, essa porta con sé una quantità di incertezza sulla risposta corretta proporzionale alle alternative disponibili. Se la domanda (variabile) X ha N risposte alternative (determinazioni), l’incertezza (Uncertainty) ad essa associata è pari a: U(X ) log 2 N X
  31. 31. Probabilità a priori di massima entropia L’informazione Numero di Alternativ e Probabilità logica delle opzioni Bits 1 1 0 2 0.5 1 4 0.25 2 … … … 256 0.00390625 1 N 8 N log 2 N
  32. 32. Probabilità a priori di massima entropia L’informazione Se x è una risposta – o un insieme di risposte - alternativa alla domanda X (cioè una determinazione - o un insieme di determinazioni - della variabile X), allora l’informazione che essa trasmette può esser definita come la differenza tra due stati di incertezza: I (x X ) U ( X ) U ( x) log 2 N X log 2 N x tanto più alta quanto più è bassa la probabilità di quell’evento: I ( x) log( P( x)) 1 log( ) P ( x)
  33. 33. Probabilità a priori di massima entropia L’entropia “L’entropia di una variabile aleatoria X è la media dell’ informazione I ( x i ) associata a ciascuna delle realizzazioni ( x1 , x2 ,..., xn ) della stessa”: n H (X ) E[ I ( xi )] I ( xi ) P ( xi ) i 1 dove con I ( xi ) si indica la “quantità di incertezza associata ad un evento, cioè l’informazione che si ottiene affermando che tale evento si è realizzato”
  34. 34. Probabilità a priori di massima entropia Probabilità a priori di massima entropia per problemi a natura discreta Quando il parametro s può assumere un numero finito di valori: s S s1 , s2 ,..., sM l’entropia della funzione di probabilità a priori p S (s ) è definita come: H (S ) si ES [log( 1 pS ( si ) log( ) pS ( si ) S ES I ( si ) 1 )] ES [ log pS ( si )] pS ( si )
  35. 35. Probabilità a priori di massima entropia Il metodo dei moltiplicatori di Lagrange Il metodo dei moltiplicatori di Lagrange è un metodo che serve “per trovare i massimi e i minimi di una funzione in più variabili soggetta ad uno o più vincoli”, che si pone “alla base dell’ottimizzazione lineare non vincolata.” “Esso riduce la ricerca dei punti stazionari di una funzione vincolata in n variabili con k vincoli a trovare i punti stazionari di una funzione non vincolata in n+k variabili, introducendo una nuova variabile scalare incognita per ogni vincolo”, detta moltiplicatore di Lagrange, “e definisce una nuova funzione (la Lagrangiana) in termini della funzione originaria, dei vincoli e dei moltiplicatori di Lagrange.”
  36. 36. Probabilità a priori di massima entropia Metodo dei moltiplicatori di Lagrange e massimizzazione dell’entropia per problemi a natura discreta Poiché anche la massimizzazione dell’entropia rientra tra i problemi di ottimizzazione vincolata, essa viene trattata con il metodo dei moltiplicatori di Lagrange. Una probabilità a priori di massima entropia per problemi a natura discreta è una funzione di probabilità che massimizza l’entropia (l’incertezza) tra tutte le funzioni compatibili con l’informazione parziale disponibile che, per l’applicabilità del criterio, deve essere espressa formalmente (rappresenta i vincoli al problema di massimizzazione): pS (si ) g k (si ) k per k=0,1,…,m, si S p S (si ) 1 è il vincolo onnipresente. dove si S
  37. 37. Probabilità a priori di massima entropia Metodo dei moltiplicatori di Lagrange e massimizzazione dell’entropia per problemi a natura discreta Sotto questo tipo di vincoli, la probabilità a priori di massima entropia per problemi a natura discreta assume la forma: m p ME S k gk 0 (s) e k 1 , dove i valori dei parametri soluzioni del problema di ottimizzazione vincolata di ME p S (s ) k sono
  38. 38. Probabilità a priori di massima entropia La distribuzione che massimizza l’entropia per problemi a natura discreta  Problema: ricerca della distribuzione di probabilità a priori discreta g ( p1 , p2 ,... pn ) che massimizza l’entropia: n g ( p1 , p2 ,...pn ) : pk ln pk k 1 dove l’unico vincolo è quello onnipresente. max H ( S ) pS ( s )
  39. 39. Probabilità a priori di massima entropia La distribuzione che massimizza l’entropia per problemi a natura discreta  Si possono usare i moltiplicatori di Lagrange per trovare il punto di massima entropia (dipendente dalle probabilità). Per tutti i k da 1 a n, si richieda che: (g (f p S ( sk ) exp pk 1)) 0 1 Questo dimostra che tutti i pk sono uguali (perché dipendono da λ soltanto).
  40. 40. Probabilità a priori di massima entropia La distribuzione che massimizza l’entropia per problemi a natura discreta  Utilizzando il vincolo ∑k pk = 1, troviamo: pk 1/ N La distribuzione uniforme è la distribuzione di massima entropia
  41. 41. Probabilità a priori di massima entropia La distribuzione che minimizza l’entropia per problemi a natura discreta  Distribuzione di probabilità discreta: p S ( sk ) 1 p S ( sk ) , dove e 1 k i  Ma se tende a 0, allora devono farlo tutti i p S ( sk ), cioè: La concentrazione della massa di probabilità su un solo punto massimizza la certezza e minimizza l’informazione.
  42. 42. Probabilità a priori di massima entropia Probabilità a priori di massima entropia per problemi a natura continua L’informazione disponibile, che rappresenta i vincoli al problema di massimizzazione dell’entropia, è espressa come: pS ( s) g k ( s)ds k=0, 1,…, m k S La probabilità a priori di massima entropia diventa m ME S p k gk 0 ( s) qS ( s)e (s) k 1 dove i parametri sono ricavati dai vincoli. per s S,
  43. 43. Probabilità a priori di massima entropia Probabilità a priori di massima entropia per problemi a natura continua Non esiste la distribuzione che massimizza l’entropia, ma occorre di volta in volta scegliere una distribuzione a priori qS(s) non informativa. Se non ci sono vincoli espliciti oltre la normalizzazione, allora la probabilità a priori di massima entropia coincide con la densità noninformativa qS(s) prescelta.
  44. 44. Grazie per l’attenzione! Carla Guadalaxara
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×