Relazione di statistica bayesiana sulle probabilità a priori informative:
- definizione
- concetto di buona assegnazione di probabilità
- formula di Bayes
- esempi di aggiornamento delle probabilità per distribuzioni discrete e continue
- misture di famiglie coniugate
- probabilità a priori di massima entropia
Corso di Statistica del Prof. Garau.
Slide a cura di Giorgio Garau e Lucia Schirru.
Differenze tra variabili, le rappresentazioni grafiche, il calcolo delle frequenze cumulate e la funzione di ripartizione
Quando si fa inferenza si cerca di indurre le caratteristiche sconosciute della popolazione a partire dalle informazioni campionarie. Più precisamente, fare inferenza significa:
Stimare: approssimare un parametro ignoto a partire dai dati campionari.
Testare delle ipotesi: verificare, utilizzando i dati campionari, la significatività statistica di ipotesi sulla distribuzione dei caratteri studiati, cioè sulla forma della distribuzione e sui valori che la qualificano: la media e lo scarto quadratico medio.
Quando non è conveniente o possibile esaminare l’intera popolazione si ricorre allo studio di un campione rappresentativo di essa, estendendo attraverso l’inferenza, i risultati del campione all’intera popolazione.
La decisione sull'inseminazione degli uragani - teoria statistica delle decis...Carla Gua
Questo lavoro si propone di descrivere la ricerca svolta dai tre studiosi americani Ronald A. Howard, James E. Matheson e D. Warner North e pubblicata nell’articolo “The decision to seed hurricanes” del 1972.
Esso è costituito da un case study in cui viene applicata la teoria statistica bayesiana delle decisioni come strumento di ottimizzazione di una scelta di politica governativa.
Struttura dello studio: inizialmente viene proposta una sintesi teorica della materia oggetto di studio, con specifico riferimento alle metodologie applicate nell’articolo analizzato; successivamente si passa alla descrizione dell’articolo, riproducendo la struttura dell’originale:
• si inquadra il fenomeno inseminazione degli uragani e la sua utilizzazione con un breve accenno alla sua storia;
• si descrive lo studio effettuato in termini di obiettivi e metodi utilizzati;
• si scende nei dettagli, dapprima focalizzandosi sulla sua parte centrale per poi passare alle estensioni;
• si riflette sul valore dell’informazione acquisita;
• si sintetizzano i risultati a cui si è giunti;
• si traggono le opportune conclusioni in merito all’indagine effettuata.
Analisi dei cluster - applicazione su dati campionato di pallavolo femminile ...Carla Gua
Introduzione teorica all’analisi dei cluster, in particolare sui metodi gerarchici agglomerativi (legame singolo, legame medio e centroide) e applicazione in SAS sul dataset pallavolo.
Corso di Statistica del Prof. Garau.
Slide a cura di Giorgio Garau e Lucia Schirru.
Differenze tra variabili, le rappresentazioni grafiche, il calcolo delle frequenze cumulate e la funzione di ripartizione
Quando si fa inferenza si cerca di indurre le caratteristiche sconosciute della popolazione a partire dalle informazioni campionarie. Più precisamente, fare inferenza significa:
Stimare: approssimare un parametro ignoto a partire dai dati campionari.
Testare delle ipotesi: verificare, utilizzando i dati campionari, la significatività statistica di ipotesi sulla distribuzione dei caratteri studiati, cioè sulla forma della distribuzione e sui valori che la qualificano: la media e lo scarto quadratico medio.
Quando non è conveniente o possibile esaminare l’intera popolazione si ricorre allo studio di un campione rappresentativo di essa, estendendo attraverso l’inferenza, i risultati del campione all’intera popolazione.
La decisione sull'inseminazione degli uragani - teoria statistica delle decis...Carla Gua
Questo lavoro si propone di descrivere la ricerca svolta dai tre studiosi americani Ronald A. Howard, James E. Matheson e D. Warner North e pubblicata nell’articolo “The decision to seed hurricanes” del 1972.
Esso è costituito da un case study in cui viene applicata la teoria statistica bayesiana delle decisioni come strumento di ottimizzazione di una scelta di politica governativa.
Struttura dello studio: inizialmente viene proposta una sintesi teorica della materia oggetto di studio, con specifico riferimento alle metodologie applicate nell’articolo analizzato; successivamente si passa alla descrizione dell’articolo, riproducendo la struttura dell’originale:
• si inquadra il fenomeno inseminazione degli uragani e la sua utilizzazione con un breve accenno alla sua storia;
• si descrive lo studio effettuato in termini di obiettivi e metodi utilizzati;
• si scende nei dettagli, dapprima focalizzandosi sulla sua parte centrale per poi passare alle estensioni;
• si riflette sul valore dell’informazione acquisita;
• si sintetizzano i risultati a cui si è giunti;
• si traggono le opportune conclusioni in merito all’indagine effettuata.
Analisi dei cluster - applicazione su dati campionato di pallavolo femminile ...Carla Gua
Introduzione teorica all’analisi dei cluster, in particolare sui metodi gerarchici agglomerativi (legame singolo, legame medio e centroide) e applicazione in SAS sul dataset pallavolo.
Un modo semplice per analizzare dati statistici (siano rappresentativi di frequenze o intensità) consiste nell’istituire un CONFRONTO tra di essi.
La statistica descrittiva si occupa anche di confronti tra dati statistici riferiti:
alle caratteristiche (frequenze o intensità) di parti di uno stesso collettivo;
ad uno stesso fenomeno osservato su collettività diverse;
alla comparazione delle sintesi effettuate sulle distribuzioni riferite ai collettivi (medie, indici di variabilità, ecc.);
a fenomeni diversi tra i quali sussista un nesso logico (“di parte al tutto”, di “causa ed effetto”, ecc.)
This is a presentation of the JGrass-newAGE system held in Potenza on February 24 20117. It contains an overview of concepts, ideas, behing JGrass-NewAGE ans shows some achievements in a critical manner.
Contiene alcune informazioni riguardanti il corso di Costruzioni Idrauliche per gli allievi ingegneri Civili dell'università di Trento, al primo anno della laurea magistrale
Introduzione alla geomorfologia. Dati digitali del terreno. Grandezze primarie: quote, pendenze, curvature. La classificazione del paesaggio in funzione delle curvature.
Tesi di laurea sullo studio statistico delle determinanti della permanenza in...Carla Gua
Analisi delle caratteristiche dell’accoglienza in una struttura residenziale, focalizzando l’attenzione sulle determinanti della durata della permanenza degli ospiti nelle strutture per minori, nonché sulla sistemazione finale a seguito delle dimissioni.
Il modello statistico utilizzato allo scopo è un modello grafico a catena, con blocchi corrispondenti alle fasi del percorso di entrata-permanenza-dimissioni del minore. I modelli grafici a catena consentono di visualizzare mediante un grafo le relazioni di indipendenza condizionata tra le variabili caratterizzanti il fenomeno in analisi, studiandone la distribuzione congiunta. Inoltre, il grafo permette di mettere in evidenza anche le relazioni indirette tra le variabili, cioè quelle relazioni
mediate dalla presenza di una o più variabili intermedie, impossibili da captare mediante un classico modello di regressione o di sopravvivenza. Grazie alla proprietà di fattorizzazione della distribuzione congiunta rispetto al grafo, è possibile scomporre la distribuzione congiunta delle variabili in studio in una successione di distribuzioni condizionate, che possono essere stimate separatamente, con modelli ad hoc.
I modelli statistici impiegati per studiare le influenze reciproche tra le variabili che descrivono le caratteristiche dell’ingresso del minore, tutte qualitative, e tra queste e le condizioni precedenti l’ingresso sono di tipo logit binario e ordinale. La durata della permanenza è invece analizzata, rispetto alle caratteristiche dell’ingresso del minore e delle condizioni precedenti l’ingresso, mediante il modello di Fine e Gray (1999). Tale modello costituisce la generalizzazione al caso di rischi competitivi del modello semiparametrico di Cox. La sopravvivenza di un collettivo di individui è studiata distinguendo, in relazione al cambiamento di stato, due eventi contrapposti: un evento principale e un altro evento “avversario”, che, se accade, impedisce la realizzazione del primo evento. Il modello permette di stimare la probabilità dell’occorrenza dell’evento principale al tempo t separatamente da quella dell’evento avversario, che invece non è specificata. Con questo modello a rischi competitivi la sopravvivenza dei minori nelle strutture può essere studiata rispetto alla sistemazione all’uscita, in base alla quale viene identificato, di volta in volta, l’ evento principale e l’evento avversario.
Un modo semplice per analizzare dati statistici (siano rappresentativi di frequenze o intensità) consiste nell’istituire un CONFRONTO tra di essi.
La statistica descrittiva si occupa anche di confronti tra dati statistici riferiti:
alle caratteristiche (frequenze o intensità) di parti di uno stesso collettivo;
ad uno stesso fenomeno osservato su collettività diverse;
alla comparazione delle sintesi effettuate sulle distribuzioni riferite ai collettivi (medie, indici di variabilità, ecc.);
a fenomeni diversi tra i quali sussista un nesso logico (“di parte al tutto”, di “causa ed effetto”, ecc.)
This is a presentation of the JGrass-newAGE system held in Potenza on February 24 20117. It contains an overview of concepts, ideas, behing JGrass-NewAGE ans shows some achievements in a critical manner.
Contiene alcune informazioni riguardanti il corso di Costruzioni Idrauliche per gli allievi ingegneri Civili dell'università di Trento, al primo anno della laurea magistrale
Introduzione alla geomorfologia. Dati digitali del terreno. Grandezze primarie: quote, pendenze, curvature. La classificazione del paesaggio in funzione delle curvature.
Tesi di laurea sullo studio statistico delle determinanti della permanenza in...Carla Gua
Analisi delle caratteristiche dell’accoglienza in una struttura residenziale, focalizzando l’attenzione sulle determinanti della durata della permanenza degli ospiti nelle strutture per minori, nonché sulla sistemazione finale a seguito delle dimissioni.
Il modello statistico utilizzato allo scopo è un modello grafico a catena, con blocchi corrispondenti alle fasi del percorso di entrata-permanenza-dimissioni del minore. I modelli grafici a catena consentono di visualizzare mediante un grafo le relazioni di indipendenza condizionata tra le variabili caratterizzanti il fenomeno in analisi, studiandone la distribuzione congiunta. Inoltre, il grafo permette di mettere in evidenza anche le relazioni indirette tra le variabili, cioè quelle relazioni
mediate dalla presenza di una o più variabili intermedie, impossibili da captare mediante un classico modello di regressione o di sopravvivenza. Grazie alla proprietà di fattorizzazione della distribuzione congiunta rispetto al grafo, è possibile scomporre la distribuzione congiunta delle variabili in studio in una successione di distribuzioni condizionate, che possono essere stimate separatamente, con modelli ad hoc.
I modelli statistici impiegati per studiare le influenze reciproche tra le variabili che descrivono le caratteristiche dell’ingresso del minore, tutte qualitative, e tra queste e le condizioni precedenti l’ingresso sono di tipo logit binario e ordinale. La durata della permanenza è invece analizzata, rispetto alle caratteristiche dell’ingresso del minore e delle condizioni precedenti l’ingresso, mediante il modello di Fine e Gray (1999). Tale modello costituisce la generalizzazione al caso di rischi competitivi del modello semiparametrico di Cox. La sopravvivenza di un collettivo di individui è studiata distinguendo, in relazione al cambiamento di stato, due eventi contrapposti: un evento principale e un altro evento “avversario”, che, se accade, impedisce la realizzazione del primo evento. Il modello permette di stimare la probabilità dell’occorrenza dell’evento principale al tempo t separatamente da quella dell’evento avversario, che invece non è specificata. Con questo modello a rischi competitivi la sopravvivenza dei minori nelle strutture può essere studiata rispetto alla sistemazione all’uscita, in base alla quale viene identificato, di volta in volta, l’ evento principale e l’evento avversario.
Tesi di laurea sullo studio statistico delle determinanti della permanenza in...
Probabilità a priori informative - Statistica bayesiana
1. Corso di Laurea Magistrale in Scienze Statistiche
LE PROBABILITA’ A PRIORI
INFORMATIVE
A.A. 2008/2009
2. Le probabilità a priori: una questione controversa
Fine di un paradigma o sua evoluzione?
APPROCCIO DECISIONALE
Determinanti di una decisione:
esperienza a priori
campione
conseguenze potenziali
Concetto di “informazione allargata”, che comprende anche
quella inosservabile, consente di formalizzare l’esperienza a
priori tramite modelli probabilistici.
3. Le probabilità a priori: una questione controversa
Fine di un paradigma o sua evoluzione?
SOGGETTIVITA’
nella scelta delle probabilità
mette in discussione la scientificità della statistica
mancanza di protezione da rappresentazioni distorte della realtà
4. Le probabilità a priori: una questione controversa
La scelta dipende dall’ammontare
di informazione disponibile
Se esiste tanta informazione in materia
In letteratura esiste una distribuzione a priori usata comunemente con
valori dei parametri già specificati
Se l’informazione è parziale
Si ricorre alle probabilità a priori informative
Se non si hanno informazioni
Si utilizzano probabilità a priori non informative, tali da non veicolare
alcun tipo di conoscenza a priori all’interno del modello utilizzato
5. Le probabilità a priori informative
Le probabilità a priori informative sono probabilità stabilite dal soggetto
che effettua lo studio - prima di procedere all’osservazione della realtà - in
base alla plausibilità che egli attribuisce a ciascun valore del parametro.
Legame indissolubile con il giudizio del soggetto “assertore”, che esprime
il “grado di credibilità”– degree of belief – che egli attribuisce ad un insieme
di valori plausibili del parametro.
6. Le probabilità a priori informative
Regole nella scelta delle probabilità a priori
Osservabilità
Solo gli eventi verificabili (osservabili) nella realtà possono essere
oggetto di assegnazione di probabilità
Coerenza
Rispetto degli assiomi di Kolmogorov, così da garantire la
comprensibilità del linguaggio probabilistico e l’assenza di
contraddizioni
7. Le probabilità a priori informative
Una “buona” assegnazione di probabilità
Definizione
A chi compete?
Bontà
sostanziale
dipende dalla conoscenza che
l’assertore ha riguardo l’oggetto
dell’asserzione
all’ esperto in
materia
Bontà
normativa
legata all’abilità dell’assertore
ad esprimere le sue opinioni in
forma probabilistica.
allo statistico
Necessità di una integrazione tra le due competenze per
raggiungere un’assegnazione il più possibile vicina alla realtà.
8. Le probabilità a priori informative
Tipologie di probabilità a priori informative
Probabilità a priori coniugate
Probabilità a priori di massima entropia
9. Probabilità a priori coniugate
La trattabilità matematica della formula di Bayes
Una probabilità a priori
verosimiglianza
coniugata con la funzione di
consente
la
semplificazione
matematica della formula di Bayes:
poiché la probabilità a posteriori apparterrà alla stessa famiglia
di quella a priori.
10. Probabilità a priori coniugate
La libertà di scelta è assicurata da:
i parametri della curva, che per certe distribuzioni – per es. la Beta –
possono modificare radicalmente l’andamento della curva
l’esistenza di famiglie coniugate mistura, che ampliano lo spettro di
distribuzioni che possono esser utilizzate
11. Probabilità a priori coniugate
Definizione di famiglia coniugata
Sia F=
f X ( x | s), s
S
una classe di funzioni di verosimiglianza
e P un insieme di funzioni di probabilità – discrete o continue; se, per
ogni x, ciascun
f X ( x | sF e
)
probabilità a posteriori p S s | x
P,
p S s la risultante funzione di
f X ( x | s) p S s è ancora in
P, allora P è chiamata famiglia coniugata, o famiglia di probabilità a
priori coniugate, per F.
12. Probabilità a priori coniugate
Caratteristiche di una famiglia coniugata
Le famiglie sono:
• il più piccole possibile
• parametrizzate
il calcolo delle probabilità a
posteriori si riduce ad un
aggiornamento dei parametri
associati alla probabilità a
priori coniugata.
13. Probabilità a priori coniugate
Famiglie coniugate di particolari distribuzioni di probabilità
14. Probabilità a priori coniugate
Esempio di updating per variabili aleatorie discrete
Distribuzione a priori: Beta
g ( ; a, b)
( a b)
(a ) (b)
a 1
(1
) b 1 ,0
1
Verosimiglianza del parametro rispetto alle osservazioni:
Binomiale
g( y | )
n
y
y
(1
)n
y
Nel calcolo delle probabilità a posteriori le costanti
possono essere omesse. Allora sarà:
( a b)
e
(a) (b)
n
y
15. Probabilità a priori coniugate
Esempio di updating per variabili aleatorie discrete
g ( | y)
a 1
(1
)b
1
y
(1
)n
y
a y 1
(1
)b
n y 1
cioè la probabilità a posteriori è ancora della famiglia Beta, con i
parametri aggiornati:
( | y)
Beta(a
a
y, b
b n
y)
16. Probabilità a priori coniugate
Esempio di updating per variabili aleatorie continue
Quando la probabilità a priori e la funzione di verosimiglianza sono
entrambe normali, cioè:
-
-
g( )
exp(
f (y | )
(
m) 2
)
2
2s
(y
exp(
2
N ( m, s 2 )
)2
2
)
y
N( ,
2
)
17. Probabilità a priori coniugate
Esempio di updating per variabili aleatorie continue
la probabilità a posteriori ha questa forma:
g ( | y1 , y2 ,..., yn )
exp
1
1
2
(
2 2
s
2
ns
2
n
2
s
n
2
1
m
s
2
n
2
2
1
y
s2
quindi la distribuzione a posteriori è ancora normale, ma con i parametri
aggiornati
N (m ' , ( s 2 ) ' )
18. Probabilità a priori coniugate
Esempio di updating per variabili aleatorie continue
Infatti, definendo la precisione di una distribuzione come il reciproco della
varianza, con la proprietà dell’additività, la varianza a posteriori viene
calcolata proprio dalla precisione a posteriori, ottenuta come somma tra la
precisione a priori e la precisione delle osservazioni:
1
2 '
(s )
n
2
1
s
2
(s )
, da cui
2 2
2
2 '
s
2
ns 2
mentre la media a posteriori è la media ponderata della media a priori e
quella osservata, dove i pesi sono dati rispettivamente dalla proporzione della
precisione a posteriori dovuta alla distribuzione a priori e da quella dovuta alla
distribuzione campionaria:
1
m'
n
2
s
n
2
1
m
s
2
n
2
2
1
y
s2
19. Probabilità a priori coniugate
Applicazione: studio della quota di mercato ottenuta
da un nuovo brand con probabilità a priori coniugate
- quota di mercato ottenuta da un nuovo brand.
- distribuzione triangolare, cioè g( )=2(1-
g(π)
.
π
), o anche
Beta(3,1)
20. Probabilità a priori coniugate
Applicazione: studio della quota di mercato ottenuta
da un nuovo brand con probabilità a priori coniugate
Si estragga un campione casuale di 5 consumatori: solo uno dei 5
compra il nuovo prodotto.
Dal momento che la quota di mercato è una proporzione e
. supponendo le decisioni degli individui estratti indipendenti, si può
.
ipotizzare una f.d.v. Binomiale, cioè
f (x | )
5
x
x
(1
)
5 x
5
1
(1
)4
5 (1
)4
21. Probabilità a priori coniugate
Applicazione: studio della quota di mercato ottenuta
da un nuovo brand con probabilità a priori coniugate
Calcolo delle probabilità a posteriori
g ( | x)
g( ) f (x | )
1
2(1- ) * 5 (1
1
g ( ) f ( x | )d
.
0
)4
10 (1
)5
10 (1
)5 d
1
2(1- . ) * 5 (1
4
) d
0
La distribuzione a posteriori è quindi
10 (1 ) 5
10 / 42
0
( | x)
Beta(8,2)
42 (1
)5
22. Probabilità a priori coniugate
Applicazione: studio della quota di mercato ottenuta
da un nuovo brand con probabilità a priori coniugate
Posterior
( | x)
0.4
0.6
Beta(8,2)
3
f
2
.
1
0
-1 0
.
0.2
0.8
1
x
In realtà, sarebbe bastato osservare che la distribuzione beta è la famiglia
coniugata delle funzioni di verosimiglianza binomiali e, al fine di
individuare le probabilità a posteriori, procedere all’updating dei parametri
23. Probabilità a priori coniugate
Misture di famiglie coniugate
.
L’introduzione di misture di famiglie coniugate permette di
raggiungere una maggiore libertà e flessibilità nella formalizzazione
delle conoscenze a priori
.
Proprietà di approssimazione universale
24. Probabilità a priori coniugate
Definizione di mistura di famiglie coniugate
Se P è una famiglia coniugata per F, lo è qualsiasi mistura m-dimensionale
costruita con elementi di P.
Se però è la verosimiglianza ad essere una mistura di funzioni di F, la
probabilità a posteriori risultante dalla combinazione di questa verosimiglianza
con una probabilità a priori da P, non appartiene a P.
E’ possibile adottare una famiglia coniugata mistura per verosimiglianze di
tipo mistura.
25. Probabilità a priori coniugate
Applicazione sulle misture di famiglie coniugate
CAMPIONE
Sia S una quantità ignota osservata n volte (cioè si estrae un campione
casuale composto da n unità x1,x2,…xn) da una popolazione che si
suppone
( s, 2 ) con varianza nota.
La funzione di verosimiglianza sarà:
26. Probabilità a priori coniugate
Applicazione sulle misture di famiglie coniugate
PROBABILITA’ A PRIORI
Si supponga che la conoscenza a priori del fenomeno spinga a ritenere che:
-
la probabilità che s sia vicina allo 0 è molto alta cioè p(s=0)→1;
-
c’è una probabilità positiva, ma bassa, che il parametro assuma
valori molto lontani dallo 0.
Questo tipo di comportamento fa pensare ad una distribuzione a code
pesanti, non contemplata nella famiglia coniugata normale. E’ quindi
necessario ricorrere ad un modello mistura per le probabilità a priori:
27. Probabilità a priori coniugate
Applicazione sulle misture di famiglie coniugate
Una distribuzione N(s|
2
0
), con
2
0
=1
Una distribuzione N(s|
Il modello mistura di a) e b), con
0
0 .2
2
1),
con
2
1 =20
28. Probabilità a priori coniugate
Applicazione sulle misture di famiglie coniugate
PROBABILITA’ A POSTERIORI NELLA MIXTURE FORM
Aggiornamento del peso:
29. Probabilità a priori di massima entropia
Il metodo della massima entropia ha come obiettivo la
ricerca di una probabilità a priori il più oggettiva (il
meno informativa) possibile, pur non rinunciando
all’informazione parziale disponibile.
30. Probabilità a priori di massima entropia
L’informazione
L’informazione può essere rappresentata da un codice costituito da una
sequenza di bit.
Quando viene posta una domanda, essa porta con sé una quantità di incertezza
sulla risposta corretta proporzionale alle alternative disponibili.
Se la domanda (variabile) X ha N risposte alternative (determinazioni), l’incertezza
(Uncertainty) ad essa associata è pari a:
U(X )
log 2 N X
31. Probabilità a priori di massima entropia
L’informazione
Numero di
Alternativ
e
Probabilità logica
delle opzioni
Bits
1
1
0
2
0.5
1
4
0.25
2
…
…
…
256
0.00390625
1
N
8
N
log 2 N
32. Probabilità a priori di massima entropia
L’informazione
Se x è una risposta – o un insieme di risposte - alternativa alla domanda X
(cioè una determinazione - o un insieme di determinazioni - della variabile
X), allora l’informazione che essa trasmette può esser definita come la
differenza tra due stati di incertezza:
I (x
X ) U ( X ) U ( x)
log 2 N X
log 2 N x
tanto più alta quanto più è bassa la probabilità di quell’evento:
I ( x)
log( P( x))
1
log(
)
P ( x)
33. Probabilità a priori di massima entropia
L’entropia
“L’entropia di una variabile aleatoria X è la media dell’ informazione
I ( x i ) associata a ciascuna delle realizzazioni ( x1 , x2 ,..., xn )
della stessa”:
n
H (X )
E[ I ( xi )]
I ( xi ) P ( xi )
i 1
dove con
I ( xi )
si indica la “quantità di incertezza associata ad un
evento, cioè l’informazione che si ottiene affermando che tale evento si è
realizzato”
34. Probabilità a priori di massima entropia
Probabilità a priori di massima entropia per problemi a natura discreta
Quando il parametro s può assumere un numero finito di valori:
s
S
s1 , s2 ,..., sM
l’entropia della funzione di probabilità
a priori p S (s ) è definita come:
H (S )
si
ES [log(
1
pS ( si ) log(
)
pS ( si )
S
ES I ( si )
1
)] ES [ log pS ( si )]
pS ( si )
35. Probabilità a priori di massima entropia
Il metodo dei moltiplicatori di Lagrange
Il metodo dei moltiplicatori di Lagrange è un metodo che
serve “per trovare i massimi e i minimi di una funzione in
più variabili soggetta ad uno o più vincoli”, che si pone
“alla base dell’ottimizzazione lineare non vincolata.”
“Esso riduce la ricerca dei punti stazionari di una funzione
vincolata in n variabili con k vincoli a trovare i punti
stazionari di una funzione non vincolata in n+k
variabili, introducendo una nuova variabile scalare
incognita per ogni vincolo”, detta moltiplicatore di
Lagrange, “e definisce una nuova funzione (la
Lagrangiana) in termini della funzione originaria, dei
vincoli e dei moltiplicatori di Lagrange.”
36. Probabilità a priori di massima entropia
Metodo dei moltiplicatori di Lagrange e massimizzazione
dell’entropia per problemi a natura discreta
Poiché anche la massimizzazione dell’entropia rientra tra i problemi di
ottimizzazione vincolata, essa viene trattata con il metodo dei moltiplicatori
di Lagrange.
Una probabilità a priori di massima entropia per problemi a natura
discreta è una funzione di probabilità che massimizza l’entropia
(l’incertezza) tra tutte le funzioni compatibili con l’informazione parziale
disponibile che, per l’applicabilità del criterio, deve essere espressa
formalmente (rappresenta i vincoli al problema di massimizzazione):
pS (si ) g k (si )
k
per k=0,1,…,m,
si S
p S (si ) 1 è il vincolo onnipresente.
dove
si S
37. Probabilità a priori di massima entropia
Metodo dei moltiplicatori di Lagrange e massimizzazione
dell’entropia per problemi a natura discreta
Sotto questo tipo di vincoli, la probabilità a priori di massima entropia per
problemi a natura discreta assume la forma:
m
p
ME
S
k gk
0
(s)
e
k 1
, dove i valori dei parametri
soluzioni del problema di ottimizzazione vincolata di
ME
p S (s )
k sono
38. Probabilità a priori di massima entropia
La distribuzione che massimizza
l’entropia per problemi a natura discreta
Problema: ricerca della distribuzione di probabilità a priori discreta
g ( p1 , p2 ,... pn ) che massimizza l’entropia:
n
g ( p1 , p2 ,...pn ) :
pk ln pk
k 1
dove l’unico vincolo è quello onnipresente.
max H ( S )
pS ( s )
39. Probabilità a priori di massima entropia
La distribuzione che massimizza
l’entropia per problemi a natura discreta
Si possono usare i moltiplicatori di Lagrange per trovare il punto di
massima entropia (dipendente dalle probabilità). Per tutti i k da 1 a n, si
richieda che:
(g
(f
p S ( sk )
exp
pk
1))
0
1
Questo dimostra che tutti i pk sono uguali (perché dipendono da λ soltanto).
40. Probabilità a priori di massima entropia
La distribuzione che massimizza
l’entropia per problemi a natura discreta
Utilizzando il vincolo ∑k pk = 1, troviamo:
pk
1/ N
La distribuzione uniforme è la distribuzione di massima entropia
41. Probabilità a priori di massima entropia
La distribuzione che minimizza
l’entropia per problemi a natura discreta
Distribuzione di probabilità discreta:
p S ( sk ) 1
p S ( sk )
, dove
e
1
k i
Ma se
tende a 0, allora devono farlo tutti i p S ( sk ), cioè:
La concentrazione della massa di probabilità su un solo punto
massimizza la certezza e minimizza l’informazione.
42. Probabilità a priori di massima entropia
Probabilità a priori di massima entropia per problemi a natura continua
L’informazione disponibile, che rappresenta i vincoli al problema di
massimizzazione dell’entropia, è espressa come:
pS ( s) g k ( s)ds
k=0, 1,…, m
k
S
La probabilità a priori di massima entropia diventa
m
ME
S
p
k gk
0
( s)
qS ( s)e
(s)
k 1
dove i parametri sono ricavati dai vincoli.
per
s
S,
43. Probabilità a priori di massima entropia
Probabilità a priori di massima entropia per problemi a natura continua
Non esiste la distribuzione che massimizza l’entropia, ma occorre
di volta in volta scegliere una distribuzione a priori qS(s) non
informativa.
Se non ci sono vincoli espliciti oltre la normalizzazione, allora la
probabilità a priori di massima entropia coincide con la densità noninformativa qS(s) prescelta.