SlideShare a Scribd company logo
1 of 118
Download to read offline
Roberto Melfi
Pattern Recognition Lecture Notes v1.0
Pattern Recognition Course - A.Y. 2008/2009
In Memory of Prof. Alfredo Petrosino
7 gennaio 2020
to our professor Alfredo Petrosino
Prefazione
Questi appunti sono stati scritti durante il corso di Riconoscimento e Classificazione di Forme te-
nuto dal Professore Alfredo Petrosino nell’anno accademico 2008/2009. Non sono semplici appunti,
ma un’accurata sbobinatura di registrazioni delle sue lezioni unite a parti tradotte e sintetizzate
del libro “Duda Hart” [2]. A distanza di circa dieci anni rendo pubblico questo lavoro, non per
meriti, ma per tramandare per iscritto le lezioni del professore ai futuri studenti, se esistono questi
appunti `e solo grazie al suo corso, ho avuto soltanto la pazienza di trascriverli e organizzarli per
poter preparare al meglio l’esame finale.
Gli appunti sono open source (https://github.com/robmelfi/PatternRecognitionLectureNotes),
cosi da correggere eventuali errori di battitura e migliorare parti non abbastanza curate da parte
mia. Il professore ha insegnato che la perfezione non esiste, ma un lavoro pu`o essere sempre mi-
gliorato per tendere alla perfezione, questi appunti devono essere un punto di partenza per essere
ampliati lasciando inalterate e mettendo in evidenza le parole del professore.
Roberto Melfi
Il ruolo di un professore `e quello di essere guida e di insegnare la vita, oltre che la disciplina. Gli
studenti dell’Universit`a Parthenope che hanno conosciuto il professore Alfredo Petrosino possono
dire di aver avuto un’insegnante che ha ricoperto a pieno questo ruolo. Grazie a lui abbiamo creato
un gruppo di studio tra le scrivanie del CVPRLab che andava oltre i banchi universitari. Durante
tutto il percorso accademico abbiamo trascorso dei momenti intensi che ci han forgiato rendendoci
le persone migliori che siamo oggi. Non gli saremo mai abbastanza riconoscenti per questo! La sua
prematura scomparsa `e stata un fulmine a ciel sereno che ha riunito sotto lo stesso tetto, tutte le
persone che lo conoscevano ed avevano lavorato con lui. Anche in questo momento `e stato speciale
dato ci siamo riuniti dopo anni in cui ognuno di noi ha intrapreso la sua strada. Grazie di tutto prof!
Luca Russo
“ti aspetter`o comunque fuori alla porta 429 ... sarai semplicemente in ritardo ...”, il saluto del suo
caro allievo Enrico Balestrieri.
Napoli, Gennaio 2020
Indice
Parte I
1 Bayesian Decision Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Teoria delle decisioni baesiane – Continuous Features . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Classificazione tra due categorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Classificazione con tasso di errore minimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Classificatori, Funzioni discriminanti e superfici di decisione . . . . . . . . . . . . . . . . . . . . . 7
1.4.1 Il caso multicategoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2 Il caso a due categorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 La distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.1 Distribuzione normale unidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.2 Distribuzione Multivariata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Funzioni Discriminanti per la Distribuzione Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.1 Caso 1: Σi = σ2
I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.2 Caso 2: Σi = Σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.3 Caso 3: Σi = arbitrario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.7 Probabilit`a di errore ed integrali. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.7.1 Receiver Operating Characteristic (R.O.C.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Maximum-Likelihood and Bayesian Parameter Estimation . . . . . . . . . . . . . . . . . . . 23
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Maximum-Likelihood Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1 Caso Gaussiamo: µ incognita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Caso Gaussiano: µ e Σ incognite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Bayesian Estimation (cenni) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4 Principal Component Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 Nonparametric Techniques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1 introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Stima della densit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Parzen Windows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
X Indice
3.3.1 Esempi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.2 Classificazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 kn-Nearest Neighbor estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.1 Kn-Nearest-Neighbor and Parzen Window Estimation . . . . . . . . . . . . . . . . . . . 41
3.4.2 Estimation of A Posteriori Probabilities. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.3 The Nearest-neighbor rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4 Unsupervised Learning and clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.1 Vantaggi dell’ Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Mixture Densities and Identifiability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4 Maximum Likelihood estimates. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.5 Application To Normal Mixtures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.5.1 Case 1: Vettore media non conosciuto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.5.2 Case 2: Tutti i parametri non conosciuti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5.3 k-Means Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.5.4 Fuzzy k-Means Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.6 Unsupervised Bayesian Learning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.6.1 Learning the Parameter Vector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.7 Data Description And Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.7.1 Similarity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.8 Criterion Functions For Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.8.1 The Sum-of-Squared-Error Criterion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.9 Iterative Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.10 Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.10.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.10.2 Agglomerative Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.10.3 Stepwise-Optimal Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5 Expectation-Maximization (EM). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1 Itroduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2 Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Parte II
6 Sistemi Adattivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.1 Metodo del gradiente discendente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2 Metodo Least Mean Square(LMS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.3 Estensione a variabili multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.4 Processore Elementare PE (Adaline) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7 Reti Neurali Artificiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.2 Learning Supervisionato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.2.1 Perceptron Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.2.2 Regola a catena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Indice XI
7.3 Percettrone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7.4 Multilayer Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.5 Learning non supervisionato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.5.1 Learning Hebbiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.5.2 Regola di Oja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.6 Reti Competitive e di Kohonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Riferimenti bibliografici. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Parte I
1
Bayesian Decision Theory
1.1 Introduzione
La Teoria delle decisioni baesiane `e un fondamentale approccio statistico per il problema del Pattern
Classification. L’esempio preso in considerazione `e quello di progettare un classificatore che sia in
grado di separare due specie di pesci: il branzino ed il salmone. Supponiamo che ci sia un operatore
che sta osservando un nastro trasportatore sul quale scorrono queste due specie, l’osservatore trova
difficile predire quale specie si presenter`a all’arrivo del prossimo pesce. Denotiamo con ω lo stato
della natura, poniamo ω = ω1 per il branzino e ω = ω2 per il salmone. Poich`e lo stato della natura
`e imprevedibile allora consideriamo ω una variabile che deve essere descritta probabilisticamente. Si
assume che siamo a conoscenza delle probabilit`a a priori, denotiamo con P(ω1) la probabilit`a che
il prossimo pesce sia un branzino e con P(ω2) la probabilit`a che il prossimo pesce sia un salmone, se
si assume che non ci siano altre tipologie di pesci allora la somma di P(ω1) e P(ω2) `e uguale ad uno.
Le due probabilit`a possono essere ricavate statisticamente sulla storia passata, quindi una regola di
decisione potrebbe essere quella di scegliere ω1 se P(ω1) > P(ω2), altrimenti viene scelto ω2. Questa
regola potrebbe avere senso se prendiamo in considerazione soltanto due tipologie di classi, infatti
potrebbe risultare strano se si applica questa regola quando c’`e da classificare pi`u di due classi.
Nella maggior parte delle circostanze non `e utile prendere decisioni con cos`ı poche informazioni.
Nella classificazione tra le due specie di pesci, per esempio possiamo prendere in considerazione
la misura della luminanza x per migliorare il nostro classificatore. Ogni pesce avr`a una luminanza
diversa ed `e possibile esprimere questa variabile in termini probabilistici, si considera x come una
variabile casuale la cui distribuzione dipende dallo stato della natura ed `e espressa come p(x|ω) che
viene definita funzione della densit`a di probabilit`a condizionale, ovvero la funzione della densit`a di
probabilit`a per x dato lo stato della natura ω. Quindi la differenza tra p(x|ω1) e p(x|ω2) descrive
la differenza di luminanza tra la popolazione dei branzini e quella dei salmoni (fig. 1.1).
Supponiamo che siamo a conoscenza di entrambi le probabilit`a a priori P(ωj) e delle funzioni di
densit`a della probabilit`a condizionata p(x|ωj) per j = 1, 2. Supponiamo che arrivi un pesce sul
nastro trasportatore e misuriamo la luminanza x. Qui entra in gioco la regola di Bayes. Conosciamo
p(x|ωj) = p(x ∩ ωj)/P(ωj), il nostro obiettivo `e quello di calcolare P(ωj|x), ovvero la probabilit`a
di appartenenza alla classe ωj dato la misura di luminanza x rilevata. P(ωj|x) = P(x ∩ ωj)/p(x),
quindi per il teorema della moltiplicazione
4 1 Bayesian Decision Theory
Figura 1.1. Funzione di densit`a della probabilit`a condizionate delle due classi di pesci per la caratteristica
della luminanza x
p(ωj ∪ x) = p(x|ωj)P(ωj) (1.1)
p(ωj ∪ x) = P(ωj|x)p(x) (1.2)
riarrangiando i termini otteniamo la risposta al nostro quesito mediante la regola di Bayes
P(ωj|x) =
p(x|ωj)P(ωj)
p(x)
(1.3)
dove nel caso di due categorie
p(x) =
2
j=1
p(x|ωj)P(ωj) (1.4)
La formula di Bayes pu`o essere espressa informalmente dicendo che
Posterior =
likelihood (verosomigianza) × prior
evicence
(1.5)
La formula di Bayes mostra che osservando il valore di x possiamo convertire la probabilit`a a
priori P(ωj) nella probabilit`a a posteriori P(ωj|x), ovvero la probabilit`a di avere la classe ωj
dato il valore x misurato. Chiamiamo P(x|ωj) likelihood (verosomiglianza) di ωj rispetto ad x.
p(x) invece `e il fattore evidenza e pu`o essere visto come un fattore di scala che garantisce che la
somma delle probabilit`a a posteriori sia uguale ad uno. La variazione di P(ωj|x) `e illustrata in
figura 1.2 per il caso con P(ω1) = 2/3 e P(ω2) = 1/3. Quindi nel caso di due classi `e ovvio scegliere
ω1 se P(ω1|x) > P(ω2|x) e viceversa. Per giustificare questa procedura di decisione `e opportuno
calcolare la probabilit`a di errore. Qualsiasi sia la variabile x osservata la probabilit`a di errore `e
P(error|x) =
P(ω1|x) se dicidiamo ω2
P(ω2|x) se dicidiamo ω1
1.2 Teoria delle decisioni baesiane – Continuous Features 5
Figura 1.2. Probabilit`a posteriori calcolate per le probabilit`a a priori P(ω1) = 2/3 e P(ω2) = 1/3 per le
funzioni di densit`a di probabliit`a condizionata mostrate in fig. 1.1
1.2 Teoria delle decisioni baesiane – Continuous Features
In questo paragrafo verr`a formalizzata l’idea descritta nel paragrafo precedente e viene generalizzata
in modo tale da
• Consentire l’uso di pi`u caratteristiche
• Consentire la classificazione tra pi`u classi
• Consentire l’esecuzione di altre azioni semplicemente decidendo lo stato della natura
• Introducendo una funzione di perdita pi`u generale della probabilit`a d’errore
Per quanto riguarda il primo punto basta semplicemente sostituire lo scalare x con un feature
vector (vettore delle caratteristiche) x, dove x `e un vettore a d dimensioni nello spazio Euclideo
Rd
, chiamato feature space (spazio delle carateristiche), quindi analogamente al caso precedente
denotiamo con p(x|ωj) la funzione di densit`a della probabilit`a condizionata per x. Come prima,
P(ωj) descrive la probabilit`a a priori per le varie classi ωj, quindi la probabilit`a a posteriori pu`o
essere ottenuta mediante la formula di Bayes:
P(ωj|x) =
p(x|ωj)P(ωj)
p(x)
(1.6)
in questo caso l’evidenza viene calcolata come segue
p(x) =
c
j=1
p(x|ωj)P(ωj) (1.7)
Le formule appena descritte possono essere utilizzate anche per estendere la classificazione tra c
classi.
6 1 Bayesian Decision Theory
In generale classificare significa anche prendere una decisione dell’azione da intraprendere. Deno-
tiamo con {ω1, . . . , ωc} un insieme finito di c categorie e con {α1, . . . , αa} un insieme finito di a
possibili azioni da intraprendere, inoltre denotiamo con λ(αi|ωj) la funzione di perdita che descrive
la perdita o il costo al quale si incorre nel caso venga scelta l’azione αi quando si `e scelta la classe
ωj. Possiamo definire rischio la perdita R(αi|x), ovvero la perdita che si ha nel caso si sia scelto di
eseguire l’azione αi dato il vettore delle caratteristiche x e viene calcolata come segue
R(αi|x) =
c
j=1
λ(αi|ωj)P(ωj|x) (1.8)
Qualunque sia l’osservazione x, `e possibile minimizzare la perdita selezionando l’azione che mini-
mizza il rischio. Un problema `e quello di trovare una regola di decisione che minimizza il rischio
totale. Una regola di decisione generale `e la funzione α(x) che ci dice quale azione eseguire per ogni
possibile osservazione. Quindi per ogni osservazione x `e associata un unica azione α1, . . . , αa. Il
rischio associato ad una data regola di decisione misura la perdita attesa quando tale regola venisse
adottata su tutte le osservazioni x
R = R(α(x)|x)p(x) dx (1.9)
per minimizzare il rischio totale allora si calcolano tutti i rischi R(αi|x) per i = 1, . . . , a e si sceglie
l’azione αi per la quale il rischio R(αi|x) `e minimo.
1.2.1 Classificazione tra due categorie
Consideriamo un problema di classificazione tra soltanto due categorie. Quindi abbiamo l’azione α1
che corrisponde alla decisione presa se il classificatore da come risultato ω1 e l’azione α2 che corri-
sponde alla decisione presa se il classificatore restituisce ω2. Per semplificare la notazione poniamo
la funzione di perdita λij = λ(αi, ωj), che come abbiamo detto corrisponde alla perdita nel caso si
esegue l’azione αi scelta la categoria ωj. Dall’equazione 1.8 otteniamo il rischio
R(α1|x) = λ11P(ω1|x) + λ12P(ω2|x) (1.10)
R(α2|x) = λ21P(ω1|x) + λ22P(ω2|x) (1.11)
Ci sono molti metodi per esprimere la regola di decisione del minimo rischio. La regola fondamentale
`e quella di decidere ω1 se R(α1|x) < R(α2|x). Invece in termini di probabilit`a a posteriori otteniamo
da semplici sostituzioni la seguente regola decidendo ω1 se
(λ21 − λ11)P(ω1|x) > (λ12 − λ22)P(ω2|x) (1.12)
Invece, utilizzando la regola di Bayes possiamo sostituire le probabilit`a a posteriori con le probabilit`a
a priori e le funzioni di densit`a di probabilit`a condizionata, ci`o equivale a decidere ω1 se
(λ21 − λ11)p(x|ω1)P(ω1) > (λ12 − λ22)p(x|ω2)P(ω2) (1.13)
Un altra alternativa, assumendo λ21 > λ11, `e quella di decidere ω1 se
p(x|ω1)
p(x|ω2)
>
λ12 − λ22
λ21 − λ11
P(ω2)
P(ω1)
(1.14)
1.4 Classificatori, Funzioni discriminanti e superfici di decisione 7
Questa regola di decisione si focalizza sulla dipendenza x dalla densit`a della probabilit`a condiziona-
te. Possiamo considerare p(x|ω1)/p(x|ω2) il rapporto di verosomiglianza (likelihood ratio). Questa
regola di decisione baesiana pu`o essere utilizzata per decidere ω1 se il tasso di verosomiglianza
supera una determinata soglia rendendo cos`ı la regola indipendente dall’osservazione x
1.3 Classificazione con tasso di errore minimo
Nel problema della classificazione ogni stato `e generalmente associato ad una classe, e l’azione αi
viene associata allo stato ωi. In generale se l’azione `e αi e lo stato `e ωj allora la decisione `e corretta
se i = j ed `e sbagliata se i = j. Per evitare gli errori allora `e opportuno cercare regole di decisione
che minimizzano gli errori o tasso di errore (error rate). La funzione di perdita in questo caso `e
chiamata simmetrica o funzione di perdita zero-one,
λ(αi, ωj) =
0 se i = j
1 se i = j
i, j = 1, . . . , c.
Questa funzione non assegna perdita ad una decisione corretta mentre assegna una perdita pari a
uno quando la decisione `e sbagliata. Il rischio quindi `e calcolato come segue
R(αi|x) =
c
j=1
λ(αi|ωj)P(ωj|x)
=
j=i
P(ωj|x)
= 1 − P(ωi|x)
(1.15)
Quindi per minimizzare il tasso di errore dobbiamo scegliere l’indice i che massimizza la probabilit`a
a posteriori (MAP) P(ωi|x). In altre parole per il tasso di errore minimo decidiamo ωi se
P(ωi|x) > P(ωj|x) per tutti j = i (1.16)
1.4 Classificatori, Funzioni discriminanti e superfici di decisione
1.4.1 Il caso multicategoria
Ci sono tanti modi diversi per rappresentare un classificatore di pattern. Uno dei pi`u comunemente
usati si basa sulle funzioni discriminanti gi(x), i = 1, . . . , c. Il classificatore ci dice di assegnare il
vettore delle caratteristiche x alla classe ωj se
gi(x) > gj(x) per ogni j = i (1.17)
Il classificatore pu`o essere visto come una rete di macchine che calcolano le c funzioni discriminan-
ti e sceglie la categoria corrispondente alla funzione discriminante che ha restituito una risposta
maggiore. In figura 1.3 possiamo osservare un classificatore basato su una rete di funzioni discri-
minanti. Un classificatore Baesiano `e semplicemente e naturalmente rappresentato in questo modo.
8 1 Bayesian Decision Theory
Figura 1.3. La struttura funzionale di comune classificatore di pattern la quale include d input e c funzioni
discriminanti gi(x). Viene determinato quale dei valori discriminanti `e il massimo e viene classificato il
pattern di input.
Per un caso pi`u generale, dove viene preso in considerazione anche il rischio, possiamo dire che
gi(x) = −R(αi|x), poich´e la funzione discriminante massima corrisponde al minimo rischio. Inve-
ce per il caso a minimo tasso di errore possiamo semplificare ulteriormente le cose considerando
gi(x) = P(ωi|x), in questo modo affermiamo che la funzione discriminante massima corrisponde
alla massima probabilit`a a posteriori (MAP). La scelta della funzione discriminante non `e unica, `e
possibile moltiplicare tutte le funzioni discriminanti con una costante positiva senza influenzare la
decisione. Inoltre, se sostituiamo ogni gi(x) con f(gi(x)), dove f(·) `e una funzione monotona cre-
scente, il risultato della classificazione resta invariato. Questa osservarzione comporta il vantaggio
di significative semplificazioni analitiche e computazionali. In particolare, per la classificazione a
tasso minimo di errore, qualsiasi delle seguenti scelte danno la stessa risposta di classificazione, ma
alcune possono risultare pi`u semplici da capire o da calcolare rispetto alle altre:
gi(x) = P(ωi|x) =
p(x|ωi)P(ωi)
c
j=1 p(x|ωj)P(ωj)
(1.18)
gi(x) = p(x|ωi)P(ωi) (1.19)
gi(x) = ln p(x|ωi) + ln P(ωi) (1.20)
dove con ln indichiamo il logaritmo naturale. Come abbiamo visto le funzioni discriminanti possono
essere descritte in vari modi ma le regole di decisione sono equivalenti. Lo scopo di qualsiasi regola
di decisione `e quello di dividere lo spazio delle caratteristiche in c regioni di decisione, R1, . . . , Rc.
Se gi(x) > gj(x) per ogni j = i, allora x `e in Ri e la regola di decisione assegna x a ωi. Le regioni
sono separate dai decision boundaries che possiamo osservare in fig. 1.4
1.4.2 Il caso a due categorie
Il caso a due categorie `e un caso speciale del caso multigategoria, e riceve un trattamento separato.
Prende anche il nome speciale dichotomizer. Invece di usare le due funzioni discriminanti g1 e g2 e
assegnare x a ω1 se g1 > g2, `e comune definire una singola funzione discriminante
1.4 Classificatori, Funzioni discriminanti e superfici di decisione 9
Figura 1.4. Classificatore tra due categoria in due dmensioni, le densit`a di probabilit`a sono gaussiane, i
bordi di decisione consistono in due iperbole e la regione di decisione R2 non `e semplicemente connessa
g(x) = g1(x) − g2(x) (1.21)
usando la seguente regola di decisione: Si decide ω1 se g(x) > 0; altrimenti si decide ω2. Perci`o il
dichotomizer pu`o essere visto come una macchina che calcola una singola funzione discriminante
g(x) e classifica x in base al segno del risultato.
10 1 Bayesian Decision Theory
1.5 La distribuzione normale
La struttura di un classificatore baesiano `e determinata dalle funzioni di distribuzione di probabilit`a
condizionata p(x|ωi) e dalle probabilit`a a priori P(ωi). Tra le tante distribuzioni di densit`a hanno
avuto particolare importanza la funzione di distribuzione normale e multivariata di Gauss, proprio
per la loro semplice trattabilit`a analitica. Inoltre la distribuzione multivariata `e anche un modello
appropriato per situazioni importanti, vale a dire il caso in cui il vettore delle caratteristiche x per
una data classe ωi sono valori continui. In questa sezione viene fornita una breve esposizione delle
distribuzioni suddette focalizzandoci sulle propriet`a che hanno maggiore interesse per il problema
della classificazione. Incominciamo con un richiamo della definizione del valore atteso di una funzione
f(x) definita per la densit`a p(x)
ε[f(x)] ≡
∞
−∞
f(x)p(x) dx (1.22)
Se il valore appartiene ad un insieme di punti discreti D allora la formula si riduce ad una semplice
sommatoria
ε[f(x)] =
x∈D
f(x)P(x) (1.23)
1.5.1 Distribuzione normale unidimensionale
Iniziamo col descrivere la distribuzione normale di Gauss unidimensionale,
p(x) =
1
√
2πσ
exp −
1
2
x − µ
σ
2
(1.24)
per la quale il valore atteso x `e calcolato come segue
µ ≡ ε[x] =
∞
−∞
xp(x) dx (1.25)
e la varianza `e
σ2
≡ ε[(x − µ)2
] =
∞
−∞
(x − µ)2
p(x) dx (1.26)
La distribuzione normale unidimensionale `e caratterizzata da due parametri: la media µ e la varianza
σ2
, in generale vengono anche chiamati rispettivamente momento del primo ordine e momento
del secondo ordine. Per semplicit`a la distribuzione viene indicata con N(µ, σ2
), un esempio di
distribuzione `e mostrato in figura 1.5.
Alcune osservazioni
La funzione `e definita su tutto l’asse reale, non `e mai n´e nulla n´e negativa. Essa `e simmetrica ri-
spetto all’asse y = µ e tende a zero al tendere di x all’infinito. Essa dunque assegna una probabilit`a
a features che hanno range potenzialmente infinito. Inoltre la probabilit`a assegnata `e la stessa per
valori equidistanti (sia a destra come a sinistra) da µ. La massima probabilit`a viene assegnata al
valore µ che si chiama anche valore centrale della distribuzione.
1.5 La distribuzione normale 11
Figura 1.5. Distribuzione di Gauss
Il parametro σ serve a determinare quanto `e “larga” o “svasata” la campana della gaussiana. Va-
lori grandi per σ indicano una “dispersione” notevole dei dati attorno al valore centrale, un valore
piccolo invece indica che i dati sono tutti “vicini” al valore centrale. Tale “interpretazione” per il
parametro σ viene dal fatto che se si calcola l’integrale definito tra µ − 2σ e µ + 2σ si ottiene 0.95.
Cio`e la popolazione rappresentata dal modello gaussiano si addensa nell’intervallo centrato in µ e
largo 4σ al 95%. Il restante 5% forma le cosidetta “code” della distribuzione.
Trasformazioni lineare di gaussiane: se moltiplico o divido una gaussiana per un valore essa resta
sempre una gaussiana, la gaussiana soddisfa il fattore di scaling. Se si sommano le gaussiane si
ottiengono mixture di gaussiane, che non sono gaussiane ma distribuzioni di probablit`a, un insieme
di tante campane.
Vi `e un importante rapporto tra la distribuzione normale e l’entropia1
. L’entropia di una distribu-
zione `e calcolata come segue
H(p(x)) = − p(x) ln p(x) dx (1.27)
ed `e misurata in nats; se invece viene utilizzato il logaritmo di base due, quindi log2, allora viene
misurata in bit. L’entropia misura l’incertezza fondamentale nei valori dei punti scelti a caso da una
distribuzione.
Teorema del limite centrale: L’effetto aggregato ottenuto sommando un grande numero di piccoli
contributi random (generati da distribuzioni uniformi) porta ad una distribuzione di Gauss.
1
L’entropia misura la quantit`a di incertezza o informazione presente in un segnale aleatorio. Da un altro
punto di vista l’entropia `e la minima complessit`a descrittiva di una variabile aleatoria, ovvero il limite
inferiore della compressione dei dati.
12 1 Bayesian Decision Theory
1.5.2 Distribuzione Multivariata
La distribuzione Multivariata d dimensionale `e scritta come segue
p(x) =
1
(2π)d/2|Σ|1/2
exp −
1
2
(x − µ) Σ−1
(x − µ) (1.28)
dove x `e un vettore colonna, µ `e il vettore media, Σ `e la matrice di covarianza d × d, la matrice
di covarianza non `e altro che la media dei prodotti degli scarti, |Σ| e Σ−1
sono rispettivamente il
determinante e l’inversa. Inoltre denotiamo con (x − µ) la trasposta di (x − µ). L’operazione di
sottrarre ad ogni x la propria media µ prende il nome di whitening (sbiancamento), perch`e se si
sottrae ad ogni x la propria media µ allora la gaussiana `e centrata in 0. Se si vuole ottenere una
gaussiana standardizzata bisogna portare la media uguale a zero e la varianza uguale a uno, per
fare ci`o basta sottrarre la media e dividere per la varianza.
Z =
X − µ
σ
(1.29)
La notazione per il prodotto interno `e
a b =
d
i=1
aibi (1.30)
che per semplicit`a spesso viene chiamato prodotto puntuale. La distribuzione normale spesso viene
indicata con N(µ, Σ). Formalmente la media `e calcolata come segue
µ ≡ ε[x] = xp(x) dx (1.31)
e la matrice di covarianza
Σ ≡ ε[(x − µ)(x − µ) ] = (x − µ)(x − µ) p(x) dx (1.32)
`e possibile calcolare il vettore media e la matrice di covarianza anche componente per componente.
Nel caso della media, se xi `e la i-esima componente di x, se µi `e la i-esima componente di µ e σij
`e la ij-esima componente di Σ allora
µi = ε[xi] (1.33)
e
σij = ε[(xi − µi)(xj − µj)] (1.34)
Gli elementi σij della matrice di covarianza hanno una precisa interpretazione. Gli elementi sulla
diagonale rappresentano le varianze di ciascuna delle componenti del vettore x. L’elemento σij se `e
positivo ci dice che la feature i e la feature j sono correlate positivamente (se una cresce, statisti-
camente cresce anche l’altra), se `e negativo il contrario. Se `e nullo ci dice che le feature non sono
correlate o che sono statisticamente indipendenti.
I punti si trovano in uno spazio, per semplicit`a prendiamo lo spazio bidimensionale x1 e x2, come
possiamo osservare in figura 1.6 i campioni giacciono nella nuvola centrata nella media, il luogo dei
1.5 La distribuzione normale 13
Figura 1.6. Esempio di gaussiana bidimensionale, i campioni giacciono nella nuvola centrata nella media
µ
punti sono degli ellissoidi, dato che stiamo guardando la gaussiana dall’alto. Nel caso bidimensionale
la gaussiana avr`a due varianze, una nella direzione x1 e l’altra nella direzione x2, se le due varianze
sono uguali allora la curva di livello `e una circonferenza, se invece sono diverse allora `e un ellisse. La
cosa interessante `e che tutti i punti che ricadono nella curva di livello soddisfano questa equazione
r2
= (x − µ) Σ−1
(x − µ) (1.35)
con r costante. Questa quantit`a `e denominata distanza di Mahalanobis da x a µ. Se la matrice di
covarianza `e una matrice diagonale dove sulla diagonale principale ha tutte varianze uguali, allora la
distanza diventa euclidea. Un’ altra particolarit`a interessa anche gli autovalori e gli autovettori della
matrice di covarianza. Prima di vederla facciamo un breve richiamo sugli Autovalori e Autovettori
di una matrice.
Autovalori e Autovettori
Data la matrice A gli autovalori si calcolano
Ax = λx (1.36)
che pu`o essere riscritta come
(A − λI)x = 0 (1.37)
dove λ sono gli autovalori. Se A `e una matrice quadrata d × d allora ho d autovalori e d autovet-
tori. Gli autovalori di una matrice danno l’idea dell’energia e sono direttamente proporzionali alle
varianze di ogni dimensione, gli autovettori invece sono i vettori che generano un nuovo spazio.
14 1 Bayesian Decision Theory
Ritornando alla gaussiana bidimensionale, la cosa interessante `e che l’asse maggiore dell’ellisse
`e uguale alla varianza pi`u grande, mentre l’asse minore `e uguale alla varianza pi`u piccola, pi`u
precisamente l’asse maggiore `e lunga quanto l’autovalore pi`u grande della matrice di covarianza e
l’asse minore `e lunga quanto l’autovalore pi`u piccolo della matrice di covarianza, inoltre la direzione
dell’ asse maggiore `e l’autovettore corrispondente all’autovalore pi`u grande, mentre la direzione
dell’asse minore `e l’autovettore corrispondente all’autovalore pi`u piccolo.
1.6 Funzioni Discriminanti per la Distribuzione Normale
Nella sezione 1.4.1 abbiamo visto che un classificatore a minimo tasso di errore pu`o essere espresso
usando le funzioni discriminanti
gi(x) = ln p(x|ωi) + ln P(ωi) (1.38)
L’espressione pu`o essere rivalutata se la distribuzione di probabilit`a p(x|ωi) `e una distribuzione
multivariata eq. (2.9). Andando a sostituire all’interno dell’ eq. (1.38) e utilizzando le prorpiet`a dei
logaritmi otteniamo:
gi(x) = ln
1
(2π)d/2|Σi|1/2
exp −
1
2
(x − µ) Σ−1
i (x − µi) + ln P(ωi)
= ln
1
(2π)d/2|Σi|1/2
+ ln exp −
1
2
(x − µ) Σ−1
i (x − µi) + ln P(ωi)
= ln 1 − ln(2π)d/2
|Σi|1/2
−
1
2
(x − µ) Σ−1
i (x − µi) + ln P(ωi)
= −
d
2
ln 2π +
1
2
ln|Σ| −
1
2
(x − µ) Σ−1
i (x − µi) + ln P(ωi)
= −
1
2
(x − µ) Σ−1
i (x − µi) −
d
2
ln 2π −
1
2
ln|Σ| + ln P(ωi)
(1.39)
Adesso possiamo affrontare il problema in tre modi diversi:
1. Nel primo caso la matrice di covarianza `e caratterizzata dalla stessa varianza sulla diagonale
principale
2. Nel secondo caso le matrici di covarianza sono uguali per tutte le classi
3. Ne caso generale invece le matrici di covarianza sono diverse per ogni classe
1.6.1 Caso 1: Σi = σ2
I
Il caso pi`u semplice `e quando le caratteristiche sono statisticamente indipendenti e ogni caratte-
ristica ha la stessa varianza σ2
. In questo caso la matrice di covarianza `e diagonale con la stessa
varianza sulla diagonale. Geometricamente corrisponde al caso in cui la sezione della gaussiana `e
una circonferenza, i cluster dell’ i-esima classe hanno come cento il vettore µi. Il calcolo del determi-
nante e dell’inversa `e molto semplice, il determinante di una matrice diagonale equivale al prodotto
degli elementi sulla diagonale, dato che nel nostro caso gli elementi della diagonale sono tutti uguali
1.6 Funzioni Discriminanti per la Distribuzione Normale 15
allora |Σi| = σ2d
, l’inversa Σi
−1
= (1/σ2
)I. Inoltre tutti i termini che non sono dipendenti dalle
classi possono essere ignorati2
, quindi andando a sostituire determinante e matrice otteniamo
gi(x) = −
1
2
(x − µi)
1
σ2
(x − µi) −
d
2
ln 2π −
1
2
ln σ2d
+ ln P(ωi) (1.40)
tutti i termini con la d possono essere ignorati ottenendo
gi(x) = −
1
2σ2
(x − µi) (x − µi) + ln P(ωi) (1.41)
sviluppando il prodotto si ottiene
gi(x) = −
1
2σ2
[x x − 2µix + µiµi] + ln P(ωi) (1.42)
anche in questo caso il termine x x `e lo stesso per tutti gli i e quindi non dipende dalla classe,
sviluppando
gi(x) =
1
σ2
µix −
1
2σ2
µiµi + ln P(ωi) (1.43)
ponendo
wi =
1
σ2
µi (1.44)
e
wi0 = −
1
2σ2
µiµi + ln P(ωi) (1.45)
ottenimo la funzione discriminante lineare
gi(x) = wix + wi0 (1.46)
che `e esattamente una funzione lineare. Viene moltiplicato il vettore wi che dipende esclusivamente
dalla classe i-esima, infatti `e uguale proprio al centroide della classe i-esima (dalla 1.44), mentre wi0 `e
un fattore di traslazione chiamato anche bias. Si pu`o dire che il problema `e biased oppure unbiased,
cio`e condizionato oppure non condizionato, `e condizionato se si attribuiscono delle conoscenze a
priori che si hanno, infatti il bias dipende proprio dalla probabilit`a a priori della classe. Se invece
non si considerano le probabilit`a a priori allora la stima `e unbiased.
Un classificatore che `e una funzione discriminante lineare `e chiamato linear machine. Possiamo
dire che la superficie di decisione di un classificatore lineare `e un iperpiano definito dall’equazione
gi(x) = gj(x). Per un caso particolare l’equazione pu`o essere scritta come
w (x − x0) = 0 (1.47)
dove
w = µi − µj (1.48)
e
x0 =
1
2
(µi − µj) −
σ2
µi − µj
2
ln
P(ωi)
P(ωj)
(µi − µj) (1.49)
2
Tutti i termini che non compariranno nei passaggi successivi sono stati omessi perch`e sono indipendenti
dalle classi.
16 1 Bayesian Decision Theory
dove
µi − µj
2
= (x − µi) (x − µi) (1.50)
L’equazione 1.49 definisce l’iperpiano passante per il punto x0 e ortagonale al vettore w. Poich`e
w = µi − µj, l’iperpiano che separa R1 e R2 `e ortogonale alla linea che collega le medie. Se
P(ωi) = P(ωj) allora il secondo temine dell’equazione 1.49 svanisce, cos`ı il punto x0 si trova giusto
al centro tra le due medie, e l’iperpiano `e la bisettrice perpendicolare tra le medie (Fig. 1.7). Se
P(ωi) = P(ωj), il punto x0 si muove fra le due medie. Se invece le probabilit`a a priori P(ωi) sono
uguali per tutte le c classi, allora anche il termine ln P(ωi) pu`o essere ignorato. Per classificare un
vettore delle caratteristiche x, si misura la distanza euclidea x−µi da ogni vettore delle medie µi
delle c classi e viene assegnato x alla classe pi`u vicina. Per questo motivo `e anche detto classificatore
a minima distanza.
1.6.2 Caso 2: Σi = Σ
Un altro semplice caso `e quando le matrici di covarianza per tutte le classi sono uguali. Geometri-
camente corrisponde alla situazione in cui la sezione della gaussiana vista dall’alto corrisponde ad
un ellissoide, tutte della stessa diemensione e forma, ognuna centrata nel vettore delle medie µi.
Anche in questo caso sia |Σi| che (d/2) ln 2π nell’equazione 1.39 non dipendono dalle classi e quindi
possono essere ignorati, come prima la semplificazione porta alla seguente funzione discriminante
gi(x) =
1
2
(x − µi) Σ−1
(x − µi) + ln P(ωi) (1.51)
come si pu`o osservare anche in questo caso il classificatore `e lineare, quindi `e un hyperpiano. Se
le probabilit`a a priori P(ωi) sono uguali per tutte le c classi, allora anche in questo caso il temine
ln P(ωi) pu`o essere ignorato. Anche in questo caso la regola di decisione risulta essere davvero
semplice: Per classificare il vettore x si calcola la distanza di Mahalanobis (x − µi) Σ−1
(x − µi) da
ogni vettore delle medie, e si assegna x a quello pi`u vicino. Come prima se ci si trova di fronte a
probabilit`a a priori diverse per ogni classe allora queste condizionano la decisione verso la categoria
che ha pobabilit`a pi`u alta.
1.6.3 Caso 3: Σi = arbitrario
Nel caso generale di una distribuzione normale multivariata, allora le matrici di covarianza sono
diverse per ogni classe. L’unico termine che pu`o essere ignorato `e (d/2) ln 2π e la funzione discri-
minante risulta essere una quadrica. Ovvero una forma qualsiasi che rappresenta esattamente un
classificatore chiamato quadratico, in tal caso le superfici di decisione non sono iperpiani ma sono
delle iperquadriche, paraboloidi che si intersecano.
1.7 Probabilit`a di errore ed integrali
Consideriamo prima il caso a due categoria e supponiamo che il classificatore abbia separato le due
regioni R1 e R2. Ci sono due modi nel quale il classificatore pu`o commettere un errore: quello di
assegnare l’osservazione x alla regione R2 quando il suo vero stato della natura doveva essere ω1
e quello di assegnare l’osservazione x alla regione R1 quando il suo vero stato della natura doveva
1.7 Probabilit`a di errore ed integrali 17
Figura 1.7. Quando le probabilit`a a priori cambiano, la regione di decisione shifta
18 1 Bayesian Decision Theory
essere ω2. Poich`e questi eventi sono mutuamente esclusivi allora la probabilit`a di errore `e calcolata
come segue
P(error) = P(x ∈ R2, ω1) + P(x ∈ R1, ω2)
= P(x ∈ R2|ω1)P(ω1) + P(x ∈ R1|ω2)P(ω2)
=
R2
p(x|ω1)P(ω1) dx +
R1
p(x|ω2)P(ω2) dx
(1.52)
Il risultato nel caso monodimensionale `e illustrato in figura 1.8. I due integrali calcolati sono rap-
presentati dall’area rosa e grigia. Dato che il punto di decisione `e x∗
la probabilit`a di errore non `e
minima. In particolare l’aria marcata con il bordo rosso `e l’errore riducibile che pu`o essere ridotto
spostando il punto di decisione verso xB. Nel caso multicategoria, invece `e pi`u semplice calcolare
la probabilit`a di correttezza nel modo seguente
P(correct) = P(x ∈ Ri, ωi)
=
c
i=1
P(x ∈ Ri|ωi)P(ωi)
=
c
i=1 Ri
p(x|ωi)P(ωi) dx
(1.53)
In questo caso si fa uso della sommatoria perch`e le classi sono c, quindi un insieme finito e numera-
bile, quindi la probabiit`a di appartenenza di ogni classe `e discreta, invece `e continua la densit`a di
probabilit`a.
1.7.1 Receiver Operating Characteristic (R.O.C.)
Osservando al figura 1.9 possiamo distinguere quattro aree
• P(x > x∗
|x ∈ ω2): La probabilit`a che l’osservazione venga classificata come ω2 e appartiene alla
classe ω2, quindi una classificazione esatta che viene indicata in genere con i seguenti termini:
hit o true positive
• P(x > x∗
|x ∈ ω1): La probabilit`a che l’osservazione venga classificata come ω2 e appartiene
alla classe ω1, quindi una classificazione non corretta che viene indicata in genere con i seguenti
termini: false alarm o false positive
• P(x < x∗
|x ∈ ω2): La probabilit`a che l’osservazione venga classificata come ω1 e appartiene
alla classe ω2, quindi una classificazione non corretta che viene indicata in genere con i seguenti
termini: miss o false negative
• P(x < x∗
|x ∈ ω1): La probabilit`a che l’osservazione venga classificata come ω1 e appartiene alla
classe ω1, quindi una classificazione corretta che viene indicata in genere con i seguenti termini:
correct rejection o true negative
Le curve di ROC `e un plot che si basa sui valori ottenuti dalla matrice di confusione, quindi in un
primo passo si calcola la matrice di confusione.
V P FP
FN V N
1.7 Probabilit`a di errore ed integrali 19
Figura 1.8. Probabilit`a di errore nel caso il punto di decisione sia x∗
. L’area rosa corrisponde alla proba-
bilit`a di errore di decidere lo stato ω1 quando dovrebbe essere ω2; l’area grigia corrisponde alla situazione
opposta.
Figura 1.9.
20 1 Bayesian Decision Theory
ROC sta per Receiver Operating Characteristic, sostanzialmente ci aspettiamo che questo sistema
segnali correttamente o non correttamente e vogliamo misurare il comportamento, cio`e la rilevazione
di un oggetto oppure il verificarsi di un evento. La ROC (Fig. 1.10) `e una curva che viene plottata
nello spazio bidimensionale, sull’asse delle ascisse viene riportato il false positive rate oppure pi`u
comunemente la Specificit`a, cio`e il rapporto dei casi classificati come corretti ma appartenenti ad
una classe diversa false positive, rispetto al numero totale dei casi negativi, quindi
Sp =
FP
FP + V N
(1.54)
invece sull’asse delle ordinate abbiamo il true positive rate, oppure pi`u comunemente la Sensibilit`a
cio`e il rapporto dei casi positivi classificati come positivi ed il numero totale dei casi positivi, quindi
Se =
V P
V P + FN
(1.55)
Il risultato desiderato `e quello che il classificatore ci desse il massimo per il true positive rate
(sensibilit`a) mentre il false positive rate (specificit`a) sia minimo, quindi ci si aspetta il grafico
mostrato in figura 1.10. L’analisi ROC viene effettuata attraverso lo studio della funzione che lega
Figura 1.10.
la probabilit`a di ottenere un risultato vero-positivo nella classe dei pattern da classificare come veri
(ossia la sensibilit`a) alla probabilit`a di ottenere un risultato falso-positivo nella classe dei pattern
da classificare come falsi(ossia specificit`a). In altre parole, vengono studiati i rapporti fra allarmi
1.7 Probabilit`a di errore ed integrali 21
veri (hit rate) e falsi allarmi. La capacit`a discriminante di un test, ossia la sua attitudine a separare
propriamente la popolazione in studio `e proporzionale all’estensione dell’area sottesa alla curva
ROC (Area Under Curve, AUC). Nel caso di un test perfetto, ossia che non restituisce alcun falso
positivo n´e falso negativo (capacit`a discriminante = 100%), la AUC passa attraverso le coordinate
0;1 ed il suo valore corrisponde all’area dell’intero quadrato delimitato dai punti di coordinate (0,0),
(0,1), (1,0) (1,1), che assume valore 1 corrispondendo ad una probabilit`a del 100% di una corretta
classificazione.
2
Maximum-Likelihood and Bayesian Parameter Estimation
2.1 Introduzione
Nella sezione 1 abbiamo visto come progettare un classificatore conoscendo le probabilit`a a prio-
ri P(ωi) e le funzioni di distribuzione di probabilit`a condizionate p(x|ωi). Sfortunatamente, nei
problemi di pattern recgnition non sempre abbiamo una conoscenza completa della struttura pro-
babilistica. Nel caso tipico abbiamo una vaga conoscenza della situazione insieme al numero dei
dati di training. Il problema `e quindi quello progettare un classificatore usando queste informazioni.
Supponiamo per esempio che p(x|ωi) `e una distribuzione normale con media µi e matrice d cova-
rianza Σi, malgrado non conosciamo questi valori. Il problema pu`o essere semplificato stimando
soltanto i parametri µi e Σi piuttosto che stimare la funzione di probabilit`a p(x|ωi).
La stima dei parametri `e un classico problema statistico, `e pu`o essere affrontato in molti modi.
Considereremo le comuni procedure chiamate rispettivamente maximum-likelihood estimation (sti-
ma massima verosomiglianza) e Bayesian estimation (stima Baiesiana).
´E importante fare una distinzione tra i metodi di addestramento supervised e unsupervised. In
entrambi i casi valgono le regole delle probabilit`a a priori e la verosomiglianza, si differiscono
dal fatto che nel primo caso conosciamo lo stato della natura per ogni classe, quindi `e possibile
etichettare le classi, cosa che non conosciamo nell’addestramento unsupervised, problema molto pi`u
difficile da affrontare.
2.2 Maximum-Likelihood Estimation
Supponiamo di avere c Data sets D1, . . . , Dc, dove ogni campione in Dj viene descritto da una
distribuzione p(x|ωj). Inoltre `e necessario che i campioni siano i.i.d.1
, ovvero che le variabili casuali
siano distribuite indipendentemente e identicamente. Assumiamo anche che p(x|ωj) ∼ N(µj, Σj),
quindi descrivibile dai parametri µj e Σj e che questi parametri vengono rappresentati dal vettore
1
Nella teoria della probabilit`a una sequenza di variabili casuali `e i.i.d. se ognuna ha la stessa distribuzione
di probabilit`a delle altre variabili e sono tutte statisticamente indipendenti, cio`e che il verificarsi di uno
non cambia la probabilit`a di verificarsi dell’altro
24 2 Maximum-Likelihood and Bayesian Parameter Estimation
Θj. Il problema `e quello di conoscere Θj, ovvero i parametri del modello, dato l’insieme dei dati.
L’idea `e quella di trovare un un insieme di parametri Θj che vanno sostituiti nella distribuzione di
probabilit`a, l’obiettivo `e quello di ottenere una distribuzione molto verosimile p(D|Θ) (verosomi-
glianza) alla distribuzione dei dati originali. Supposto che D contiene n campioni x1, . . . , xn allora
p(D|Θ) = p(x1, . . . , xn|Θ), poich`e abbiamo assunto che i campioni sono i.i.d allora
p(D|Θ) =
n
k=1
p(xk|Θ) (2.1)
La stima della massima verosomiglianza, per definizione `e il valore ˆΘ che massimizza p(D|Θ). Per
semplicit`a analitica `e preferibile lavorare con i logaritmi, in quanto il logaritmo di una produttoria
diventa una sommatoria, quindi definiamo l(Θ) come la funzione log-likelihood
l(θ) ≡ ln p(D|Θ) (2.2)
quindi, come detto prima il logaritmo di una produttoria diventa la sommatoria dei logaritmi
l(θ) =
n
k=1
ln p(xk|Θ) (2.3)
l’obiettivo principale `e quello di trovare Θ che massimizza la funzione log-likelihood, quindi
ˆΘ = arg max l(Θ) (2.4)
Sappiamo che per trovare il massimo di una funzione si calcola la derivata prima e si pone uguale
a zero, in questo caso il numero di parametri da stimare `e p, quindi calcoliamo la derivata di una
funzioni a pi`u varabiali. Denotiamo Θ come un vettore a p−componenti Θ = (Θ1, . . . , Θp) e con
Θ denotiamo l’operatore gradiente
Θ =



∂
∂Θ1
...
∂
∂Θp


 (2.5)
la derivata di una sommatoria non `e altro che la somma delle derivate, quindi
Θl =
n
k=1
Θ ln p(xk|Θ) (2.6)
per stimare la massima verosomiglianza (MLE) basta risolvere questo sistema di equazioni
Θl = 0 (2.7)
per ottenere la soluzione ˆΘ.
La massima verosomiglianza rappresenta il punto in cui il campione osservato `e pi`u probabilie, la
procedura del gradiente pu`o portare a trovare il massimo locale ma non il massimo assoluto, ci`o
significa che non si ha una soluzione ottima ma una soluzione subottima. Quindi bisogna considerare
ogni soluzione individualmente per poi trovare l’ ottimo globale, massimo dei massimi locali.
2.2 Maximum-Likelihood Estimation 25
2.2.1 Caso Gaussiamo: µ incognita
Vediamo adesso come il metodo ML (maximum-likelihood) viene applicato ad uno specifico caso,
supponiamo che i campioni si distribuiscono secondo una distribuzione normale multivariata con
media µ e matrice di covarianza Σ. Per semplicit`a, consideriamo il caso in cui soltanto la media `e
sconosciuta. Sotto questa condizione, consideriamo come campione il punto xk e calcoliamo
ln p(xk|µ) = −
1
2
ln (2π)d
|Σ| −
1
2
(xk − µ) Σ−1
(xk − µ) (2.8)
dato che p(xk|µ) ∼ N(µj, Σj) allora si dimostra che la 2.8 `e stata ricavata mediante semplici
passaggi matematici applicati alla distribuzione gaussiana multvariata che ricordiamo essere
p(xk|µ) =
1
(2π)d/2|Σ|1/2
exp −
1
2
(xk − µ) Σ−1
(xk − µ) (2.9)
abbiamo detto che lavoriamo con i logaritmi quindi diventa
ln p(xk|µ) = ln
1
(2π)d/2|Σ|1/2
−
1
2
(xk − µ) Σ−1
(xk − µ)
= − ln(2π)d/2
|Σ|1/2
−
1
2
(xk − µ) Σ−1
(xk − µ)
= − ln (2π)d
|Σ|
1/2
−
1
2
(xk − µ) Σ−1
(xk − µ)
= −
1
2
ln (2π)d
|Σ| −
1
2
(xk − µ) Σ−1
(xk − µ)
(2.10)
deriviamo rispetto a µ, quindi consideriamo costantela matrice di covarianza Σ ed otteniamo
µ ln p(xk|µ) = Σ−1
(xk − µ) (2.11)
Identificando Θ con µ, osserviamo che dalle equazioni 2.6, 2.7 e 2.11 la stima a massima
verosomiglianza per la media µ deve soddisfare
n
k=1
Σ−1
(xk − ˆµ) = 0 (2.12)
moltiplicando per Σ e riarrangiando, otteniamo
n
k=1
(xk − ˆµ) = 0 (2.13)
n
k=1
xk −
n
k=1
ˆµ = 0 (2.14)
n
k=1
xk =
n
k=1
ˆµ (2.15)
n
k=1
xk = nˆµ (2.16)
(2.17)
26 2 Maximum-Likelihood and Bayesian Parameter Estimation
da cui µ `e uguale a
ˆµ =
1
n
n
k=1
xk (2.18)
Questo `e un risultato soddisfacente. Vuol dire che per la stima a massima verosomiglianza di una
distribuzione con media sconosciuta, la media `e la semplice media aritmetica sui campioni di trai-
ning. Geometricamente se pensiamo gli n campioni come una nuvola di punti, la media non `e altro
che il centroide della nuvola.
2.2.2 Caso Gaussiano: µ e Σ incognite
Nel caso pi`u generale ne la media µ ne la matrice di covarianza Σ sono conosciuti. Questi due
parametri costituiscono proprio i parametri del vettore Θ. Consideriamo prima il caso univariato
con Θ1 = µ e Θ2 = σ2
. In questo caso la log-likelihood di un singolo campione `e
ln p(xk|Θ) = −
1
2
ln 2πΘ2 −
1
2Θ2
(xk − Θ1)2
(2.19)
questa volta, dato che stiamo affrontando il caso unidimensionale allora la 2.19 `e stata ottenuta
applicando semplici passaggi matematici alla
p(xk|Θ) =
1
√
2πσ
exp −
1
2
x − µ
σ
2
(2.20)
come prima, per seplicit`a analitica applichiamo la funzione logaritmo, quindi
ln p(xk|Θ) = ln
1
√
2πσ2
−
1
2
x − µ
σ
2
= − ln
√
2πσ2 −
1
2
x − µ
σ
2
= −
1
2
ln 2πσ2
−
1
2σ2
(x − µ)
2
(2.21)
sostituendo Θ1 = µ e Θ2 = σ2
otteniamo proprio la 2.19
ln p(xk|Θ) = −
1
2
ln 2πΘ2 −
1
2Θ2
(xk − Θ1)2
(2.22)
adesso andiamo a derivare rispetto a Θ1 e Θ2 calcolando le seguenti derivate parziali ∂
∂Θ1
e ∂
∂Θ2
.
Cominciamo con la ∂
∂Θ1
e quindi subito osserviamo che risulta costante dato che consideriamo
Θ2 costante, quindi la sua derivata `e zero. Procediamo col derivare soltanto il secondo membro
ottenendo cos`ı
∂
∂Θ1
=
1
Θ2
(xk − Θ1) (2.23)
i passaggi per calcolare la ∂
∂Θ2
risultano leggermente lunghi e quindi `e opportuno fare anche un
richiamo di alcune regole di derivazione come la derivata del prodotto di due funzioni, il rapporto
di due funzioni ed il logaritmo di una funzione
2.2 Maximum-Likelihood Estimation 27
∂
∂x
(f(x) · g(x)) = f (x) · (x) + f(x) · g (x) (2.24)
∂
∂x
f(x)
g(x)
=
f (x) · (x) + f(x) · g (x)
[g(x)]2
(2.25)
∂
∂x
log(g(x)) =
1
g(x)
· g (x) (2.26)
quindi richiamate queste seguenti regole possiamo procedere con il calcolo di ∂
∂Θ2
. Prendiamo il
primo membro della 2.22 e lo deriviamo rispetto a Θ1 applicando le regole di derivazione viste sopra,
applichiamo quella del prodotto e quella del logaritmo ottenendo cosi − 1
2πΘ2
2π, semplifichiamo ed
otteniamo la derivata del primo membro − 1
2Θ2
. Per il secondo membro della 2.22 applichiamo
la regola del prodotto ponendo f(x) = 1
2Θ2
e g(x) = (xk − Θ1)2
per calcolare f (x) utilizziamo
la regola del rapporto, quindi − 2
4Θ2
2
, semplificando − 1
2Θ2
2
che moltiplichiamo per g(x) ottenendo
− 1
2Θ2
2
(xk − Θ1)2
, la seconda parte della regola del prodotto `e pari a zero dato che g (x) = 0.
Riscrivendo i risultati ottenuti abbiamo che
∂
∂Θ2
= −
1
2Θ2
+
1
2Θ2
2
(xk − Θ1)2
(2.27)
quindi, calcolare le derivate parziale costruiamo il vettore gradiente
Θl = Θ ln p(xk|Θ) =



1
Θ2
(xk − Θ1)
− 1
2Θ2
+ (xk−Θ1)2
2Θ2
2


 (2.28)
abbiamo detto che la derivata di una sommatoria non `e altro che la somma delle derivate, poniamo
le derivate uguali a zero e risolviamo
n
k=1
1
ˆΘ2
(xk − ˆΘ1) = 0 (2.29)
e
−
n
k=1
1
2 ˆΘ2
+
n
k=1
(xk − ˆΘ1)
2 ˆΘ2
2
= 0 (2.30)
dove ˆΘ1 e ˆΘ2 sono i valori che massimizzano la stima di probabilit`a. Sostituendo ˆµ = ˆΘ1 e σ2
= ˆΘ2
e facendo gli opportuni riarrangiamenti otteniamo che
ˆµ =
1
n
n
k=1
xk (2.31)
e
ˆσ2
=
1
n
n
k=1
(xk − ˆµ)2
(2.32)
Nel caso multivariato `e tutto molto simile la stima a massima verosomiglianza per i parametri µ e
Σ `e calcolata mediante le seguenti formule
28 2 Maximum-Likelihood and Bayesian Parameter Estimation
ˆµ =
1
n
n
k=1
xk (2.33)
e
ˆΣ =
1
n
n
k=1
(xk − ˆµ)(xk − ˆµ) (2.34)
Ancora una volta osserviamo che la stima del vettore delle medie `e semplicemente la media mentre
la stima per la matrice di covarianza `e la media aritmetica delle n matrici (xk − ˆµ)(xk − ˆµ) .
2.3 Bayesian Estimation (cenni)
L’idea `e quella aumentare di volta in volta il numero di campioni ed ad ogni passo calcolare media e
varianza (o matrice di covarianza). Dopodich´e viene effettuata una media delle medie e una media
delle varianze per stimare i parametri.
2.4 Principal Component Analysis
La PCA `e una tecnica utile per la comprensione e la classificazione dei dati. Lo scopo `e quello di
ridurre la dimensionalit`a dei dati (quindi la dimensione dei pattern di ogni campione e non il nume-
ro di campioni) trovando un insieme nuovo di variabili, in numero ridotto rispetto alle dimensioni
dell’insieme originale di variabili, che trattengono comunque la maggior parte delle informazioni
originali dei dati iniziali. Per informazione intendiamo la variazione presente nel campione, per
esempio se non c’`e variazione nei dati allora non daranno nessuna informazione in quanto sareb-
bero tutti uguali. Quindi informazione `e uguale a variazione e variazione `e uguale a varianza o a
matrice di covarianza. In generale questa variazione `e rappresentata dalle correlazioni tra variabili
originali. Ipotizziamo di avere delle variabili casuali, ricordiamo che il pattern x `e sempre un vet-
tore di variabili casuali, allora se prendo due vettori x1 e x2 di cinque componenti ognuno, e le
cinque componenti sono pressoch´e uguali allora uno dei due si pu`o buttar via. Analogamente se
ho cento vettori, tutti con le stesse componenti allora ne prendo uno e quindi gli altri novantanove
`e inutile prenderli in considerazione dato che non danno alcuna informazione. In realt`a considero
solo quelli che variano sostanzialmente, quindi c’`e una buona varianza sulle componenti. Se ho un
vettore a d dimensioni, quindi ho d variabili casuali, l’idea `e quella di trasformare questi pattern in
altri pattern, quindi effettuare una trasformazione di spazio da uno spazio a d dimensioni ad uno
spazio a k dimensioni, dove ovviamente k < d, da precisare che non si effettua una selezione, quindi
non vengono prese in considerazione soltanto k delle d componenti ma viene effettuata un analisi e
quindi un cambiamento delle variabili. Delle nuove variabili nessuna `e uguale a quelle precedenti,
ma sono tutte e k nuove. Queste variabili vanno determinate in virt`u di un criterio, cio`e quello
di conservare la maggiore informazione possibile delle d componenti, sostanzialmente e necessario
trattenere quelle che hanno maggiore varianza.
Facciamo un esempio, osservando la figura 2.4. Immaginiamo di avere questi dati disposti in uno
spazio bidimensionale (la PCA non si applica mai ad uno spazio bidimensionale in quanto non c’`e
nulla da ridurre). I dati sono disposti in modo tale che ci sia una varianza, inoltre questi dati po-
trebbero essere raggruppati in un cluster che potrebbe essere un ellisse. Supponiamo di sapere che
2.4 Principal Component Analysis 29
questi dati appartengono a due cluster differenti. Allora qual’`e il principio utilizzato per dividere
questi dati? Esempio un metodo potrebbe essere quello di classificare tutti i pattern che rientrano
nel primo quadrante e cos`ı via, quindi una classificazione che sta avvenendo sulla densit`a ovvero sul-
la distribuzione. Fondamentalmente questa suddivisione sta avvenendo in base alla varianza, questo
si pu`o spiegare perch`e per i dati che si trovano intorno all’origine, soprattutto in prossimit`a della
bisettrice tra il secondo e quarto quadrante, la varianza `e molto piccola, mentre per gli altri, quelli
che si trovano sulla bisettrice tra il primo ed il terzo quadrante la varianza pi`u grande, quindi danno
molta pi`u informazione rispetto agli altri. Allora fatte queste osservazioni, quale potrebbe essere
la trasformazione di un dataset in un altro dataset? Cio`e l’operazione di proiettare tutti i vettori
in un altro spazio, in questo caso nello spazio delle bisettrici, oppure equivalentemente nello spazio
degli autovettori della matrice di covarianza dei dati. La matrice di covarianza ha sulla diagonale
principale le varianze e al di fuori della diagonale principale ha le covarianze ovvero le correlazioni
tra coppie di componenti. Sostanzialmente stiamo dicendo che se andiamo a vedere la matrice di
covarianza (in questo caso `e una matrice 2 × 2) osserviamo che sulla diagonale principale abbiamo
la varianza sulla prima componente e sulla seconda componente, ci aspettiamo che una delle due sia
maggiore dell’altra. Si tende a proiettare i pattern sulle due bisettrici, o equivalentemente gli auto-
vettori della matrice di covarianza che corrispondono proprio ai due assi. Se riuscissi a proiettare,
dopo aver calcolato gli autovettori della matrice di covarianza, alla fine identifico come componente
principale z1, cio`e quella a varianza maggiore, mentre come seconda componente principale prendo
in considerazione z2, cio`e quella in cui la varianza tra le due `e minore. Inoltre si conosce che le
varianze della matrice di covarianza sono direttamente proporzionali agli autovalori della matrice
di covarianza, quindi autovalori o varianze pi`o meno sono la stessa cosa. A questo punto il giochino
facile `e quello di prendere i dati, fare la matrice di covarianza, calcolare gli autovettori e gli autova-
lori, ordinare in ordine decrescente gli autovalori e corrispondentemente gli autovettori, scegliere gli
autovalori maggiori e ci si ferma quando la somma di questi autovalori supera una certa soglia. ´E
ovvio che la somma degli autovalori non pu`o essere maggiore di uno, di conseguenza se ipotizziamo
di volere l’80% d’informazione allora sulla somma totale degli autovalori devo prendere tanti auto-
valori che sommati non superano 0.8. Cos`ı mi scelgo k componenti principali tale che
k
i=1 λi ≤ 0.8.
Dove k rappresenta il numero di componenti principali che seleziono in corrispondenza di questi
autovalori, quindi ho k autovettori che sono i nuovi assi del nuovo spazio sul quale vado a proiettare
30 2 Maximum-Likelihood and Bayesian Parameter Estimation
i pattern. I pattern erano in d dimensioni e adesso sono proiettati su k dimensioni per cui i pattern
divetano k dimensionali. Qual’`e il vantaggio? se io ho pattern a cento dimensioni e scopro che la
maggiore informazione `e concentrata nelle prime dieci componenti principali allora ho ridotto lo
spazio da cento dimensioni in pattern di dimensione dieci, conservando l’80% dell’informazione.
Tutto ci`o ha una base teorica:
Preso un pattern di p variabili x = {x1, . . . , xp} vogliamo calcolare la prima componente prin-
cipale dell’insieme dei campioni come trasformazione lineare di x tale che z1 abbia la maggiore
informazione (o che la varianza sia massima), quindi possiamo scrivere
z1 = aT
1 x =
p
i=1
ai1xi (2.35)
dove il vettore a1 = {a11, a21, . . . , ap1}, `e il vettore di pesi. Questo `e un problema di ottimizzazione,
perch`e ancora una volta lo scopo principale `e quello di massimizzare. Di conseguenza se voglio
trovare la k-esima componente principale allora la 2.35 diventa
zk = aT
k x k = 1, . . . , p (2.36)
dove il vettore ak = {a1k, a2k, . . . , apk}, come prima `e il vettore dei pesi. Naturalmente le compo-
nenti principali calcolate devono essere relative alle componenti principali precedenti. Quindi non
solo vogliamo che la varianza di zk sia massima, ma vogliamo anche che la covarianza di zk e zl con
1 ≤ l < k sia uguale a zero, cio`e fondamentalmente che non ci sia correlazione. Oltre alle compo-
nenti principali in senso di massimizzare la varianza, un altro vincolo `e quello di avere componenti
scorrelate fra di loro. Un ulteriore condizione `e che aT
k ak = 1. Adesso vediamo come trovare la
prima componente principale. La varianza di z1 la possiamo anche scrivere mediante una forma
altrenativa, cio`e
var(z1) = E[z2
1] − E[z2]2
(2.37)
dove E sta ad indicare la media. Dalla 2.35 sappiamo che z1 = aT
1 x, quindi x2
1 equivale a moltiplicare
z2
1 = aT
1 x · aT
1 x
=
p
i=1
ai1xi
p
j=1
aj1xj
=
p
i,j=1
ai1aj1xixj
(2.38)
dato che stiamo calcolando la media di z2
1 possiamo scrivere che
E[z2
1] =
p
i,j=1
ai1aj1E[xixj] (2.39)
Facciamo la stessa cosa per E[z2]2
, ma questa volta calcoliamo il quadrato della madia quindi
facendo le opportune moltiplicazioni otteniamo
p
i,j=1
ai1aj1E[xi]E[xj] (2.40)
2.4 Principal Component Analysis 31
andando a sostituire nella 2.37 i valori ottenuti per E[z2
1] e [z1]2
otteniamo
var(z1) =
p
i,j=1
ai1aj1E[xixj] −
p
i,j=1
ai1aj1E[xi]E[xj] (2.41)
a questo punto metto in evidenza la doppia sommatoria
p
i,j=1
ai1aj1Sij (2.42)
dove Sij = σxi,xj = E[xixj]−E[xi]E[xj], S `e la matrice di covarianza, quindi Sij `e l’elemento della
matrice di covarianza. La 2.42 pu`o essere scritta come
var(z1) = aT
1 Sa1 (2.43)
A questo punto il problema `e quello di massimizzare la varianza di z1, quindi bisogna massimizzare
var(z1) = aT
1 Sa1 soggetto a aT
1 a1 = 1. In questo caso si utilizza la teoria della regolarizzazione,
fondamentalmente si utilizza il moltiplicatore di lagrange che porta il vincolo nella funzione obiet-
tivo. In questo caso, dato che ho il vincolo aT
1 a1 = 1 allora voglio che aT
1 a1 − 1 = 0, data questa
condizione allora `e ovvio che aT
1 a1 deve essere uguale ad uno. A questo punto devo massimizzare la
funzione obiettivo che `e aT
1 Sa1 pi`u il vincolo, ma poich`e sto massimizzando allora devo massimizzare
−aT
1 a1, quindi
aT
1 Sa1 + (−aT
1 a1 − 1) (2.44)
alla fine mi viene
aT
1 Sa1 − aT
1 a1 − 1 (2.45)
ovviamente la prima parte `e la funzione obiettivo originale, mentre la seconda parte `e il vincolo che
sto aggiungendo, a cui devo dare un peso λ che prende il nome di moltiplicatore di lagrange
aT
1 Sa1 − λ(aT
1 a1 − 1) (2.46)
con 0 < λ ≤ 1. A questo punto `e facile, come si trova il massimo di una funzione? derivata prima
uguale a zero. Qual’`e il valore per cui voglio ottenere il massimo? ´E a1. Perch`e λ lo fisso, S `e la
matrice di covarianza dei dati, quindi faccio la derivata rispetto ad a1, quindi pongo tutto uguale
a zero
Sa1 − λa1 = 0 (2.47)
metto in evidenza a1
(S − λIp)a1 = 0 (2.48)
in questa equazione λ `e l’autovalore della matrice di covarianza e a1 non `e altro che l’autovettore
corrispondente.
Fin qui abbiamo massimizzato la varianza sulla prima componente principale, quindi λ corrispon-
de all’autovalore maggiore, cio`e sto massimizzando la varianza della prima componente principale,
quindi fondamentalmente sto trovando la componente principale per la quale ho la massima va-
rianza, massima varianza equivale a dire massimo autovalore. Quindi riassumendo, presi i dati, mi
32 2 Maximum-Likelihood and Bayesian Parameter Estimation
calcolo la matrice di covarianza S, mi calcolo gli autovalori e gli autovettori della matrice di co-
varianza, il primo autovalore corrisponde alla massima varianza e l’autovettore corrispondente alla
prima componente principale.
A questo punto ho calcolato a1 ma dalla 2.35 dobbiamo ricavarci z1 quindi moltiplicando aT
1 x non
faccio altro che la proiezione di x su a1 (il prodotto interno aT
1 x non `e altro che la proiezione di x
su a1).
Quindi possiamo dire che la varianza della prima componente principale corrisponde all’autovalore
maggiore. Dimostriamolo: Traduciamo formalmente quello che abbiamo detto, quindi la varianza
della prima componete `e uguale al primo autovalore che corrisponde a quello maggiore
var(z1) = λ1 (2.49)
quindi dall’equazione
(S − λIp)a1 = 0 (2.50)
effettuando alcuni semplici passaggi matematici
Sa1 − λa1 = 0
Sa1 = λa1
aT
1 · Sa1 = λa1 · aT
1
aT
1 Sa1 = λaT
1 a1
aT
1 Sa1 = λ
(2.51)
dato che aT
1 a1 = 1 e var(z1) = aT
1 Sa1, quindi `e dimostrata la 2.49.
Ho trovato la prima componente principale corrispondente all’ autovettore corrispondete all’auto-
valore maggiore cio`e alla varianza maggiore, che in modo geometrico corrisponde alla proiezione di
x sull’asse maggiore dell’ellissoide che circoscrive i dati.
La seconda componente principale come la calcolo? Massimizzando la varianza z2 ma questa volta
con il vincolo aT
2 a2 = 1 quindi ho di nuovo
aT
2 Sa2 − λ(aT
2 a2 − 1) (2.52)
solo che per`o voglio anche che la covarianza della seconda componente principale rispetto alla
prima componente principale sia uguale a zero (che siano scorrelate). Allora si introduce un altro
paramentro
cov(z2, z1) = aT
1 Sa2 = λ1aT
1 a2 (2.53)
La cov(z2, z1) = aT
1 Sa2 quindi fondamentalmente sarebbe l’elemento S21 della matrice di covarianza,
quindi la posso scrivere o come aT
1 Sa2 oppure equivalentemente che lo possiamo scrivere anche come
λ1aT
1 a2 questo si pu`o dimostrare come precedentemente,
Sa2 = λ1a2 (2.54)
moltiplico entrambi i membri per aT
1 ed ottengo
aT
1 · Sa2 = λ1a2 · aT
1 (2.55)
2.4 Principal Component Analysis 33
ottenendo cos`ı
aT
1 Sa2 = λ1aT
1 a2 (2.56)
ma aT
1 Sa2 non `e altro che la cov(z2, z1) per cui abbiamo dimostrato che
cov(z2, z1) = λ1aT
1 a2 (2.57)
A questo punto dobbiamo minimizzare la covarianza che come prima significa massimizzare meno
la covarianza. Quindi `e necessario massimizzare −λ1aT
1 a2. Facciamo la derivata rispetto ad a2 la
poniamo uguale a zero e calcoliamo a2. Questo procedimento viene effettuato per a3, a4, . . . , an
ottenendo tutte le altre componenti principale. In generale si pu`o definire
var(zk) = ak
T
Sak (2.58)
che `e uguale al k-esimo autovalore nell’ordine discendente, quindi dall’autovalore pi`u grande al-
l’autovalore pi`u piccolo della matrice di covarianza. La k-esima componente principale trattiene la
frazione maggiore della variazione del dataset dei campioni.
3
Nonparametric Techniques
3.1 introduzione
Nella sezione 2 sono state trattate le tecniche parametriche nel caso di addestramento supervised
assumendo una distribuzione di probabilit`a nota. Purtroppo nelle applicazioni di pattern recognition
non sempre abbiamo una conoscenza della distribuzione di probablit`a. In questa sezione verranno
esaminate quelle tecniche chiamate nonparametric che possono essere usate arbitrariamente con
qualsiasi distribuzione senza assumere una conoscenza a priori. Ci sono molte tipologie di tecni-
che nonparametric: in particolare una consiste nella procedura di stimare la funzione di densit`a
p(x|ωj) dai campioni di patterns, mentre un altra tecnica consiste invece in una procedura che
stima direttamente la la probablit`a a posteriori P(ωj|x).
3.2 Stima della densit`a
La probabilit`a P che un vettore x ricade in una regione di decisione R `e data da
P =
R
p(x ) dx (3.1)
stiamo calcolando l’area che sottende la probabilit`a del campione x all’interno della regione di
decisione. P `e la versione media della funzione di densit`a p(x), e possiamo stimare il valore di p
calcolando la probabilit`a P. Supponiamo di avere n campioni x1, . . . , xn che sono indipendenti e
identicamente distribuiti (i.i.d.) secondo la funzione di probabilit`a non nota p(x). La probabilit`a
che k di questi n campioni cada nella regione di decisione R `e data dal coefficiente binomiale, ovvero
la probabilit`a che k degli n campioni ricadano all’interno di una regione di decisione
Pk =
n
k
Pk
(1 − P)n−k
(3.2)
dove Pk
`e la probabilit`a dei k campioni che ricadono all’interno della regione R, (1 − P)n−k
`e la
probabilit`a che k campioni non ricadono all’interno della regione R e n
k `e il coefficiente binomiale,
moltiplicando il tutto otteniamo Pk che prende il nome di distribuzione binomiale. Inoltre il valore
atteso di k `e
36 3 Nonparametric Techniques
ε[k] = nP (3.3)
a questo punto vogliamo trovare quel parametro k tale che abbiamo proprio la probabilit`a media,
quindi se cambio il numero di campioni questa regola permane. Qual’`e il valore per il quale ottengo
esattamente nP? ´E proprio k. Con questa supposizione k `e approssimatiamente uguale ad nP,
quindi essendo k nP, allora P k/n sostituisco nella 3.1 e di conseguenza otteniamo
k
n R
p(x ) dx (3.4)
Individuata la regione di appartenenza dei punti, ipotizziamo di sceglierla piccola in modo tale da
avere una densit`a della probabilit`a costante all’interno di essa, a questo punto la p(x ) risulta essere
costante rispetto ad x e quindi `e possibile portarla al di fuori dell’integrale e quindi il tutto diventa
k
n
p(x)
R
dx (3.5)
L’integrale R
dx non `e altro che un volume, quindi ho p(x)V , riprendendo la formula precedente
k
n
p(x)V (3.6)
riarrangiando viene fuori che una stima di p(x) potrebbe essere
p(x) =
k/n
V
(3.7)
dove k `e il numero di campioni che rientrano nella regione R, n `e il numero di campioni in totale
e V `e il volume della regione R. Ci troviamo di fronte ad un equazione di cui p(x), k e V non
sono noti e conosciamo solo n. Quindi `e necessario introdurre altre considerazioni. Per vedere il
comportamento di n tendente ad infinito della (3.7) allora consideriamo n molto grande , per fare
questo scriviamo
pn(x) =
kn/n
Vn
(3.8)
quindi otteniamo la stima della densit`a di probabilit`a di x al variare di n, osservando che pi`u n cresce
pi`u la 3.8 tenda alla vera densit`a di probabilit`a. Andiamo a calcolare il limite tendente all’infinito
delle quantit`a che entrano in gioco. C’`e da considerare che il limite per n tendente all’infinito della
3.8 `e una forma indeterminata 0/∞, quindi va studiata singolarmente, in particolare pretendiamo
che il volume non cresca all’infinito. Se pn(x) deve convergere a p(x) allora sono rischieste tre
condizioni:
• limn→∞ Vn = 0
• limn→∞ kn = ∞
• limn→∞ kn/n = 0
La prima condizione assicura che il volume non cresca all’infinito, quindi aumentando i campioni la
regione rimane constante, al pi`u si rimpicciolisce ma non aumenta. La seconda condizione, la quale
ha senso soltanto se p(x) = 0 ci assicura che il rapporto converger`a alla probabilit`a P. Ci sono
due modi per soddisfare le condizioni (Fig. 3.1). Uno `e quello di considerare una regione iniziale
Vn in funzione di n, come Vn = 1/
√
n, inquesto caso deve essere dimostrato che le variabili casuali
3.3 Parzen Windows 37
kn e kn/n si comportano correttamente o, pi`u precisamente, che pn(x) converge a p(x), questo `e
il metodo parzen windows che verr`a esaminato a breve. Il secondo metodo invece considera kn in
funzione di n, esempio kn =
√
n, in questo caso il volume `e cresciuto fino a racchiudere kn vicini di
x, questa tecnica `e chiamata stima kn-nearest-neighbor.
Figura 3.1. Metodi per la stima di densit`a di probabilit`a
3.3 Parzen Windows
L’approccio denominato Parzen Windows pu`o essere introdotto assumendo che la regione Rn `e un
ipercubo a d dimensioni. Se hn `e la lunghezza del lato dell’ipercubo allora il suo volume `e dato da
Vn = hd
n (3.9)
A questo punto viene introdotta la funzione finestra, la quale dice: se un campione rientra in un
cubo assume valore 1 altrimenti assume valore 0.
ϕ(u) =
1 se |uj| ≤ 1/2
0 altrimenti
j = 1, . . . , d.
Facciamo un esempio a due dimensioni ed immaginiamo un quadrato centrato nell’origine, allora
il valore delle due dimensioni deve essere |uj| ≤ 1/2 per poter rientrare all’interno del quadrato,
altrimenti si trova al di fuori. In questo caso `e stato assunto che il lato abbia dimensione unitaria
e che l’ipercubo sia centrato nell’origine. Volendo applicarla al caso generale `e necessario traslare
nell’origine e poi dividere per hn, quindi la funzione finestra divente ϕ((x − xi)/hn). Una volta
ottenuta la funzione finestra per il caso generale la applico a tutti i punti per vedere quanti campioni
rientrano all’interno della regione. Il che pu`o essere calcolato con la sommatoria per tutti gli i = 1
kn =
n
i=1
ϕ
x − xi
hn
(3.10)
38 3 Nonparametric Techniques
cos`ı kn lo calcolo e non si fa nessuna ipotesi, mentre si fa l’ipotesi sul volume che come abbiamo
detto `e uguale a hd
n. Sostituiamo kn nella formula originaria
pn(x) =
kn/n
Vn
(3.11)
e ottengo
pn(x) =
1
n
n
i=1
1
Vn
ϕ
x − xi
hn
(3.12)
La stima appena vista `e basata sul concetto del conteggio del numero di campioni di training con-
tenuti in un volume prefissato, quindi la stima della distribuzione di probabilit`a `e espressa come
somma di N contributi, ciascuno dei quali `e associato ad un singolo campione, ed il singolo contri-
buto `e espresso da una funzione ϕ(u) che in generale non `e rettangolare (ϕ(u) ma assume valori
continui. Si costruisce quindi la stima mediante l’equazione 3.12. La funzione ϕ(u) `e detta finestra
di Parzen o kernel.
Affinch`e lo stimatore di Parzen abbia significato, `e necessario imporre vincoli sul kernel ϕ(u). Una
condizione necessaria e sufficiente affinch`e la stima di Parzen sia effettivamente una distribuzione
di probabilit`a, `e che la stessa funzione kernel sia una distribuzione di probablit`a, ossia una funzione
non-negativa
ϕ(x) ≥ 0 (3.13)
e normalizzata
ϕ(u) du = 1 (3.14)
Definiata la funzione δn(x)
δn(x) =
1
Vn
ϕ
x
hn
(3.15)
allora la distribuzione di probabilit`a pu`o essere scritta anche in un altra forma
p(x) =
1
n
n
i=1
δn(x − xi) (3.16)
Osserviamo come cambia la finestra di parzen al variare di kn. I vari casi sono mostrati in figura 3.2.
Diminuendo hn il volume diventa pi`u piccolo e di conseguenza δn ha un picco maggiore, di volta in
volta che hn diminuisce il picco aumenta, quindi per hn tendente a zero diventa proprio la delta di
dirac. Se invece hn `e grande allora assume la forma di una gaussiana con varianza molto ampia ma
con lo svantaggio che `e poco rappresentativa dei pattern, quindi potrebbe essere che la distribuzione
di probabiit`a non `e costante di conseguenza stiamo perdendo molte informazioni dei pattern all’in-
terno di questa regione (Regione grade equvale a perdita di informazioni). Analogamente invece hn
`e troppo piccolo allora guardiamo molti dettagli e nel tendere alla delta di dirac `e come se stessimo
osservando un singolo campione. Ritornando alla discussione sulla convergenza, bisogna tener conto
della convergenza della sequenza delle variabili casuali, dato che per ogni fissato x il valore di p(x)
dipende dai campioni x1, . . . , xn. Quindi se la media di pn(x) `e ¯pn(x) e la varianza `e σ2
n(x). Allora
la stima di pn(x) converce a p(x) se
lim
n→∞
¯pn(x) = p(x) (3.17)
3.3 Parzen Windows 39
Figura 3.2. Finestre di parzen con kn variabile
e
lim
n→∞
σ2
n(x) = 0 (3.18)
3.3.1 Esempi
´E interessante vedere come si comporta il metodo parzen windows ed in particolare osservare l’effetto
della funzione finestra. Consideriamo il caso in cui p(x) `e una distribuzione normale monovariata a
media zero e varianza unitaria. L funzione finestra avr`a la seguente forma
ϕ(u) =
1
√
2π
e−u2
/2
(3.19)
dato hn = h1/
√
n. Allora pn(x) `e una distribuzione di densit`a centrata sui campioni
pn(x) =
1
n
n
i=1
1
hn
ϕ
x − xi
hn
(3.20)
Effettuando un p`o di calcoli sono stati ottenuti i risultati mostrati in figura 3.3. I risultati dipendono
sia da h1 che da n. Per n = 1 e h1 = 1 `e semplicemente una gaussiana centrata sul primo campione,
quindi una visione sfocata out-of-focus della distribuzione. Per n = 10 e h1 = 0.1 osserviamo che
si pu`o distinguere il contributo di ogni campione cosa che non avviene nel caso in cui h1 = 1 e
h1 = 0.5.
3.3.2 Classificazione
Una volta stimata la densit`a di probabilit`a allora la classificazione viene effettuata mediante una
stima a massima probabilit`a a posteriori (MAP). Le regioni di decisioni dipendono dalla scelta che
si fa per la funzione finestra. In generale, l’errore `e basso scegliendo finestre con dimensione piccola.
40 3 Nonparametric Techniques
Figura 3.3. Stima mediante la tecnica Parzen window di una distribuzione normale monovariata facendo
variare il parametro h1 ed il numero di campioni n
3.4 kn-Nearest Neighbor estimation
Un rimedio al problema della dimensione della finestra di parzen `e quello di considerare il volume
in funzione dei campioni di training. Per esempio, per stimare la p(x) di un insieme di campioni di
training, possiamo centrare la regione in x e farla crescere finch`e ingloba kn campioni, dove kn `e
specificato in funzione di n. Questi campioni sono i kn nearest-neighbor di x. Se vicino il campione
x la densit`a `e alta allora la cella sar`a piccola, viceversa se la densit`a `e bassa allora si avr`a una
regione grande. In entrambi i casi se prendiamo
pn(x) =
kn/n
Vn
(3.21)
vogliamo che sia kn ed n tendono ad infinito dato che ci assicura che kn/n sar`a una buona stima di
probabilit`a che un punto cadr`a all’interno del volume Vn. Comunque, vogliamo anche che kn cresce
lentamente finch`e la dimensione della cella non include i kn campioni. ´E chiaro che dalla 3.21 il
rapporto kn/n tende a zero. Si pu`o dimostrare che le condizioni limn→∞ kn = ∞ e limn→∞ kn/n = 0
sono necessarie e sufficienti affinch`e pn(x) converge a p(x). Se poniamo kn =
√
n e assumiamo che
pn(x) `e una buona approssimazione di p(x) allora dall’eq. 3.21 otteniamo che Vn (
√
n p(x)). Cos`ı
3.4 kn-Nearest Neighbor estimation 41
Vn ha ancora la forma V1/
√
n, ma il volume iniziale `e determinato dalla natura dei dati piuttosto
che da una scelta arbitraria. ´E interessante notare che nonostante pn(x) `e continua la sua pendenza
(o gradiente) non lo `e. Inoltre i punti di dscontinuit`a corrispondono ai punti stessi (Fig. 3.4 e 3.5).
Figura 3.4.
Figura 3.5.
3.4.1 Kn-Nearest-Neighbor and Parzen Window Estimation
Nel caso in cui n = 1 allora kn =
√
n = 1 e quindi i questo caso la stima diventa
42 3 Nonparametric Techniques
pn(x) =
1
2|x − x1|
(3.22)
´E il caso in cui il numero di campioni pi`u prossimi ad x sia 1, portando ad una tecnica denominata
one-nearest-neighbor
3.4.2 Estimation of A Posteriori Probabilities
Le tecniche discusse nelle precedenti sezioni possono essere usate per stimare la probabilit`a a po-
steriori P(ωi|x) da un insieme di n campioni etichettati usando gli stessi campioni per stimare le
densit`a coinvolte. Supponiamo di utilizzare una volume V intorno ad x e catturare i k campioni,
ki di questi sono etichettati con ωi. La stima della probabilit`a congiunta p(x ∩ ωi) `e
pn(x ∩ ωi) =
ki/n
V
(3.23)
quindi la stima di P(ωi|x) `e
Pn(ωi|x) =
pn(x ∩ ωi)
c
j=1 pn(x ∩ ωj)
=
ki
k
(3.24)
La probabili`a a posteriori che il campione appartenga alla classe ωi `e data dal rapporto tra il
numero campioni etichettati con ωi ed i campioni k all’interno del volume. Per la scelta della
grandezza della cella `e chiaro che possiamo usare sia l’approccio basato sulle finestre di parzen che
quello basato sul kn-nearest-neighbor. Nel primo caso Vn deve essere specificato come funzione di
n, come Vn = 1/
√
n. Nel secondo caso, Vn viene esteso fino a racchiudere un determinato numero
di campioni, es. k =
√
n.
3.4.3 The Nearest-neighbor rule
Sia Dn
= {x1, . . . , xn} un insieme di n campioni dei quali conosciamo la classe di appartenenza
(approccio supervisionato), preso x ∈ Dn
come pi`u vicino prossimo al campione x che `e un cam-
pione di test (quindi non appartiene al dataset). La regola nearest-neighbor assegna ad x l’etichetta
di x . Il tasso di errore `e certamente maggiore di quello della regola di bayes, cio`e quella del minimo
possibile, per`o si dimostra che il tasso di errore `e al pi`u due volte l’errore di bayes, cio`e `e limitato
superiormente da due volte l’errore di bayes. L’errore di bayes `e molto piccolo, quindi moltiplicato
per due `e ancora piccolo. Questo `e il vantaggio che pu`o dare il nearest-neighbor con k = 1, quindi
costo computazionale bassissimo con grossa resa, dato che per n tendende ad infinito la probabilit`a
di p(ωi|x ) p(ωi|x), cio`e i vicini hanno probabilit`a a posteriori costanti. Inoltre se p(ωm|x ) 1,
qundi molto alta, allora in tal caso il comportamento del classificatore nearest-neighbor `e uguale al
comportamento di bayes. Stiamo dicendo che una regola di classificazione banale ha un comporta-
mento molto valido. Generalizzando, il k-nearest-neighbord assegna ad x l’etichetta del campione
pi`u frequentemente rappresentato dei k campioni pi`u vicini. L’algoritmo conduce quindi ad un
partizionamento, una cosa interessante in quanto ho delle celle intorno ad ogni campione x. La sud-
divisione delle celle viene definita tassellazione di voronoi, fondamentalmente `e un partizionamento
senza sovrapposizione delle celle (Fig. 3.6).
Nota: Se aumento il numero di k vicini le regioni sono dense e i picchi si abbassano, invece se k
diminuisce allora ci sono pi`u picchi.
3.4 kn-Nearest Neighbor estimation 43
Figura 3.6. Tassellazione di voronoi, le frontiere di decisione sono come superfici di diamanti
4
Unsupervised Learning and clustering
4.1 Vantaggi dell’ Unsupervised Learning
Fino ad ora abbiamo assunto che i campioni di training utilizzati per progettare un classificatore
sono stati etichettati in base alla classe di appartenenza. Quindi si ha a disposizione un insieme di
dati dei quali conosciamo la loro natura di appartenenza. Le procedure che operano su quest’insie-
me di dati sono dette unsupervised. Questa modalit`a `e utilizzata per una serie di ragioni. Esempio,
raccogliere ed etichettare un gran numero di campioni pu`o risultare molto costoso, in alcuni casi
potrebbe essere non fattibile in quanto non si ha a disposizione un esperto. Inoltre da un punto di
vista statistico `e pi`u facile affrontare il problema nel caso non supervisionato che nel caso supervi-
sionato, nel senso che `e molto difficile etichettare i campioni da parte di un esperto che molto spesso
lo riesce a fare soltanto per un numero di campioni molto ridotto, problema invece che non si ha nel
caso unsupervised in quanto il numero di campioni non etichettato pu`o anche crescere a dismisura
dato che non `e vincolato dal lavoro ulteriore di un esperto che etichetta i campioni. Quindi dal
punto di vista statistico la rappresentativit`a dei dati non etichettati, tipicamente `e maggiore dei
dati etichettati, inoltre i metodi non supervisionati possono essere utilizzati anche per l’estrazione di
caratteristiche. Un esempio `e quando non si conosce la sorgente dei dati, tipicamente i dati vengono
raccolti da sensori e non si ha neanche un esperto che riesce ad etichettare i dati (fetaure), quindi
l’approccio non supervisionato oltre ad apparire come un approccio per la classificazione di dati
non etichettati potrebbe apparire anche come un processo di preelabrazione dei dati. Per esempio
quando si ha a disposizione una quantit`a enorme di dati, questi vengono analizzati con la condizio-
ne che non si sa da dove derivano e quale `e l’etichetta. Quindi si ha a disposizione molti campioni
per effettuare un analisi statistica dei dati senza l’ausilio degli esperti, questo processo produce un
insieme ridotto delle osservazioni e sono queste quelle che verranno poi sottoposte all’analisi. Sotto
questo aspetto Il processo di classificazione non supervisionato non `e un processo di classificazione
ma un processo di estrazione di carattaristiche. Le tecniche che verranno utilizzate, sono tecniche
di data mining (investigare i dati). L’analisi dei dati per esplorazione (mining) pu`o risultare utile
alla comprensione della natura e struttura dei dati, quindi solo dopo aver effettuato un esplorazione
attenta dei dati `e possibile analizzarli e quindi sar`a possibile poi dire si i dati analizzati corrispon-
dono ad un determinato processo.
46 4 Unsupervised Learning and clustering
4.2 Introduzione
Stiamo nel caso in cui l’apprendimento `e non supervisionato, quindi il caso in cui i campioni che
abbiamo a disposizione non sono etichettati. ´E un caso abbastanza generale poich´e `e molto difficile
raccogliere ed etichettare un gran numero di campioni, in quanto effettuare tali operazioni `e costoso
in termini di tempo, ma soprattutto `e costoso in termini di energie di esperti del settore spese per
poter operare un etichettatura dei campioni. Quindi in alcuni casi abbiamo una raccolta di dati,
anche abbastanza considerevole, non etichettati per`o rappresentativi di fenomeni abbastanza com-
plessi che devono essere studiati. Studiare un fenomeno non significa soltanto riuscire a determinare
la struttura, ma molto spesso significa proprio rilevare eventi che non sono noti, rilevare anomalie
che rappresentano eventi significativi, per cui scoprire caratteristiche dai dati `e l’obiettivo dell’un-
supervised learning. Il termine apprendimento `e legato al fatto che i parametri delle distribuzioni
di probabilit`a dei modelli non sono noti e bisogna renderli noti soltanto dopo una fase di addestra-
mento di un sistema che si va a progettate. Per prima cosa si dovrebbe progettare un sistema di
classificazione assumendo che si basi sul criterio MAP, quindi la probabilit`a a posteriori segue la re-
gola di Bayes, per`o le probabilit`a che entrano in gioco nella regola di Bayes non sono note, non sono
note le propriet`a a priori ed in particolare le probabilit`a condizionate ovvero la verosomiglianza e
di conseguenza se non sono note queste non `e nota neanche l’evidenza, ovvero il denominatore della
regola di Bayes, quindi di conseguenza non `e nota la probabilit`a a posteriori. L’ipotesi in questo
caso, come abbiamo gi`a fatto per l’apprendimento supervisionato `e quella di avere la conoscenza
del modello, cio`e di avere conoscenza della distribuzione di probabilit`a dei dati. ´E un ipotesi forte
in quanto ci appelliamo al teorema del limite centrale il quale dice che su un numero di campioni
infinito le distribuzioni di probabilit`a tendono ad essere gaussiane, ci limitiamo pertanto a stimare o
meglio ad apprendere i parametri delle distribuzioni di probablit`a gaussiane, che nella maggior parte
dei casi sono gaussiane multivariate caratterizzate da una media e da una matrice di covarianza.
Un punto essenziale `e come scoprire le regolarit`a dei dati, cio`e se i dati che io raccolgo si compor-
tano in modo regolare, dal punto di vista matematico regolare significa che `e possibile interpolare
questi dati attraverso delle funzioni matematiche che appaiono funzioni regolari, quindi scoprire le
regolarit`a vuol dire scoprire un modello di comportamento che `e assolutamente importante per il
rilevamento di anomalie. Praticamente a cosa serve la teoria non supervisionata ed il clustering?
Immaginiamo di avere una raccolta di dati considerevole, etichettare questi dati `e improponibile,
avere conoscenza di cosa corrispondono questi dati `e altrettanto improponibile allora l’esperto non
lo si chiama proprio, non viene proprio interpellato per guardare i dati, si fa una scrematura, ovvero
una pulizia dei dati, quindi si studiano le regolarit`a dei dati attraverso le tecniche di unsupervised
learning o clustering in modo tale che i prototipi dei cluster che poi vengono identificati (il raggrup-
pamento) verranno poi posti all’attenzione degli esperti, cio`e quindi non i dati stessi ma i prototipi
dei cluster i cui ho suddiviso i dati, naturalmente i prototipi dei cluster in cui ho suddiviso i dati
sar`a in numero nettamente minore dei dati da osservare e quindi porta ad una realizzazione del
procedimento di etichettatura da parte di un esperto. Pertanto quello che stiamo dicendo `e che mol-
to spesso l’apprendimento non supervisionato `e una fase di elaborazione, cio`e quella fase di analisi
dei dati che viene prima di una analisi pi`u attenta dei dati stessi. Quindi ad un procedimento non
supervisionato quasi sempre segue un procedimento supervisionato. In alcuni casi per`o `e possibile
anche che il risultato di un apprendimento non supervisionato sia gi`a sufficiente per la comprensione
del dataset e quindi l’esperto non viene interpellato. Quando i pattern appaiano molto densi allora
il clusetring risulta essere molto agevole, quindi questa procedura `e molto utile quando di dati sono
densamente distribuiti intorno ad un prototipo o centroide. Quando invece i dati si distribuiscono
4.3 Mixture Densities and Identifiability 47
in modo non cos`ı denso intorno ad un centroide allora `e molto pi`u difficile determinare i centroidi,
`e anche molto pi`u difficile determinare i veri cluster e quindi `e necessaria una fase di etichettatura.
L’apprendimento non supervisionato rappresenta una grossolana suddivisione dei dati in gruppi. Il
problema va per`o affrontato in un modo formalmente corretto.
4.3 Mixture Densities and Identifiability
Cominciamo con l’assunzione che conosciamo la completa struttura probabilistica del problema,
con la sola eccezione di non conoscere i valori di alcuni parametri. Per essere pi`u specifici, facciamo
le seguenti assunzioni:
1. I campioni provengono un numero di c classi che conosciamo
2. Le probabilit`a a priori P(ωj) per ogni classe j = 1, . . . , c sono conosciute
3. Le densit`a di probabilit`a sono conosciute p(x|ωj, Θj)
4. Valori dei vettori dei parametri Θ1, . . . , Θc sono sconosciuti
5. Le etichette per ogni categoria sono sconosciute
A differenza dello studio effettuato nell’apprendimento supervisionato che veniva effettuato per
classi, qui non conosciamo le classi di appartenenza, e quindi deve essere fatto su tutti i dati
ipotizzando che i dati provengono da c classi. Ma non sappiamo quali sono le classi perch`e i pattern
non sono etichettati. Si ipotizza che la distribuzione di probabilt`a non `e altro che una combinazione
lineare delle distribuzioni di probabilit`a delle singole classi che per`o non sono note. Immagino che
i dati provengono da c classi, non si `e a conoscenza di quali sono le classi, ma si sa soltanto che
la distribuzione di probabilit`a per ogni classe `e per esempio una gaussiana multivariata, di cui non
conosco ne la media ne la matrice di covarianza per ogni classe. Naturalmente poich´e i dati non
sono etichettati non posso fare un analisi per classe, ma devo fare un analisi di tutti i dati. Allora
immagino che la distribuzione di probabilit`a totale dei dati non `e altro che una combinazione lineare
della distribuzione di probabilit`a per ogni singola classe, che prende il nome di mixtura di densit`a
di probabilit`a, che nel caso di gaussiane prende il nome di mixture di gaussiame (MOG). L’evidenza
p(x), cio`e la distribuzione di probabilit`a di un pattern qualsiasi x indipendentemente da quale classe
apparitene non `e altro che la probabilit`a marginale delle probabilit`a congiunte. Posso certamente
dire che
p(x) =
c
j=1
p(x, ωj) (4.1)
questa non `e altro che la distribuzione di probabilit`a marginale della distribuzione di probabilit`a
congiunta di p(x, ωj), ricordando che per la distribuzione di probabilit`a congiunta (la tabella a
doppia entrata) la probabilit`a marginale si calcola per colonne o per righe. La 4.1 `e possibile
riscriverla come
p(x) =
c
j=1
p(x|ωj)P(ωj) (4.2)
Assumiamo che i campioni sono stati ottenuti selezionando lo stato della natura ωj con probabilit`a
P(ωj) e poi selezionando un osservazione x in accordo con la distribuzione di probabilit`a p(x|ωj, Θj).
Cos`ı, la densit`a di probabilit`a per i campioni `e data da
48 4 Unsupervised Learning and clustering
p(x|Θ) =
c
j=1
p(x|ωj, Θj)P(ωj) (4.3)
dove Θ = (Θ1, . . . , Θc)t
, non `e altro un vettore di vettori di parametri. Quindi ogni Θj `e un
vettore di parametri, per fare un esempio nel caso di una gaussiana Θj non `e altro che il vettore
costituito da media e matrice di covarianza della j-esima distribuzione gaussiana multivariata. Per
ovvie ragioni, la funzione di densit`a in questa forma `e chiamata mixture density, le distribuzioni di
probabilit`a condizionate sono chiamate component density e le probabilit`a a priori sono chiamate
mixing parameters. L’obiettivo base sar`a quello di usare i campioni che seguono la mixture density
per stimare il vettore parametri sconosciuti Θ. Se l’ obiettivo `e la classificazione allora una volta
trovato Θ possiamo decomporre la mixtura in tante componenti e usare un classificatore MAP
(maximum a posteriori) sulle densit`a derivate. Prima di cercare una soluzione a questo problema,
ci chiediamo comunque se `e possibile o meno ricavare Θ dalle mixture. Supponiamo che abbiamo
un illimitato numero di campioni e che usiamo un metodo non parametrico della sezione 3 per
determinare il valore di p(x|Θ) per ogni x. Se c’`e un solo valore di Θ che sar`a prodotto dai valori
osservati per p(x|Θ), allora la soluzione `e possibile in linea si principio, invece se molti valori di Θ
possono produrre gli stessi valori per p(x|Θ), allora non ci sono speranze di ottenere una soluzione
unica.
Queste considerazioni ci portano alla seguente definizione: Una funzione di densit`a p(x|Θ) `e detta
identificabile se Θ = Θ implica che esiste un x tale che p(x|Θ) = p(x|Θ ), questo significa che
quando si stimano i Θ si potrebbe ottenere per differenti valori di Θ la stessa distribuzione di
probabilit`a, cosa che non deve accadere altrimenti il procedimento non va a buon termine. Facciamo
un semlice esempio dove si considera il caso in cui x `e binario (quindi pu`o assumere 0 o 1) e P(x|Θ)
`e una mixtura di due binomiali
P(x|Θ) =
1
2
Θx
1 (1 − Θ1)1−x
+
1
2
Θx
2 (1 − Θ2)1−x
=
1
2 (Θ1 + Θ2) se x = 1
1 − 1
2 (Θ1 + Θ2) se x = 0
(4.4)
´E identificabile questa mixtura di densit`a? Presi due valori Θ e Θ che sono diversi, esiste almeno
un x per cui P(x|Θ) = P(x|Θ )?
Supponiamo, per esempio, che conosciamo il valore di P(x = 1|Θ) = 0.6 e quindi che P(x = 0|Θ) =
0.4. Conosciamo la funzione P(x|Θ), ma non possiamo determinare Θ e quindi non possiamo estrar-
re le componenti della distribuzione. Inoltre possiamo dire che Θ1 + Θ2 = 1.2. Come potremmo
mai trovare dei valori Θ1 e Θ2 che identificano in modo inequivocabile la densit`a di probabilit`a se
praticamente la loro somma in entrambi i casi `e sempre uguae ad 1.2?
Quindi `e impossibile trovare una combinazione di parametri che sia identificabile. Cos`ı, abbiamo
un caso per il quale la distribuzione di mixture `e completamente non identificabile, un caso per il
quale la tecnica unseupervised non pu`o essere applicata in linea di principio. Questo tipo di pro-
blema si presenta comunemente nel caso di dati discreti, la presenza di molte componenti potrebbe
rendere il problema abbastanza difficile, invece nel caso continuo, il problema `e meno severo. ´E pos-
sibile mostrare che la mixtura di distribuzioni normali (mixtura di gaussiane) sono generalmente
identificabili e i parametri di una semplice mixtura sono
p(x|Θ) =
P(ω1)
√
2π
exp −
1
2
(x − Θ1)2
+
P(ω2)
√
2π
exp −
1
2
(x − Θ2)2
(4.5)
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
Pattern Recognition Lecture Notes

More Related Content

What's hot

Tesi Triennale - X509 e PGP
Tesi Triennale - X509 e PGPTesi Triennale - X509 e PGP
Tesi Triennale - X509 e PGPFabio Pustetto
 
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...maik_o
 
Il mio libro - My book (intro)
Il mio libro - My book (intro)Il mio libro - My book (intro)
Il mio libro - My book (intro)pls3d
 
Validation and analysis of mobility models
Validation and analysis of mobility modelsValidation and analysis of mobility models
Validation and analysis of mobility modelsUmberto Griffo
 
Dispensa Interazione Uomo Macchina
Dispensa Interazione Uomo MacchinaDispensa Interazione Uomo Macchina
Dispensa Interazione Uomo MacchinaStefano Bussolon
 
Dispensa di analisi dei dati
Dispensa di analisi dei datiDispensa di analisi dei dati
Dispensa di analisi dei datiStefano Bussolon
 
Progettare artefatti cognitivi
Progettare artefatti cognitiviProgettare artefatti cognitivi
Progettare artefatti cognitiviStefano Bussolon
 
Progetto Tecnologia Meccanica II
Progetto Tecnologia Meccanica IIProgetto Tecnologia Meccanica II
Progetto Tecnologia Meccanica IIPieroEro
 
Modellazione della dinamica di un liquido bifase mediante GPU CUDA
Modellazione della dinamica di un liquido bifase mediante GPU CUDAModellazione della dinamica di un liquido bifase mediante GPU CUDA
Modellazione della dinamica di un liquido bifase mediante GPU CUDAkylanee
 
Joseki : un server per interrogare risorse RDF attraverso un interfaccia Web
Joseki : un server per interrogare risorse RDF attraverso un interfaccia WebJoseki : un server per interrogare risorse RDF attraverso un interfaccia Web
Joseki : un server per interrogare risorse RDF attraverso un interfaccia WebCyclope86
 
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEM
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEMTesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEM
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEMDavide Ciambelli
 
Dispense Probabilità (1.3)
Dispense Probabilità (1.3)Dispense Probabilità (1.3)
Dispense Probabilità (1.3)Luigi Carassale
 
Esercizi di programmazione in C (v. 2.01)
Esercizi di programmazione in C (v. 2.01)Esercizi di programmazione in C (v. 2.01)
Esercizi di programmazione in C (v. 2.01)Fulvio Corno
 
Risorse infrastrutturali area vasta di Torremaggiore
Risorse infrastrutturali area vasta di TorremaggioreRisorse infrastrutturali area vasta di Torremaggiore
Risorse infrastrutturali area vasta di Torremaggioregifanta
 

What's hot (20)

Tesi Triennale - X509 e PGP
Tesi Triennale - X509 e PGPTesi Triennale - X509 e PGP
Tesi Triennale - X509 e PGP
 
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...
 
Il mio libro - My book (intro)
Il mio libro - My book (intro)Il mio libro - My book (intro)
Il mio libro - My book (intro)
 
Validation and analysis of mobility models
Validation and analysis of mobility modelsValidation and analysis of mobility models
Validation and analysis of mobility models
 
Tesi peiretti
Tesi peirettiTesi peiretti
Tesi peiretti
 
My Thesis
My ThesisMy Thesis
My Thesis
 
A.Dionisi Thesis
A.Dionisi ThesisA.Dionisi Thesis
A.Dionisi Thesis
 
Dispensa Interazione Uomo Macchina
Dispensa Interazione Uomo MacchinaDispensa Interazione Uomo Macchina
Dispensa Interazione Uomo Macchina
 
Dispensa di analisi dei dati
Dispensa di analisi dei datiDispensa di analisi dei dati
Dispensa di analisi dei dati
 
Tesi
TesiTesi
Tesi
 
Progettare artefatti cognitivi
Progettare artefatti cognitiviProgettare artefatti cognitivi
Progettare artefatti cognitivi
 
Progetto Tecnologia Meccanica II
Progetto Tecnologia Meccanica IIProgetto Tecnologia Meccanica II
Progetto Tecnologia Meccanica II
 
Modellazione della dinamica di un liquido bifase mediante GPU CUDA
Modellazione della dinamica di un liquido bifase mediante GPU CUDAModellazione della dinamica di un liquido bifase mediante GPU CUDA
Modellazione della dinamica di un liquido bifase mediante GPU CUDA
 
Monitoraggio di rete con nagios
Monitoraggio di rete con nagiosMonitoraggio di rete con nagios
Monitoraggio di rete con nagios
 
Joseki : un server per interrogare risorse RDF attraverso un interfaccia Web
Joseki : un server per interrogare risorse RDF attraverso un interfaccia WebJoseki : un server per interrogare risorse RDF attraverso un interfaccia Web
Joseki : un server per interrogare risorse RDF attraverso un interfaccia Web
 
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEM
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEMTesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEM
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEM
 
Dispense Probabilità (1.3)
Dispense Probabilità (1.3)Dispense Probabilità (1.3)
Dispense Probabilità (1.3)
 
Esercizi di programmazione in C (v. 2.01)
Esercizi di programmazione in C (v. 2.01)Esercizi di programmazione in C (v. 2.01)
Esercizi di programmazione in C (v. 2.01)
 
Tesina Rifiuti Arpa Puglia
Tesina Rifiuti Arpa PugliaTesina Rifiuti Arpa Puglia
Tesina Rifiuti Arpa Puglia
 
Risorse infrastrutturali area vasta di Torremaggiore
Risorse infrastrutturali area vasta di TorremaggioreRisorse infrastrutturali area vasta di Torremaggiore
Risorse infrastrutturali area vasta di Torremaggiore
 

Similar to Pattern Recognition Lecture Notes

Tecniche di Test-driven development in ambito sicurezza informatica e rilevaz...
Tecniche di Test-driven development in ambito sicurezza informatica e rilevaz...Tecniche di Test-driven development in ambito sicurezza informatica e rilevaz...
Tecniche di Test-driven development in ambito sicurezza informatica e rilevaz...fcecutti
 
Reti neurali di convoluzione per la visione artificiale - Tesi di Laurea Magi...
Reti neurali di convoluzione per la visione artificiale - Tesi di Laurea Magi...Reti neurali di convoluzione per la visione artificiale - Tesi di Laurea Magi...
Reti neurali di convoluzione per la visione artificiale - Tesi di Laurea Magi...Daniele Ciriello
 
mastertesi
mastertesimastertesi
mastertesiReply
 
Il tutorial di Python
Il tutorial di PythonIl tutorial di Python
Il tutorial di PythonAmmLibera AL
 
Inoltro di pacchetti ip in sistemi linux
Inoltro di pacchetti ip in sistemi linuxInoltro di pacchetti ip in sistemi linux
Inoltro di pacchetti ip in sistemi linuxCe.Se.N.A. Security
 
Il Modello Pragmatico Elementare per lo sviluppo di Sistemi Adattivi - Tesi
Il Modello Pragmatico Elementare per lo sviluppo di Sistemi Adattivi - TesiIl Modello Pragmatico Elementare per lo sviluppo di Sistemi Adattivi - Tesi
Il Modello Pragmatico Elementare per lo sviluppo di Sistemi Adattivi - TesiFrancesco Magagnino
 
Imparare c n.104
Imparare c  n.104Imparare c  n.104
Imparare c n.104Pi Libri
 
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...maaske
 
Piano Nazionale Scuola Digitale (risorse integrative)
Piano Nazionale Scuola Digitale (risorse integrative)Piano Nazionale Scuola Digitale (risorse integrative)
Piano Nazionale Scuola Digitale (risorse integrative)Ministry of Public Education
 
Applicazioni intelligenzaartificiale
Applicazioni intelligenzaartificialeApplicazioni intelligenzaartificiale
Applicazioni intelligenzaartificialeAntonella79
 
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...Francesco De Giorgi
 
Progetto per lo sviluppo di un sistema di gestione della conoscenza per il pr...
Progetto per lo sviluppo di un sistema di gestione della conoscenza per il pr...Progetto per lo sviluppo di un sistema di gestione della conoscenza per il pr...
Progetto per lo sviluppo di un sistema di gestione della conoscenza per il pr...Nicola Cerami
 
Orchestrazione delle risorse umane nel BPM
Orchestrazione delle risorse umane nel BPMOrchestrazione delle risorse umane nel BPM
Orchestrazione delle risorse umane nel BPMMichele Filannino
 
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARY
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARYMARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARY
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARYvantasso
 
Implementazione di protocolli e simulatori MATLAB per lo sviluppo del livello...
Implementazione di protocolli e simulatori MATLAB per lo sviluppo del livello...Implementazione di protocolli e simulatori MATLAB per lo sviluppo del livello...
Implementazione di protocolli e simulatori MATLAB per lo sviluppo del livello...michael_mozzon
 
Interfaccia utente basata su eye-tracking per sistemi di controllo ambientale
Interfaccia utente basata su eye-tracking per sistemi di controllo ambientaleInterfaccia utente basata su eye-tracking per sistemi di controllo ambientale
Interfaccia utente basata su eye-tracking per sistemi di controllo ambientaleLuigi De Russis
 
Monitoraggio di applicazioni software mediante modelli di Markov
Monitoraggio di applicazioni software mediante modelli di MarkovMonitoraggio di applicazioni software mediante modelli di Markov
Monitoraggio di applicazioni software mediante modelli di Markovrkjp
 

Similar to Pattern Recognition Lecture Notes (20)

Tecniche di Test-driven development in ambito sicurezza informatica e rilevaz...
Tecniche di Test-driven development in ambito sicurezza informatica e rilevaz...Tecniche di Test-driven development in ambito sicurezza informatica e rilevaz...
Tecniche di Test-driven development in ambito sicurezza informatica e rilevaz...
 
Reti neurali di convoluzione per la visione artificiale - Tesi di Laurea Magi...
Reti neurali di convoluzione per la visione artificiale - Tesi di Laurea Magi...Reti neurali di convoluzione per la visione artificiale - Tesi di Laurea Magi...
Reti neurali di convoluzione per la visione artificiale - Tesi di Laurea Magi...
 
mastertesi
mastertesimastertesi
mastertesi
 
Il tutorial di Python
Il tutorial di PythonIl tutorial di Python
Il tutorial di Python
 
Inoltro di pacchetti ip in sistemi linux
Inoltro di pacchetti ip in sistemi linuxInoltro di pacchetti ip in sistemi linux
Inoltro di pacchetti ip in sistemi linux
 
Il Modello Pragmatico Elementare per lo sviluppo di Sistemi Adattivi - Tesi
Il Modello Pragmatico Elementare per lo sviluppo di Sistemi Adattivi - TesiIl Modello Pragmatico Elementare per lo sviluppo di Sistemi Adattivi - Tesi
Il Modello Pragmatico Elementare per lo sviluppo di Sistemi Adattivi - Tesi
 
Imparare c n.104
Imparare c  n.104Imparare c  n.104
Imparare c n.104
 
Tesi
TesiTesi
Tesi
 
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...
 
Piano Nazionale Scuola Digitale (risorse integrative)
Piano Nazionale Scuola Digitale (risorse integrative)Piano Nazionale Scuola Digitale (risorse integrative)
Piano Nazionale Scuola Digitale (risorse integrative)
 
Applicazioni intelligenzaartificiale
Applicazioni intelligenzaartificialeApplicazioni intelligenzaartificiale
Applicazioni intelligenzaartificiale
 
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...
 
Progetto per lo sviluppo di un sistema di gestione della conoscenza per il pr...
Progetto per lo sviluppo di un sistema di gestione della conoscenza per il pr...Progetto per lo sviluppo di un sistema di gestione della conoscenza per il pr...
Progetto per lo sviluppo di un sistema di gestione della conoscenza per il pr...
 
Orchestrazione delle risorse umane nel BPM
Orchestrazione delle risorse umane nel BPMOrchestrazione delle risorse umane nel BPM
Orchestrazione delle risorse umane nel BPM
 
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARY
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARYMARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARY
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARY
 
Implementazione di protocolli e simulatori MATLAB per lo sviluppo del livello...
Implementazione di protocolli e simulatori MATLAB per lo sviluppo del livello...Implementazione di protocolli e simulatori MATLAB per lo sviluppo del livello...
Implementazione di protocolli e simulatori MATLAB per lo sviluppo del livello...
 
domenicoCaputiTriennale
domenicoCaputiTriennaledomenicoCaputiTriennale
domenicoCaputiTriennale
 
Interfaccia utente basata su eye-tracking per sistemi di controllo ambientale
Interfaccia utente basata su eye-tracking per sistemi di controllo ambientaleInterfaccia utente basata su eye-tracking per sistemi di controllo ambientale
Interfaccia utente basata su eye-tracking per sistemi di controllo ambientale
 
Monitoraggio di applicazioni software mediante modelli di Markov
Monitoraggio di applicazioni software mediante modelli di MarkovMonitoraggio di applicazioni software mediante modelli di Markov
Monitoraggio di applicazioni software mediante modelli di Markov
 
Tesi
TesiTesi
Tesi
 

Recently uploaded

Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxlorenzodemidio01
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaStefano Lariccia
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxlorenzodemidio01
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxlorenzodemidio01
 

Recently uploaded (6)

Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 

Pattern Recognition Lecture Notes

  • 1.
  • 2. Roberto Melfi Pattern Recognition Lecture Notes v1.0 Pattern Recognition Course - A.Y. 2008/2009 In Memory of Prof. Alfredo Petrosino 7 gennaio 2020
  • 3.
  • 4. to our professor Alfredo Petrosino
  • 5.
  • 6. Prefazione Questi appunti sono stati scritti durante il corso di Riconoscimento e Classificazione di Forme te- nuto dal Professore Alfredo Petrosino nell’anno accademico 2008/2009. Non sono semplici appunti, ma un’accurata sbobinatura di registrazioni delle sue lezioni unite a parti tradotte e sintetizzate del libro “Duda Hart” [2]. A distanza di circa dieci anni rendo pubblico questo lavoro, non per meriti, ma per tramandare per iscritto le lezioni del professore ai futuri studenti, se esistono questi appunti `e solo grazie al suo corso, ho avuto soltanto la pazienza di trascriverli e organizzarli per poter preparare al meglio l’esame finale. Gli appunti sono open source (https://github.com/robmelfi/PatternRecognitionLectureNotes), cosi da correggere eventuali errori di battitura e migliorare parti non abbastanza curate da parte mia. Il professore ha insegnato che la perfezione non esiste, ma un lavoro pu`o essere sempre mi- gliorato per tendere alla perfezione, questi appunti devono essere un punto di partenza per essere ampliati lasciando inalterate e mettendo in evidenza le parole del professore. Roberto Melfi Il ruolo di un professore `e quello di essere guida e di insegnare la vita, oltre che la disciplina. Gli studenti dell’Universit`a Parthenope che hanno conosciuto il professore Alfredo Petrosino possono dire di aver avuto un’insegnante che ha ricoperto a pieno questo ruolo. Grazie a lui abbiamo creato un gruppo di studio tra le scrivanie del CVPRLab che andava oltre i banchi universitari. Durante tutto il percorso accademico abbiamo trascorso dei momenti intensi che ci han forgiato rendendoci le persone migliori che siamo oggi. Non gli saremo mai abbastanza riconoscenti per questo! La sua prematura scomparsa `e stata un fulmine a ciel sereno che ha riunito sotto lo stesso tetto, tutte le persone che lo conoscevano ed avevano lavorato con lui. Anche in questo momento `e stato speciale dato ci siamo riuniti dopo anni in cui ognuno di noi ha intrapreso la sua strada. Grazie di tutto prof! Luca Russo “ti aspetter`o comunque fuori alla porta 429 ... sarai semplicemente in ritardo ...”, il saluto del suo caro allievo Enrico Balestrieri. Napoli, Gennaio 2020
  • 7.
  • 8. Indice Parte I 1 Bayesian Decision Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Teoria delle decisioni baesiane – Continuous Features . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.1 Classificazione tra due categorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3 Classificazione con tasso di errore minimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 Classificatori, Funzioni discriminanti e superfici di decisione . . . . . . . . . . . . . . . . . . . . . 7 1.4.1 Il caso multicategoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.2 Il caso a due categorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.5 La distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.5.1 Distribuzione normale unidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.5.2 Distribuzione Multivariata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.6 Funzioni Discriminanti per la Distribuzione Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.6.1 Caso 1: Σi = σ2 I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.6.2 Caso 2: Σi = Σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.6.3 Caso 3: Σi = arbitrario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.7 Probabilit`a di errore ed integrali. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.7.1 Receiver Operating Characteristic (R.O.C.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2 Maximum-Likelihood and Bayesian Parameter Estimation . . . . . . . . . . . . . . . . . . . 23 2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.2 Maximum-Likelihood Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.2.1 Caso Gaussiamo: µ incognita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2.2 Caso Gaussiano: µ e Σ incognite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3 Bayesian Estimation (cenni) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.4 Principal Component Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3 Nonparametric Techniques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.1 introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2 Stima della densit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.3 Parzen Windows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
  • 9. X Indice 3.3.1 Esempi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.3.2 Classificazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.4 kn-Nearest Neighbor estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.4.1 Kn-Nearest-Neighbor and Parzen Window Estimation . . . . . . . . . . . . . . . . . . . 41 3.4.2 Estimation of A Posteriori Probabilities. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.4.3 The Nearest-neighbor rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4 Unsupervised Learning and clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1 Vantaggi dell’ Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.2 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.3 Mixture Densities and Identifiability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.4 Maximum Likelihood estimates. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.5 Application To Normal Mixtures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.5.1 Case 1: Vettore media non conosciuto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.5.2 Case 2: Tutti i parametri non conosciuti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.5.3 k-Means Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.5.4 Fuzzy k-Means Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.6 Unsupervised Bayesian Learning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.6.1 Learning the Parameter Vector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.7 Data Description And Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.7.1 Similarity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.8 Criterion Functions For Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.8.1 The Sum-of-Squared-Error Criterion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.9 Iterative Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.10 Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.10.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.10.2 Agglomerative Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.10.3 Stepwise-Optimal Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5 Expectation-Maximization (EM). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.1 Itroduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.2 Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Parte II 6 Sistemi Adattivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.1 Metodo del gradiente discendente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 6.2 Metodo Least Mean Square(LMS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 6.3 Estensione a variabili multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 6.4 Processore Elementare PE (Adaline) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 7 Reti Neurali Artificiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 7.2 Learning Supervisionato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 7.2.1 Perceptron Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 7.2.2 Regola a catena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
  • 10. Indice XI 7.3 Percettrone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 7.4 Multilayer Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 7.5 Learning non supervisionato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 7.5.1 Learning Hebbiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 7.5.2 Regola di Oja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 7.6 Reti Competitive e di Kohonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Riferimenti bibliografici. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
  • 11.
  • 13.
  • 14. 1 Bayesian Decision Theory 1.1 Introduzione La Teoria delle decisioni baesiane `e un fondamentale approccio statistico per il problema del Pattern Classification. L’esempio preso in considerazione `e quello di progettare un classificatore che sia in grado di separare due specie di pesci: il branzino ed il salmone. Supponiamo che ci sia un operatore che sta osservando un nastro trasportatore sul quale scorrono queste due specie, l’osservatore trova difficile predire quale specie si presenter`a all’arrivo del prossimo pesce. Denotiamo con ω lo stato della natura, poniamo ω = ω1 per il branzino e ω = ω2 per il salmone. Poich`e lo stato della natura `e imprevedibile allora consideriamo ω una variabile che deve essere descritta probabilisticamente. Si assume che siamo a conoscenza delle probabilit`a a priori, denotiamo con P(ω1) la probabilit`a che il prossimo pesce sia un branzino e con P(ω2) la probabilit`a che il prossimo pesce sia un salmone, se si assume che non ci siano altre tipologie di pesci allora la somma di P(ω1) e P(ω2) `e uguale ad uno. Le due probabilit`a possono essere ricavate statisticamente sulla storia passata, quindi una regola di decisione potrebbe essere quella di scegliere ω1 se P(ω1) > P(ω2), altrimenti viene scelto ω2. Questa regola potrebbe avere senso se prendiamo in considerazione soltanto due tipologie di classi, infatti potrebbe risultare strano se si applica questa regola quando c’`e da classificare pi`u di due classi. Nella maggior parte delle circostanze non `e utile prendere decisioni con cos`ı poche informazioni. Nella classificazione tra le due specie di pesci, per esempio possiamo prendere in considerazione la misura della luminanza x per migliorare il nostro classificatore. Ogni pesce avr`a una luminanza diversa ed `e possibile esprimere questa variabile in termini probabilistici, si considera x come una variabile casuale la cui distribuzione dipende dallo stato della natura ed `e espressa come p(x|ω) che viene definita funzione della densit`a di probabilit`a condizionale, ovvero la funzione della densit`a di probabilit`a per x dato lo stato della natura ω. Quindi la differenza tra p(x|ω1) e p(x|ω2) descrive la differenza di luminanza tra la popolazione dei branzini e quella dei salmoni (fig. 1.1). Supponiamo che siamo a conoscenza di entrambi le probabilit`a a priori P(ωj) e delle funzioni di densit`a della probabilit`a condizionata p(x|ωj) per j = 1, 2. Supponiamo che arrivi un pesce sul nastro trasportatore e misuriamo la luminanza x. Qui entra in gioco la regola di Bayes. Conosciamo p(x|ωj) = p(x ∩ ωj)/P(ωj), il nostro obiettivo `e quello di calcolare P(ωj|x), ovvero la probabilit`a di appartenenza alla classe ωj dato la misura di luminanza x rilevata. P(ωj|x) = P(x ∩ ωj)/p(x), quindi per il teorema della moltiplicazione
  • 15. 4 1 Bayesian Decision Theory Figura 1.1. Funzione di densit`a della probabilit`a condizionate delle due classi di pesci per la caratteristica della luminanza x p(ωj ∪ x) = p(x|ωj)P(ωj) (1.1) p(ωj ∪ x) = P(ωj|x)p(x) (1.2) riarrangiando i termini otteniamo la risposta al nostro quesito mediante la regola di Bayes P(ωj|x) = p(x|ωj)P(ωj) p(x) (1.3) dove nel caso di due categorie p(x) = 2 j=1 p(x|ωj)P(ωj) (1.4) La formula di Bayes pu`o essere espressa informalmente dicendo che Posterior = likelihood (verosomigianza) × prior evicence (1.5) La formula di Bayes mostra che osservando il valore di x possiamo convertire la probabilit`a a priori P(ωj) nella probabilit`a a posteriori P(ωj|x), ovvero la probabilit`a di avere la classe ωj dato il valore x misurato. Chiamiamo P(x|ωj) likelihood (verosomiglianza) di ωj rispetto ad x. p(x) invece `e il fattore evidenza e pu`o essere visto come un fattore di scala che garantisce che la somma delle probabilit`a a posteriori sia uguale ad uno. La variazione di P(ωj|x) `e illustrata in figura 1.2 per il caso con P(ω1) = 2/3 e P(ω2) = 1/3. Quindi nel caso di due classi `e ovvio scegliere ω1 se P(ω1|x) > P(ω2|x) e viceversa. Per giustificare questa procedura di decisione `e opportuno calcolare la probabilit`a di errore. Qualsiasi sia la variabile x osservata la probabilit`a di errore `e P(error|x) = P(ω1|x) se dicidiamo ω2 P(ω2|x) se dicidiamo ω1
  • 16. 1.2 Teoria delle decisioni baesiane – Continuous Features 5 Figura 1.2. Probabilit`a posteriori calcolate per le probabilit`a a priori P(ω1) = 2/3 e P(ω2) = 1/3 per le funzioni di densit`a di probabliit`a condizionata mostrate in fig. 1.1 1.2 Teoria delle decisioni baesiane – Continuous Features In questo paragrafo verr`a formalizzata l’idea descritta nel paragrafo precedente e viene generalizzata in modo tale da • Consentire l’uso di pi`u caratteristiche • Consentire la classificazione tra pi`u classi • Consentire l’esecuzione di altre azioni semplicemente decidendo lo stato della natura • Introducendo una funzione di perdita pi`u generale della probabilit`a d’errore Per quanto riguarda il primo punto basta semplicemente sostituire lo scalare x con un feature vector (vettore delle caratteristiche) x, dove x `e un vettore a d dimensioni nello spazio Euclideo Rd , chiamato feature space (spazio delle carateristiche), quindi analogamente al caso precedente denotiamo con p(x|ωj) la funzione di densit`a della probabilit`a condizionata per x. Come prima, P(ωj) descrive la probabilit`a a priori per le varie classi ωj, quindi la probabilit`a a posteriori pu`o essere ottenuta mediante la formula di Bayes: P(ωj|x) = p(x|ωj)P(ωj) p(x) (1.6) in questo caso l’evidenza viene calcolata come segue p(x) = c j=1 p(x|ωj)P(ωj) (1.7) Le formule appena descritte possono essere utilizzate anche per estendere la classificazione tra c classi.
  • 17. 6 1 Bayesian Decision Theory In generale classificare significa anche prendere una decisione dell’azione da intraprendere. Deno- tiamo con {ω1, . . . , ωc} un insieme finito di c categorie e con {α1, . . . , αa} un insieme finito di a possibili azioni da intraprendere, inoltre denotiamo con λ(αi|ωj) la funzione di perdita che descrive la perdita o il costo al quale si incorre nel caso venga scelta l’azione αi quando si `e scelta la classe ωj. Possiamo definire rischio la perdita R(αi|x), ovvero la perdita che si ha nel caso si sia scelto di eseguire l’azione αi dato il vettore delle caratteristiche x e viene calcolata come segue R(αi|x) = c j=1 λ(αi|ωj)P(ωj|x) (1.8) Qualunque sia l’osservazione x, `e possibile minimizzare la perdita selezionando l’azione che mini- mizza il rischio. Un problema `e quello di trovare una regola di decisione che minimizza il rischio totale. Una regola di decisione generale `e la funzione α(x) che ci dice quale azione eseguire per ogni possibile osservazione. Quindi per ogni osservazione x `e associata un unica azione α1, . . . , αa. Il rischio associato ad una data regola di decisione misura la perdita attesa quando tale regola venisse adottata su tutte le osservazioni x R = R(α(x)|x)p(x) dx (1.9) per minimizzare il rischio totale allora si calcolano tutti i rischi R(αi|x) per i = 1, . . . , a e si sceglie l’azione αi per la quale il rischio R(αi|x) `e minimo. 1.2.1 Classificazione tra due categorie Consideriamo un problema di classificazione tra soltanto due categorie. Quindi abbiamo l’azione α1 che corrisponde alla decisione presa se il classificatore da come risultato ω1 e l’azione α2 che corri- sponde alla decisione presa se il classificatore restituisce ω2. Per semplificare la notazione poniamo la funzione di perdita λij = λ(αi, ωj), che come abbiamo detto corrisponde alla perdita nel caso si esegue l’azione αi scelta la categoria ωj. Dall’equazione 1.8 otteniamo il rischio R(α1|x) = λ11P(ω1|x) + λ12P(ω2|x) (1.10) R(α2|x) = λ21P(ω1|x) + λ22P(ω2|x) (1.11) Ci sono molti metodi per esprimere la regola di decisione del minimo rischio. La regola fondamentale `e quella di decidere ω1 se R(α1|x) < R(α2|x). Invece in termini di probabilit`a a posteriori otteniamo da semplici sostituzioni la seguente regola decidendo ω1 se (λ21 − λ11)P(ω1|x) > (λ12 − λ22)P(ω2|x) (1.12) Invece, utilizzando la regola di Bayes possiamo sostituire le probabilit`a a posteriori con le probabilit`a a priori e le funzioni di densit`a di probabilit`a condizionata, ci`o equivale a decidere ω1 se (λ21 − λ11)p(x|ω1)P(ω1) > (λ12 − λ22)p(x|ω2)P(ω2) (1.13) Un altra alternativa, assumendo λ21 > λ11, `e quella di decidere ω1 se p(x|ω1) p(x|ω2) > λ12 − λ22 λ21 − λ11 P(ω2) P(ω1) (1.14)
  • 18. 1.4 Classificatori, Funzioni discriminanti e superfici di decisione 7 Questa regola di decisione si focalizza sulla dipendenza x dalla densit`a della probabilit`a condiziona- te. Possiamo considerare p(x|ω1)/p(x|ω2) il rapporto di verosomiglianza (likelihood ratio). Questa regola di decisione baesiana pu`o essere utilizzata per decidere ω1 se il tasso di verosomiglianza supera una determinata soglia rendendo cos`ı la regola indipendente dall’osservazione x 1.3 Classificazione con tasso di errore minimo Nel problema della classificazione ogni stato `e generalmente associato ad una classe, e l’azione αi viene associata allo stato ωi. In generale se l’azione `e αi e lo stato `e ωj allora la decisione `e corretta se i = j ed `e sbagliata se i = j. Per evitare gli errori allora `e opportuno cercare regole di decisione che minimizzano gli errori o tasso di errore (error rate). La funzione di perdita in questo caso `e chiamata simmetrica o funzione di perdita zero-one, λ(αi, ωj) = 0 se i = j 1 se i = j i, j = 1, . . . , c. Questa funzione non assegna perdita ad una decisione corretta mentre assegna una perdita pari a uno quando la decisione `e sbagliata. Il rischio quindi `e calcolato come segue R(αi|x) = c j=1 λ(αi|ωj)P(ωj|x) = j=i P(ωj|x) = 1 − P(ωi|x) (1.15) Quindi per minimizzare il tasso di errore dobbiamo scegliere l’indice i che massimizza la probabilit`a a posteriori (MAP) P(ωi|x). In altre parole per il tasso di errore minimo decidiamo ωi se P(ωi|x) > P(ωj|x) per tutti j = i (1.16) 1.4 Classificatori, Funzioni discriminanti e superfici di decisione 1.4.1 Il caso multicategoria Ci sono tanti modi diversi per rappresentare un classificatore di pattern. Uno dei pi`u comunemente usati si basa sulle funzioni discriminanti gi(x), i = 1, . . . , c. Il classificatore ci dice di assegnare il vettore delle caratteristiche x alla classe ωj se gi(x) > gj(x) per ogni j = i (1.17) Il classificatore pu`o essere visto come una rete di macchine che calcolano le c funzioni discriminan- ti e sceglie la categoria corrispondente alla funzione discriminante che ha restituito una risposta maggiore. In figura 1.3 possiamo osservare un classificatore basato su una rete di funzioni discri- minanti. Un classificatore Baesiano `e semplicemente e naturalmente rappresentato in questo modo.
  • 19. 8 1 Bayesian Decision Theory Figura 1.3. La struttura funzionale di comune classificatore di pattern la quale include d input e c funzioni discriminanti gi(x). Viene determinato quale dei valori discriminanti `e il massimo e viene classificato il pattern di input. Per un caso pi`u generale, dove viene preso in considerazione anche il rischio, possiamo dire che gi(x) = −R(αi|x), poich´e la funzione discriminante massima corrisponde al minimo rischio. Inve- ce per il caso a minimo tasso di errore possiamo semplificare ulteriormente le cose considerando gi(x) = P(ωi|x), in questo modo affermiamo che la funzione discriminante massima corrisponde alla massima probabilit`a a posteriori (MAP). La scelta della funzione discriminante non `e unica, `e possibile moltiplicare tutte le funzioni discriminanti con una costante positiva senza influenzare la decisione. Inoltre, se sostituiamo ogni gi(x) con f(gi(x)), dove f(·) `e una funzione monotona cre- scente, il risultato della classificazione resta invariato. Questa osservarzione comporta il vantaggio di significative semplificazioni analitiche e computazionali. In particolare, per la classificazione a tasso minimo di errore, qualsiasi delle seguenti scelte danno la stessa risposta di classificazione, ma alcune possono risultare pi`u semplici da capire o da calcolare rispetto alle altre: gi(x) = P(ωi|x) = p(x|ωi)P(ωi) c j=1 p(x|ωj)P(ωj) (1.18) gi(x) = p(x|ωi)P(ωi) (1.19) gi(x) = ln p(x|ωi) + ln P(ωi) (1.20) dove con ln indichiamo il logaritmo naturale. Come abbiamo visto le funzioni discriminanti possono essere descritte in vari modi ma le regole di decisione sono equivalenti. Lo scopo di qualsiasi regola di decisione `e quello di dividere lo spazio delle caratteristiche in c regioni di decisione, R1, . . . , Rc. Se gi(x) > gj(x) per ogni j = i, allora x `e in Ri e la regola di decisione assegna x a ωi. Le regioni sono separate dai decision boundaries che possiamo osservare in fig. 1.4 1.4.2 Il caso a due categorie Il caso a due categorie `e un caso speciale del caso multigategoria, e riceve un trattamento separato. Prende anche il nome speciale dichotomizer. Invece di usare le due funzioni discriminanti g1 e g2 e assegnare x a ω1 se g1 > g2, `e comune definire una singola funzione discriminante
  • 20. 1.4 Classificatori, Funzioni discriminanti e superfici di decisione 9 Figura 1.4. Classificatore tra due categoria in due dmensioni, le densit`a di probabilit`a sono gaussiane, i bordi di decisione consistono in due iperbole e la regione di decisione R2 non `e semplicemente connessa g(x) = g1(x) − g2(x) (1.21) usando la seguente regola di decisione: Si decide ω1 se g(x) > 0; altrimenti si decide ω2. Perci`o il dichotomizer pu`o essere visto come una macchina che calcola una singola funzione discriminante g(x) e classifica x in base al segno del risultato.
  • 21. 10 1 Bayesian Decision Theory 1.5 La distribuzione normale La struttura di un classificatore baesiano `e determinata dalle funzioni di distribuzione di probabilit`a condizionata p(x|ωi) e dalle probabilit`a a priori P(ωi). Tra le tante distribuzioni di densit`a hanno avuto particolare importanza la funzione di distribuzione normale e multivariata di Gauss, proprio per la loro semplice trattabilit`a analitica. Inoltre la distribuzione multivariata `e anche un modello appropriato per situazioni importanti, vale a dire il caso in cui il vettore delle caratteristiche x per una data classe ωi sono valori continui. In questa sezione viene fornita una breve esposizione delle distribuzioni suddette focalizzandoci sulle propriet`a che hanno maggiore interesse per il problema della classificazione. Incominciamo con un richiamo della definizione del valore atteso di una funzione f(x) definita per la densit`a p(x) ε[f(x)] ≡ ∞ −∞ f(x)p(x) dx (1.22) Se il valore appartiene ad un insieme di punti discreti D allora la formula si riduce ad una semplice sommatoria ε[f(x)] = x∈D f(x)P(x) (1.23) 1.5.1 Distribuzione normale unidimensionale Iniziamo col descrivere la distribuzione normale di Gauss unidimensionale, p(x) = 1 √ 2πσ exp − 1 2 x − µ σ 2 (1.24) per la quale il valore atteso x `e calcolato come segue µ ≡ ε[x] = ∞ −∞ xp(x) dx (1.25) e la varianza `e σ2 ≡ ε[(x − µ)2 ] = ∞ −∞ (x − µ)2 p(x) dx (1.26) La distribuzione normale unidimensionale `e caratterizzata da due parametri: la media µ e la varianza σ2 , in generale vengono anche chiamati rispettivamente momento del primo ordine e momento del secondo ordine. Per semplicit`a la distribuzione viene indicata con N(µ, σ2 ), un esempio di distribuzione `e mostrato in figura 1.5. Alcune osservazioni La funzione `e definita su tutto l’asse reale, non `e mai n´e nulla n´e negativa. Essa `e simmetrica ri- spetto all’asse y = µ e tende a zero al tendere di x all’infinito. Essa dunque assegna una probabilit`a a features che hanno range potenzialmente infinito. Inoltre la probabilit`a assegnata `e la stessa per valori equidistanti (sia a destra come a sinistra) da µ. La massima probabilit`a viene assegnata al valore µ che si chiama anche valore centrale della distribuzione.
  • 22. 1.5 La distribuzione normale 11 Figura 1.5. Distribuzione di Gauss Il parametro σ serve a determinare quanto `e “larga” o “svasata” la campana della gaussiana. Va- lori grandi per σ indicano una “dispersione” notevole dei dati attorno al valore centrale, un valore piccolo invece indica che i dati sono tutti “vicini” al valore centrale. Tale “interpretazione” per il parametro σ viene dal fatto che se si calcola l’integrale definito tra µ − 2σ e µ + 2σ si ottiene 0.95. Cio`e la popolazione rappresentata dal modello gaussiano si addensa nell’intervallo centrato in µ e largo 4σ al 95%. Il restante 5% forma le cosidetta “code” della distribuzione. Trasformazioni lineare di gaussiane: se moltiplico o divido una gaussiana per un valore essa resta sempre una gaussiana, la gaussiana soddisfa il fattore di scaling. Se si sommano le gaussiane si ottiengono mixture di gaussiane, che non sono gaussiane ma distribuzioni di probablit`a, un insieme di tante campane. Vi `e un importante rapporto tra la distribuzione normale e l’entropia1 . L’entropia di una distribu- zione `e calcolata come segue H(p(x)) = − p(x) ln p(x) dx (1.27) ed `e misurata in nats; se invece viene utilizzato il logaritmo di base due, quindi log2, allora viene misurata in bit. L’entropia misura l’incertezza fondamentale nei valori dei punti scelti a caso da una distribuzione. Teorema del limite centrale: L’effetto aggregato ottenuto sommando un grande numero di piccoli contributi random (generati da distribuzioni uniformi) porta ad una distribuzione di Gauss. 1 L’entropia misura la quantit`a di incertezza o informazione presente in un segnale aleatorio. Da un altro punto di vista l’entropia `e la minima complessit`a descrittiva di una variabile aleatoria, ovvero il limite inferiore della compressione dei dati.
  • 23. 12 1 Bayesian Decision Theory 1.5.2 Distribuzione Multivariata La distribuzione Multivariata d dimensionale `e scritta come segue p(x) = 1 (2π)d/2|Σ|1/2 exp − 1 2 (x − µ) Σ−1 (x − µ) (1.28) dove x `e un vettore colonna, µ `e il vettore media, Σ `e la matrice di covarianza d × d, la matrice di covarianza non `e altro che la media dei prodotti degli scarti, |Σ| e Σ−1 sono rispettivamente il determinante e l’inversa. Inoltre denotiamo con (x − µ) la trasposta di (x − µ). L’operazione di sottrarre ad ogni x la propria media µ prende il nome di whitening (sbiancamento), perch`e se si sottrae ad ogni x la propria media µ allora la gaussiana `e centrata in 0. Se si vuole ottenere una gaussiana standardizzata bisogna portare la media uguale a zero e la varianza uguale a uno, per fare ci`o basta sottrarre la media e dividere per la varianza. Z = X − µ σ (1.29) La notazione per il prodotto interno `e a b = d i=1 aibi (1.30) che per semplicit`a spesso viene chiamato prodotto puntuale. La distribuzione normale spesso viene indicata con N(µ, Σ). Formalmente la media `e calcolata come segue µ ≡ ε[x] = xp(x) dx (1.31) e la matrice di covarianza Σ ≡ ε[(x − µ)(x − µ) ] = (x − µ)(x − µ) p(x) dx (1.32) `e possibile calcolare il vettore media e la matrice di covarianza anche componente per componente. Nel caso della media, se xi `e la i-esima componente di x, se µi `e la i-esima componente di µ e σij `e la ij-esima componente di Σ allora µi = ε[xi] (1.33) e σij = ε[(xi − µi)(xj − µj)] (1.34) Gli elementi σij della matrice di covarianza hanno una precisa interpretazione. Gli elementi sulla diagonale rappresentano le varianze di ciascuna delle componenti del vettore x. L’elemento σij se `e positivo ci dice che la feature i e la feature j sono correlate positivamente (se una cresce, statisti- camente cresce anche l’altra), se `e negativo il contrario. Se `e nullo ci dice che le feature non sono correlate o che sono statisticamente indipendenti. I punti si trovano in uno spazio, per semplicit`a prendiamo lo spazio bidimensionale x1 e x2, come possiamo osservare in figura 1.6 i campioni giacciono nella nuvola centrata nella media, il luogo dei
  • 24. 1.5 La distribuzione normale 13 Figura 1.6. Esempio di gaussiana bidimensionale, i campioni giacciono nella nuvola centrata nella media µ punti sono degli ellissoidi, dato che stiamo guardando la gaussiana dall’alto. Nel caso bidimensionale la gaussiana avr`a due varianze, una nella direzione x1 e l’altra nella direzione x2, se le due varianze sono uguali allora la curva di livello `e una circonferenza, se invece sono diverse allora `e un ellisse. La cosa interessante `e che tutti i punti che ricadono nella curva di livello soddisfano questa equazione r2 = (x − µ) Σ−1 (x − µ) (1.35) con r costante. Questa quantit`a `e denominata distanza di Mahalanobis da x a µ. Se la matrice di covarianza `e una matrice diagonale dove sulla diagonale principale ha tutte varianze uguali, allora la distanza diventa euclidea. Un’ altra particolarit`a interessa anche gli autovalori e gli autovettori della matrice di covarianza. Prima di vederla facciamo un breve richiamo sugli Autovalori e Autovettori di una matrice. Autovalori e Autovettori Data la matrice A gli autovalori si calcolano Ax = λx (1.36) che pu`o essere riscritta come (A − λI)x = 0 (1.37) dove λ sono gli autovalori. Se A `e una matrice quadrata d × d allora ho d autovalori e d autovet- tori. Gli autovalori di una matrice danno l’idea dell’energia e sono direttamente proporzionali alle varianze di ogni dimensione, gli autovettori invece sono i vettori che generano un nuovo spazio.
  • 25. 14 1 Bayesian Decision Theory Ritornando alla gaussiana bidimensionale, la cosa interessante `e che l’asse maggiore dell’ellisse `e uguale alla varianza pi`u grande, mentre l’asse minore `e uguale alla varianza pi`u piccola, pi`u precisamente l’asse maggiore `e lunga quanto l’autovalore pi`u grande della matrice di covarianza e l’asse minore `e lunga quanto l’autovalore pi`u piccolo della matrice di covarianza, inoltre la direzione dell’ asse maggiore `e l’autovettore corrispondente all’autovalore pi`u grande, mentre la direzione dell’asse minore `e l’autovettore corrispondente all’autovalore pi`u piccolo. 1.6 Funzioni Discriminanti per la Distribuzione Normale Nella sezione 1.4.1 abbiamo visto che un classificatore a minimo tasso di errore pu`o essere espresso usando le funzioni discriminanti gi(x) = ln p(x|ωi) + ln P(ωi) (1.38) L’espressione pu`o essere rivalutata se la distribuzione di probabilit`a p(x|ωi) `e una distribuzione multivariata eq. (2.9). Andando a sostituire all’interno dell’ eq. (1.38) e utilizzando le prorpiet`a dei logaritmi otteniamo: gi(x) = ln 1 (2π)d/2|Σi|1/2 exp − 1 2 (x − µ) Σ−1 i (x − µi) + ln P(ωi) = ln 1 (2π)d/2|Σi|1/2 + ln exp − 1 2 (x − µ) Σ−1 i (x − µi) + ln P(ωi) = ln 1 − ln(2π)d/2 |Σi|1/2 − 1 2 (x − µ) Σ−1 i (x − µi) + ln P(ωi) = − d 2 ln 2π + 1 2 ln|Σ| − 1 2 (x − µ) Σ−1 i (x − µi) + ln P(ωi) = − 1 2 (x − µ) Σ−1 i (x − µi) − d 2 ln 2π − 1 2 ln|Σ| + ln P(ωi) (1.39) Adesso possiamo affrontare il problema in tre modi diversi: 1. Nel primo caso la matrice di covarianza `e caratterizzata dalla stessa varianza sulla diagonale principale 2. Nel secondo caso le matrici di covarianza sono uguali per tutte le classi 3. Ne caso generale invece le matrici di covarianza sono diverse per ogni classe 1.6.1 Caso 1: Σi = σ2 I Il caso pi`u semplice `e quando le caratteristiche sono statisticamente indipendenti e ogni caratte- ristica ha la stessa varianza σ2 . In questo caso la matrice di covarianza `e diagonale con la stessa varianza sulla diagonale. Geometricamente corrisponde al caso in cui la sezione della gaussiana `e una circonferenza, i cluster dell’ i-esima classe hanno come cento il vettore µi. Il calcolo del determi- nante e dell’inversa `e molto semplice, il determinante di una matrice diagonale equivale al prodotto degli elementi sulla diagonale, dato che nel nostro caso gli elementi della diagonale sono tutti uguali
  • 26. 1.6 Funzioni Discriminanti per la Distribuzione Normale 15 allora |Σi| = σ2d , l’inversa Σi −1 = (1/σ2 )I. Inoltre tutti i termini che non sono dipendenti dalle classi possono essere ignorati2 , quindi andando a sostituire determinante e matrice otteniamo gi(x) = − 1 2 (x − µi) 1 σ2 (x − µi) − d 2 ln 2π − 1 2 ln σ2d + ln P(ωi) (1.40) tutti i termini con la d possono essere ignorati ottenendo gi(x) = − 1 2σ2 (x − µi) (x − µi) + ln P(ωi) (1.41) sviluppando il prodotto si ottiene gi(x) = − 1 2σ2 [x x − 2µix + µiµi] + ln P(ωi) (1.42) anche in questo caso il termine x x `e lo stesso per tutti gli i e quindi non dipende dalla classe, sviluppando gi(x) = 1 σ2 µix − 1 2σ2 µiµi + ln P(ωi) (1.43) ponendo wi = 1 σ2 µi (1.44) e wi0 = − 1 2σ2 µiµi + ln P(ωi) (1.45) ottenimo la funzione discriminante lineare gi(x) = wix + wi0 (1.46) che `e esattamente una funzione lineare. Viene moltiplicato il vettore wi che dipende esclusivamente dalla classe i-esima, infatti `e uguale proprio al centroide della classe i-esima (dalla 1.44), mentre wi0 `e un fattore di traslazione chiamato anche bias. Si pu`o dire che il problema `e biased oppure unbiased, cio`e condizionato oppure non condizionato, `e condizionato se si attribuiscono delle conoscenze a priori che si hanno, infatti il bias dipende proprio dalla probabilit`a a priori della classe. Se invece non si considerano le probabilit`a a priori allora la stima `e unbiased. Un classificatore che `e una funzione discriminante lineare `e chiamato linear machine. Possiamo dire che la superficie di decisione di un classificatore lineare `e un iperpiano definito dall’equazione gi(x) = gj(x). Per un caso particolare l’equazione pu`o essere scritta come w (x − x0) = 0 (1.47) dove w = µi − µj (1.48) e x0 = 1 2 (µi − µj) − σ2 µi − µj 2 ln P(ωi) P(ωj) (µi − µj) (1.49) 2 Tutti i termini che non compariranno nei passaggi successivi sono stati omessi perch`e sono indipendenti dalle classi.
  • 27. 16 1 Bayesian Decision Theory dove µi − µj 2 = (x − µi) (x − µi) (1.50) L’equazione 1.49 definisce l’iperpiano passante per il punto x0 e ortagonale al vettore w. Poich`e w = µi − µj, l’iperpiano che separa R1 e R2 `e ortogonale alla linea che collega le medie. Se P(ωi) = P(ωj) allora il secondo temine dell’equazione 1.49 svanisce, cos`ı il punto x0 si trova giusto al centro tra le due medie, e l’iperpiano `e la bisettrice perpendicolare tra le medie (Fig. 1.7). Se P(ωi) = P(ωj), il punto x0 si muove fra le due medie. Se invece le probabilit`a a priori P(ωi) sono uguali per tutte le c classi, allora anche il termine ln P(ωi) pu`o essere ignorato. Per classificare un vettore delle caratteristiche x, si misura la distanza euclidea x−µi da ogni vettore delle medie µi delle c classi e viene assegnato x alla classe pi`u vicina. Per questo motivo `e anche detto classificatore a minima distanza. 1.6.2 Caso 2: Σi = Σ Un altro semplice caso `e quando le matrici di covarianza per tutte le classi sono uguali. Geometri- camente corrisponde alla situazione in cui la sezione della gaussiana vista dall’alto corrisponde ad un ellissoide, tutte della stessa diemensione e forma, ognuna centrata nel vettore delle medie µi. Anche in questo caso sia |Σi| che (d/2) ln 2π nell’equazione 1.39 non dipendono dalle classi e quindi possono essere ignorati, come prima la semplificazione porta alla seguente funzione discriminante gi(x) = 1 2 (x − µi) Σ−1 (x − µi) + ln P(ωi) (1.51) come si pu`o osservare anche in questo caso il classificatore `e lineare, quindi `e un hyperpiano. Se le probabilit`a a priori P(ωi) sono uguali per tutte le c classi, allora anche in questo caso il temine ln P(ωi) pu`o essere ignorato. Anche in questo caso la regola di decisione risulta essere davvero semplice: Per classificare il vettore x si calcola la distanza di Mahalanobis (x − µi) Σ−1 (x − µi) da ogni vettore delle medie, e si assegna x a quello pi`u vicino. Come prima se ci si trova di fronte a probabilit`a a priori diverse per ogni classe allora queste condizionano la decisione verso la categoria che ha pobabilit`a pi`u alta. 1.6.3 Caso 3: Σi = arbitrario Nel caso generale di una distribuzione normale multivariata, allora le matrici di covarianza sono diverse per ogni classe. L’unico termine che pu`o essere ignorato `e (d/2) ln 2π e la funzione discri- minante risulta essere una quadrica. Ovvero una forma qualsiasi che rappresenta esattamente un classificatore chiamato quadratico, in tal caso le superfici di decisione non sono iperpiani ma sono delle iperquadriche, paraboloidi che si intersecano. 1.7 Probabilit`a di errore ed integrali Consideriamo prima il caso a due categoria e supponiamo che il classificatore abbia separato le due regioni R1 e R2. Ci sono due modi nel quale il classificatore pu`o commettere un errore: quello di assegnare l’osservazione x alla regione R2 quando il suo vero stato della natura doveva essere ω1 e quello di assegnare l’osservazione x alla regione R1 quando il suo vero stato della natura doveva
  • 28. 1.7 Probabilit`a di errore ed integrali 17 Figura 1.7. Quando le probabilit`a a priori cambiano, la regione di decisione shifta
  • 29. 18 1 Bayesian Decision Theory essere ω2. Poich`e questi eventi sono mutuamente esclusivi allora la probabilit`a di errore `e calcolata come segue P(error) = P(x ∈ R2, ω1) + P(x ∈ R1, ω2) = P(x ∈ R2|ω1)P(ω1) + P(x ∈ R1|ω2)P(ω2) = R2 p(x|ω1)P(ω1) dx + R1 p(x|ω2)P(ω2) dx (1.52) Il risultato nel caso monodimensionale `e illustrato in figura 1.8. I due integrali calcolati sono rap- presentati dall’area rosa e grigia. Dato che il punto di decisione `e x∗ la probabilit`a di errore non `e minima. In particolare l’aria marcata con il bordo rosso `e l’errore riducibile che pu`o essere ridotto spostando il punto di decisione verso xB. Nel caso multicategoria, invece `e pi`u semplice calcolare la probabilit`a di correttezza nel modo seguente P(correct) = P(x ∈ Ri, ωi) = c i=1 P(x ∈ Ri|ωi)P(ωi) = c i=1 Ri p(x|ωi)P(ωi) dx (1.53) In questo caso si fa uso della sommatoria perch`e le classi sono c, quindi un insieme finito e numera- bile, quindi la probabiit`a di appartenenza di ogni classe `e discreta, invece `e continua la densit`a di probabilit`a. 1.7.1 Receiver Operating Characteristic (R.O.C.) Osservando al figura 1.9 possiamo distinguere quattro aree • P(x > x∗ |x ∈ ω2): La probabilit`a che l’osservazione venga classificata come ω2 e appartiene alla classe ω2, quindi una classificazione esatta che viene indicata in genere con i seguenti termini: hit o true positive • P(x > x∗ |x ∈ ω1): La probabilit`a che l’osservazione venga classificata come ω2 e appartiene alla classe ω1, quindi una classificazione non corretta che viene indicata in genere con i seguenti termini: false alarm o false positive • P(x < x∗ |x ∈ ω2): La probabilit`a che l’osservazione venga classificata come ω1 e appartiene alla classe ω2, quindi una classificazione non corretta che viene indicata in genere con i seguenti termini: miss o false negative • P(x < x∗ |x ∈ ω1): La probabilit`a che l’osservazione venga classificata come ω1 e appartiene alla classe ω1, quindi una classificazione corretta che viene indicata in genere con i seguenti termini: correct rejection o true negative Le curve di ROC `e un plot che si basa sui valori ottenuti dalla matrice di confusione, quindi in un primo passo si calcola la matrice di confusione. V P FP FN V N
  • 30. 1.7 Probabilit`a di errore ed integrali 19 Figura 1.8. Probabilit`a di errore nel caso il punto di decisione sia x∗ . L’area rosa corrisponde alla proba- bilit`a di errore di decidere lo stato ω1 quando dovrebbe essere ω2; l’area grigia corrisponde alla situazione opposta. Figura 1.9.
  • 31. 20 1 Bayesian Decision Theory ROC sta per Receiver Operating Characteristic, sostanzialmente ci aspettiamo che questo sistema segnali correttamente o non correttamente e vogliamo misurare il comportamento, cio`e la rilevazione di un oggetto oppure il verificarsi di un evento. La ROC (Fig. 1.10) `e una curva che viene plottata nello spazio bidimensionale, sull’asse delle ascisse viene riportato il false positive rate oppure pi`u comunemente la Specificit`a, cio`e il rapporto dei casi classificati come corretti ma appartenenti ad una classe diversa false positive, rispetto al numero totale dei casi negativi, quindi Sp = FP FP + V N (1.54) invece sull’asse delle ordinate abbiamo il true positive rate, oppure pi`u comunemente la Sensibilit`a cio`e il rapporto dei casi positivi classificati come positivi ed il numero totale dei casi positivi, quindi Se = V P V P + FN (1.55) Il risultato desiderato `e quello che il classificatore ci desse il massimo per il true positive rate (sensibilit`a) mentre il false positive rate (specificit`a) sia minimo, quindi ci si aspetta il grafico mostrato in figura 1.10. L’analisi ROC viene effettuata attraverso lo studio della funzione che lega Figura 1.10. la probabilit`a di ottenere un risultato vero-positivo nella classe dei pattern da classificare come veri (ossia la sensibilit`a) alla probabilit`a di ottenere un risultato falso-positivo nella classe dei pattern da classificare come falsi(ossia specificit`a). In altre parole, vengono studiati i rapporti fra allarmi
  • 32. 1.7 Probabilit`a di errore ed integrali 21 veri (hit rate) e falsi allarmi. La capacit`a discriminante di un test, ossia la sua attitudine a separare propriamente la popolazione in studio `e proporzionale all’estensione dell’area sottesa alla curva ROC (Area Under Curve, AUC). Nel caso di un test perfetto, ossia che non restituisce alcun falso positivo n´e falso negativo (capacit`a discriminante = 100%), la AUC passa attraverso le coordinate 0;1 ed il suo valore corrisponde all’area dell’intero quadrato delimitato dai punti di coordinate (0,0), (0,1), (1,0) (1,1), che assume valore 1 corrispondendo ad una probabilit`a del 100% di una corretta classificazione.
  • 33.
  • 34. 2 Maximum-Likelihood and Bayesian Parameter Estimation 2.1 Introduzione Nella sezione 1 abbiamo visto come progettare un classificatore conoscendo le probabilit`a a prio- ri P(ωi) e le funzioni di distribuzione di probabilit`a condizionate p(x|ωi). Sfortunatamente, nei problemi di pattern recgnition non sempre abbiamo una conoscenza completa della struttura pro- babilistica. Nel caso tipico abbiamo una vaga conoscenza della situazione insieme al numero dei dati di training. Il problema `e quindi quello progettare un classificatore usando queste informazioni. Supponiamo per esempio che p(x|ωi) `e una distribuzione normale con media µi e matrice d cova- rianza Σi, malgrado non conosciamo questi valori. Il problema pu`o essere semplificato stimando soltanto i parametri µi e Σi piuttosto che stimare la funzione di probabilit`a p(x|ωi). La stima dei parametri `e un classico problema statistico, `e pu`o essere affrontato in molti modi. Considereremo le comuni procedure chiamate rispettivamente maximum-likelihood estimation (sti- ma massima verosomiglianza) e Bayesian estimation (stima Baiesiana). ´E importante fare una distinzione tra i metodi di addestramento supervised e unsupervised. In entrambi i casi valgono le regole delle probabilit`a a priori e la verosomiglianza, si differiscono dal fatto che nel primo caso conosciamo lo stato della natura per ogni classe, quindi `e possibile etichettare le classi, cosa che non conosciamo nell’addestramento unsupervised, problema molto pi`u difficile da affrontare. 2.2 Maximum-Likelihood Estimation Supponiamo di avere c Data sets D1, . . . , Dc, dove ogni campione in Dj viene descritto da una distribuzione p(x|ωj). Inoltre `e necessario che i campioni siano i.i.d.1 , ovvero che le variabili casuali siano distribuite indipendentemente e identicamente. Assumiamo anche che p(x|ωj) ∼ N(µj, Σj), quindi descrivibile dai parametri µj e Σj e che questi parametri vengono rappresentati dal vettore 1 Nella teoria della probabilit`a una sequenza di variabili casuali `e i.i.d. se ognuna ha la stessa distribuzione di probabilit`a delle altre variabili e sono tutte statisticamente indipendenti, cio`e che il verificarsi di uno non cambia la probabilit`a di verificarsi dell’altro
  • 35. 24 2 Maximum-Likelihood and Bayesian Parameter Estimation Θj. Il problema `e quello di conoscere Θj, ovvero i parametri del modello, dato l’insieme dei dati. L’idea `e quella di trovare un un insieme di parametri Θj che vanno sostituiti nella distribuzione di probabilit`a, l’obiettivo `e quello di ottenere una distribuzione molto verosimile p(D|Θ) (verosomi- glianza) alla distribuzione dei dati originali. Supposto che D contiene n campioni x1, . . . , xn allora p(D|Θ) = p(x1, . . . , xn|Θ), poich`e abbiamo assunto che i campioni sono i.i.d allora p(D|Θ) = n k=1 p(xk|Θ) (2.1) La stima della massima verosomiglianza, per definizione `e il valore ˆΘ che massimizza p(D|Θ). Per semplicit`a analitica `e preferibile lavorare con i logaritmi, in quanto il logaritmo di una produttoria diventa una sommatoria, quindi definiamo l(Θ) come la funzione log-likelihood l(θ) ≡ ln p(D|Θ) (2.2) quindi, come detto prima il logaritmo di una produttoria diventa la sommatoria dei logaritmi l(θ) = n k=1 ln p(xk|Θ) (2.3) l’obiettivo principale `e quello di trovare Θ che massimizza la funzione log-likelihood, quindi ˆΘ = arg max l(Θ) (2.4) Sappiamo che per trovare il massimo di una funzione si calcola la derivata prima e si pone uguale a zero, in questo caso il numero di parametri da stimare `e p, quindi calcoliamo la derivata di una funzioni a pi`u varabiali. Denotiamo Θ come un vettore a p−componenti Θ = (Θ1, . . . , Θp) e con Θ denotiamo l’operatore gradiente Θ =    ∂ ∂Θ1 ... ∂ ∂Θp    (2.5) la derivata di una sommatoria non `e altro che la somma delle derivate, quindi Θl = n k=1 Θ ln p(xk|Θ) (2.6) per stimare la massima verosomiglianza (MLE) basta risolvere questo sistema di equazioni Θl = 0 (2.7) per ottenere la soluzione ˆΘ. La massima verosomiglianza rappresenta il punto in cui il campione osservato `e pi`u probabilie, la procedura del gradiente pu`o portare a trovare il massimo locale ma non il massimo assoluto, ci`o significa che non si ha una soluzione ottima ma una soluzione subottima. Quindi bisogna considerare ogni soluzione individualmente per poi trovare l’ ottimo globale, massimo dei massimi locali.
  • 36. 2.2 Maximum-Likelihood Estimation 25 2.2.1 Caso Gaussiamo: µ incognita Vediamo adesso come il metodo ML (maximum-likelihood) viene applicato ad uno specifico caso, supponiamo che i campioni si distribuiscono secondo una distribuzione normale multivariata con media µ e matrice di covarianza Σ. Per semplicit`a, consideriamo il caso in cui soltanto la media `e sconosciuta. Sotto questa condizione, consideriamo come campione il punto xk e calcoliamo ln p(xk|µ) = − 1 2 ln (2π)d |Σ| − 1 2 (xk − µ) Σ−1 (xk − µ) (2.8) dato che p(xk|µ) ∼ N(µj, Σj) allora si dimostra che la 2.8 `e stata ricavata mediante semplici passaggi matematici applicati alla distribuzione gaussiana multvariata che ricordiamo essere p(xk|µ) = 1 (2π)d/2|Σ|1/2 exp − 1 2 (xk − µ) Σ−1 (xk − µ) (2.9) abbiamo detto che lavoriamo con i logaritmi quindi diventa ln p(xk|µ) = ln 1 (2π)d/2|Σ|1/2 − 1 2 (xk − µ) Σ−1 (xk − µ) = − ln(2π)d/2 |Σ|1/2 − 1 2 (xk − µ) Σ−1 (xk − µ) = − ln (2π)d |Σ| 1/2 − 1 2 (xk − µ) Σ−1 (xk − µ) = − 1 2 ln (2π)d |Σ| − 1 2 (xk − µ) Σ−1 (xk − µ) (2.10) deriviamo rispetto a µ, quindi consideriamo costantela matrice di covarianza Σ ed otteniamo µ ln p(xk|µ) = Σ−1 (xk − µ) (2.11) Identificando Θ con µ, osserviamo che dalle equazioni 2.6, 2.7 e 2.11 la stima a massima verosomiglianza per la media µ deve soddisfare n k=1 Σ−1 (xk − ˆµ) = 0 (2.12) moltiplicando per Σ e riarrangiando, otteniamo n k=1 (xk − ˆµ) = 0 (2.13) n k=1 xk − n k=1 ˆµ = 0 (2.14) n k=1 xk = n k=1 ˆµ (2.15) n k=1 xk = nˆµ (2.16) (2.17)
  • 37. 26 2 Maximum-Likelihood and Bayesian Parameter Estimation da cui µ `e uguale a ˆµ = 1 n n k=1 xk (2.18) Questo `e un risultato soddisfacente. Vuol dire che per la stima a massima verosomiglianza di una distribuzione con media sconosciuta, la media `e la semplice media aritmetica sui campioni di trai- ning. Geometricamente se pensiamo gli n campioni come una nuvola di punti, la media non `e altro che il centroide della nuvola. 2.2.2 Caso Gaussiano: µ e Σ incognite Nel caso pi`u generale ne la media µ ne la matrice di covarianza Σ sono conosciuti. Questi due parametri costituiscono proprio i parametri del vettore Θ. Consideriamo prima il caso univariato con Θ1 = µ e Θ2 = σ2 . In questo caso la log-likelihood di un singolo campione `e ln p(xk|Θ) = − 1 2 ln 2πΘ2 − 1 2Θ2 (xk − Θ1)2 (2.19) questa volta, dato che stiamo affrontando il caso unidimensionale allora la 2.19 `e stata ottenuta applicando semplici passaggi matematici alla p(xk|Θ) = 1 √ 2πσ exp − 1 2 x − µ σ 2 (2.20) come prima, per seplicit`a analitica applichiamo la funzione logaritmo, quindi ln p(xk|Θ) = ln 1 √ 2πσ2 − 1 2 x − µ σ 2 = − ln √ 2πσ2 − 1 2 x − µ σ 2 = − 1 2 ln 2πσ2 − 1 2σ2 (x − µ) 2 (2.21) sostituendo Θ1 = µ e Θ2 = σ2 otteniamo proprio la 2.19 ln p(xk|Θ) = − 1 2 ln 2πΘ2 − 1 2Θ2 (xk − Θ1)2 (2.22) adesso andiamo a derivare rispetto a Θ1 e Θ2 calcolando le seguenti derivate parziali ∂ ∂Θ1 e ∂ ∂Θ2 . Cominciamo con la ∂ ∂Θ1 e quindi subito osserviamo che risulta costante dato che consideriamo Θ2 costante, quindi la sua derivata `e zero. Procediamo col derivare soltanto il secondo membro ottenendo cos`ı ∂ ∂Θ1 = 1 Θ2 (xk − Θ1) (2.23) i passaggi per calcolare la ∂ ∂Θ2 risultano leggermente lunghi e quindi `e opportuno fare anche un richiamo di alcune regole di derivazione come la derivata del prodotto di due funzioni, il rapporto di due funzioni ed il logaritmo di una funzione
  • 38. 2.2 Maximum-Likelihood Estimation 27 ∂ ∂x (f(x) · g(x)) = f (x) · (x) + f(x) · g (x) (2.24) ∂ ∂x f(x) g(x) = f (x) · (x) + f(x) · g (x) [g(x)]2 (2.25) ∂ ∂x log(g(x)) = 1 g(x) · g (x) (2.26) quindi richiamate queste seguenti regole possiamo procedere con il calcolo di ∂ ∂Θ2 . Prendiamo il primo membro della 2.22 e lo deriviamo rispetto a Θ1 applicando le regole di derivazione viste sopra, applichiamo quella del prodotto e quella del logaritmo ottenendo cosi − 1 2πΘ2 2π, semplifichiamo ed otteniamo la derivata del primo membro − 1 2Θ2 . Per il secondo membro della 2.22 applichiamo la regola del prodotto ponendo f(x) = 1 2Θ2 e g(x) = (xk − Θ1)2 per calcolare f (x) utilizziamo la regola del rapporto, quindi − 2 4Θ2 2 , semplificando − 1 2Θ2 2 che moltiplichiamo per g(x) ottenendo − 1 2Θ2 2 (xk − Θ1)2 , la seconda parte della regola del prodotto `e pari a zero dato che g (x) = 0. Riscrivendo i risultati ottenuti abbiamo che ∂ ∂Θ2 = − 1 2Θ2 + 1 2Θ2 2 (xk − Θ1)2 (2.27) quindi, calcolare le derivate parziale costruiamo il vettore gradiente Θl = Θ ln p(xk|Θ) =    1 Θ2 (xk − Θ1) − 1 2Θ2 + (xk−Θ1)2 2Θ2 2    (2.28) abbiamo detto che la derivata di una sommatoria non `e altro che la somma delle derivate, poniamo le derivate uguali a zero e risolviamo n k=1 1 ˆΘ2 (xk − ˆΘ1) = 0 (2.29) e − n k=1 1 2 ˆΘ2 + n k=1 (xk − ˆΘ1) 2 ˆΘ2 2 = 0 (2.30) dove ˆΘ1 e ˆΘ2 sono i valori che massimizzano la stima di probabilit`a. Sostituendo ˆµ = ˆΘ1 e σ2 = ˆΘ2 e facendo gli opportuni riarrangiamenti otteniamo che ˆµ = 1 n n k=1 xk (2.31) e ˆσ2 = 1 n n k=1 (xk − ˆµ)2 (2.32) Nel caso multivariato `e tutto molto simile la stima a massima verosomiglianza per i parametri µ e Σ `e calcolata mediante le seguenti formule
  • 39. 28 2 Maximum-Likelihood and Bayesian Parameter Estimation ˆµ = 1 n n k=1 xk (2.33) e ˆΣ = 1 n n k=1 (xk − ˆµ)(xk − ˆµ) (2.34) Ancora una volta osserviamo che la stima del vettore delle medie `e semplicemente la media mentre la stima per la matrice di covarianza `e la media aritmetica delle n matrici (xk − ˆµ)(xk − ˆµ) . 2.3 Bayesian Estimation (cenni) L’idea `e quella aumentare di volta in volta il numero di campioni ed ad ogni passo calcolare media e varianza (o matrice di covarianza). Dopodich´e viene effettuata una media delle medie e una media delle varianze per stimare i parametri. 2.4 Principal Component Analysis La PCA `e una tecnica utile per la comprensione e la classificazione dei dati. Lo scopo `e quello di ridurre la dimensionalit`a dei dati (quindi la dimensione dei pattern di ogni campione e non il nume- ro di campioni) trovando un insieme nuovo di variabili, in numero ridotto rispetto alle dimensioni dell’insieme originale di variabili, che trattengono comunque la maggior parte delle informazioni originali dei dati iniziali. Per informazione intendiamo la variazione presente nel campione, per esempio se non c’`e variazione nei dati allora non daranno nessuna informazione in quanto sareb- bero tutti uguali. Quindi informazione `e uguale a variazione e variazione `e uguale a varianza o a matrice di covarianza. In generale questa variazione `e rappresentata dalle correlazioni tra variabili originali. Ipotizziamo di avere delle variabili casuali, ricordiamo che il pattern x `e sempre un vet- tore di variabili casuali, allora se prendo due vettori x1 e x2 di cinque componenti ognuno, e le cinque componenti sono pressoch´e uguali allora uno dei due si pu`o buttar via. Analogamente se ho cento vettori, tutti con le stesse componenti allora ne prendo uno e quindi gli altri novantanove `e inutile prenderli in considerazione dato che non danno alcuna informazione. In realt`a considero solo quelli che variano sostanzialmente, quindi c’`e una buona varianza sulle componenti. Se ho un vettore a d dimensioni, quindi ho d variabili casuali, l’idea `e quella di trasformare questi pattern in altri pattern, quindi effettuare una trasformazione di spazio da uno spazio a d dimensioni ad uno spazio a k dimensioni, dove ovviamente k < d, da precisare che non si effettua una selezione, quindi non vengono prese in considerazione soltanto k delle d componenti ma viene effettuata un analisi e quindi un cambiamento delle variabili. Delle nuove variabili nessuna `e uguale a quelle precedenti, ma sono tutte e k nuove. Queste variabili vanno determinate in virt`u di un criterio, cio`e quello di conservare la maggiore informazione possibile delle d componenti, sostanzialmente e necessario trattenere quelle che hanno maggiore varianza. Facciamo un esempio, osservando la figura 2.4. Immaginiamo di avere questi dati disposti in uno spazio bidimensionale (la PCA non si applica mai ad uno spazio bidimensionale in quanto non c’`e nulla da ridurre). I dati sono disposti in modo tale che ci sia una varianza, inoltre questi dati po- trebbero essere raggruppati in un cluster che potrebbe essere un ellisse. Supponiamo di sapere che
  • 40. 2.4 Principal Component Analysis 29 questi dati appartengono a due cluster differenti. Allora qual’`e il principio utilizzato per dividere questi dati? Esempio un metodo potrebbe essere quello di classificare tutti i pattern che rientrano nel primo quadrante e cos`ı via, quindi una classificazione che sta avvenendo sulla densit`a ovvero sul- la distribuzione. Fondamentalmente questa suddivisione sta avvenendo in base alla varianza, questo si pu`o spiegare perch`e per i dati che si trovano intorno all’origine, soprattutto in prossimit`a della bisettrice tra il secondo e quarto quadrante, la varianza `e molto piccola, mentre per gli altri, quelli che si trovano sulla bisettrice tra il primo ed il terzo quadrante la varianza pi`u grande, quindi danno molta pi`u informazione rispetto agli altri. Allora fatte queste osservazioni, quale potrebbe essere la trasformazione di un dataset in un altro dataset? Cio`e l’operazione di proiettare tutti i vettori in un altro spazio, in questo caso nello spazio delle bisettrici, oppure equivalentemente nello spazio degli autovettori della matrice di covarianza dei dati. La matrice di covarianza ha sulla diagonale principale le varianze e al di fuori della diagonale principale ha le covarianze ovvero le correlazioni tra coppie di componenti. Sostanzialmente stiamo dicendo che se andiamo a vedere la matrice di covarianza (in questo caso `e una matrice 2 × 2) osserviamo che sulla diagonale principale abbiamo la varianza sulla prima componente e sulla seconda componente, ci aspettiamo che una delle due sia maggiore dell’altra. Si tende a proiettare i pattern sulle due bisettrici, o equivalentemente gli auto- vettori della matrice di covarianza che corrispondono proprio ai due assi. Se riuscissi a proiettare, dopo aver calcolato gli autovettori della matrice di covarianza, alla fine identifico come componente principale z1, cio`e quella a varianza maggiore, mentre come seconda componente principale prendo in considerazione z2, cio`e quella in cui la varianza tra le due `e minore. Inoltre si conosce che le varianze della matrice di covarianza sono direttamente proporzionali agli autovalori della matrice di covarianza, quindi autovalori o varianze pi`o meno sono la stessa cosa. A questo punto il giochino facile `e quello di prendere i dati, fare la matrice di covarianza, calcolare gli autovettori e gli autova- lori, ordinare in ordine decrescente gli autovalori e corrispondentemente gli autovettori, scegliere gli autovalori maggiori e ci si ferma quando la somma di questi autovalori supera una certa soglia. ´E ovvio che la somma degli autovalori non pu`o essere maggiore di uno, di conseguenza se ipotizziamo di volere l’80% d’informazione allora sulla somma totale degli autovalori devo prendere tanti auto- valori che sommati non superano 0.8. Cos`ı mi scelgo k componenti principali tale che k i=1 λi ≤ 0.8. Dove k rappresenta il numero di componenti principali che seleziono in corrispondenza di questi autovalori, quindi ho k autovettori che sono i nuovi assi del nuovo spazio sul quale vado a proiettare
  • 41. 30 2 Maximum-Likelihood and Bayesian Parameter Estimation i pattern. I pattern erano in d dimensioni e adesso sono proiettati su k dimensioni per cui i pattern divetano k dimensionali. Qual’`e il vantaggio? se io ho pattern a cento dimensioni e scopro che la maggiore informazione `e concentrata nelle prime dieci componenti principali allora ho ridotto lo spazio da cento dimensioni in pattern di dimensione dieci, conservando l’80% dell’informazione. Tutto ci`o ha una base teorica: Preso un pattern di p variabili x = {x1, . . . , xp} vogliamo calcolare la prima componente prin- cipale dell’insieme dei campioni come trasformazione lineare di x tale che z1 abbia la maggiore informazione (o che la varianza sia massima), quindi possiamo scrivere z1 = aT 1 x = p i=1 ai1xi (2.35) dove il vettore a1 = {a11, a21, . . . , ap1}, `e il vettore di pesi. Questo `e un problema di ottimizzazione, perch`e ancora una volta lo scopo principale `e quello di massimizzare. Di conseguenza se voglio trovare la k-esima componente principale allora la 2.35 diventa zk = aT k x k = 1, . . . , p (2.36) dove il vettore ak = {a1k, a2k, . . . , apk}, come prima `e il vettore dei pesi. Naturalmente le compo- nenti principali calcolate devono essere relative alle componenti principali precedenti. Quindi non solo vogliamo che la varianza di zk sia massima, ma vogliamo anche che la covarianza di zk e zl con 1 ≤ l < k sia uguale a zero, cio`e fondamentalmente che non ci sia correlazione. Oltre alle compo- nenti principali in senso di massimizzare la varianza, un altro vincolo `e quello di avere componenti scorrelate fra di loro. Un ulteriore condizione `e che aT k ak = 1. Adesso vediamo come trovare la prima componente principale. La varianza di z1 la possiamo anche scrivere mediante una forma altrenativa, cio`e var(z1) = E[z2 1] − E[z2]2 (2.37) dove E sta ad indicare la media. Dalla 2.35 sappiamo che z1 = aT 1 x, quindi x2 1 equivale a moltiplicare z2 1 = aT 1 x · aT 1 x = p i=1 ai1xi p j=1 aj1xj = p i,j=1 ai1aj1xixj (2.38) dato che stiamo calcolando la media di z2 1 possiamo scrivere che E[z2 1] = p i,j=1 ai1aj1E[xixj] (2.39) Facciamo la stessa cosa per E[z2]2 , ma questa volta calcoliamo il quadrato della madia quindi facendo le opportune moltiplicazioni otteniamo p i,j=1 ai1aj1E[xi]E[xj] (2.40)
  • 42. 2.4 Principal Component Analysis 31 andando a sostituire nella 2.37 i valori ottenuti per E[z2 1] e [z1]2 otteniamo var(z1) = p i,j=1 ai1aj1E[xixj] − p i,j=1 ai1aj1E[xi]E[xj] (2.41) a questo punto metto in evidenza la doppia sommatoria p i,j=1 ai1aj1Sij (2.42) dove Sij = σxi,xj = E[xixj]−E[xi]E[xj], S `e la matrice di covarianza, quindi Sij `e l’elemento della matrice di covarianza. La 2.42 pu`o essere scritta come var(z1) = aT 1 Sa1 (2.43) A questo punto il problema `e quello di massimizzare la varianza di z1, quindi bisogna massimizzare var(z1) = aT 1 Sa1 soggetto a aT 1 a1 = 1. In questo caso si utilizza la teoria della regolarizzazione, fondamentalmente si utilizza il moltiplicatore di lagrange che porta il vincolo nella funzione obiet- tivo. In questo caso, dato che ho il vincolo aT 1 a1 = 1 allora voglio che aT 1 a1 − 1 = 0, data questa condizione allora `e ovvio che aT 1 a1 deve essere uguale ad uno. A questo punto devo massimizzare la funzione obiettivo che `e aT 1 Sa1 pi`u il vincolo, ma poich`e sto massimizzando allora devo massimizzare −aT 1 a1, quindi aT 1 Sa1 + (−aT 1 a1 − 1) (2.44) alla fine mi viene aT 1 Sa1 − aT 1 a1 − 1 (2.45) ovviamente la prima parte `e la funzione obiettivo originale, mentre la seconda parte `e il vincolo che sto aggiungendo, a cui devo dare un peso λ che prende il nome di moltiplicatore di lagrange aT 1 Sa1 − λ(aT 1 a1 − 1) (2.46) con 0 < λ ≤ 1. A questo punto `e facile, come si trova il massimo di una funzione? derivata prima uguale a zero. Qual’`e il valore per cui voglio ottenere il massimo? ´E a1. Perch`e λ lo fisso, S `e la matrice di covarianza dei dati, quindi faccio la derivata rispetto ad a1, quindi pongo tutto uguale a zero Sa1 − λa1 = 0 (2.47) metto in evidenza a1 (S − λIp)a1 = 0 (2.48) in questa equazione λ `e l’autovalore della matrice di covarianza e a1 non `e altro che l’autovettore corrispondente. Fin qui abbiamo massimizzato la varianza sulla prima componente principale, quindi λ corrispon- de all’autovalore maggiore, cio`e sto massimizzando la varianza della prima componente principale, quindi fondamentalmente sto trovando la componente principale per la quale ho la massima va- rianza, massima varianza equivale a dire massimo autovalore. Quindi riassumendo, presi i dati, mi
  • 43. 32 2 Maximum-Likelihood and Bayesian Parameter Estimation calcolo la matrice di covarianza S, mi calcolo gli autovalori e gli autovettori della matrice di co- varianza, il primo autovalore corrisponde alla massima varianza e l’autovettore corrispondente alla prima componente principale. A questo punto ho calcolato a1 ma dalla 2.35 dobbiamo ricavarci z1 quindi moltiplicando aT 1 x non faccio altro che la proiezione di x su a1 (il prodotto interno aT 1 x non `e altro che la proiezione di x su a1). Quindi possiamo dire che la varianza della prima componente principale corrisponde all’autovalore maggiore. Dimostriamolo: Traduciamo formalmente quello che abbiamo detto, quindi la varianza della prima componete `e uguale al primo autovalore che corrisponde a quello maggiore var(z1) = λ1 (2.49) quindi dall’equazione (S − λIp)a1 = 0 (2.50) effettuando alcuni semplici passaggi matematici Sa1 − λa1 = 0 Sa1 = λa1 aT 1 · Sa1 = λa1 · aT 1 aT 1 Sa1 = λaT 1 a1 aT 1 Sa1 = λ (2.51) dato che aT 1 a1 = 1 e var(z1) = aT 1 Sa1, quindi `e dimostrata la 2.49. Ho trovato la prima componente principale corrispondente all’ autovettore corrispondete all’auto- valore maggiore cio`e alla varianza maggiore, che in modo geometrico corrisponde alla proiezione di x sull’asse maggiore dell’ellissoide che circoscrive i dati. La seconda componente principale come la calcolo? Massimizzando la varianza z2 ma questa volta con il vincolo aT 2 a2 = 1 quindi ho di nuovo aT 2 Sa2 − λ(aT 2 a2 − 1) (2.52) solo che per`o voglio anche che la covarianza della seconda componente principale rispetto alla prima componente principale sia uguale a zero (che siano scorrelate). Allora si introduce un altro paramentro cov(z2, z1) = aT 1 Sa2 = λ1aT 1 a2 (2.53) La cov(z2, z1) = aT 1 Sa2 quindi fondamentalmente sarebbe l’elemento S21 della matrice di covarianza, quindi la posso scrivere o come aT 1 Sa2 oppure equivalentemente che lo possiamo scrivere anche come λ1aT 1 a2 questo si pu`o dimostrare come precedentemente, Sa2 = λ1a2 (2.54) moltiplico entrambi i membri per aT 1 ed ottengo aT 1 · Sa2 = λ1a2 · aT 1 (2.55)
  • 44. 2.4 Principal Component Analysis 33 ottenendo cos`ı aT 1 Sa2 = λ1aT 1 a2 (2.56) ma aT 1 Sa2 non `e altro che la cov(z2, z1) per cui abbiamo dimostrato che cov(z2, z1) = λ1aT 1 a2 (2.57) A questo punto dobbiamo minimizzare la covarianza che come prima significa massimizzare meno la covarianza. Quindi `e necessario massimizzare −λ1aT 1 a2. Facciamo la derivata rispetto ad a2 la poniamo uguale a zero e calcoliamo a2. Questo procedimento viene effettuato per a3, a4, . . . , an ottenendo tutte le altre componenti principale. In generale si pu`o definire var(zk) = ak T Sak (2.58) che `e uguale al k-esimo autovalore nell’ordine discendente, quindi dall’autovalore pi`u grande al- l’autovalore pi`u piccolo della matrice di covarianza. La k-esima componente principale trattiene la frazione maggiore della variazione del dataset dei campioni.
  • 45.
  • 46. 3 Nonparametric Techniques 3.1 introduzione Nella sezione 2 sono state trattate le tecniche parametriche nel caso di addestramento supervised assumendo una distribuzione di probabilit`a nota. Purtroppo nelle applicazioni di pattern recognition non sempre abbiamo una conoscenza della distribuzione di probablit`a. In questa sezione verranno esaminate quelle tecniche chiamate nonparametric che possono essere usate arbitrariamente con qualsiasi distribuzione senza assumere una conoscenza a priori. Ci sono molte tipologie di tecni- che nonparametric: in particolare una consiste nella procedura di stimare la funzione di densit`a p(x|ωj) dai campioni di patterns, mentre un altra tecnica consiste invece in una procedura che stima direttamente la la probablit`a a posteriori P(ωj|x). 3.2 Stima della densit`a La probabilit`a P che un vettore x ricade in una regione di decisione R `e data da P = R p(x ) dx (3.1) stiamo calcolando l’area che sottende la probabilit`a del campione x all’interno della regione di decisione. P `e la versione media della funzione di densit`a p(x), e possiamo stimare il valore di p calcolando la probabilit`a P. Supponiamo di avere n campioni x1, . . . , xn che sono indipendenti e identicamente distribuiti (i.i.d.) secondo la funzione di probabilit`a non nota p(x). La probabilit`a che k di questi n campioni cada nella regione di decisione R `e data dal coefficiente binomiale, ovvero la probabilit`a che k degli n campioni ricadano all’interno di una regione di decisione Pk = n k Pk (1 − P)n−k (3.2) dove Pk `e la probabilit`a dei k campioni che ricadono all’interno della regione R, (1 − P)n−k `e la probabilit`a che k campioni non ricadono all’interno della regione R e n k `e il coefficiente binomiale, moltiplicando il tutto otteniamo Pk che prende il nome di distribuzione binomiale. Inoltre il valore atteso di k `e
  • 47. 36 3 Nonparametric Techniques ε[k] = nP (3.3) a questo punto vogliamo trovare quel parametro k tale che abbiamo proprio la probabilit`a media, quindi se cambio il numero di campioni questa regola permane. Qual’`e il valore per il quale ottengo esattamente nP? ´E proprio k. Con questa supposizione k `e approssimatiamente uguale ad nP, quindi essendo k nP, allora P k/n sostituisco nella 3.1 e di conseguenza otteniamo k n R p(x ) dx (3.4) Individuata la regione di appartenenza dei punti, ipotizziamo di sceglierla piccola in modo tale da avere una densit`a della probabilit`a costante all’interno di essa, a questo punto la p(x ) risulta essere costante rispetto ad x e quindi `e possibile portarla al di fuori dell’integrale e quindi il tutto diventa k n p(x) R dx (3.5) L’integrale R dx non `e altro che un volume, quindi ho p(x)V , riprendendo la formula precedente k n p(x)V (3.6) riarrangiando viene fuori che una stima di p(x) potrebbe essere p(x) = k/n V (3.7) dove k `e il numero di campioni che rientrano nella regione R, n `e il numero di campioni in totale e V `e il volume della regione R. Ci troviamo di fronte ad un equazione di cui p(x), k e V non sono noti e conosciamo solo n. Quindi `e necessario introdurre altre considerazioni. Per vedere il comportamento di n tendente ad infinito della (3.7) allora consideriamo n molto grande , per fare questo scriviamo pn(x) = kn/n Vn (3.8) quindi otteniamo la stima della densit`a di probabilit`a di x al variare di n, osservando che pi`u n cresce pi`u la 3.8 tenda alla vera densit`a di probabilit`a. Andiamo a calcolare il limite tendente all’infinito delle quantit`a che entrano in gioco. C’`e da considerare che il limite per n tendente all’infinito della 3.8 `e una forma indeterminata 0/∞, quindi va studiata singolarmente, in particolare pretendiamo che il volume non cresca all’infinito. Se pn(x) deve convergere a p(x) allora sono rischieste tre condizioni: • limn→∞ Vn = 0 • limn→∞ kn = ∞ • limn→∞ kn/n = 0 La prima condizione assicura che il volume non cresca all’infinito, quindi aumentando i campioni la regione rimane constante, al pi`u si rimpicciolisce ma non aumenta. La seconda condizione, la quale ha senso soltanto se p(x) = 0 ci assicura che il rapporto converger`a alla probabilit`a P. Ci sono due modi per soddisfare le condizioni (Fig. 3.1). Uno `e quello di considerare una regione iniziale Vn in funzione di n, come Vn = 1/ √ n, inquesto caso deve essere dimostrato che le variabili casuali
  • 48. 3.3 Parzen Windows 37 kn e kn/n si comportano correttamente o, pi`u precisamente, che pn(x) converge a p(x), questo `e il metodo parzen windows che verr`a esaminato a breve. Il secondo metodo invece considera kn in funzione di n, esempio kn = √ n, in questo caso il volume `e cresciuto fino a racchiudere kn vicini di x, questa tecnica `e chiamata stima kn-nearest-neighbor. Figura 3.1. Metodi per la stima di densit`a di probabilit`a 3.3 Parzen Windows L’approccio denominato Parzen Windows pu`o essere introdotto assumendo che la regione Rn `e un ipercubo a d dimensioni. Se hn `e la lunghezza del lato dell’ipercubo allora il suo volume `e dato da Vn = hd n (3.9) A questo punto viene introdotta la funzione finestra, la quale dice: se un campione rientra in un cubo assume valore 1 altrimenti assume valore 0. ϕ(u) = 1 se |uj| ≤ 1/2 0 altrimenti j = 1, . . . , d. Facciamo un esempio a due dimensioni ed immaginiamo un quadrato centrato nell’origine, allora il valore delle due dimensioni deve essere |uj| ≤ 1/2 per poter rientrare all’interno del quadrato, altrimenti si trova al di fuori. In questo caso `e stato assunto che il lato abbia dimensione unitaria e che l’ipercubo sia centrato nell’origine. Volendo applicarla al caso generale `e necessario traslare nell’origine e poi dividere per hn, quindi la funzione finestra divente ϕ((x − xi)/hn). Una volta ottenuta la funzione finestra per il caso generale la applico a tutti i punti per vedere quanti campioni rientrano all’interno della regione. Il che pu`o essere calcolato con la sommatoria per tutti gli i = 1 kn = n i=1 ϕ x − xi hn (3.10)
  • 49. 38 3 Nonparametric Techniques cos`ı kn lo calcolo e non si fa nessuna ipotesi, mentre si fa l’ipotesi sul volume che come abbiamo detto `e uguale a hd n. Sostituiamo kn nella formula originaria pn(x) = kn/n Vn (3.11) e ottengo pn(x) = 1 n n i=1 1 Vn ϕ x − xi hn (3.12) La stima appena vista `e basata sul concetto del conteggio del numero di campioni di training con- tenuti in un volume prefissato, quindi la stima della distribuzione di probabilit`a `e espressa come somma di N contributi, ciascuno dei quali `e associato ad un singolo campione, ed il singolo contri- buto `e espresso da una funzione ϕ(u) che in generale non `e rettangolare (ϕ(u) ma assume valori continui. Si costruisce quindi la stima mediante l’equazione 3.12. La funzione ϕ(u) `e detta finestra di Parzen o kernel. Affinch`e lo stimatore di Parzen abbia significato, `e necessario imporre vincoli sul kernel ϕ(u). Una condizione necessaria e sufficiente affinch`e la stima di Parzen sia effettivamente una distribuzione di probabilit`a, `e che la stessa funzione kernel sia una distribuzione di probablit`a, ossia una funzione non-negativa ϕ(x) ≥ 0 (3.13) e normalizzata ϕ(u) du = 1 (3.14) Definiata la funzione δn(x) δn(x) = 1 Vn ϕ x hn (3.15) allora la distribuzione di probabilit`a pu`o essere scritta anche in un altra forma p(x) = 1 n n i=1 δn(x − xi) (3.16) Osserviamo come cambia la finestra di parzen al variare di kn. I vari casi sono mostrati in figura 3.2. Diminuendo hn il volume diventa pi`u piccolo e di conseguenza δn ha un picco maggiore, di volta in volta che hn diminuisce il picco aumenta, quindi per hn tendente a zero diventa proprio la delta di dirac. Se invece hn `e grande allora assume la forma di una gaussiana con varianza molto ampia ma con lo svantaggio che `e poco rappresentativa dei pattern, quindi potrebbe essere che la distribuzione di probabiit`a non `e costante di conseguenza stiamo perdendo molte informazioni dei pattern all’in- terno di questa regione (Regione grade equvale a perdita di informazioni). Analogamente invece hn `e troppo piccolo allora guardiamo molti dettagli e nel tendere alla delta di dirac `e come se stessimo osservando un singolo campione. Ritornando alla discussione sulla convergenza, bisogna tener conto della convergenza della sequenza delle variabili casuali, dato che per ogni fissato x il valore di p(x) dipende dai campioni x1, . . . , xn. Quindi se la media di pn(x) `e ¯pn(x) e la varianza `e σ2 n(x). Allora la stima di pn(x) converce a p(x) se lim n→∞ ¯pn(x) = p(x) (3.17)
  • 50. 3.3 Parzen Windows 39 Figura 3.2. Finestre di parzen con kn variabile e lim n→∞ σ2 n(x) = 0 (3.18) 3.3.1 Esempi ´E interessante vedere come si comporta il metodo parzen windows ed in particolare osservare l’effetto della funzione finestra. Consideriamo il caso in cui p(x) `e una distribuzione normale monovariata a media zero e varianza unitaria. L funzione finestra avr`a la seguente forma ϕ(u) = 1 √ 2π e−u2 /2 (3.19) dato hn = h1/ √ n. Allora pn(x) `e una distribuzione di densit`a centrata sui campioni pn(x) = 1 n n i=1 1 hn ϕ x − xi hn (3.20) Effettuando un p`o di calcoli sono stati ottenuti i risultati mostrati in figura 3.3. I risultati dipendono sia da h1 che da n. Per n = 1 e h1 = 1 `e semplicemente una gaussiana centrata sul primo campione, quindi una visione sfocata out-of-focus della distribuzione. Per n = 10 e h1 = 0.1 osserviamo che si pu`o distinguere il contributo di ogni campione cosa che non avviene nel caso in cui h1 = 1 e h1 = 0.5. 3.3.2 Classificazione Una volta stimata la densit`a di probabilit`a allora la classificazione viene effettuata mediante una stima a massima probabilit`a a posteriori (MAP). Le regioni di decisioni dipendono dalla scelta che si fa per la funzione finestra. In generale, l’errore `e basso scegliendo finestre con dimensione piccola.
  • 51. 40 3 Nonparametric Techniques Figura 3.3. Stima mediante la tecnica Parzen window di una distribuzione normale monovariata facendo variare il parametro h1 ed il numero di campioni n 3.4 kn-Nearest Neighbor estimation Un rimedio al problema della dimensione della finestra di parzen `e quello di considerare il volume in funzione dei campioni di training. Per esempio, per stimare la p(x) di un insieme di campioni di training, possiamo centrare la regione in x e farla crescere finch`e ingloba kn campioni, dove kn `e specificato in funzione di n. Questi campioni sono i kn nearest-neighbor di x. Se vicino il campione x la densit`a `e alta allora la cella sar`a piccola, viceversa se la densit`a `e bassa allora si avr`a una regione grande. In entrambi i casi se prendiamo pn(x) = kn/n Vn (3.21) vogliamo che sia kn ed n tendono ad infinito dato che ci assicura che kn/n sar`a una buona stima di probabilit`a che un punto cadr`a all’interno del volume Vn. Comunque, vogliamo anche che kn cresce lentamente finch`e la dimensione della cella non include i kn campioni. ´E chiaro che dalla 3.21 il rapporto kn/n tende a zero. Si pu`o dimostrare che le condizioni limn→∞ kn = ∞ e limn→∞ kn/n = 0 sono necessarie e sufficienti affinch`e pn(x) converge a p(x). Se poniamo kn = √ n e assumiamo che pn(x) `e una buona approssimazione di p(x) allora dall’eq. 3.21 otteniamo che Vn ( √ n p(x)). Cos`ı
  • 52. 3.4 kn-Nearest Neighbor estimation 41 Vn ha ancora la forma V1/ √ n, ma il volume iniziale `e determinato dalla natura dei dati piuttosto che da una scelta arbitraria. ´E interessante notare che nonostante pn(x) `e continua la sua pendenza (o gradiente) non lo `e. Inoltre i punti di dscontinuit`a corrispondono ai punti stessi (Fig. 3.4 e 3.5). Figura 3.4. Figura 3.5. 3.4.1 Kn-Nearest-Neighbor and Parzen Window Estimation Nel caso in cui n = 1 allora kn = √ n = 1 e quindi i questo caso la stima diventa
  • 53. 42 3 Nonparametric Techniques pn(x) = 1 2|x − x1| (3.22) ´E il caso in cui il numero di campioni pi`u prossimi ad x sia 1, portando ad una tecnica denominata one-nearest-neighbor 3.4.2 Estimation of A Posteriori Probabilities Le tecniche discusse nelle precedenti sezioni possono essere usate per stimare la probabilit`a a po- steriori P(ωi|x) da un insieme di n campioni etichettati usando gli stessi campioni per stimare le densit`a coinvolte. Supponiamo di utilizzare una volume V intorno ad x e catturare i k campioni, ki di questi sono etichettati con ωi. La stima della probabilit`a congiunta p(x ∩ ωi) `e pn(x ∩ ωi) = ki/n V (3.23) quindi la stima di P(ωi|x) `e Pn(ωi|x) = pn(x ∩ ωi) c j=1 pn(x ∩ ωj) = ki k (3.24) La probabili`a a posteriori che il campione appartenga alla classe ωi `e data dal rapporto tra il numero campioni etichettati con ωi ed i campioni k all’interno del volume. Per la scelta della grandezza della cella `e chiaro che possiamo usare sia l’approccio basato sulle finestre di parzen che quello basato sul kn-nearest-neighbor. Nel primo caso Vn deve essere specificato come funzione di n, come Vn = 1/ √ n. Nel secondo caso, Vn viene esteso fino a racchiudere un determinato numero di campioni, es. k = √ n. 3.4.3 The Nearest-neighbor rule Sia Dn = {x1, . . . , xn} un insieme di n campioni dei quali conosciamo la classe di appartenenza (approccio supervisionato), preso x ∈ Dn come pi`u vicino prossimo al campione x che `e un cam- pione di test (quindi non appartiene al dataset). La regola nearest-neighbor assegna ad x l’etichetta di x . Il tasso di errore `e certamente maggiore di quello della regola di bayes, cio`e quella del minimo possibile, per`o si dimostra che il tasso di errore `e al pi`u due volte l’errore di bayes, cio`e `e limitato superiormente da due volte l’errore di bayes. L’errore di bayes `e molto piccolo, quindi moltiplicato per due `e ancora piccolo. Questo `e il vantaggio che pu`o dare il nearest-neighbor con k = 1, quindi costo computazionale bassissimo con grossa resa, dato che per n tendende ad infinito la probabilit`a di p(ωi|x ) p(ωi|x), cio`e i vicini hanno probabilit`a a posteriori costanti. Inoltre se p(ωm|x ) 1, qundi molto alta, allora in tal caso il comportamento del classificatore nearest-neighbor `e uguale al comportamento di bayes. Stiamo dicendo che una regola di classificazione banale ha un comporta- mento molto valido. Generalizzando, il k-nearest-neighbord assegna ad x l’etichetta del campione pi`u frequentemente rappresentato dei k campioni pi`u vicini. L’algoritmo conduce quindi ad un partizionamento, una cosa interessante in quanto ho delle celle intorno ad ogni campione x. La sud- divisione delle celle viene definita tassellazione di voronoi, fondamentalmente `e un partizionamento senza sovrapposizione delle celle (Fig. 3.6). Nota: Se aumento il numero di k vicini le regioni sono dense e i picchi si abbassano, invece se k diminuisce allora ci sono pi`u picchi.
  • 54. 3.4 kn-Nearest Neighbor estimation 43 Figura 3.6. Tassellazione di voronoi, le frontiere di decisione sono come superfici di diamanti
  • 55.
  • 56. 4 Unsupervised Learning and clustering 4.1 Vantaggi dell’ Unsupervised Learning Fino ad ora abbiamo assunto che i campioni di training utilizzati per progettare un classificatore sono stati etichettati in base alla classe di appartenenza. Quindi si ha a disposizione un insieme di dati dei quali conosciamo la loro natura di appartenenza. Le procedure che operano su quest’insie- me di dati sono dette unsupervised. Questa modalit`a `e utilizzata per una serie di ragioni. Esempio, raccogliere ed etichettare un gran numero di campioni pu`o risultare molto costoso, in alcuni casi potrebbe essere non fattibile in quanto non si ha a disposizione un esperto. Inoltre da un punto di vista statistico `e pi`u facile affrontare il problema nel caso non supervisionato che nel caso supervi- sionato, nel senso che `e molto difficile etichettare i campioni da parte di un esperto che molto spesso lo riesce a fare soltanto per un numero di campioni molto ridotto, problema invece che non si ha nel caso unsupervised in quanto il numero di campioni non etichettato pu`o anche crescere a dismisura dato che non `e vincolato dal lavoro ulteriore di un esperto che etichetta i campioni. Quindi dal punto di vista statistico la rappresentativit`a dei dati non etichettati, tipicamente `e maggiore dei dati etichettati, inoltre i metodi non supervisionati possono essere utilizzati anche per l’estrazione di caratteristiche. Un esempio `e quando non si conosce la sorgente dei dati, tipicamente i dati vengono raccolti da sensori e non si ha neanche un esperto che riesce ad etichettare i dati (fetaure), quindi l’approccio non supervisionato oltre ad apparire come un approccio per la classificazione di dati non etichettati potrebbe apparire anche come un processo di preelabrazione dei dati. Per esempio quando si ha a disposizione una quantit`a enorme di dati, questi vengono analizzati con la condizio- ne che non si sa da dove derivano e quale `e l’etichetta. Quindi si ha a disposizione molti campioni per effettuare un analisi statistica dei dati senza l’ausilio degli esperti, questo processo produce un insieme ridotto delle osservazioni e sono queste quelle che verranno poi sottoposte all’analisi. Sotto questo aspetto Il processo di classificazione non supervisionato non `e un processo di classificazione ma un processo di estrazione di carattaristiche. Le tecniche che verranno utilizzate, sono tecniche di data mining (investigare i dati). L’analisi dei dati per esplorazione (mining) pu`o risultare utile alla comprensione della natura e struttura dei dati, quindi solo dopo aver effettuato un esplorazione attenta dei dati `e possibile analizzarli e quindi sar`a possibile poi dire si i dati analizzati corrispon- dono ad un determinato processo.
  • 57. 46 4 Unsupervised Learning and clustering 4.2 Introduzione Stiamo nel caso in cui l’apprendimento `e non supervisionato, quindi il caso in cui i campioni che abbiamo a disposizione non sono etichettati. ´E un caso abbastanza generale poich´e `e molto difficile raccogliere ed etichettare un gran numero di campioni, in quanto effettuare tali operazioni `e costoso in termini di tempo, ma soprattutto `e costoso in termini di energie di esperti del settore spese per poter operare un etichettatura dei campioni. Quindi in alcuni casi abbiamo una raccolta di dati, anche abbastanza considerevole, non etichettati per`o rappresentativi di fenomeni abbastanza com- plessi che devono essere studiati. Studiare un fenomeno non significa soltanto riuscire a determinare la struttura, ma molto spesso significa proprio rilevare eventi che non sono noti, rilevare anomalie che rappresentano eventi significativi, per cui scoprire caratteristiche dai dati `e l’obiettivo dell’un- supervised learning. Il termine apprendimento `e legato al fatto che i parametri delle distribuzioni di probabilit`a dei modelli non sono noti e bisogna renderli noti soltanto dopo una fase di addestra- mento di un sistema che si va a progettate. Per prima cosa si dovrebbe progettare un sistema di classificazione assumendo che si basi sul criterio MAP, quindi la probabilit`a a posteriori segue la re- gola di Bayes, per`o le probabilit`a che entrano in gioco nella regola di Bayes non sono note, non sono note le propriet`a a priori ed in particolare le probabilit`a condizionate ovvero la verosomiglianza e di conseguenza se non sono note queste non `e nota neanche l’evidenza, ovvero il denominatore della regola di Bayes, quindi di conseguenza non `e nota la probabilit`a a posteriori. L’ipotesi in questo caso, come abbiamo gi`a fatto per l’apprendimento supervisionato `e quella di avere la conoscenza del modello, cio`e di avere conoscenza della distribuzione di probabilit`a dei dati. ´E un ipotesi forte in quanto ci appelliamo al teorema del limite centrale il quale dice che su un numero di campioni infinito le distribuzioni di probabilit`a tendono ad essere gaussiane, ci limitiamo pertanto a stimare o meglio ad apprendere i parametri delle distribuzioni di probablit`a gaussiane, che nella maggior parte dei casi sono gaussiane multivariate caratterizzate da una media e da una matrice di covarianza. Un punto essenziale `e come scoprire le regolarit`a dei dati, cio`e se i dati che io raccolgo si compor- tano in modo regolare, dal punto di vista matematico regolare significa che `e possibile interpolare questi dati attraverso delle funzioni matematiche che appaiono funzioni regolari, quindi scoprire le regolarit`a vuol dire scoprire un modello di comportamento che `e assolutamente importante per il rilevamento di anomalie. Praticamente a cosa serve la teoria non supervisionata ed il clustering? Immaginiamo di avere una raccolta di dati considerevole, etichettare questi dati `e improponibile, avere conoscenza di cosa corrispondono questi dati `e altrettanto improponibile allora l’esperto non lo si chiama proprio, non viene proprio interpellato per guardare i dati, si fa una scrematura, ovvero una pulizia dei dati, quindi si studiano le regolarit`a dei dati attraverso le tecniche di unsupervised learning o clustering in modo tale che i prototipi dei cluster che poi vengono identificati (il raggrup- pamento) verranno poi posti all’attenzione degli esperti, cio`e quindi non i dati stessi ma i prototipi dei cluster i cui ho suddiviso i dati, naturalmente i prototipi dei cluster in cui ho suddiviso i dati sar`a in numero nettamente minore dei dati da osservare e quindi porta ad una realizzazione del procedimento di etichettatura da parte di un esperto. Pertanto quello che stiamo dicendo `e che mol- to spesso l’apprendimento non supervisionato `e una fase di elaborazione, cio`e quella fase di analisi dei dati che viene prima di una analisi pi`u attenta dei dati stessi. Quindi ad un procedimento non supervisionato quasi sempre segue un procedimento supervisionato. In alcuni casi per`o `e possibile anche che il risultato di un apprendimento non supervisionato sia gi`a sufficiente per la comprensione del dataset e quindi l’esperto non viene interpellato. Quando i pattern appaiano molto densi allora il clusetring risulta essere molto agevole, quindi questa procedura `e molto utile quando di dati sono densamente distribuiti intorno ad un prototipo o centroide. Quando invece i dati si distribuiscono
  • 58. 4.3 Mixture Densities and Identifiability 47 in modo non cos`ı denso intorno ad un centroide allora `e molto pi`u difficile determinare i centroidi, `e anche molto pi`u difficile determinare i veri cluster e quindi `e necessaria una fase di etichettatura. L’apprendimento non supervisionato rappresenta una grossolana suddivisione dei dati in gruppi. Il problema va per`o affrontato in un modo formalmente corretto. 4.3 Mixture Densities and Identifiability Cominciamo con l’assunzione che conosciamo la completa struttura probabilistica del problema, con la sola eccezione di non conoscere i valori di alcuni parametri. Per essere pi`u specifici, facciamo le seguenti assunzioni: 1. I campioni provengono un numero di c classi che conosciamo 2. Le probabilit`a a priori P(ωj) per ogni classe j = 1, . . . , c sono conosciute 3. Le densit`a di probabilit`a sono conosciute p(x|ωj, Θj) 4. Valori dei vettori dei parametri Θ1, . . . , Θc sono sconosciuti 5. Le etichette per ogni categoria sono sconosciute A differenza dello studio effettuato nell’apprendimento supervisionato che veniva effettuato per classi, qui non conosciamo le classi di appartenenza, e quindi deve essere fatto su tutti i dati ipotizzando che i dati provengono da c classi. Ma non sappiamo quali sono le classi perch`e i pattern non sono etichettati. Si ipotizza che la distribuzione di probabilt`a non `e altro che una combinazione lineare delle distribuzioni di probabilit`a delle singole classi che per`o non sono note. Immagino che i dati provengono da c classi, non si `e a conoscenza di quali sono le classi, ma si sa soltanto che la distribuzione di probabilit`a per ogni classe `e per esempio una gaussiana multivariata, di cui non conosco ne la media ne la matrice di covarianza per ogni classe. Naturalmente poich´e i dati non sono etichettati non posso fare un analisi per classe, ma devo fare un analisi di tutti i dati. Allora immagino che la distribuzione di probabilit`a totale dei dati non `e altro che una combinazione lineare della distribuzione di probabilit`a per ogni singola classe, che prende il nome di mixtura di densit`a di probabilit`a, che nel caso di gaussiane prende il nome di mixture di gaussiame (MOG). L’evidenza p(x), cio`e la distribuzione di probabilit`a di un pattern qualsiasi x indipendentemente da quale classe apparitene non `e altro che la probabilit`a marginale delle probabilit`a congiunte. Posso certamente dire che p(x) = c j=1 p(x, ωj) (4.1) questa non `e altro che la distribuzione di probabilit`a marginale della distribuzione di probabilit`a congiunta di p(x, ωj), ricordando che per la distribuzione di probabilit`a congiunta (la tabella a doppia entrata) la probabilit`a marginale si calcola per colonne o per righe. La 4.1 `e possibile riscriverla come p(x) = c j=1 p(x|ωj)P(ωj) (4.2) Assumiamo che i campioni sono stati ottenuti selezionando lo stato della natura ωj con probabilit`a P(ωj) e poi selezionando un osservazione x in accordo con la distribuzione di probabilit`a p(x|ωj, Θj). Cos`ı, la densit`a di probabilit`a per i campioni `e data da
  • 59. 48 4 Unsupervised Learning and clustering p(x|Θ) = c j=1 p(x|ωj, Θj)P(ωj) (4.3) dove Θ = (Θ1, . . . , Θc)t , non `e altro un vettore di vettori di parametri. Quindi ogni Θj `e un vettore di parametri, per fare un esempio nel caso di una gaussiana Θj non `e altro che il vettore costituito da media e matrice di covarianza della j-esima distribuzione gaussiana multivariata. Per ovvie ragioni, la funzione di densit`a in questa forma `e chiamata mixture density, le distribuzioni di probabilit`a condizionate sono chiamate component density e le probabilit`a a priori sono chiamate mixing parameters. L’obiettivo base sar`a quello di usare i campioni che seguono la mixture density per stimare il vettore parametri sconosciuti Θ. Se l’ obiettivo `e la classificazione allora una volta trovato Θ possiamo decomporre la mixtura in tante componenti e usare un classificatore MAP (maximum a posteriori) sulle densit`a derivate. Prima di cercare una soluzione a questo problema, ci chiediamo comunque se `e possibile o meno ricavare Θ dalle mixture. Supponiamo che abbiamo un illimitato numero di campioni e che usiamo un metodo non parametrico della sezione 3 per determinare il valore di p(x|Θ) per ogni x. Se c’`e un solo valore di Θ che sar`a prodotto dai valori osservati per p(x|Θ), allora la soluzione `e possibile in linea si principio, invece se molti valori di Θ possono produrre gli stessi valori per p(x|Θ), allora non ci sono speranze di ottenere una soluzione unica. Queste considerazioni ci portano alla seguente definizione: Una funzione di densit`a p(x|Θ) `e detta identificabile se Θ = Θ implica che esiste un x tale che p(x|Θ) = p(x|Θ ), questo significa che quando si stimano i Θ si potrebbe ottenere per differenti valori di Θ la stessa distribuzione di probabilit`a, cosa che non deve accadere altrimenti il procedimento non va a buon termine. Facciamo un semlice esempio dove si considera il caso in cui x `e binario (quindi pu`o assumere 0 o 1) e P(x|Θ) `e una mixtura di due binomiali P(x|Θ) = 1 2 Θx 1 (1 − Θ1)1−x + 1 2 Θx 2 (1 − Θ2)1−x = 1 2 (Θ1 + Θ2) se x = 1 1 − 1 2 (Θ1 + Θ2) se x = 0 (4.4) ´E identificabile questa mixtura di densit`a? Presi due valori Θ e Θ che sono diversi, esiste almeno un x per cui P(x|Θ) = P(x|Θ )? Supponiamo, per esempio, che conosciamo il valore di P(x = 1|Θ) = 0.6 e quindi che P(x = 0|Θ) = 0.4. Conosciamo la funzione P(x|Θ), ma non possiamo determinare Θ e quindi non possiamo estrar- re le componenti della distribuzione. Inoltre possiamo dire che Θ1 + Θ2 = 1.2. Come potremmo mai trovare dei valori Θ1 e Θ2 che identificano in modo inequivocabile la densit`a di probabilit`a se praticamente la loro somma in entrambi i casi `e sempre uguae ad 1.2? Quindi `e impossibile trovare una combinazione di parametri che sia identificabile. Cos`ı, abbiamo un caso per il quale la distribuzione di mixture `e completamente non identificabile, un caso per il quale la tecnica unseupervised non pu`o essere applicata in linea di principio. Questo tipo di pro- blema si presenta comunemente nel caso di dati discreti, la presenza di molte componenti potrebbe rendere il problema abbastanza difficile, invece nel caso continuo, il problema `e meno severo. ´E pos- sibile mostrare che la mixtura di distribuzioni normali (mixtura di gaussiane) sono generalmente identificabili e i parametri di una semplice mixtura sono p(x|Θ) = P(ω1) √ 2π exp − 1 2 (x − Θ1)2 + P(ω2) √ 2π exp − 1 2 (x − Θ2)2 (4.5)