2. Chi vi parla…
NB: in questa presentazione condivido riflessioni su argomenti di mia recente acquisizione,
senza pretesa di originalità, completezza, precisione, etc. Alla fine mostrerò una slide in cui si
troveranno indicazioni per esplorazioni più approfondite.
3. EBMs
Il modello misura la compatibilità
tra le variabili osservate X e quelle
predette Y, utilizzando una
funzione energia E(X,Y)
Nel caso di inferenza,
4. Applicazioni
a) Face recognition
b) Face detection and pose
estimation
c) Image segmentation
d) Handwriting recognition
e) Sequence labeling
f) Image restoration
5. A quali domande rispondere
oPrediction, classification, decision-making: Quale valore di Y è il
più compatibile con una configurazione X?
oRanking: Quale tra i valori Y1, Y2, … , Yn è più compatibile con X?
oDetection: Y è compatibile con X?
oConditional density estimation: Quale è la distribuzione di
probabilità su Y dato X?
6. Energy-Based Training
L’addestramento di un EBM consiste nel trovare una funzione energia che produca il migliore
risultato Y a partire da X.
La migliore funzione energia viene cercata nella famiglia delle funzioni indicizzata dal
parametro W:
Dato il Training Set:
7. Energy-Based Training
Definito il Loss functional Il problema dell’addestramento si riduce nel trovare W che minimizzi il
loss functional:
Esempio di loss functional:
Per-sample loss
Regularizer
8. Energy-Based
Training
Durante il training riduco l’energia
in corrispondenza delle risposte
corrette
Aumento l’energia in
corrispondenza delle risposte
sbagliate con il più basso livello di
energia
9. Energy-Based Training
Dato un training set , il problema di addestrare un EBM si compone di quattro parti:
La definizione dell’architettura, ovvero della forma interna di E(W,Y,X)
L’algoritmo di inferenza, ovvero il metodo per trovare Y che minimizzi E(W,Y,X) per un dato valore
di X.
Il Loss functional che misura la qualità della funzione energia sul training set
L’algoritmo di apprendimento, ovvero il metodo per trovare il parametro W che minimizza il loss
functional su
11. Loss Functions: Energy Loss
• È la forma più semplice
• Tipicamente usata per regressione
• Funziona bene nel caso di architetture in cui abbassando il livello di energia in corrispondenza delle
risposte corrette, si ottiene contemporaneamente un aumento dell’energia in corrispondenza dei valori
errati.
con G funzione di regressione
• Tende al collasso!
12. Perceptron Loss
Sempre positiva / zero se la risposta è corretta
Minimizzando sulle risposte corrette, si aumenta l’energia sulle risposte sbagliate
Funziona bene quando la parametrizzazione dell’energia non permette la superficie piatta
13. Generalized Margin Loss
Alcune definizioni:
Dato il training set
Se Y è un variabile discreta, definiamo la most offending incorrect answer come la risposta
sbagliata al più basso livello di energia
Se Y è una variabile continua, definiamo la most offending incorrect answer come la risposta
al più basso livello di energia tra quelle a distanza maggiore da dalla risposta corretta
14. Generalized Margin Loss
Dove è una funzione convessa il cui
gradiente ha prodotto positivo con il vettore
[-1,1] nella regione
15. Esempi di Generalized Margin Losses
•Hinge Loss
•LVQ2 Loss
•Log Loss
•Square-Square Loss
•Minimum Classification Error Loss
Con
•Square-Exponential Loss
Con
16. Esempi di Architetture
Regressione
La funzione energia è il quadrato della norma tra l’output
della funzione di regressione ed il valore predetto
Il problema di inferenza è banale: il valore di Y che minimizza
l’energia è uguale a
Il livello minimo di energia è 0
Il funzionale dell’energia assume la forma corrispondente alla
regression standard con errore quadratico medio.
17. Esempi di Architetture
Classificatore
I valori possibili di Y sono -1,1
La funzione energia può assumere la forma
L’inferenza è banale:
Per il training possono essere usate le loss function:
perceptron, hinge e negative log-likelihood
18. Esempi di Architetture
Regressione implicita
I valori possibili di X ed Y sono passata a due funzioni
La funzione energia può assumere la forma
Modella una relazione implicita tra X ed Y
L’inferenza è difficile
19. Loss function a confronto
La scelta della corretta loss function dipende da come l’energia viene modificata in
corrispondenza delle risposte corrette e sbagliate
Loss function che utilizzano log spostano contemporaneamente tutte le risposte errate verso
livelli più alti di energia.
I metodi variazionali possono spostare i punti verso l’alto, ma non tutti come nel caso log.
Efficienza del calcolo nella scelta tra architettura e loss function ?????
20. Architetture con Variabili Latenti
Nel calcolo dell’energia si includono variabili nascoste il cui valore è sconosciuto o parzialmente
noto
In questo caso le soluzioni corrette assumono la forma
Le variabili latenti sono quelle variabili che, se note, garantirebbero di trovare una risposta Y al
più piccolo livello energetico.
21. Architetture con Variabili Latenti
Esempi di variabili latenti in casi specifici:
Riconoscimento facciale: il genere, l’orientazione del viso, ecc
Riconoscimento di oggetti: localizzazione, orientazione, fattore di scala, la condizione di luce
Scrittura manuale: la segmentazione della linea in caratteri