Energy based models Meetu pu DLI Roma Luglio

Energy Based
Models
Roberto Leuzzi
R&D Codin SpA

Chi vi parla…
NB: in questa presentazione condivido riflessioni su argomenti di mia recente acquisizione,
senza pretesa di originalità, completezza, precisione, etc. Alla fine mostrerò una slide in cui si
troveranno indicazioni per esplorazioni più approfondite.

EBMs
Il modello misura la compatibilità
tra le variabili osservate X e quelle
predette Y, utilizzando una
funzione energia E(X,Y)
Nel caso di inferenza,

Applicazioni
a) Face recognition
b) Face detection and pose
estimation
c) Image segmentation
d) Handwriting recognition
e) Sequence labeling
f) Image restoration

A quali domande rispondere
oPrediction, classification, decision-making: Quale valore di Y è il
più compatibile con una configurazione X?
oRanking: Quale tra i valori Y1, Y2, … , Yn è più compatibile con X?
oDetection: Y è compatibile con X?
oConditional density estimation: Quale è la distribuzione di
probabilità su Y dato X?

Energy-Based Training
L’addestramento di un EBM consiste nel trovare una funzione energia che produca il migliore
risultato Y a partire da X.
La migliore funzione energia viene cercata nella famiglia delle funzioni indicizzata dal
parametro W:
Dato il Training Set:

Definito il Loss functional Il problema dell’addestramento si riduce nel trovare W che minimizzi il
loss functional:
Esempio di loss functional:
Per-sample loss
Regularizer

Energy-Based
Training
Durante il training riduco l’energia
in corrispondenza delle risposte
corrette
Aumento l’energia in
corrispondenza delle risposte
sbagliate con il più basso livello di
energia

Dato un training set , il problema di addestrare un EBM si compone di quattro parti:
La definizione dell’architettura, ovvero della forma interna di E(W,Y,X)
L’algoritmo di inferenza, ovvero il metodo per trovare Y che minimizzi E(W,Y,X) per un dato valore
di X.
Il Loss functional che misura la qualità della funzione energia sul training set
L’algoritmo di apprendimento, ovvero il metodo per trovare il parametro W che minimizza il loss
functional su

Questioni:
•Come definire propriamente l’architettura?
•Come scegliere il loss functional?

Loss Functions: Energy Loss
• È la forma più semplice
• Tipicamente usata per regressione
• Funziona bene nel caso di architetture in cui abbassando il livello di energia in corrispondenza delle
risposte corrette, si ottiene contemporaneamente un aumento dell’energia in corrispondenza dei valori
errati.
con G funzione di regressione
• Tende al collasso!

Perceptron Loss
Sempre positiva / zero se la risposta è corretta
Minimizzando sulle risposte corrette, si aumenta l’energia sulle risposte sbagliate
Funziona bene quando la parametrizzazione dell’energia non permette la superficie piatta

Generalized Margin Loss
Alcune definizioni:
Dato il training set
Se Y è un variabile discreta, definiamo la most offending incorrect answer come la risposta
sbagliata al più basso livello di energia
Se Y è una variabile continua, definiamo la most offending incorrect answer come la risposta
al più basso livello di energia tra quelle a distanza maggiore da dalla risposta corretta

Generalized Margin Loss
Dove è una funzione convessa il cui
gradiente ha prodotto positivo con il vettore
[-1,1] nella regione

Esempi di Generalized Margin Losses
•Hinge Loss
•LVQ2 Loss
•Log Loss
•Square-Square Loss
•Minimum Classification Error Loss
Con
•Square-Exponential Loss
Con

Esempi di Architetture
Regressione
La funzione energia è il quadrato della norma tra l’output
della funzione di regressione ed il valore predetto
Il problema di inferenza è banale: il valore di Y che minimizza
l’energia è uguale a
Il livello minimo di energia è 0
Il funzionale dell’energia assume la forma corrispondente alla
regression standard con errore quadratico medio.

Classificatore
I valori possibili di Y sono -1,1
La funzione energia può assumere la forma
L’inferenza è banale:
Per il training possono essere usate le loss function:
perceptron, hinge e negative log-likelihood

Regressione implicita
I valori possibili di X ed Y sono passata a due funzioni
La funzione energia può assumere la forma
Modella una relazione implicita tra X ed Y
L’inferenza è difficile

Loss function a confronto
La scelta della corretta loss function dipende da come l’energia viene modificata in
corrispondenza delle risposte corrette e sbagliate
Loss function che utilizzano log spostano contemporaneamente tutte le risposte errate verso
livelli più alti di energia.
I metodi variazionali possono spostare i punti verso l’alto, ma non tutti come nel caso log.
Efficienza del calcolo nella scelta tra architettura e loss function ?????

Architetture con Variabili Latenti
Nel calcolo dell’energia si includono variabili nascoste il cui valore è sconosciuto o parzialmente
noto
In questo caso le soluzioni corrette assumono la forma
Le variabili latenti sono quelle variabili che, se note, garantirebbero di trovare una risposta Y al
più piccolo livello energetico.

Esempi di variabili latenti in casi specifici:
 Riconoscimento facciale: il genere, l’orientazione del viso, ecc
Riconoscimento di oggetti: localizzazione, orientazione, fattore di scala, la condizione di luce
Scrittura manuale: la segmentazione della linea in caratteri

Energy based models Meetu pu DLI Roma Luglio

Recommended

Recommended

More Related Content

More from Deep Learning Italia

More from Deep Learning Italia (20)

Energy based models Meetu pu DLI Roma Luglio