SlideShare a Scribd company logo
1 of 23
Energy Based
Models
Roberto Leuzzi
R&D Codin SpA
Chi vi parla…
NB: in questa presentazione condivido riflessioni su argomenti di mia recente acquisizione,
senza pretesa di originalità, completezza, precisione, etc. Alla fine mostrerò una slide in cui si
troveranno indicazioni per esplorazioni più approfondite.
EBMs
Il modello misura la compatibilità
tra le variabili osservate X e quelle
predette Y, utilizzando una
funzione energia E(X,Y)
Nel caso di inferenza,
Applicazioni
a) Face recognition
b) Face detection and pose
estimation
c) Image segmentation
d) Handwriting recognition
e) Sequence labeling
f) Image restoration
A quali domande rispondere
oPrediction, classification, decision-making: Quale valore di Y è il
più compatibile con una configurazione X?
oRanking: Quale tra i valori Y1, Y2, … , Yn è più compatibile con X?
oDetection: Y è compatibile con X?
oConditional density estimation: Quale è la distribuzione di
probabilità su Y dato X?
Energy-Based Training
L’addestramento di un EBM consiste nel trovare una funzione energia che produca il migliore
risultato Y a partire da X.
La migliore funzione energia viene cercata nella famiglia delle funzioni indicizzata dal
parametro W:
Dato il Training Set:
Energy-Based Training
Definito il Loss functional Il problema dell’addestramento si riduce nel trovare W che minimizzi il
loss functional:
Esempio di loss functional:
Per-sample loss
Regularizer
Energy-Based
Training
Durante il training riduco l’energia
in corrispondenza delle risposte
corrette
Aumento l’energia in
corrispondenza delle risposte
sbagliate con il più basso livello di
energia
Energy-Based Training
Dato un training set , il problema di addestrare un EBM si compone di quattro parti:
La definizione dell’architettura, ovvero della forma interna di E(W,Y,X)
L’algoritmo di inferenza, ovvero il metodo per trovare Y che minimizzi E(W,Y,X) per un dato valore
di X.
Il Loss functional che misura la qualità della funzione energia sul training set
L’algoritmo di apprendimento, ovvero il metodo per trovare il parametro W che minimizza il loss
functional su
Questioni:
•Come definire propriamente l’architettura?
•Come scegliere il loss functional?
Loss Functions: Energy Loss
• È la forma più semplice
• Tipicamente usata per regressione
• Funziona bene nel caso di architetture in cui abbassando il livello di energia in corrispondenza delle
risposte corrette, si ottiene contemporaneamente un aumento dell’energia in corrispondenza dei valori
errati.
con G funzione di regressione
• Tende al collasso!
Perceptron Loss
Sempre positiva / zero se la risposta è corretta
Minimizzando sulle risposte corrette, si aumenta l’energia sulle risposte sbagliate
Funziona bene quando la parametrizzazione dell’energia non permette la superficie piatta
Generalized Margin Loss
Alcune definizioni:
Dato il training set
Se Y è un variabile discreta, definiamo la most offending incorrect answer come la risposta
sbagliata al più basso livello di energia
Se Y è una variabile continua, definiamo la most offending incorrect answer come la risposta
al più basso livello di energia tra quelle a distanza maggiore da dalla risposta corretta
Generalized Margin Loss
Dove è una funzione convessa il cui
gradiente ha prodotto positivo con il vettore
[-1,1] nella regione
Esempi di Generalized Margin Losses
•Hinge Loss
•LVQ2 Loss
•Log Loss
•Square-Square Loss
•Minimum Classification Error Loss
Con
•Square-Exponential Loss
Con
Esempi di Architetture
Regressione
La funzione energia è il quadrato della norma tra l’output
della funzione di regressione ed il valore predetto
Il problema di inferenza è banale: il valore di Y che minimizza
l’energia è uguale a
Il livello minimo di energia è 0
Il funzionale dell’energia assume la forma corrispondente alla
regression standard con errore quadratico medio.
Esempi di Architetture
Classificatore
I valori possibili di Y sono -1,1
La funzione energia può assumere la forma
L’inferenza è banale:
Per il training possono essere usate le loss function:
perceptron, hinge e negative log-likelihood
Esempi di Architetture
Regressione implicita
I valori possibili di X ed Y sono passata a due funzioni
La funzione energia può assumere la forma
Modella una relazione implicita tra X ed Y
L’inferenza è difficile
Loss function a confronto
La scelta della corretta loss function dipende da come l’energia viene modificata in
corrispondenza delle risposte corrette e sbagliate
Loss function che utilizzano log spostano contemporaneamente tutte le risposte errate verso
livelli più alti di energia.
I metodi variazionali possono spostare i punti verso l’alto, ma non tutti come nel caso log.
Efficienza del calcolo nella scelta tra architettura e loss function ?????
Architetture con Variabili Latenti
Nel calcolo dell’energia si includono variabili nascoste il cui valore è sconosciuto o parzialmente
noto
In questo caso le soluzioni corrette assumono la forma
Le variabili latenti sono quelle variabili che, se note, garantirebbero di trovare una risposta Y al
più piccolo livello energetico.
Architetture con Variabili Latenti
Esempi di variabili latenti in casi specifici:
 Riconoscimento facciale: il genere, l’orientazione del viso, ecc
Riconoscimento di oggetti: localizzazione, orientazione, fattore di scala, la condizione di luce
Scrittura manuale: la segmentazione della linea in caratteri
Architetture con Variabili Latenti
Grazie per l’attenzione

More Related Content

More from Deep Learning Italia

The science of can and can t e la computazione quantistica
The science of can and can t e la computazione quantisticaThe science of can and can t e la computazione quantistica
The science of can and can t e la computazione quantisticaDeep Learning Italia
 
Pi school-dli-presentation de nobili
Pi school-dli-presentation de nobiliPi school-dli-presentation de nobili
Pi school-dli-presentation de nobiliDeep Learning Italia
 
Machine Learning Explanations: LIME framework
Machine Learning Explanations: LIME framework Machine Learning Explanations: LIME framework
Machine Learning Explanations: LIME framework Deep Learning Italia
 
Explanation methods for Artificial Intelligence Models
Explanation methods for Artificial Intelligence ModelsExplanation methods for Artificial Intelligence Models
Explanation methods for Artificial Intelligence ModelsDeep Learning Italia
 
Use Cases Machine Learning for Healthcare
Use Cases Machine Learning for HealthcareUse Cases Machine Learning for Healthcare
Use Cases Machine Learning for HealthcareDeep Learning Italia
 
NLG, Training, Inference & Evaluation
NLG, Training, Inference & Evaluation NLG, Training, Inference & Evaluation
NLG, Training, Inference & Evaluation Deep Learning Italia
 
Transformer Seq2Sqe Models: Concepts, Trends & Limitations (DLI)
Transformer Seq2Sqe Models: Concepts, Trends & Limitations (DLI)Transformer Seq2Sqe Models: Concepts, Trends & Limitations (DLI)
Transformer Seq2Sqe Models: Concepts, Trends & Limitations (DLI)Deep Learning Italia
 
Towards quantum machine learning calogero zarbo - meet up
Towards quantum machine learning  calogero zarbo - meet upTowards quantum machine learning  calogero zarbo - meet up
Towards quantum machine learning calogero zarbo - meet upDeep Learning Italia
 
Macaluso antonio meetup dli 2020-12-15
Macaluso antonio  meetup dli 2020-12-15Macaluso antonio  meetup dli 2020-12-15
Macaluso antonio meetup dli 2020-12-15Deep Learning Italia
 
Algoritmi non supervisionati per Time Series
Algoritmi non supervisionati per Time SeriesAlgoritmi non supervisionati per Time Series
Algoritmi non supervisionati per Time SeriesDeep Learning Italia
 
Il Fattore Umano nella Transizione Digitale Prof.ssa Marta Bertolaso
Il Fattore Umano nella Transizione Digitale  Prof.ssa Marta BertolasoIl Fattore Umano nella Transizione Digitale  Prof.ssa Marta Bertolaso
Il Fattore Umano nella Transizione Digitale Prof.ssa Marta BertolasoDeep Learning Italia
 
How good is your prediction a gentle introduction to conformal prediction.
How good is your prediction  a gentle introduction to conformal prediction.How good is your prediction  a gentle introduction to conformal prediction.
How good is your prediction a gentle introduction to conformal prediction.Deep Learning Italia
 
Dli retail giugno2020_frontoni_univpm_18_giugno
Dli retail giugno2020_frontoni_univpm_18_giugnoDli retail giugno2020_frontoni_univpm_18_giugno
Dli retail giugno2020_frontoni_univpm_18_giugnoDeep Learning Italia
 
Scalable state of-the-art conversational AI
Scalable state of-the-art conversational AIScalable state of-the-art conversational AI
Scalable state of-the-art conversational AIDeep Learning Italia
 
Hyperparameter Optimization with Hyperband Algorithm
Hyperparameter Optimization with Hyperband AlgorithmHyperparameter Optimization with Hyperband Algorithm
Hyperparameter Optimization with Hyperband AlgorithmDeep Learning Italia
 
Machine Learning Algorithms for Anomaly Detection in Particles Accelerators T...
Machine Learning Algorithms for Anomaly Detection in Particles Accelerators T...Machine Learning Algorithms for Anomaly Detection in Particles Accelerators T...
Machine Learning Algorithms for Anomaly Detection in Particles Accelerators T...Deep Learning Italia
 

More from Deep Learning Italia (20)

Machine Learning Security
Machine Learning SecurityMachine Learning Security
Machine Learning Security
 
The science of can and can t e la computazione quantistica
The science of can and can t e la computazione quantisticaThe science of can and can t e la computazione quantistica
The science of can and can t e la computazione quantistica
 
Dli meetup moccia
Dli meetup mocciaDli meetup moccia
Dli meetup moccia
 
Pi school-dli-presentation de nobili
Pi school-dli-presentation de nobiliPi school-dli-presentation de nobili
Pi school-dli-presentation de nobili
 
Machine Learning Explanations: LIME framework
Machine Learning Explanations: LIME framework Machine Learning Explanations: LIME framework
Machine Learning Explanations: LIME framework
 
Explanation methods for Artificial Intelligence Models
Explanation methods for Artificial Intelligence ModelsExplanation methods for Artificial Intelligence Models
Explanation methods for Artificial Intelligence Models
 
Use Cases Machine Learning for Healthcare
Use Cases Machine Learning for HealthcareUse Cases Machine Learning for Healthcare
Use Cases Machine Learning for Healthcare
 
NLG, Training, Inference & Evaluation
NLG, Training, Inference & Evaluation NLG, Training, Inference & Evaluation
NLG, Training, Inference & Evaluation
 
Transformer Seq2Sqe Models: Concepts, Trends & Limitations (DLI)
Transformer Seq2Sqe Models: Concepts, Trends & Limitations (DLI)Transformer Seq2Sqe Models: Concepts, Trends & Limitations (DLI)
Transformer Seq2Sqe Models: Concepts, Trends & Limitations (DLI)
 
Towards quantum machine learning calogero zarbo - meet up
Towards quantum machine learning  calogero zarbo - meet upTowards quantum machine learning  calogero zarbo - meet up
Towards quantum machine learning calogero zarbo - meet up
 
Macaluso antonio meetup dli 2020-12-15
Macaluso antonio  meetup dli 2020-12-15Macaluso antonio  meetup dli 2020-12-15
Macaluso antonio meetup dli 2020-12-15
 
Data privacy e anonymization in R
Data privacy e anonymization in RData privacy e anonymization in R
Data privacy e anonymization in R
 
Algoritmi non supervisionati per Time Series
Algoritmi non supervisionati per Time SeriesAlgoritmi non supervisionati per Time Series
Algoritmi non supervisionati per Time Series
 
Il Fattore Umano nella Transizione Digitale Prof.ssa Marta Bertolaso
Il Fattore Umano nella Transizione Digitale  Prof.ssa Marta BertolasoIl Fattore Umano nella Transizione Digitale  Prof.ssa Marta Bertolaso
Il Fattore Umano nella Transizione Digitale Prof.ssa Marta Bertolaso
 
How good is your prediction a gentle introduction to conformal prediction.
How good is your prediction  a gentle introduction to conformal prediction.How good is your prediction  a gentle introduction to conformal prediction.
How good is your prediction a gentle introduction to conformal prediction.
 
Dli retail giugno2020_frontoni_univpm_18_giugno
Dli retail giugno2020_frontoni_univpm_18_giugnoDli retail giugno2020_frontoni_univpm_18_giugno
Dli retail giugno2020_frontoni_univpm_18_giugno
 
Scalable state of-the-art conversational AI
Scalable state of-the-art conversational AIScalable state of-the-art conversational AI
Scalable state of-the-art conversational AI
 
Hyperparameter Optimization with Hyperband Algorithm
Hyperparameter Optimization with Hyperband AlgorithmHyperparameter Optimization with Hyperband Algorithm
Hyperparameter Optimization with Hyperband Algorithm
 
Sentiment candida 27_may
Sentiment candida 27_maySentiment candida 27_may
Sentiment candida 27_may
 
Machine Learning Algorithms for Anomaly Detection in Particles Accelerators T...
Machine Learning Algorithms for Anomaly Detection in Particles Accelerators T...Machine Learning Algorithms for Anomaly Detection in Particles Accelerators T...
Machine Learning Algorithms for Anomaly Detection in Particles Accelerators T...
 

Energy based models Meetu pu DLI Roma Luglio

  • 2. Chi vi parla… NB: in questa presentazione condivido riflessioni su argomenti di mia recente acquisizione, senza pretesa di originalità, completezza, precisione, etc. Alla fine mostrerò una slide in cui si troveranno indicazioni per esplorazioni più approfondite.
  • 3. EBMs Il modello misura la compatibilità tra le variabili osservate X e quelle predette Y, utilizzando una funzione energia E(X,Y) Nel caso di inferenza,
  • 4. Applicazioni a) Face recognition b) Face detection and pose estimation c) Image segmentation d) Handwriting recognition e) Sequence labeling f) Image restoration
  • 5. A quali domande rispondere oPrediction, classification, decision-making: Quale valore di Y è il più compatibile con una configurazione X? oRanking: Quale tra i valori Y1, Y2, … , Yn è più compatibile con X? oDetection: Y è compatibile con X? oConditional density estimation: Quale è la distribuzione di probabilità su Y dato X?
  • 6. Energy-Based Training L’addestramento di un EBM consiste nel trovare una funzione energia che produca il migliore risultato Y a partire da X. La migliore funzione energia viene cercata nella famiglia delle funzioni indicizzata dal parametro W: Dato il Training Set:
  • 7. Energy-Based Training Definito il Loss functional Il problema dell’addestramento si riduce nel trovare W che minimizzi il loss functional: Esempio di loss functional: Per-sample loss Regularizer
  • 8. Energy-Based Training Durante il training riduco l’energia in corrispondenza delle risposte corrette Aumento l’energia in corrispondenza delle risposte sbagliate con il più basso livello di energia
  • 9. Energy-Based Training Dato un training set , il problema di addestrare un EBM si compone di quattro parti: La definizione dell’architettura, ovvero della forma interna di E(W,Y,X) L’algoritmo di inferenza, ovvero il metodo per trovare Y che minimizzi E(W,Y,X) per un dato valore di X. Il Loss functional che misura la qualità della funzione energia sul training set L’algoritmo di apprendimento, ovvero il metodo per trovare il parametro W che minimizza il loss functional su
  • 10. Questioni: •Come definire propriamente l’architettura? •Come scegliere il loss functional?
  • 11. Loss Functions: Energy Loss • È la forma più semplice • Tipicamente usata per regressione • Funziona bene nel caso di architetture in cui abbassando il livello di energia in corrispondenza delle risposte corrette, si ottiene contemporaneamente un aumento dell’energia in corrispondenza dei valori errati. con G funzione di regressione • Tende al collasso!
  • 12. Perceptron Loss Sempre positiva / zero se la risposta è corretta Minimizzando sulle risposte corrette, si aumenta l’energia sulle risposte sbagliate Funziona bene quando la parametrizzazione dell’energia non permette la superficie piatta
  • 13. Generalized Margin Loss Alcune definizioni: Dato il training set Se Y è un variabile discreta, definiamo la most offending incorrect answer come la risposta sbagliata al più basso livello di energia Se Y è una variabile continua, definiamo la most offending incorrect answer come la risposta al più basso livello di energia tra quelle a distanza maggiore da dalla risposta corretta
  • 14. Generalized Margin Loss Dove è una funzione convessa il cui gradiente ha prodotto positivo con il vettore [-1,1] nella regione
  • 15. Esempi di Generalized Margin Losses •Hinge Loss •LVQ2 Loss •Log Loss •Square-Square Loss •Minimum Classification Error Loss Con •Square-Exponential Loss Con
  • 16. Esempi di Architetture Regressione La funzione energia è il quadrato della norma tra l’output della funzione di regressione ed il valore predetto Il problema di inferenza è banale: il valore di Y che minimizza l’energia è uguale a Il livello minimo di energia è 0 Il funzionale dell’energia assume la forma corrispondente alla regression standard con errore quadratico medio.
  • 17. Esempi di Architetture Classificatore I valori possibili di Y sono -1,1 La funzione energia può assumere la forma L’inferenza è banale: Per il training possono essere usate le loss function: perceptron, hinge e negative log-likelihood
  • 18. Esempi di Architetture Regressione implicita I valori possibili di X ed Y sono passata a due funzioni La funzione energia può assumere la forma Modella una relazione implicita tra X ed Y L’inferenza è difficile
  • 19. Loss function a confronto La scelta della corretta loss function dipende da come l’energia viene modificata in corrispondenza delle risposte corrette e sbagliate Loss function che utilizzano log spostano contemporaneamente tutte le risposte errate verso livelli più alti di energia. I metodi variazionali possono spostare i punti verso l’alto, ma non tutti come nel caso log. Efficienza del calcolo nella scelta tra architettura e loss function ?????
  • 20. Architetture con Variabili Latenti Nel calcolo dell’energia si includono variabili nascoste il cui valore è sconosciuto o parzialmente noto In questo caso le soluzioni corrette assumono la forma Le variabili latenti sono quelle variabili che, se note, garantirebbero di trovare una risposta Y al più piccolo livello energetico.
  • 21. Architetture con Variabili Latenti Esempi di variabili latenti in casi specifici:  Riconoscimento facciale: il genere, l’orientazione del viso, ecc Riconoscimento di oggetti: localizzazione, orientazione, fattore di scala, la condizione di luce Scrittura manuale: la segmentazione della linea in caratteri