SlideShare a Scribd company logo
EXTENDED SUMMARY OF
"EVOLUTIONARY OPTIMIZATION OF DEEP
LEARNING ACTIVATION FUNCTIONS"
Autori: Garret Bingham, William Macke, and Risto Miikkulainen
Presentato: In Genetic and Evolutionary Computation Conference (GECCO ‘20), July 8-12, 2020,
Cancún, Mexico. ACM, New York, NY, USA.
Laureando:
Michele SCOMINA
Relatore:
Andrea DE LORENZO
Anno Accademico 2021/2022
Il Deep Learning:
• Viene implementato su larga scala.
• Ha usi molto diversificati.
Necessità di ottimizzazione e specializzazione
Funzioni d’attivazione più comunemente utilizzate:
• ReLU (Rectified Linear Unit)
• Swish
E se esistessero funzioni migliori per specifici
dataset e architetture?
Necessità di un modello standardizzato
Funzioni di attivazione: Strutturate ad albero completo. Definite a partire da
composizioni di due operatori unari in uno binario chiamato "core unit".
Operatori unari: 0, 1, x, -x, |x|, 𝑥2
, 𝑥3
, 𝑥, 𝑒𝑥
, 𝑒−𝑥2
, log(1 + 𝑒𝑥
), log(|x+ε|), sin(x), sinh(x), arcsinh(x), cos(x), cosh(x),
tanh(x), arctanh(x), max{x, 0}, min{x, 0}, σ(x), erf(x), sinc(x)
Operatori binari: x1+𝑥2, 𝑥1 − 𝑥2, 𝑥1 ∗ 𝑥2, 𝑥1/(𝑥2 + ε), max{𝑥1, 𝑥2}, min{𝑥1, 𝑥2}
Spazio di ricerca
Lo spazio di ricerca 𝑆𝑛 è definito come l’insieme di tutte le funzioni
generate a partire dagli operatori unari e binari con 𝑛 livelli di ricorsione di
"core unit":
𝑆𝑛∈ℕ = 𝑓 ∈ 𝐹 𝑑𝑒𝑝𝑡ℎ 𝑓 = 𝑛}
Questo studio si focalizza sugli spazi di ricerca 𝑆1 e 𝑆2.
∈ 𝑆1
∈ 𝑆2
Processo evolutivo
Le funzioni più performanti vengono selezionate per la generazione
successiva.
Implementazione di:
• Mutazioni casuali uniformi sui singoli operatori unari e binari di una
singola funzione.
• Crossover tra coppie di funzioni, per consentire lo scambio di
informazioni tra più generazioni e velocizzare il processo evolutivo.
Architetture: Wide Residual Networks, implementate su TensorFlow.
• WRN-28-10
• WRN-40-4
Dataset: Insiemi di 45000-5000-10000 immagini 32x32x3.
• CIFAR-10
• CIFAR-100
Verifica della specializzazione tramite controllo
incrociato tra funzioni scoperte
Strategie di ricerca
▪ Ricerca esaustiva (𝑆1)
▪ Ricerca casuale (𝑆2)
▪ Ricerca evolutiva (𝑺𝟐)
Basata sulla fitness, o probabilità di selezione,
𝑝𝑖 =
𝑒𝐿𝑖
σ𝑗=1
𝑁
𝑒𝐿𝑗
calcolata in base a due metriche nel corso di 10 generazioni:
• Accuratezza
• Loss
Performance
Specializzazione
• Le funzioni si adattano ad altre architetture e dataset.
• Funzioni specifiche hanno performance
migliori per specifici dataset e architetture.
Proprietà
• Le funzioni hanno proprietà comunemente ricercate nelle funzioni di attivazione,
quali monotonicità e continuità.
• Sono presenti funzioni con proprietà inusuali che performano quasi alla pari di
quelle standard.
• Piccole differenze possono portare a miglioramenti notevoli per certe
architetture.
𝜎(𝑥) 𝜎 𝑥 ∗ erf(𝑥)
Conclusioni
• Esistono funzioni più performanti delle classiche ReLU e Swish per le
architetture e i dataset considerati.
• Le funzioni possono essere facilmente implementate in architetture
simili e raggiungere risultati soddisfacenti.
• La ricerca è capace di trovare funzioni in grado di incrementare
notevolmente le prestazioni medie di una particolare architettura o
per un particolare dataset.
Grazie per l’attenzione

More Related Content

Similar to Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions" - Presentazione.pdf

Profilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzatiProfilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzati
Pietro Corona
 
Alla scoperta dei Vector Database e dei RAG
Alla scoperta dei Vector Database e dei RAGAlla scoperta dei Vector Database e dei RAG
Alla scoperta dei Vector Database e dei RAG
Commit University
 
Akka.net & Actor Model
Akka.net & Actor ModelAkka.net & Actor Model
Akka.net & Actor Model
Stefano Del Furia
 
Blockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanzaBlockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanza
Alessandro Greppi
 
Virtualizzazione, cluster, J2EE: best practices tutte da rivedere?
Virtualizzazione, cluster, J2EE: best practices tutte da rivedere?Virtualizzazione, cluster, J2EE: best practices tutte da rivedere?
Virtualizzazione, cluster, J2EE: best practices tutte da rivedere?
fcrippa
 
Big Data e la forza degli eventi - Intervento di Dominoni
Big Data e la forza degli eventi - Intervento di DominoniBig Data e la forza degli eventi - Intervento di Dominoni
Big Data e la forza degli eventi - Intervento di Dominoni
comunicareonline
 
Domain Driven Design e CQRS
Domain Driven Design e CQRSDomain Driven Design e CQRS
Domain Driven Design e CQRS
Manuel Scapolan
 
Progettazione di uno strumento per la reingegnerizzazione di applicazioni legacy
Progettazione di uno strumento per la reingegnerizzazione di applicazioni legacyProgettazione di uno strumento per la reingegnerizzazione di applicazioni legacy
Progettazione di uno strumento per la reingegnerizzazione di applicazioni legacy
Giacomo Russo
 
[AxonIQ Italia Community] Architetture distribuite a eventi: sono adatte al m...
[AxonIQ Italia Community] Architetture distribuite a eventi: sono adatte al m...[AxonIQ Italia Community] Architetture distribuite a eventi: sono adatte al m...
[AxonIQ Italia Community] Architetture distribuite a eventi: sono adatte al m...
Corrado Musumeci
 
Thread
ThreadThread
Never Mind the Bollocks: here's the Domain Driven Design
Never Mind the Bollocks: here's the Domain Driven DesignNever Mind the Bollocks: here's the Domain Driven Design
Never Mind the Bollocks: here's the Domain Driven Design
Andrea Saltarello
 
MySQL Day Roma 2019 - Le architetture a microservizi e MySQL
MySQL Day Roma 2019 - Le architetture a microservizi e MySQLMySQL Day Roma 2019 - Le architetture a microservizi e MySQL
MySQL Day Roma 2019 - Le architetture a microservizi e MySQL
Par-Tec S.p.A.
 
Machine learning models continuous deployment on azure using devops
Machine learning models continuous deployment on azure using devopsMachine learning models continuous deployment on azure using devops
Machine learning models continuous deployment on azure using devops
Igor Antonacci
 
XSecure - Direttiva Del Garante - Amministratori Di Sistema
XSecure - Direttiva Del Garante - Amministratori Di SistemaXSecure - Direttiva Del Garante - Amministratori Di Sistema
XSecure - Direttiva Del Garante - Amministratori Di Sistema
Xech
 
Digital 1nn0vation saturday pn 2019 - Azure Machine Learning Service
Digital 1nn0vation saturday pn 2019 - Azure Machine Learning ServiceDigital 1nn0vation saturday pn 2019 - Azure Machine Learning Service
Digital 1nn0vation saturday pn 2019 - Azure Machine Learning Service
Marco Zamana
 
Webinar: "Il database: l’equipaggiamento su cui fare affidamento"
Webinar: "Il database: l’equipaggiamento su cui fare affidamento"Webinar: "Il database: l’equipaggiamento su cui fare affidamento"
Webinar: "Il database: l’equipaggiamento su cui fare affidamento"
Emerasoft, solutions to collaborate
 

Similar to Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions" - Presentazione.pdf (20)

Profilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzatiProfilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzati
 
Alla scoperta dei Vector Database e dei RAG
Alla scoperta dei Vector Database e dei RAGAlla scoperta dei Vector Database e dei RAG
Alla scoperta dei Vector Database e dei RAG
 
Database Data Aggregator
Database Data AggregatorDatabase Data Aggregator
Database Data Aggregator
 
Akka.net & Actor Model
Akka.net & Actor ModelAkka.net & Actor Model
Akka.net & Actor Model
 
Blockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanzaBlockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanza
 
Virtualizzazione, cluster, J2EE: best practices tutte da rivedere?
Virtualizzazione, cluster, J2EE: best practices tutte da rivedere?Virtualizzazione, cluster, J2EE: best practices tutte da rivedere?
Virtualizzazione, cluster, J2EE: best practices tutte da rivedere?
 
Big Data e la forza degli eventi - Intervento di Dominoni
Big Data e la forza degli eventi - Intervento di DominoniBig Data e la forza degli eventi - Intervento di Dominoni
Big Data e la forza degli eventi - Intervento di Dominoni
 
Domain Driven Design e CQRS
Domain Driven Design e CQRSDomain Driven Design e CQRS
Domain Driven Design e CQRS
 
Progettazione di uno strumento per la reingegnerizzazione di applicazioni legacy
Progettazione di uno strumento per la reingegnerizzazione di applicazioni legacyProgettazione di uno strumento per la reingegnerizzazione di applicazioni legacy
Progettazione di uno strumento per la reingegnerizzazione di applicazioni legacy
 
[AxonIQ Italia Community] Architetture distribuite a eventi: sono adatte al m...
[AxonIQ Italia Community] Architetture distribuite a eventi: sono adatte al m...[AxonIQ Italia Community] Architetture distribuite a eventi: sono adatte al m...
[AxonIQ Italia Community] Architetture distribuite a eventi: sono adatte al m...
 
Thread
ThreadThread
Thread
 
Never Mind the Bollocks: here's the Domain Driven Design
Never Mind the Bollocks: here's the Domain Driven DesignNever Mind the Bollocks: here's the Domain Driven Design
Never Mind the Bollocks: here's the Domain Driven Design
 
AV_tesi_v5
AV_tesi_v5AV_tesi_v5
AV_tesi_v5
 
3rd 3DDRESD: HERA
3rd 3DDRESD: HERA3rd 3DDRESD: HERA
3rd 3DDRESD: HERA
 
3rd 3DDRESD: BSS
3rd 3DDRESD: BSS3rd 3DDRESD: BSS
3rd 3DDRESD: BSS
 
MySQL Day Roma 2019 - Le architetture a microservizi e MySQL
MySQL Day Roma 2019 - Le architetture a microservizi e MySQLMySQL Day Roma 2019 - Le architetture a microservizi e MySQL
MySQL Day Roma 2019 - Le architetture a microservizi e MySQL
 
Machine learning models continuous deployment on azure using devops
Machine learning models continuous deployment on azure using devopsMachine learning models continuous deployment on azure using devops
Machine learning models continuous deployment on azure using devops
 
XSecure - Direttiva Del Garante - Amministratori Di Sistema
XSecure - Direttiva Del Garante - Amministratori Di SistemaXSecure - Direttiva Del Garante - Amministratori Di Sistema
XSecure - Direttiva Del Garante - Amministratori Di Sistema
 
Digital 1nn0vation saturday pn 2019 - Azure Machine Learning Service
Digital 1nn0vation saturday pn 2019 - Azure Machine Learning ServiceDigital 1nn0vation saturday pn 2019 - Azure Machine Learning Service
Digital 1nn0vation saturday pn 2019 - Azure Machine Learning Service
 
Webinar: "Il database: l’equipaggiamento su cui fare affidamento"
Webinar: "Il database: l’equipaggiamento su cui fare affidamento"Webinar: "Il database: l’equipaggiamento su cui fare affidamento"
Webinar: "Il database: l’equipaggiamento su cui fare affidamento"
 

Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions" - Presentazione.pdf

  • 1. EXTENDED SUMMARY OF "EVOLUTIONARY OPTIMIZATION OF DEEP LEARNING ACTIVATION FUNCTIONS" Autori: Garret Bingham, William Macke, and Risto Miikkulainen Presentato: In Genetic and Evolutionary Computation Conference (GECCO ‘20), July 8-12, 2020, Cancún, Mexico. ACM, New York, NY, USA. Laureando: Michele SCOMINA Relatore: Andrea DE LORENZO Anno Accademico 2021/2022
  • 2. Il Deep Learning: • Viene implementato su larga scala. • Ha usi molto diversificati. Necessità di ottimizzazione e specializzazione Funzioni d’attivazione più comunemente utilizzate: • ReLU (Rectified Linear Unit) • Swish E se esistessero funzioni migliori per specifici dataset e architetture?
  • 3. Necessità di un modello standardizzato Funzioni di attivazione: Strutturate ad albero completo. Definite a partire da composizioni di due operatori unari in uno binario chiamato "core unit". Operatori unari: 0, 1, x, -x, |x|, 𝑥2 , 𝑥3 , 𝑥, 𝑒𝑥 , 𝑒−𝑥2 , log(1 + 𝑒𝑥 ), log(|x+ε|), sin(x), sinh(x), arcsinh(x), cos(x), cosh(x), tanh(x), arctanh(x), max{x, 0}, min{x, 0}, σ(x), erf(x), sinc(x) Operatori binari: x1+𝑥2, 𝑥1 − 𝑥2, 𝑥1 ∗ 𝑥2, 𝑥1/(𝑥2 + ε), max{𝑥1, 𝑥2}, min{𝑥1, 𝑥2}
  • 4. Spazio di ricerca Lo spazio di ricerca 𝑆𝑛 è definito come l’insieme di tutte le funzioni generate a partire dagli operatori unari e binari con 𝑛 livelli di ricorsione di "core unit": 𝑆𝑛∈ℕ = 𝑓 ∈ 𝐹 𝑑𝑒𝑝𝑡ℎ 𝑓 = 𝑛} Questo studio si focalizza sugli spazi di ricerca 𝑆1 e 𝑆2. ∈ 𝑆1 ∈ 𝑆2
  • 5. Processo evolutivo Le funzioni più performanti vengono selezionate per la generazione successiva. Implementazione di: • Mutazioni casuali uniformi sui singoli operatori unari e binari di una singola funzione. • Crossover tra coppie di funzioni, per consentire lo scambio di informazioni tra più generazioni e velocizzare il processo evolutivo.
  • 6. Architetture: Wide Residual Networks, implementate su TensorFlow. • WRN-28-10 • WRN-40-4 Dataset: Insiemi di 45000-5000-10000 immagini 32x32x3. • CIFAR-10 • CIFAR-100 Verifica della specializzazione tramite controllo incrociato tra funzioni scoperte
  • 7. Strategie di ricerca ▪ Ricerca esaustiva (𝑆1) ▪ Ricerca casuale (𝑆2) ▪ Ricerca evolutiva (𝑺𝟐) Basata sulla fitness, o probabilità di selezione, 𝑝𝑖 = 𝑒𝐿𝑖 σ𝑗=1 𝑁 𝑒𝐿𝑗 calcolata in base a due metriche nel corso di 10 generazioni: • Accuratezza • Loss
  • 9. Specializzazione • Le funzioni si adattano ad altre architetture e dataset. • Funzioni specifiche hanno performance migliori per specifici dataset e architetture.
  • 10. Proprietà • Le funzioni hanno proprietà comunemente ricercate nelle funzioni di attivazione, quali monotonicità e continuità. • Sono presenti funzioni con proprietà inusuali che performano quasi alla pari di quelle standard. • Piccole differenze possono portare a miglioramenti notevoli per certe architetture. 𝜎(𝑥) 𝜎 𝑥 ∗ erf(𝑥)
  • 11. Conclusioni • Esistono funzioni più performanti delle classiche ReLU e Swish per le architetture e i dataset considerati. • Le funzioni possono essere facilmente implementate in architetture simili e raggiungere risultati soddisfacenti. • La ricerca è capace di trovare funzioni in grado di incrementare notevolmente le prestazioni medie di una particolare architettura o per un particolare dataset.