Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions" - Presentazione.pdf

•

0 likes•20 views

Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions". Tesi di laurea triennale UniTS - Fast Track - Michele Scomina - Presentazione

Engineering

EXTENDED SUMMARY OF
"EVOLUTIONARY OPTIMIZATION OF DEEP
LEARNING ACTIVATION FUNCTIONS"
Autori: Garret Bingham, William Macke, and Risto Miikkulainen
Presentato: In Genetic and Evolutionary Computation Conference (GECCO ‘20), July 8-12, 2020,
Cancún, Mexico. ACM, New York, NY, USA.
Laureando:
Michele SCOMINA
Relatore:
Andrea DE LORENZO
Anno Accademico 2021/2022

Il Deep Learning:
• Viene implementato su larga scala.
• Ha usi molto diversificati.
Necessità di ottimizzazione e specializzazione
Funzioni d’attivazione più comunemente utilizzate:
• ReLU (Rectified Linear Unit)
• Swish
E se esistessero funzioni migliori per specifici
dataset e architetture?

Necessità di un modello standardizzato
Funzioni di attivazione: Strutturate ad albero completo. Definite a partire da
composizioni di due operatori unari in uno binario chiamato "core unit".
Operatori unari: 0, 1, x, -x, |x|, 𝑥2
, 𝑥3
, 𝑥, 𝑒𝑥
, 𝑒−𝑥2
, log(1 + 𝑒𝑥
), log(|x+ε|), sin(x), sinh(x), arcsinh(x), cos(x), cosh(x),
tanh(x), arctanh(x), max{x, 0}, min{x, 0}, σ(x), erf(x), sinc(x)
Operatori binari: x1+𝑥2, 𝑥1 − 𝑥2, 𝑥1 ∗ 𝑥2, 𝑥1/(𝑥2 + ε), max{𝑥1, 𝑥2}, min{𝑥1, 𝑥2}

Spazio di ricerca
Lo spazio di ricerca 𝑆𝑛 è definito come l’insieme di tutte le funzioni
generate a partire dagli operatori unari e binari con 𝑛 livelli di ricorsione di
"core unit":
𝑆𝑛∈ℕ = 𝑓 ∈ 𝐹 𝑑𝑒𝑝𝑡ℎ 𝑓 = 𝑛}
Questo studio si focalizza sugli spazi di ricerca 𝑆1 e 𝑆2.
∈ 𝑆1
∈ 𝑆2

Processo evolutivo
Le funzioni più performanti vengono selezionate per la generazione
successiva.
Implementazione di:
• Mutazioni casuali uniformi sui singoli operatori unari e binari di una
singola funzione.
• Crossover tra coppie di funzioni, per consentire lo scambio di
informazioni tra più generazioni e velocizzare il processo evolutivo.

Architetture: Wide Residual Networks, implementate su TensorFlow.
• WRN-28-10
• WRN-40-4
Dataset: Insiemi di 45000-5000-10000 immagini 32x32x3.
• CIFAR-10
• CIFAR-100
Verifica della specializzazione tramite controllo
incrociato tra funzioni scoperte

Strategie di ricerca
▪ Ricerca esaustiva (𝑆1)
▪ Ricerca casuale (𝑆2)
▪ Ricerca evolutiva (𝑺𝟐)
Basata sulla fitness, o probabilità di selezione,
𝑝𝑖 =
𝑒𝐿𝑖
σ𝑗=1
𝑁
𝑒𝐿𝑗
calcolata in base a due metriche nel corso di 10 generazioni:
• Accuratezza
• Loss

Specializzazione
• Le funzioni si adattano ad altre architetture e dataset.
• Funzioni specifiche hanno performance
migliori per specifici dataset e architetture.

Proprietà
• Le funzioni hanno proprietà comunemente ricercate nelle funzioni di attivazione,
quali monotonicità e continuità.
• Sono presenti funzioni con proprietà inusuali che performano quasi alla pari di
quelle standard.
• Piccole differenze possono portare a miglioramenti notevoli per certe
architetture.
𝜎(𝑥) 𝜎 𝑥 ∗ erf(𝑥)

Conclusioni
• Esistono funzioni più performanti delle classiche ReLU e Swish per le
architetture e i dataset considerati.
• Le funzioni possono essere facilmente implementate in architetture
simili e raggiungere risultati soddisfacenti.
• La ricerca è capace di trovare funzioni in grado di incrementare
notevolmente le prestazioni medie di una particolare architettura o
per un particolare dataset.

Architetture distribuite a eventi: sono adatte al mio progetto? Una rapida introduzione ai vantaggi che possiamo ottenere dall'adozione di una architettura a microservizi guidata dagli eventi. Quali sono i problemi che tipicamente affliggono i sistemi software complessi? Quali di questi problemi possono risolti adottando un approccio distribuito? Che complessità dobbiamo affrontare nello sviluppo di applicazioni distribuite? Cercheremo di sviscerare questi e altri dubbi relativi all'implementazione di sistemi event-driven distribuiti.

Thread

Giovanni Grano

Never Mind the Bollocks: here's the Domain Driven Design

Andrea Saltarello

La lettura del Blue Book può generare reazioni che vanno dal "Cargo cult" (a.k.a. "non avrai altro Modello all’infuori di me") a "’sta roba non mi serve: io faccio gestionali, non applicazioni che lanciano i razzi sulla Luna". Previa una attualizzazione dei concetti del Blue Book, che ha ormai compiuto 10 anni, in questa sessione affronteremo leggende metropolitane e falsi miti e implementeremo DDD mostrando poche slide e tanto codice.

AV_tesi_v5Andrea Valenti

3rd 3DDRESD: HERAMarco Santambrogio

3rd 3DDRESD: BSSMarco Santambrogio

MySQL Day Roma 2019 - Le architetture a microservizi e MySQL

Par-Tec S.p.A.

In occasione del MySQL Day 2019 di Roma il TechAdvisor Michelangelo Uberti e Marco Carlessi - MySQL Principal Sales Consultant di Oracle - hanno fornito una panoramica sui concetti chiave, sui benefici e sulle opportunità offerte dalle architetture a microservizi. I punti trattati durante la presentazione sono: - Le architetture a microservizi - Dai monoliti ai microservizi - Un esempio concreto: Netflix - Architetture a microservizi: vantaggi e punti di attenzione - Dalla virtualizzazione ai container - Containerizzazione: vantaggi e punti di attenzione - Come superare i limiti dei container - MySQL e le architetture a microservizi - Microservizi e i dati - Microservizi e database: due approcci - MySQL può girare dentro i container - Deploy MySQL 8.0 con Docker - Oracle MySQL Operator for Kubernetes (Alpha) - MySQL 8.0: un multi-model DB - MySQL Enterprise licensing Per saperne di più, scaricate le slide e guardate il video della presentazione del nostro TechAdvisor su https://www.par-tec.it/le-architetture-a-microservizi-e-mysql

Machine learning models continuous deployment on azure using devops

Igor Antonacci

XSecure - Direttiva Del Garante - Amministratori Di Sistema

Xech

Digital 1nn0vation saturday pn 2019 - Azure Machine Learning Service

Marco Zamana

Webinar: "Il database: l’equipaggiamento su cui fare affidamento"

Emerasoft, solutions to collaborate

La ragione principale per cui le aziende decidono di non adottare il DevOps per il database è di preservare la sicurezza del database stesso. Eppure, si tratta di una concezione errata: applicando il DevSecOps al DB, infatti, è possibile creare in ambienti strutturati le condizioni per un rilascio sicuro degli script del database, gestendo al meglio potenziali rischi di sicurezza. Segui il webinar per apprendere come includere il DB all’interno della tua strategia DevSecOps.

Similar to Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions" - Presentazione.pdf

Profilazione utente in ambienti virtualizzati

Pietro Corona

Alla scoperta dei Vector Database e dei RAG

Commit University

Database Data AggregatorDavide Ciambelli

Akka.net & Actor Model

Stefano Del Furia

Blockchain e AI: verso una nuova finanza

Alessandro Greppi

Virtualizzazione, cluster, J2EE: best practices tutte da rivedere?

fcrippa

Big Data e la forza degli eventi - Intervento di Dominoni

comunicareonline

Domain Driven Design e CQRS

Manuel Scapolan

Progettazione di uno strumento per la reingegnerizzazione di applicazioni legacy

Giacomo Russo

[AxonIQ Italia Community] Architetture distribuite a eventi: sono adatte al m...

Corrado Musumeci

Thread

Giovanni Grano

Never Mind the Bollocks: here's the Domain Driven Design

Andrea Saltarello

AV_tesi_v5Andrea Valenti

3rd 3DDRESD: HERAMarco Santambrogio

3rd 3DDRESD: BSSMarco Santambrogio

MySQL Day Roma 2019 - Le architetture a microservizi e MySQL

Par-Tec S.p.A.

Machine learning models continuous deployment on azure using devops

Igor Antonacci

XSecure - Direttiva Del Garante - Amministratori Di Sistema

Xech

Digital 1nn0vation saturday pn 2019 - Azure Machine Learning Service

Marco Zamana

Webinar: "Il database: l’equipaggiamento su cui fare affidamento"

Emerasoft, solutions to collaborate

Similar to Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions" - Presentazione.pdf (20)

Profilazione utente in ambienti virtualizzati

Alla scoperta dei Vector Database e dei RAG

Database Data Aggregator

Akka.net & Actor Model

Blockchain e AI: verso una nuova finanza

Virtualizzazione, cluster, J2EE: best practices tutte da rivedere?

Big Data e la forza degli eventi - Intervento di Dominoni

Domain Driven Design e CQRS

Progettazione di uno strumento per la reingegnerizzazione di applicazioni legacy

[AxonIQ Italia Community] Architetture distribuite a eventi: sono adatte al m...

Thread

Never Mind the Bollocks: here's the Domain Driven Design

AV_tesi_v5

3rd 3DDRESD: HERA

3rd 3DDRESD: BSS

MySQL Day Roma 2019 - Le architetture a microservizi e MySQL

Machine learning models continuous deployment on azure using devops

XSecure - Direttiva Del Garante - Amministratori Di Sistema

Digital 1nn0vation saturday pn 2019 - Azure Machine Learning Service

Webinar: "Il database: l’equipaggiamento su cui fare affidamento"

Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions" - Presentazione.pdf

1. EXTENDED SUMMARY OF "EVOLUTIONARY OPTIMIZATION OF DEEP LEARNING ACTIVATION FUNCTIONS" Autori: Garret Bingham, William Macke, and Risto Miikkulainen Presentato: In Genetic and Evolutionary Computation Conference (GECCO ‘20), July 8-12, 2020, Cancún, Mexico. ACM, New York, NY, USA. Laureando: Michele SCOMINA Relatore: Andrea DE LORENZO Anno Accademico 2021/2022

2. Il Deep Learning: • Viene implementato su larga scala. • Ha usi molto diversificati. Necessità di ottimizzazione e specializzazione Funzioni d’attivazione più comunemente utilizzate: • ReLU (Rectified Linear Unit) • Swish E se esistessero funzioni migliori per specifici dataset e architetture?

3. Necessità di un modello standardizzato Funzioni di attivazione: Strutturate ad albero completo. Definite a partire da composizioni di due operatori unari in uno binario chiamato "core unit". Operatori unari: 0, 1, x, -x, |x|, 𝑥2 , 𝑥3 , 𝑥, 𝑒𝑥 , 𝑒−𝑥2 , log(1 + 𝑒𝑥 ), log(|x+ε|), sin(x), sinh(x), arcsinh(x), cos(x), cosh(x), tanh(x), arctanh(x), max{x, 0}, min{x, 0}, σ(x), erf(x), sinc(x) Operatori binari: x1+𝑥2, 𝑥1 − 𝑥2, 𝑥1 ∗ 𝑥2, 𝑥1/(𝑥2 + ε), max{𝑥1, 𝑥2}, min{𝑥1, 𝑥2}

4. Spazio di ricerca Lo spazio di ricerca 𝑆𝑛 è definito come l’insieme di tutte le funzioni generate a partire dagli operatori unari e binari con 𝑛 livelli di ricorsione di "core unit": 𝑆𝑛∈ℕ = 𝑓 ∈ 𝐹 𝑑𝑒𝑝𝑡ℎ 𝑓 = 𝑛} Questo studio si focalizza sugli spazi di ricerca 𝑆1 e 𝑆2. ∈ 𝑆1 ∈ 𝑆2

5. Processo evolutivo Le funzioni più performanti vengono selezionate per la generazione successiva. Implementazione di: • Mutazioni casuali uniformi sui singoli operatori unari e binari di una singola funzione. • Crossover tra coppie di funzioni, per consentire lo scambio di informazioni tra più generazioni e velocizzare il processo evolutivo.

6. Architetture: Wide Residual Networks, implementate su TensorFlow. • WRN-28-10 • WRN-40-4 Dataset: Insiemi di 45000-5000-10000 immagini 32x32x3. • CIFAR-10 • CIFAR-100 Verifica della specializzazione tramite controllo incrociato tra funzioni scoperte

7. Strategie di ricerca ▪ Ricerca esaustiva (𝑆1) ▪ Ricerca casuale (𝑆2) ▪ Ricerca evolutiva (𝑺𝟐) Basata sulla fitness, o probabilità di selezione, 𝑝𝑖 = 𝑒𝐿𝑖 σ𝑗=1 𝑁 𝑒𝐿𝑗 calcolata in base a due metriche nel corso di 10 generazioni: • Accuratezza • Loss

8. Performance

9. Specializzazione • Le funzioni si adattano ad altre architetture e dataset. • Funzioni specifiche hanno performance migliori per specifici dataset e architetture.

10. Proprietà • Le funzioni hanno proprietà comunemente ricercate nelle funzioni di attivazione, quali monotonicità e continuità. • Sono presenti funzioni con proprietà inusuali che performano quasi alla pari di quelle standard. • Piccole differenze possono portare a miglioramenti notevoli per certe architetture. 𝜎(𝑥) 𝜎 𝑥 ∗ erf(𝑥)

11. Conclusioni • Esistono funzioni più performanti delle classiche ReLU e Swish per le architetture e i dataset considerati. • Le funzioni possono essere facilmente implementate in architetture simili e raggiungere risultati soddisfacenti. • La ricerca è capace di trovare funzioni in grado di incrementare notevolmente le prestazioni medie di una particolare architettura o per un particolare dataset.

12. Grazie per l’attenzione

Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions" - Presentazione.pdf

Recommended

Recommended

More Related Content

Similar to Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions" - Presentazione.pdf

Similar to Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions" - Presentazione.pdf (20)

Extended Summary of "Evolutionary Optimization of Deep Learning Activation Functions" - Presentazione.pdf