SlideShare a Scribd company logo
1 of 37
Cenk Bircanoğlu, Nafiz Arıca
Bahçeşehir Üniversitesi, Bilgisayar Mühendisliği
Aktivasyon Fonksiyonu Tanımı
Aktivasyon Fonksiyonu Çeşitleri
Veri Kümeleri
Derin Mimariler
Deneyler
Sonuçlar
2
Herhangi bir sinir ağının çıkış ucuna eklediğiniz sadece
bir şey (düğüm) olarak tanımlanabilir
‘Doğrusal iki fonksiyonun birleşiminin yine doğrusal bir
fonksiyon olması’ sebebiyle daha kompleks fonksiyonlar
elde edebilmek için kullanılır
Eğitim aşamasını hızlandırabilir veya daha iyi sonucun
elde edilmesini sağlayabilir
3
Gerekli olmamasına rağmen şu özelliklere sahip olması
beklenir:
 Doğrusal olmaması
 Türevlenebilir olması
 Alt ve üst sınıra sahip olması
 Monoton artan veya azalan olması
 Orjin noktasında kendine yakınsaması
4
• Doğrusal
• Türevlenebilir
• Alt ve üst sınırı yoktur
• Monoton artan ve azalan
• Orjin noktasında kendine
yakınsar
5
• Doğrusal değil
• Türevlenebilir
• Alt sınır var
• Üst sınırı var
• Monoton artan ve azalan
6
• Doğrusal değil
• Türevlenebilir
• Alt sınır var
• Üst sınırı var
• Monoton artan ve azalan
• Orjin noktasında kendine
yakınsar
7
• Doğrusal
• Türevlenebilir
• Alt sınır var
• Üst sınırı var
8
• Doğrusal değil
• Türevlenebilir
• Alt sınır yok
• Üst sınırı yoktur
• Monoton artan ve azalan
• Orjin noktasında kendine
yakınsar
9
• Doğrusal
• Türevlenebilir
• Alt sınır var
• Üst sınırı yoktur
• Monoton artan ve azalan
• Orjin noktasında kendine
yakınsar
10
• Doğrusal değil
• Türevlenebilir
• Alt sınır var
• Üst sınırı yok
• Monoton artan ve azalan
• Orjin noktasında kendine
yakınsamaz
11
• Doğrusal değil
• Türevlenebilir
• Alt sınır yok
• Üst sınırı yok
• Monoton artan ve azalan
• Orjin noktasında kendine
yakınsar
12
• Doğrusal değil
• Türevlenebilir
• Alt sınır yok
• Üst sınırı yok
• Monoton artan ve azalan
• Orjin noktasında kendine
yakınsar
13
• Doğrusal değil
• Türevlenebilir
• Alt sınır var
• Üst sınırı yok
• Orjin noktasında kendine
yakınsar
14
• Doğrusal değil
• Türevlenebilir
• Alt sınır var
• Üst sınırı yok
• Monoton artan ve azalan
• Orjin noktasında kendine
yakınsar
15
Boston Evleri
Ames Evleri
MNIST
Fashion MNIST
CIFAR-10
IMDB
Reuters
16
 Problem Tipi: Regresyon
 Eğitim Verisi: 404
 Test Verisi: 102
 Öznitelik Sayısı: 13
 StatLib kitaplığından alındı
 Carnegie Mellon Üniversitesi'nde tarafında desteklenmekte
 13 sayısal veriden oluşan kolona sahip
17
 Problem Tipi: Regresyon
 Eğitim Verisi: 1460
 Test Verisi: 1459
 Öznitelik Sayısı: 79
 20 sayısal veri
 13 sayısal kategorik veri
 46 kategorik veri
18
• Problem Tipi: Sınıflandırma
• Eğitim Verisi: 60000
• Test Verisi: 10000
• Öznitelik Sayısı: 28x28x1
• Sınıf Sayısı: 10
19
• Problem Tipi: Sınıflandırma
• Eğitim Verisi: 60000
• Test Verisi: 10000
• Öznitelik Sayısı: 28x28x1
• Sınıf Sayısı: 10
20
• Problem Tipi: Sınıflandırma
• Eğitim Verisi: 50000
• Test Verisi: 10000
• Öznitelik Sayısı: 32x32x3
• Sınıf Sayısı: 10
21
 Problem Tipi: Sınıflandırma
 Eğitim Verisi: 25000
 Test Verisi: 25000
 Öznitelik Sayısı: Kelime
 Sınıf Sayısı: 2
22
 Problem Tipi: Sınıflandırma
 Eğitim Verisi: 8982
 Test Verisi: 2246
 Öznitelik Sayısı: Kelime
 Sınıf Sayısı: 46
23
• CNN
• LSTM
• RNN
• MLP
24
 Kodlama işlemi Keras ile yapılmıştır
 GPU üzerinde deneylerin hepsi çalıştırılmıştır
 Regresyon problemleri için MLP modelleri kullanılmıştır
 Görüntü veri kümelerinde Convolution modelleri kullanılmıştır
 Text veri kümelerinde CNN ve LSTM tabanlı veri kümeleri kullanılmıştır.
25
26
27
28
29
30
31
32
 En iyi sonuçlar ReLU kullanımı ile elde edildi
 ReLU aktivasyon fonksiyonundan sonra en iyi sonuç Kare Aktivasyon fonksiyonu
kullanımlarında gözlemlendi
 ReLU aktivasyon fonksiyonu eğitimi hızlandırmaktadır
 Kare ile ReLU aktivasyon fonksiyonunun kısmi birleşimlerinden oluşan yeni bir
fonksiyon üzerinde deneyler devam etmektedir
33
 A. L. Maas, A. Y. Hannun, and A. Y. Ng, “Rectifier nonlinearities improve neural
network acoustic models,” 2013.
 A. Vehbi Olgac and B. Karlik, “Performance analysis of various activation
functions in generalized mlp architectures of neural networks,” vol. 1, pp. 111–
122, 02 2011
 J. Hu, J. Lu, and Y. P. Tan, “Discriminative deep metric learning for face
verification in the wild,” in 2014 IEEE Conference on Computer Vision and
Pattern Recognition, June 2014, pp. 1875–1882.
 K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers: Surpassing
human-level performance on imagenet classification,” in Proceedings of the IEEE
international conference on computer vision, 2015, pp. 1026–1034.
34
 X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” in
Proceedings of the Fourteenth International Conference on Artificial Intelligence
and Statistics, 2011, pp. 315–323.
 L. M. Zhang, “Genetic deep neural networks using different activation functions
for financial data mining,” in Big Data (Big Data), 2015 IEEE International
Conference on. IEEE, 2015, pp. 2849–2851.
 G. E. Dahl, T. N. Sainath, and G. E. Hinton, “Improving deep neural networks for
lvcsr using rectified linear units and dropout,” in Acoustics, Speech and Signal
Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013, pp.
8609–8613.
 D.-A. Clevert, T. Unterthiner, and S. Hochreiter, “Fast and accurate deep network
learning by exponential linear units (elus),” arXiv preprint arXiv:1511.07289,
2015.
 F. Agostinelli, M. Hoffman, P. Sadowski, and P. Baldi, “Learning activation
functions to improve deep neural networks,” 12 2014.
 E. A. M. A. Shenouda, “A quantitative comparison of different mlp activation
functions in classification,” in ISNN, 2006.
35
 G. Cybenko, “Approximation by superpositions of a sigmoidal function,”
Mathematics of Control, Signals, and Systems (MCSS), vol. 2, no. 4, pp. 303–314,
1989.
 K. Jarrett, K. Kavukcuoglu, Y. LeCun et al., “What is the best multistage
architecture for object recognition?” in Computer Vision, 2009 IEEE 12th
International Conference on. IEEE, 2009, pp. 2146–2153.
 J. Bergstra, G. Desjardins, P. Lamblin, and Y. Bengio, “Quadratic polynomials
learn better image features,” Technical Report 1337, Dé- partement
d’Informatique et de Recherche Opérationnelle, Université de Montréal, Tech.
Rep., 2009.
 V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann
machines,” in Proceedings of the 27th international conference on machine
learning (ICML-10), 2010, pp. 807–814.
 G. Klambauer, T. Unterthiner, A. Mayr, and S. Hochreiter, “Selfnormalizing neural
networks,” arXiv preprint arXiv:1706.02515, 2017.
 E. A. M. A. Shenouda, “A quantitative comparison of different mlp activation
functions in classification,” in ISNN, 2006.
36
37

More Related Content

What's hot

Machine Learning and Inductive Inference
Machine Learning and Inductive InferenceMachine Learning and Inductive Inference
Machine Learning and Inductive Inferencebutest
 
Introduction to common sense reasoning
Introduction to common sense reasoningIntroduction to common sense reasoning
Introduction to common sense reasoningMartin Molina
 
Partial redundancy elimination
Partial redundancy eliminationPartial redundancy elimination
Partial redundancy eliminationIshucs
 
Ant colony optimization
Ant colony optimizationAnt colony optimization
Ant colony optimizationvk1dadhich
 
Genetic algorithm artificial intelligence presentation
Genetic algorithm   artificial intelligence presentationGenetic algorithm   artificial intelligence presentation
Genetic algorithm artificial intelligence presentationTauhidul Khandaker
 
Decision Tree Classification Algorithm.pptx
Decision Tree Classification Algorithm.pptxDecision Tree Classification Algorithm.pptx
Decision Tree Classification Algorithm.pptxPriyadharshiniG41
 
Transfer Learning and Fine-tuning Deep Neural Networks
 Transfer Learning and Fine-tuning Deep Neural Networks Transfer Learning and Fine-tuning Deep Neural Networks
Transfer Learning and Fine-tuning Deep Neural NetworksPyData
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language ProcessingMariana Soffer
 
Problem reduction AND OR GRAPH & AO* algorithm.ppt
Problem reduction AND OR GRAPH & AO* algorithm.pptProblem reduction AND OR GRAPH & AO* algorithm.ppt
Problem reduction AND OR GRAPH & AO* algorithm.pptarunsingh660
 
Probabilistic Reasoning
Probabilistic ReasoningProbabilistic Reasoning
Probabilistic ReasoningJunya Tanaka
 
Presentation on unsupervised learning
Presentation on unsupervised learning Presentation on unsupervised learning
Presentation on unsupervised learning ANKUSH PAL
 
Statistical learning
Statistical learningStatistical learning
Statistical learningSlideshare
 
Artificial Intelligence Notes Unit 3
Artificial Intelligence Notes Unit 3Artificial Intelligence Notes Unit 3
Artificial Intelligence Notes Unit 3DigiGurukul
 
Machine Learning an Research Overview
Machine Learning an Research OverviewMachine Learning an Research Overview
Machine Learning an Research OverviewKathirvel Ayyaswamy
 

What's hot (20)

Ngrams smoothing
Ngrams smoothingNgrams smoothing
Ngrams smoothing
 
Machine Learning and Inductive Inference
Machine Learning and Inductive InferenceMachine Learning and Inductive Inference
Machine Learning and Inductive Inference
 
Introduction to common sense reasoning
Introduction to common sense reasoningIntroduction to common sense reasoning
Introduction to common sense reasoning
 
Partial redundancy elimination
Partial redundancy eliminationPartial redundancy elimination
Partial redundancy elimination
 
AI Lecture 1 (introduction)
AI Lecture 1 (introduction)AI Lecture 1 (introduction)
AI Lecture 1 (introduction)
 
Ant colony optimization
Ant colony optimizationAnt colony optimization
Ant colony optimization
 
Genetic algorithm artificial intelligence presentation
Genetic algorithm   artificial intelligence presentationGenetic algorithm   artificial intelligence presentation
Genetic algorithm artificial intelligence presentation
 
Decision Tree Classification Algorithm.pptx
Decision Tree Classification Algorithm.pptxDecision Tree Classification Algorithm.pptx
Decision Tree Classification Algorithm.pptx
 
Transfer Learning and Fine-tuning Deep Neural Networks
 Transfer Learning and Fine-tuning Deep Neural Networks Transfer Learning and Fine-tuning Deep Neural Networks
Transfer Learning and Fine-tuning Deep Neural Networks
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language Processing
 
Problem reduction AND OR GRAPH & AO* algorithm.ppt
Problem reduction AND OR GRAPH & AO* algorithm.pptProblem reduction AND OR GRAPH & AO* algorithm.ppt
Problem reduction AND OR GRAPH & AO* algorithm.ppt
 
Word embedding
Word embedding Word embedding
Word embedding
 
Probabilistic Reasoning
Probabilistic ReasoningProbabilistic Reasoning
Probabilistic Reasoning
 
Unit 2 ai
Unit 2 aiUnit 2 ai
Unit 2 ai
 
Presentation on unsupervised learning
Presentation on unsupervised learning Presentation on unsupervised learning
Presentation on unsupervised learning
 
Statistical learning
Statistical learningStatistical learning
Statistical learning
 
DBSCAN
DBSCANDBSCAN
DBSCAN
 
Artificial Intelligence Notes Unit 3
Artificial Intelligence Notes Unit 3Artificial Intelligence Notes Unit 3
Artificial Intelligence Notes Unit 3
 
Machine Learning an Research Overview
Machine Learning an Research OverviewMachine Learning an Research Overview
Machine Learning an Research Overview
 
Unit 2(knowledge)
Unit 2(knowledge)Unit 2(knowledge)
Unit 2(knowledge)
 

More from Cenk Bircanoğlu

Image Generation with Tensorflow
Image Generation with TensorflowImage Generation with Tensorflow
Image Generation with TensorflowCenk Bircanoğlu
 
Kaggles House Prices Competition Study
Kaggles House Prices Competition StudyKaggles House Prices Competition Study
Kaggles House Prices Competition StudyCenk Bircanoğlu
 
Routing or Computing? The Paradigm Shift Towards Intelligent Computer Network...
Routing or Computing? The Paradigm Shift Towards Intelligent Computer Network...Routing or Computing? The Paradigm Shift Towards Intelligent Computer Network...
Routing or Computing? The Paradigm Shift Towards Intelligent Computer Network...Cenk Bircanoğlu
 
Facial Emotion Classification Using Deep Embedding with Triplet Loss Function
Facial Emotion Classification Using Deep Embedding with Triplet Loss FunctionFacial Emotion Classification Using Deep Embedding with Triplet Loss Function
Facial Emotion Classification Using Deep Embedding with Triplet Loss FunctionCenk Bircanoğlu
 
A Comparison of Loss Function on Deep Embedding
A Comparison of Loss Function on Deep EmbeddingA Comparison of Loss Function on Deep Embedding
A Comparison of Loss Function on Deep EmbeddingCenk Bircanoğlu
 
Autoencoders for image_classification
Autoencoders for image_classificationAutoencoders for image_classification
Autoencoders for image_classificationCenk Bircanoğlu
 

More from Cenk Bircanoğlu (7)

Image Generation with Tensorflow
Image Generation with TensorflowImage Generation with Tensorflow
Image Generation with Tensorflow
 
Kaggles House Prices Competition Study
Kaggles House Prices Competition StudyKaggles House Prices Competition Study
Kaggles House Prices Competition Study
 
Routing or Computing? The Paradigm Shift Towards Intelligent Computer Network...
Routing or Computing? The Paradigm Shift Towards Intelligent Computer Network...Routing or Computing? The Paradigm Shift Towards Intelligent Computer Network...
Routing or Computing? The Paradigm Shift Towards Intelligent Computer Network...
 
Facial Emotion Classification Using Deep Embedding with Triplet Loss Function
Facial Emotion Classification Using Deep Embedding with Triplet Loss FunctionFacial Emotion Classification Using Deep Embedding with Triplet Loss Function
Facial Emotion Classification Using Deep Embedding with Triplet Loss Function
 
Recommendation Systems
Recommendation SystemsRecommendation Systems
Recommendation Systems
 
A Comparison of Loss Function on Deep Embedding
A Comparison of Loss Function on Deep EmbeddingA Comparison of Loss Function on Deep Embedding
A Comparison of Loss Function on Deep Embedding
 
Autoencoders for image_classification
Autoencoders for image_classificationAutoencoders for image_classification
Autoencoders for image_classification
 

Yapay Sinir Ağlarında Aktivasyon Fonksiyonlarının Karşılaştırılması

  • 1. Cenk Bircanoğlu, Nafiz Arıca Bahçeşehir Üniversitesi, Bilgisayar Mühendisliği
  • 2. Aktivasyon Fonksiyonu Tanımı Aktivasyon Fonksiyonu Çeşitleri Veri Kümeleri Derin Mimariler Deneyler Sonuçlar 2
  • 3. Herhangi bir sinir ağının çıkış ucuna eklediğiniz sadece bir şey (düğüm) olarak tanımlanabilir ‘Doğrusal iki fonksiyonun birleşiminin yine doğrusal bir fonksiyon olması’ sebebiyle daha kompleks fonksiyonlar elde edebilmek için kullanılır Eğitim aşamasını hızlandırabilir veya daha iyi sonucun elde edilmesini sağlayabilir 3
  • 4. Gerekli olmamasına rağmen şu özelliklere sahip olması beklenir:  Doğrusal olmaması  Türevlenebilir olması  Alt ve üst sınıra sahip olması  Monoton artan veya azalan olması  Orjin noktasında kendine yakınsaması 4
  • 5. • Doğrusal • Türevlenebilir • Alt ve üst sınırı yoktur • Monoton artan ve azalan • Orjin noktasında kendine yakınsar 5
  • 6. • Doğrusal değil • Türevlenebilir • Alt sınır var • Üst sınırı var • Monoton artan ve azalan 6
  • 7. • Doğrusal değil • Türevlenebilir • Alt sınır var • Üst sınırı var • Monoton artan ve azalan • Orjin noktasında kendine yakınsar 7
  • 8. • Doğrusal • Türevlenebilir • Alt sınır var • Üst sınırı var 8
  • 9. • Doğrusal değil • Türevlenebilir • Alt sınır yok • Üst sınırı yoktur • Monoton artan ve azalan • Orjin noktasında kendine yakınsar 9
  • 10. • Doğrusal • Türevlenebilir • Alt sınır var • Üst sınırı yoktur • Monoton artan ve azalan • Orjin noktasında kendine yakınsar 10
  • 11. • Doğrusal değil • Türevlenebilir • Alt sınır var • Üst sınırı yok • Monoton artan ve azalan • Orjin noktasında kendine yakınsamaz 11
  • 12. • Doğrusal değil • Türevlenebilir • Alt sınır yok • Üst sınırı yok • Monoton artan ve azalan • Orjin noktasında kendine yakınsar 12
  • 13. • Doğrusal değil • Türevlenebilir • Alt sınır yok • Üst sınırı yok • Monoton artan ve azalan • Orjin noktasında kendine yakınsar 13
  • 14. • Doğrusal değil • Türevlenebilir • Alt sınır var • Üst sınırı yok • Orjin noktasında kendine yakınsar 14
  • 15. • Doğrusal değil • Türevlenebilir • Alt sınır var • Üst sınırı yok • Monoton artan ve azalan • Orjin noktasında kendine yakınsar 15
  • 16. Boston Evleri Ames Evleri MNIST Fashion MNIST CIFAR-10 IMDB Reuters 16
  • 17.  Problem Tipi: Regresyon  Eğitim Verisi: 404  Test Verisi: 102  Öznitelik Sayısı: 13  StatLib kitaplığından alındı  Carnegie Mellon Üniversitesi'nde tarafında desteklenmekte  13 sayısal veriden oluşan kolona sahip 17
  • 18.  Problem Tipi: Regresyon  Eğitim Verisi: 1460  Test Verisi: 1459  Öznitelik Sayısı: 79  20 sayısal veri  13 sayısal kategorik veri  46 kategorik veri 18
  • 19. • Problem Tipi: Sınıflandırma • Eğitim Verisi: 60000 • Test Verisi: 10000 • Öznitelik Sayısı: 28x28x1 • Sınıf Sayısı: 10 19
  • 20. • Problem Tipi: Sınıflandırma • Eğitim Verisi: 60000 • Test Verisi: 10000 • Öznitelik Sayısı: 28x28x1 • Sınıf Sayısı: 10 20
  • 21. • Problem Tipi: Sınıflandırma • Eğitim Verisi: 50000 • Test Verisi: 10000 • Öznitelik Sayısı: 32x32x3 • Sınıf Sayısı: 10 21
  • 22.  Problem Tipi: Sınıflandırma  Eğitim Verisi: 25000  Test Verisi: 25000  Öznitelik Sayısı: Kelime  Sınıf Sayısı: 2 22
  • 23.  Problem Tipi: Sınıflandırma  Eğitim Verisi: 8982  Test Verisi: 2246  Öznitelik Sayısı: Kelime  Sınıf Sayısı: 46 23
  • 24. • CNN • LSTM • RNN • MLP 24
  • 25.  Kodlama işlemi Keras ile yapılmıştır  GPU üzerinde deneylerin hepsi çalıştırılmıştır  Regresyon problemleri için MLP modelleri kullanılmıştır  Görüntü veri kümelerinde Convolution modelleri kullanılmıştır  Text veri kümelerinde CNN ve LSTM tabanlı veri kümeleri kullanılmıştır. 25
  • 26. 26
  • 27. 27
  • 28. 28
  • 29. 29
  • 30. 30
  • 31. 31
  • 32. 32
  • 33.  En iyi sonuçlar ReLU kullanımı ile elde edildi  ReLU aktivasyon fonksiyonundan sonra en iyi sonuç Kare Aktivasyon fonksiyonu kullanımlarında gözlemlendi  ReLU aktivasyon fonksiyonu eğitimi hızlandırmaktadır  Kare ile ReLU aktivasyon fonksiyonunun kısmi birleşimlerinden oluşan yeni bir fonksiyon üzerinde deneyler devam etmektedir 33
  • 34.  A. L. Maas, A. Y. Hannun, and A. Y. Ng, “Rectifier nonlinearities improve neural network acoustic models,” 2013.  A. Vehbi Olgac and B. Karlik, “Performance analysis of various activation functions in generalized mlp architectures of neural networks,” vol. 1, pp. 111– 122, 02 2011  J. Hu, J. Lu, and Y. P. Tan, “Discriminative deep metric learning for face verification in the wild,” in 2014 IEEE Conference on Computer Vision and Pattern Recognition, June 2014, pp. 1875–1882.  K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers: Surpassing human-level performance on imagenet classification,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1026–1034. 34
  • 35.  X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” in Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, 2011, pp. 315–323.  L. M. Zhang, “Genetic deep neural networks using different activation functions for financial data mining,” in Big Data (Big Data), 2015 IEEE International Conference on. IEEE, 2015, pp. 2849–2851.  G. E. Dahl, T. N. Sainath, and G. E. Hinton, “Improving deep neural networks for lvcsr using rectified linear units and dropout,” in Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013, pp. 8609–8613.  D.-A. Clevert, T. Unterthiner, and S. Hochreiter, “Fast and accurate deep network learning by exponential linear units (elus),” arXiv preprint arXiv:1511.07289, 2015.  F. Agostinelli, M. Hoffman, P. Sadowski, and P. Baldi, “Learning activation functions to improve deep neural networks,” 12 2014.  E. A. M. A. Shenouda, “A quantitative comparison of different mlp activation functions in classification,” in ISNN, 2006. 35
  • 36.  G. Cybenko, “Approximation by superpositions of a sigmoidal function,” Mathematics of Control, Signals, and Systems (MCSS), vol. 2, no. 4, pp. 303–314, 1989.  K. Jarrett, K. Kavukcuoglu, Y. LeCun et al., “What is the best multistage architecture for object recognition?” in Computer Vision, 2009 IEEE 12th International Conference on. IEEE, 2009, pp. 2146–2153.  J. Bergstra, G. Desjardins, P. Lamblin, and Y. Bengio, “Quadratic polynomials learn better image features,” Technical Report 1337, Dé- partement d’Informatique et de Recherche Opérationnelle, Université de Montréal, Tech. Rep., 2009.  V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann machines,” in Proceedings of the 27th international conference on machine learning (ICML-10), 2010, pp. 807–814.  G. Klambauer, T. Unterthiner, A. Mayr, and S. Hochreiter, “Selfnormalizing neural networks,” arXiv preprint arXiv:1706.02515, 2017.  E. A. M. A. Shenouda, “A quantitative comparison of different mlp activation functions in classification,” in ISNN, 2006. 36
  • 37. 37