3. Herhangi bir sinir ağının çıkış ucuna eklediğiniz sadece
bir şey (düğüm) olarak tanımlanabilir
‘Doğrusal iki fonksiyonun birleşiminin yine doğrusal bir
fonksiyon olması’ sebebiyle daha kompleks fonksiyonlar
elde edebilmek için kullanılır
Eğitim aşamasını hızlandırabilir veya daha iyi sonucun
elde edilmesini sağlayabilir
3
4. Gerekli olmamasına rağmen şu özelliklere sahip olması
beklenir:
Doğrusal olmaması
Türevlenebilir olması
Alt ve üst sınıra sahip olması
Monoton artan veya azalan olması
Orjin noktasında kendine yakınsaması
4
5. • Doğrusal
• Türevlenebilir
• Alt ve üst sınırı yoktur
• Monoton artan ve azalan
• Orjin noktasında kendine
yakınsar
5
6. • Doğrusal değil
• Türevlenebilir
• Alt sınır var
• Üst sınırı var
• Monoton artan ve azalan
6
7. • Doğrusal değil
• Türevlenebilir
• Alt sınır var
• Üst sınırı var
• Monoton artan ve azalan
• Orjin noktasında kendine
yakınsar
7
17. Problem Tipi: Regresyon
Eğitim Verisi: 404
Test Verisi: 102
Öznitelik Sayısı: 13
StatLib kitaplığından alındı
Carnegie Mellon Üniversitesi'nde tarafında desteklenmekte
13 sayısal veriden oluşan kolona sahip
17
18. Problem Tipi: Regresyon
Eğitim Verisi: 1460
Test Verisi: 1459
Öznitelik Sayısı: 79
20 sayısal veri
13 sayısal kategorik veri
46 kategorik veri
18
19. • Problem Tipi: Sınıflandırma
• Eğitim Verisi: 60000
• Test Verisi: 10000
• Öznitelik Sayısı: 28x28x1
• Sınıf Sayısı: 10
19
20. • Problem Tipi: Sınıflandırma
• Eğitim Verisi: 60000
• Test Verisi: 10000
• Öznitelik Sayısı: 28x28x1
• Sınıf Sayısı: 10
20
21. • Problem Tipi: Sınıflandırma
• Eğitim Verisi: 50000
• Test Verisi: 10000
• Öznitelik Sayısı: 32x32x3
• Sınıf Sayısı: 10
21
22. Problem Tipi: Sınıflandırma
Eğitim Verisi: 25000
Test Verisi: 25000
Öznitelik Sayısı: Kelime
Sınıf Sayısı: 2
22
23. Problem Tipi: Sınıflandırma
Eğitim Verisi: 8982
Test Verisi: 2246
Öznitelik Sayısı: Kelime
Sınıf Sayısı: 46
23
25. Kodlama işlemi Keras ile yapılmıştır
GPU üzerinde deneylerin hepsi çalıştırılmıştır
Regresyon problemleri için MLP modelleri kullanılmıştır
Görüntü veri kümelerinde Convolution modelleri kullanılmıştır
Text veri kümelerinde CNN ve LSTM tabanlı veri kümeleri kullanılmıştır.
25
33. En iyi sonuçlar ReLU kullanımı ile elde edildi
ReLU aktivasyon fonksiyonundan sonra en iyi sonuç Kare Aktivasyon fonksiyonu
kullanımlarında gözlemlendi
ReLU aktivasyon fonksiyonu eğitimi hızlandırmaktadır
Kare ile ReLU aktivasyon fonksiyonunun kısmi birleşimlerinden oluşan yeni bir
fonksiyon üzerinde deneyler devam etmektedir
33
34. A. L. Maas, A. Y. Hannun, and A. Y. Ng, “Rectifier nonlinearities improve neural
network acoustic models,” 2013.
A. Vehbi Olgac and B. Karlik, “Performance analysis of various activation
functions in generalized mlp architectures of neural networks,” vol. 1, pp. 111–
122, 02 2011
J. Hu, J. Lu, and Y. P. Tan, “Discriminative deep metric learning for face
verification in the wild,” in 2014 IEEE Conference on Computer Vision and
Pattern Recognition, June 2014, pp. 1875–1882.
K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers: Surpassing
human-level performance on imagenet classification,” in Proceedings of the IEEE
international conference on computer vision, 2015, pp. 1026–1034.
34
35. X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” in
Proceedings of the Fourteenth International Conference on Artificial Intelligence
and Statistics, 2011, pp. 315–323.
L. M. Zhang, “Genetic deep neural networks using different activation functions
for financial data mining,” in Big Data (Big Data), 2015 IEEE International
Conference on. IEEE, 2015, pp. 2849–2851.
G. E. Dahl, T. N. Sainath, and G. E. Hinton, “Improving deep neural networks for
lvcsr using rectified linear units and dropout,” in Acoustics, Speech and Signal
Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013, pp.
8609–8613.
D.-A. Clevert, T. Unterthiner, and S. Hochreiter, “Fast and accurate deep network
learning by exponential linear units (elus),” arXiv preprint arXiv:1511.07289,
2015.
F. Agostinelli, M. Hoffman, P. Sadowski, and P. Baldi, “Learning activation
functions to improve deep neural networks,” 12 2014.
E. A. M. A. Shenouda, “A quantitative comparison of different mlp activation
functions in classification,” in ISNN, 2006.
35
36. G. Cybenko, “Approximation by superpositions of a sigmoidal function,”
Mathematics of Control, Signals, and Systems (MCSS), vol. 2, no. 4, pp. 303–314,
1989.
K. Jarrett, K. Kavukcuoglu, Y. LeCun et al., “What is the best multistage
architecture for object recognition?” in Computer Vision, 2009 IEEE 12th
International Conference on. IEEE, 2009, pp. 2146–2153.
J. Bergstra, G. Desjardins, P. Lamblin, and Y. Bengio, “Quadratic polynomials
learn better image features,” Technical Report 1337, Dé- partement
d’Informatique et de Recherche Opérationnelle, Université de Montréal, Tech.
Rep., 2009.
V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann
machines,” in Proceedings of the 27th international conference on machine
learning (ICML-10), 2010, pp. 807–814.
G. Klambauer, T. Unterthiner, A. Mayr, and S. Hochreiter, “Selfnormalizing neural
networks,” arXiv preprint arXiv:1706.02515, 2017.
E. A. M. A. Shenouda, “A quantitative comparison of different mlp activation
functions in classification,” in ISNN, 2006.
36