SlideShare a Scribd company logo
1 of 38
Download to read offline
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme
Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
Dr. Ferhat Özgür ÇATAK
TÜBİTAK - BİLGEM
Siber Güvenlik Enstitüsü
17 Mayıs 2015
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İçindekiler
1 GİRİŞ
Konunun Önemi
Çalışmanın Katkıları
2 ÖN BİLGİLER
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
3 SİSTEM MODELİ
Temel Fikir
Modelin Gerçekleştirimi
4 BENZETİM SONUÇLARI
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
5 SONUÇ
Sonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Konunun Önemi
Çalışmanın Katkıları
İçindekiler
1 GİRİŞ
Konunun Önemi
Çalışmanın Katkıları
2 ÖN BİLGİLER
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
3 SİSTEM MODELİ
Temel Fikir
Modelin Gerçekleştirimi
4 BENZETİM SONUÇLARI
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
5 SONUÇ
Sonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Konunun Önemi
Çalışmanın Katkıları
GİRİŞ
Şekil: Veri Bilimi kelime bulutu.
Konunun Önemi
Yüksek boyutlu verinin
tahmin modellerinde
kullanılmında artış,
Öğrenme algoritmalarının
eğitim karmaşıklığında
artış,
Topluluk metotları ve
sınıflandırma algoritmalarını
birleştiren makine
öğrenme yöntemlerine
ihtiyaç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Konunun Önemi
Çalışmanın Katkıları
Çalışmanın Katkıları
Çalışmanın Katkıları
Genelleştirilmiş MapReduce tekniği temelli AdaBoost, Aşırı Öğrenme
Makinesi (AÖM) sınıflandırma algoritması ile daha hızlı ve daha iyi
sınıflandırma performansına sahip model elde edilmektedir.
Bu çalışmanın önerdiği yeni öğrenme yöntemi ile elde edilen paralel ve
dağıtık eğitim, yüksek boyutlu veri setlerinin öğrenme için kullandığı
hesaplama zamanını azaltmaktadır.
Eğitim esnasında kullanılan her bir düğüm (node) diğerinden bağımsız
olmasından dolayı veri haberleşmesi azalmaktadır.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
İçindekiler
1 GİRİŞ
Konunun Önemi
Çalışmanın Katkıları
2 ÖN BİLGİLER
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
3 SİSTEM MODELİ
Temel Fikir
Modelin Gerçekleştirimi
4 BENZETİM SONUÇLARI
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
5 SONUÇ
Sonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
İleri Yayılımlı Yapay Sinir Ağları - Toplam
Şekil: İleri Yayılımlı Yapay Sinir
Ağları - Toplam
Gizli Düğümlerin Çıktısı
G(ai , bi , x) = g(ai .x + bi ) , ai ∈ Rd
, bi , ∈ R (1)
ai : i. gizli düğüm ile girdi düğümlerini birleştiren
ağırlık vektörü.
bi : i. gizli düğümün eşik değeri.
g: gizli düğüm aktivasyon fonksiyonu.
İleri Yayılımlı Yapay Sinir Ağları Çıktısı
fL(x) =
L
i=1
βi G(ai , bi , x) (2)
βi : i. gizli düğüm ile çıktı düğümlerini birleştiren
ağırlık vektörü
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
İleri Yayılımlı Yapay Sinir Ağları - Radyal
Şekil: İleri Yayılımlı Yapay Sinir
Ağları - Radyal
Gizli Düğümlerin Çıktısı
G(ai , bi , x) = g(bi ||x − ai ||) , ai ∈ Rd
, bi , ∈ R (3)
ai : i. gizli düğüm ile girdi düğümlerini birleştiren
ağırlık vektörü.
bi : i. gizli düğümün eşik değeri.
g: gizli düğüm aktivasyon fonksiyonu.
İleri Yayılımlı Yapay Sinir Ağları Çıktısı
fL(x) =
L
i=1
βi G(ai , bi , x) (4)
βi : i. gizli düğüm ile çıktı düğümlerini birleştiren
ağırlık vektörü
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
Yapay Sinir Ağlarında Fonksiyon Kestirimi
Şekil: İleri Yayılımlı Yapay Sinir Ağları
Matematik Modeli
Herhangi bir hedef f (x) fonksiyonu,
değiştirilebilir gizli düğümler aracılığı ile
kestirimi yapılabilir. Farklı bir ifade ile,
yeterli sayıda gizli düğüm, (L), ve
herhangi bir küçük pozitif tam sayı,
olması durumunda,
||fl (x) − f (x)|| < (5)
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
Yapay Sinir Ağlarında Öğrenme Yöntemleri
Şekil: İleri Yayılımlı Yapay Sinir Ağları
Öğrenme Yöntemleri
Birçok öğrenme yöntemi Gradyen
tabanlı (Gradient Descent) veya
yinelemeli (iterative) yaklaşımlar
şeklindedir.
Geri yayılımlı (Back-Propagation)
en çok popüler yöntemlerden biridir.
Radyal tabanlı fonksiyon, (RBF),
için en küçük kareler yöntemi
kullanılmaktadır.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
Aşırı Öğrenme Makinesi
Yinelemeli Güncelleme Olmadan Öğrenme
All these hidden node parameters can be randomly generated without the
knowledge of the training data. That is, for any continuous target function f
and any randomly generated sequence
limL→∞ ||f (x) − fL(x)|| = limL→∞ ||f (x) −
L
i=1 βi G(ai , bi , x)|| = 0 holds
with probability one if βi is chosen to minimize ||f (x) − fL(x)||, ∀i
Gizli katman parametreleri için herhangibir ayarlama gerekmemektedir.
G.-B. Huang, et al., “Universal approximation using incremental constructive
feedforward networks with random hidden nodes,” IEEE Transactions on Neural
Networks, vol. 17, no. 4, pp. 879-892, 2006.
G.-B. Huang, et al., “Convex incremental extreme learning machine,”
Neurocomputing, vol. 70, pp. 3056-3062, 2007.
G.-B. Huang, et al., “Enhanced random search based incremental extreme
learning machine,” Neurocomputing, vol. 71, pp. 3460-3468, 2008.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
Aşırı Öğrenme Makinesi
Şekil: İleri Yayılımlı Yapay Sinir Ağları
Matematik Modeli
N adet rassal seçilmiş örneklem
uzayı, (xi , ti ) ∈ Rn
× Rm
, "İleri
Yayılımlı Yapay Sinir Ağları" için L
adet gizli düğüm ve her bir gizli
düğüm için çıktı fonksiyonu
G(ai , bi , x) olmak üzere model şu
şekilde ifade edilir:
L
i=1
βi G(ai , bi , xj ) = tj , j = 1, ..., N
(6)
(ai , bi ): gizli düğüm parametreleri
βi : i. gizli düğüm ile çıktı
düğümünü bağlayan ağırlık vektörü.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
Aşırı Öğrenme Makinesi
Matematik Modeli
L
i=1 βi G(ai , bi , xj ) = tj , j = 1, ..., N ifadesi aynı şekilde Hβ = T ifade edilebilir.



h(x1)
...
h(xN)


 =



G(a1, b1, x1) · · · G(aL, bL, x1)
...
...
...
G(a1, b1, xN) · · · G(aL, bL, xN)



N×L
(7)
β =



βT
1
...
βT
L



L×m
ve T =



tT
1
...
tT
N



N×m
(8)
H, sinir ağının gizli katman çıktı matrisi, H matrisinin i. kolonu ise, x1, ..., xn
girdilerinin i. gizli katman çıktılarını göstermektedir.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
Aşırı Öğrenme Makinesi
Üç Aşamalı Öğrenme Modeli
D = {(xi , ti )|xi ∈ Rn
, ti ∈ Rm
, i = 1, · · · , N} veri seti, gizli düğüm çıktı
fonksiyonu G(a, b, x) ve L adet gizli düğüm olsun.
1 Rassal gizli düğüm parametrelerini atama işlemi. (ai , bi ), i = 1, · · · , L.
2 Gizli katman çıktı matrisi, H, hesapla.
3 Çıktı ağırlık vektörünü hesapla, β = Ht
T.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
Aşırı Öğrenme Makinesi
Belirgin Özellikler
AÖM, basit matematik bilgisiyle, üç adımlı öğrenme algoritmasıdır.
AÖM’nin öğrenme hızı oldukça yüksektir.
Destek Vektör Makinesi veya Yapay Sinir Ağları gibi geleneksel öğrenme
yöntemlerinin aksine, AÖM oldukça basit bir yöntemdir.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
AdaBoost Algoritması
Algoritma
AdaBoost algoritması "zayıf"
sınıflandırma hipotezlerinin doğrusal
kombinasyonu ile güçlü sınıflandırma
hipotezi oluşturmaktadır.
H(x) = sign(f (x)) = sign
T
t=1
αtht(x)
(9)
Zayıf sınıflandırma hipotezi
ht(x) : X → {−1, +1}.
Özellikleri
Bir Meta-Algoritma’dır. Diğer
öğrenme algoritmaları ile
kullanılarak performanslarını
artırmaktadır.
Sırasıyla, her bir sınıflandırıcı
hipotezin kendinden önceki
hipotezlerin hatalarını kullanarak
kendini güçlendirmesidir.
Girdi uzayından örneklem almak
yerine, bütün uzayı tekrar
ağırlıklandırır.
Girdi uzayında yer alan herbir
örneğe bir ağırlık ataması
yapılmaktadır.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
AdaBoost Algoritması
Algoritma
Algorithm 1: AdaBoost Algoritması Sözde Kodu.
Data: D = {{(xi , yi ) | i = 1, ..., n}, xi ∈ Rp
, yi ∈ {−1, +1}}m
i=1
(Xn, yn) ← V
for t = 1..T do
ht ← AOM(Xn, yn)
ypred , t ← ht(Xn)
αt ← 1
2 ln 1− t
t
Dt+1 = Dt ×exp(−αt yi ht (xi ))
Zt
end for
Output: hm = sign
T
t=1 αtht(x)
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
MapReduce
Şekil: Anahtar/Değer Veri
Tipi
Genel Bilgiler
MapReduce, yüksek boyutlu veri setlerinin
işlenmesine olanak sağlayan, ayrıca Google
tarafından da oldukça sık kullanılan bir
programlama modeli.
Kullanıcılar tarafından tanımlanan Map ve Reduce
fonksiyonları ve bu fonksiyonlara girdi değeri olarak
verilen anahtar/değer dizileri (Key/Value pairs)
kullanılmaktadır.
Uygulama alanları:
Bir web sayfasının adresi anahtar, HTML içeriği ise
değer
Graf tabanlı veri modellerinde düğüm bilgisi (id)
anahtar, kendisine komşu olan düğümleri anahtar
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
MapReduce
Şekil: Mapreduce mimarisi.
Mimari
Map fonksiyonu paralel olarak girdi veri setinde bulunan
her ikiliye uygulanmaktadır. Fonksiyon bir veri alanında
bulunan veri çiftlerini alarak bunları farklı bir alana veri
çift listesi olarak vermektedir.
Map(a1, d1) → liste(a2, d2) (10)
Reduce fonksiyonu ise yine paralel olarak Map
fonksiyonu tarafından ilişkilendirilmiş anahtar değer
yapısına uygulayarak yeni değerler listesi
oluşturmaktadır.
Reduce(a2, liste(d2)) → liste(a3, d3) (11)
MapReduce çatısının anahtar/değer şeklindeki çiftlerden
oluşan listeyi değerler listesi şekline çevirmektedir.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Temel Fikir
Modelin Gerçekleştirimi
İçindekiler
1 GİRİŞ
Konunun Önemi
Çalışmanın Katkıları
2 ÖN BİLGİLER
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
3 SİSTEM MODELİ
Temel Fikir
Modelin Gerçekleştirimi
4 BENZETİM SONUÇLARI
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
5 SONUÇ
Sonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Temel Fikir
Modelin Gerçekleştirimi
Temel Fikir
Sistem Modeli
AdaBoost temelli AÖM
sınıflandırma algoritmasının
hesaplanması aşamasının
Dağıtık ve Paralel hale
getirilmesi bu çalışmanın esas
görevidir.
Önerilen yöntemin temel fikri,
sınıflandırma topluluk
fonksiyonlarının rassal veri
parçaları
(Xm, Ym)
kullanılarak paralel olarak
hesaplanmasıdır.
Tablo: Sık kullanılan değişkenler ve notasyonlar.
Notasyon Açıklama Notasyon Açıklama
M
Veri parça
bölümleme
uzunluğu
T
AdaBoost T
boyutu
h
Sınıflandırma
fonksiyonu
nh
AÖM’de
kullanılan gizli
düğüm sayısı
Xm
Veri seti, D,
girdi
değerlerinin m
veri parçası
Doğ
Sınıflandırma
hipotezinin
doğruluğu
Ym
Veri seti, D,
çıktı
değerlerinin m
veri parçası
H. Hassasiyet
Hata oranı G.C. Geri Çağırım
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Temel Fikir
Modelin Gerçekleştirimi
Modelin Gerçekleştirimi
Modelin Gerçekleştirimi - Map Aşaması
Map metodu:
Girdi değeri: x, eğitim veri kümesi
D’nin bir satırı
Çıktı değeri: < rassalBolumId, x >
anahtar/değer ikilisi
Reduce aşamasına transfer
Sözde Kod
Algorithm 2: AdaBoostAÖM::Map
Data: (x, y) ∈ D, M
1: k ← rand(0, M)
2: Output(k, (x, y))
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Temel Fikir
Modelin Gerçekleştirimi
Modelin Gerçekleştirimi
Modelin Gerçekleştirimi - Reduce
Aşaması
Map metodu:
Girdi değeri:
< rassalBolumId, list(x) >
Çıktı değeri: Hipotez kümesi: Ht
Sözde Kod
Algorithm 3: AdaBoostAÖM::Reduce
Data: Anahtar k, Deger V , T
Result: hm = sign
T
t=1 αtht(x)
1: (Xn, yn) ← V
2: for t = 1..T do
3: ht ← AOM(Xn, yn)
4: ypred , t ← ht(Xn)
5: αt ← 1
2 ln 1− t
t
6: Dt+1 = Dt ×exp(−αt yi ht (xi ))
Zt
7: end for
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Temel Fikir
Modelin Gerçekleştirimi
Modelin Gerçekleştirimi
Şekil: Genel Mimari.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
İçindekiler
1 GİRİŞ
Konunun Önemi
Çalışmanın Katkıları
2 ÖN BİLGİLER
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
3 SİSTEM MODELİ
Temel Fikir
Modelin Gerçekleştirimi
4 BENZETİM SONUÇLARI
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
5 SONUÇ
Sonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
Deneysel Kurulum
Tablo: Kullanılan veri setlerinin bilgileri.
Veri seti # Eğitim # Test # Sınıf # Öz nitelik
Pendigit 7495 3498 10 64
Skin 220543 24507 2 4
Statlog 43500 25000 10 7
Page-blocks 4500 973 5 10
Kullanılan Altyapı
64bit Python 2.7
MrJOB (MapReduce
Streaming)
Sckit-Learn Makine
Öğrenme Kütüphanesi
Scientific Python
(SciPy), Numeric
Python (NumPy)
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
Veri setlerinin Standart AÖM ile sonuçları
Ön Bilgiler
nh değeri, 1 – 500 arasında değişmektedir. Performans ölçümleri için doğruluk,
hassasiyet, geri çekilme ve F1 değerleri kullanılmıştır.
Tablo: Veri setlerinin standart AÖM sonuçları.
Veri S. nh. Doğ. H. G.C. F1
Pendigit 149 0,8404 0,8393 0,8416 0,8407
Skin 98 0,9754 0,9956 0,9583 0,9894
Statlog 249 0,8871 0,8556 0,9237 0,9757
Page Blocks 498 0,9873 0,9794 0,9988 0,9977
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
Model Ölçümü
Sınıflandırıcı Hipotez Model Ölçümü
Ortalama doğruluk
Ortalama hassasiyet: Hassasiyet = Dogru
Dogru+Hata ,
Hassasiyetort = 1
nsinif
nsinif −1
i=0 Hassasiyeti ,
Ortalama geri çekim: Geri Cekilme = Dogru
Dogru+Kayip ,
Geri Cekilmeort = 1
nsinif
nsinif −1
i=0 GeriCekilmei
F1 ölçümü: F1 = 2 × Hassasiyetort ×GeriCekilmeort
Hassasiyetort +GeriCekilmeort
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
Model Ölçüm Sonuçları
Tablo: Veri setlerinin en iyi performans sonuçları.
Veri S. # C. T # H.N. Doğ. H. G.C. F1
Pendigit 20 10 21 0,8256 0,8369 0,8234 0,8301
Skin 21 5 21 0,9892 0,9773 0,9913 0,9842
Statlog 11 2 21 0,9103 0,7486 0,5069 0,6045
Page Blocks 1 1 340 0,9404 0,9027 0,5756 0,7030
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
Model Ölçüm Sonuçları
M
T
3 5 7 9 11 13 15 17 19 21
2
3
4
5
6
7
8
9
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Bölümleme ve
adaboost T boyu
M
nh
3 5 7 9 11 13 15 17 19 21
1
3
5
7
9
11
13
15
17
19
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(b) Bölümleme ve gizli
düğüm sayısı.
T
nh
2 3 4 5 6 7 8 9
1
3
5
7
9
11
13
15
17
19
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(c) AdaBoost T boyu ve
gizli düğüm sayısı.
Şekil: Statlog veri kümesi ısı haritası.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
Model Ölçüm Sonuçları
M
T
2 4 6 8 10 12 14 16 18 20
1
2
3
4
5
6
7
8
9
10
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Bölümleme ve
adaboost T boyu
M
nh
2 4 6 8 10 12 14 16 18 20
1
3
5
7
9
11
13
15
17
19
21
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(b) Bölümleme ve gizli
düğüm sayısı.
T
nh
1 2 3 4 5 6 7 8 9 10
1
3
5
7
9
11
13
15
17
19
21
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(c) AdaBoost T boyu ve
gizli düğüm sayısı.
Şekil: Pendigit veri kümesi ısı haritası.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
Model Ölçüm Sonuçları
M
T
1 3 5 7 9 11 13 15 17 19 21
1
2
3
4
5
6
7
8
9
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Bölümleme ve
adaboost T boyu
M
nh
1 3 5 7 9 11 13 15 17 19 21
1
3
5
7
9
11
13
15
17
19
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(b) Bölümleme ve gizli
düğüm sayısı.
T
nh
1 2 3 4 5 6 7 8 9
1
3
5
7
9
11
13
15
17
19
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(c) AdaBoost T boyu ve
gizli düğüm sayısı.
Şekil: Skin veri kümesi ısı haritası.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
Model Ölçüm Sonuçları
M
T
1 3 5 7 9
1
2
3
4
5
6
7
8
9
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Bölümleme ve
adaboost T boyu
M
nh
1 3 5 7 9 11 13 15 17 19 21
20
40
60
80
100
120
140
160
180
200
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(b) Bölümleme ve gizli
düğüm sayısı.
T
nh
1 2 3 4 5 6 7 8 9
20
40
60
80
100
120
140
160
180
200
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(c) AdaBoost T boyu ve
gizli düğüm sayısı.
Şekil: Page blocks veri kümesi ısı haritası.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
Sınıflandırma Modeli Stabilite Analizi
Number of Mappers
0 2 4 6 8 10 12 14 16 18 20
StandartSapma
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
pageblocks
pendigits
skin
statlog
waveform
(a) Mapper M.
AdaBoost T
0 1 2 3 4 5 6 7 8 9 10 11
StandartSapma
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
pageblocks
pendigits
skin
statlog
waveform
(b) AdaBoost T.
Şekil: Sınıflandırma modeli stabilite analizi
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Sonuç
İçindekiler
1 GİRİŞ
Konunun Önemi
Çalışmanın Katkıları
2 ÖN BİLGİLER
İleri Yayılımlı Yapay Sinir Ağları
Aşırı Öğrenme Makinesi
AdaBoost
MapReduce
3 SİSTEM MODELİ
Temel Fikir
Modelin Gerçekleştirimi
4 BENZETİM SONUÇLARI
Deneysel Kurulum
Veri setlerinin Standart AÖM ile sonuçları
Sonuçlar
5 SONUÇ
Sonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Sonuç
SONUÇ
Sonuç
Amaç: MapReduce temelli AdaBoost AÖM algoritması uygulaması, yüksek
boyutlu veri setlerinin eğitilmesi için önerilmiştir.
Girdi matrisini parçalara ayırarak, AÖM sınıflandırmasının eğitim aşamasının
karmaşıklığı azaltılmaktadır.
Sınıflandırma performans azalması için AdaBoost ile desteklenmiştir.
Sadece eğitim karmaşıklığı azalmamakta, geleneksel AÖM sınıflandırma
performansı artmaktadır.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Sonuç
SONUÇ
Sonuç
Deneysel sonuçlar: M ve T, nh’a göre sınıflandırma performansına olan
etkisi daha fazla
Tablo 5 ve Tablo 6 karşılaştırıldığında, model karmaşıklık göstergesi olarak
düşünülen, nh sayısında azalma olduğu görülmektedir. Sadece girdi matrisi
karmaşıklığı değil, model karmaşıklığıda azalmaktadır.
Tablo: Standart AÖM.
Veri S. nh.
Pendigit 149
Skin 98
Statlog 249
Page Blocks 498
Tablo: Önerilen Yöntem.
Veri S. nh.
Pendigit 21
Skin 21
Statlog 21
Page Blocks 340
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
GİRİŞ
ÖN BİLGİLER
SİSTEM MODELİ
BENZETİM SONUÇLARI
SONUÇ
Sonuç
SORULAR
SORULAR
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala

More Related Content

Viewers also liked

Veritabanı Sızma Testleri - Keşif
Veritabanı Sızma Testleri - KeşifVeritabanı Sızma Testleri - Keşif
Veritabanı Sızma Testleri - KeşifFerhat Ozgur Catak
 
Dağıtık Servis Dışı Bırakma Saldırıları
Dağıtık Servis Dışı Bırakma SaldırılarıDağıtık Servis Dışı Bırakma Saldırıları
Dağıtık Servis Dışı Bırakma SaldırılarıFerhat Ozgur Catak
 
Sızma Testi ve Güvenlik Denetlemeleri - Giriş
Sızma Testi ve Güvenlik Denetlemeleri - GirişSızma Testi ve Güvenlik Denetlemeleri - Giriş
Sızma Testi ve Güvenlik Denetlemeleri - GirişFerhat Ozgur Catak
 
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux Bilgisi
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux BilgisiSızma Testi ve Güvenlik Denetlemeleri - Temel Linux Bilgisi
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux BilgisiFerhat Ozgur Catak
 
Temel Linux Kullanımı ve Komutları
Temel Linux Kullanımı ve KomutlarıTemel Linux Kullanımı ve Komutları
Temel Linux Kullanımı ve KomutlarıAhmet Gürel
 
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...Ferhat Ozgur Catak
 
Berezha Security
Berezha SecurityBerezha Security
Berezha SecurityVlad Styran
 
Embracing Distributed Version Control
Embracing Distributed Version ControlEmbracing Distributed Version Control
Embracing Distributed Version ControlNowell Strite
 
Network ve Sistem 101 etkinliği
Network ve Sistem 101 etkinliği Network ve Sistem 101 etkinliği
Network ve Sistem 101 etkinliği Ahmet Han
 
Ethical Hacking & Penetration Testing
Ethical Hacking & Penetration TestingEthical Hacking & Penetration Testing
Ethical Hacking & Penetration Testingecmee
 
IP Security
IP SecurityIP Security
IP SecurityS H
 
Network101 murat arslan
Network101 murat arslanNetwork101 murat arslan
Network101 murat arslanMURAT ARSLAN
 

Viewers also liked (20)

Kesif ve Zafiyet Tarama
Kesif ve Zafiyet TaramaKesif ve Zafiyet Tarama
Kesif ve Zafiyet Tarama
 
Veritabanı Sızma Testleri - Keşif
Veritabanı Sızma Testleri - KeşifVeritabanı Sızma Testleri - Keşif
Veritabanı Sızma Testleri - Keşif
 
Ddos Sızma Testleri - 2
Ddos Sızma Testleri - 2Ddos Sızma Testleri - 2
Ddos Sızma Testleri - 2
 
Dağıtık Servis Dışı Bırakma Saldırıları
Dağıtık Servis Dışı Bırakma SaldırılarıDağıtık Servis Dışı Bırakma Saldırıları
Dağıtık Servis Dışı Bırakma Saldırıları
 
Sızma Testi ve Güvenlik Denetlemeleri - Giriş
Sızma Testi ve Güvenlik Denetlemeleri - GirişSızma Testi ve Güvenlik Denetlemeleri - Giriş
Sızma Testi ve Güvenlik Denetlemeleri - Giriş
 
Pivoting ve Tunneling
Pivoting ve TunnelingPivoting ve Tunneling
Pivoting ve Tunneling
 
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux Bilgisi
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux BilgisiSızma Testi ve Güvenlik Denetlemeleri - Temel Linux Bilgisi
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux Bilgisi
 
Temel Linux Kullanımı ve Komutları
Temel Linux Kullanımı ve KomutlarıTemel Linux Kullanımı ve Komutları
Temel Linux Kullanımı ve Komutları
 
PAROLA KIRMA SALDIRILARI
PAROLA KIRMA SALDIRILARIPAROLA KIRMA SALDIRILARI
PAROLA KIRMA SALDIRILARI
 
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...
 
MapReduce based SVM
MapReduce based SVMMapReduce based SVM
MapReduce based SVM
 
Berezha Security
Berezha SecurityBerezha Security
Berezha Security
 
Windows hacking 1
Windows hacking 1Windows hacking 1
Windows hacking 1
 
Embracing Distributed Version Control
Embracing Distributed Version ControlEmbracing Distributed Version Control
Embracing Distributed Version Control
 
Network ve Sistem 101 etkinliği
Network ve Sistem 101 etkinliği Network ve Sistem 101 etkinliği
Network ve Sistem 101 etkinliği
 
Hesaplamalarım
HesaplamalarımHesaplamalarım
Hesaplamalarım
 
Tablo oluşturma
Tablo oluşturmaTablo oluşturma
Tablo oluşturma
 
Ethical Hacking & Penetration Testing
Ethical Hacking & Penetration TestingEthical Hacking & Penetration Testing
Ethical Hacking & Penetration Testing
 
IP Security
IP SecurityIP Security
IP Security
 
Network101 murat arslan
Network101 murat arslanNetwork101 murat arslan
Network101 murat arslan
 

Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

  • 1. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü 17 Mayıs 2015 Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 2. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İçindekiler 1 GİRİŞ Konunun Önemi Çalışmanın Katkıları 2 ÖN BİLGİLER İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce 3 SİSTEM MODELİ Temel Fikir Modelin Gerçekleştirimi 4 BENZETİM SONUÇLARI Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar 5 SONUÇ Sonuç Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 3. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Konunun Önemi Çalışmanın Katkıları İçindekiler 1 GİRİŞ Konunun Önemi Çalışmanın Katkıları 2 ÖN BİLGİLER İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce 3 SİSTEM MODELİ Temel Fikir Modelin Gerçekleştirimi 4 BENZETİM SONUÇLARI Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar 5 SONUÇ Sonuç Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 4. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Konunun Önemi Çalışmanın Katkıları GİRİŞ Şekil: Veri Bilimi kelime bulutu. Konunun Önemi Yüksek boyutlu verinin tahmin modellerinde kullanılmında artış, Öğrenme algoritmalarının eğitim karmaşıklığında artış, Topluluk metotları ve sınıflandırma algoritmalarını birleştiren makine öğrenme yöntemlerine ihtiyaç Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 5. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Konunun Önemi Çalışmanın Katkıları Çalışmanın Katkıları Çalışmanın Katkıları Genelleştirilmiş MapReduce tekniği temelli AdaBoost, Aşırı Öğrenme Makinesi (AÖM) sınıflandırma algoritması ile daha hızlı ve daha iyi sınıflandırma performansına sahip model elde edilmektedir. Bu çalışmanın önerdiği yeni öğrenme yöntemi ile elde edilen paralel ve dağıtık eğitim, yüksek boyutlu veri setlerinin öğrenme için kullandığı hesaplama zamanını azaltmaktadır. Eğitim esnasında kullanılan her bir düğüm (node) diğerinden bağımsız olmasından dolayı veri haberleşmesi azalmaktadır. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 6. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce İçindekiler 1 GİRİŞ Konunun Önemi Çalışmanın Katkıları 2 ÖN BİLGİLER İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce 3 SİSTEM MODELİ Temel Fikir Modelin Gerçekleştirimi 4 BENZETİM SONUÇLARI Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar 5 SONUÇ Sonuç Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 7. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce İleri Yayılımlı Yapay Sinir Ağları - Toplam Şekil: İleri Yayılımlı Yapay Sinir Ağları - Toplam Gizli Düğümlerin Çıktısı G(ai , bi , x) = g(ai .x + bi ) , ai ∈ Rd , bi , ∈ R (1) ai : i. gizli düğüm ile girdi düğümlerini birleştiren ağırlık vektörü. bi : i. gizli düğümün eşik değeri. g: gizli düğüm aktivasyon fonksiyonu. İleri Yayılımlı Yapay Sinir Ağları Çıktısı fL(x) = L i=1 βi G(ai , bi , x) (2) βi : i. gizli düğüm ile çıktı düğümlerini birleştiren ağırlık vektörü Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 8. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce İleri Yayılımlı Yapay Sinir Ağları - Radyal Şekil: İleri Yayılımlı Yapay Sinir Ağları - Radyal Gizli Düğümlerin Çıktısı G(ai , bi , x) = g(bi ||x − ai ||) , ai ∈ Rd , bi , ∈ R (3) ai : i. gizli düğüm ile girdi düğümlerini birleştiren ağırlık vektörü. bi : i. gizli düğümün eşik değeri. g: gizli düğüm aktivasyon fonksiyonu. İleri Yayılımlı Yapay Sinir Ağları Çıktısı fL(x) = L i=1 βi G(ai , bi , x) (4) βi : i. gizli düğüm ile çıktı düğümlerini birleştiren ağırlık vektörü Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 9. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce Yapay Sinir Ağlarında Fonksiyon Kestirimi Şekil: İleri Yayılımlı Yapay Sinir Ağları Matematik Modeli Herhangi bir hedef f (x) fonksiyonu, değiştirilebilir gizli düğümler aracılığı ile kestirimi yapılabilir. Farklı bir ifade ile, yeterli sayıda gizli düğüm, (L), ve herhangi bir küçük pozitif tam sayı, olması durumunda, ||fl (x) − f (x)|| < (5) Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 10. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce Yapay Sinir Ağlarında Öğrenme Yöntemleri Şekil: İleri Yayılımlı Yapay Sinir Ağları Öğrenme Yöntemleri Birçok öğrenme yöntemi Gradyen tabanlı (Gradient Descent) veya yinelemeli (iterative) yaklaşımlar şeklindedir. Geri yayılımlı (Back-Propagation) en çok popüler yöntemlerden biridir. Radyal tabanlı fonksiyon, (RBF), için en küçük kareler yöntemi kullanılmaktadır. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 11. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce Aşırı Öğrenme Makinesi Yinelemeli Güncelleme Olmadan Öğrenme All these hidden node parameters can be randomly generated without the knowledge of the training data. That is, for any continuous target function f and any randomly generated sequence limL→∞ ||f (x) − fL(x)|| = limL→∞ ||f (x) − L i=1 βi G(ai , bi , x)|| = 0 holds with probability one if βi is chosen to minimize ||f (x) − fL(x)||, ∀i Gizli katman parametreleri için herhangibir ayarlama gerekmemektedir. G.-B. Huang, et al., “Universal approximation using incremental constructive feedforward networks with random hidden nodes,” IEEE Transactions on Neural Networks, vol. 17, no. 4, pp. 879-892, 2006. G.-B. Huang, et al., “Convex incremental extreme learning machine,” Neurocomputing, vol. 70, pp. 3056-3062, 2007. G.-B. Huang, et al., “Enhanced random search based incremental extreme learning machine,” Neurocomputing, vol. 71, pp. 3460-3468, 2008. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 12. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce Aşırı Öğrenme Makinesi Şekil: İleri Yayılımlı Yapay Sinir Ağları Matematik Modeli N adet rassal seçilmiş örneklem uzayı, (xi , ti ) ∈ Rn × Rm , "İleri Yayılımlı Yapay Sinir Ağları" için L adet gizli düğüm ve her bir gizli düğüm için çıktı fonksiyonu G(ai , bi , x) olmak üzere model şu şekilde ifade edilir: L i=1 βi G(ai , bi , xj ) = tj , j = 1, ..., N (6) (ai , bi ): gizli düğüm parametreleri βi : i. gizli düğüm ile çıktı düğümünü bağlayan ağırlık vektörü. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 13. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce Aşırı Öğrenme Makinesi Matematik Modeli L i=1 βi G(ai , bi , xj ) = tj , j = 1, ..., N ifadesi aynı şekilde Hβ = T ifade edilebilir.    h(x1) ... h(xN)    =    G(a1, b1, x1) · · · G(aL, bL, x1) ... ... ... G(a1, b1, xN) · · · G(aL, bL, xN)    N×L (7) β =    βT 1 ... βT L    L×m ve T =    tT 1 ... tT N    N×m (8) H, sinir ağının gizli katman çıktı matrisi, H matrisinin i. kolonu ise, x1, ..., xn girdilerinin i. gizli katman çıktılarını göstermektedir. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 14. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce Aşırı Öğrenme Makinesi Üç Aşamalı Öğrenme Modeli D = {(xi , ti )|xi ∈ Rn , ti ∈ Rm , i = 1, · · · , N} veri seti, gizli düğüm çıktı fonksiyonu G(a, b, x) ve L adet gizli düğüm olsun. 1 Rassal gizli düğüm parametrelerini atama işlemi. (ai , bi ), i = 1, · · · , L. 2 Gizli katman çıktı matrisi, H, hesapla. 3 Çıktı ağırlık vektörünü hesapla, β = Ht T. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 15. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce Aşırı Öğrenme Makinesi Belirgin Özellikler AÖM, basit matematik bilgisiyle, üç adımlı öğrenme algoritmasıdır. AÖM’nin öğrenme hızı oldukça yüksektir. Destek Vektör Makinesi veya Yapay Sinir Ağları gibi geleneksel öğrenme yöntemlerinin aksine, AÖM oldukça basit bir yöntemdir. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 16. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce AdaBoost Algoritması Algoritma AdaBoost algoritması "zayıf" sınıflandırma hipotezlerinin doğrusal kombinasyonu ile güçlü sınıflandırma hipotezi oluşturmaktadır. H(x) = sign(f (x)) = sign T t=1 αtht(x) (9) Zayıf sınıflandırma hipotezi ht(x) : X → {−1, +1}. Özellikleri Bir Meta-Algoritma’dır. Diğer öğrenme algoritmaları ile kullanılarak performanslarını artırmaktadır. Sırasıyla, her bir sınıflandırıcı hipotezin kendinden önceki hipotezlerin hatalarını kullanarak kendini güçlendirmesidir. Girdi uzayından örneklem almak yerine, bütün uzayı tekrar ağırlıklandırır. Girdi uzayında yer alan herbir örneğe bir ağırlık ataması yapılmaktadır. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 17. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce AdaBoost Algoritması Algoritma Algorithm 1: AdaBoost Algoritması Sözde Kodu. Data: D = {{(xi , yi ) | i = 1, ..., n}, xi ∈ Rp , yi ∈ {−1, +1}}m i=1 (Xn, yn) ← V for t = 1..T do ht ← AOM(Xn, yn) ypred , t ← ht(Xn) αt ← 1 2 ln 1− t t Dt+1 = Dt ×exp(−αt yi ht (xi )) Zt end for Output: hm = sign T t=1 αtht(x) Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 18. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce MapReduce Şekil: Anahtar/Değer Veri Tipi Genel Bilgiler MapReduce, yüksek boyutlu veri setlerinin işlenmesine olanak sağlayan, ayrıca Google tarafından da oldukça sık kullanılan bir programlama modeli. Kullanıcılar tarafından tanımlanan Map ve Reduce fonksiyonları ve bu fonksiyonlara girdi değeri olarak verilen anahtar/değer dizileri (Key/Value pairs) kullanılmaktadır. Uygulama alanları: Bir web sayfasının adresi anahtar, HTML içeriği ise değer Graf tabanlı veri modellerinde düğüm bilgisi (id) anahtar, kendisine komşu olan düğümleri anahtar Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 19. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce MapReduce Şekil: Mapreduce mimarisi. Mimari Map fonksiyonu paralel olarak girdi veri setinde bulunan her ikiliye uygulanmaktadır. Fonksiyon bir veri alanında bulunan veri çiftlerini alarak bunları farklı bir alana veri çift listesi olarak vermektedir. Map(a1, d1) → liste(a2, d2) (10) Reduce fonksiyonu ise yine paralel olarak Map fonksiyonu tarafından ilişkilendirilmiş anahtar değer yapısına uygulayarak yeni değerler listesi oluşturmaktadır. Reduce(a2, liste(d2)) → liste(a3, d3) (11) MapReduce çatısının anahtar/değer şeklindeki çiftlerden oluşan listeyi değerler listesi şekline çevirmektedir. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 20. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Temel Fikir Modelin Gerçekleştirimi İçindekiler 1 GİRİŞ Konunun Önemi Çalışmanın Katkıları 2 ÖN BİLGİLER İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce 3 SİSTEM MODELİ Temel Fikir Modelin Gerçekleştirimi 4 BENZETİM SONUÇLARI Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar 5 SONUÇ Sonuç Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 21. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Temel Fikir Modelin Gerçekleştirimi Temel Fikir Sistem Modeli AdaBoost temelli AÖM sınıflandırma algoritmasının hesaplanması aşamasının Dağıtık ve Paralel hale getirilmesi bu çalışmanın esas görevidir. Önerilen yöntemin temel fikri, sınıflandırma topluluk fonksiyonlarının rassal veri parçaları (Xm, Ym) kullanılarak paralel olarak hesaplanmasıdır. Tablo: Sık kullanılan değişkenler ve notasyonlar. Notasyon Açıklama Notasyon Açıklama M Veri parça bölümleme uzunluğu T AdaBoost T boyutu h Sınıflandırma fonksiyonu nh AÖM’de kullanılan gizli düğüm sayısı Xm Veri seti, D, girdi değerlerinin m veri parçası Doğ Sınıflandırma hipotezinin doğruluğu Ym Veri seti, D, çıktı değerlerinin m veri parçası H. Hassasiyet Hata oranı G.C. Geri Çağırım Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 22. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Temel Fikir Modelin Gerçekleştirimi Modelin Gerçekleştirimi Modelin Gerçekleştirimi - Map Aşaması Map metodu: Girdi değeri: x, eğitim veri kümesi D’nin bir satırı Çıktı değeri: < rassalBolumId, x > anahtar/değer ikilisi Reduce aşamasına transfer Sözde Kod Algorithm 2: AdaBoostAÖM::Map Data: (x, y) ∈ D, M 1: k ← rand(0, M) 2: Output(k, (x, y)) Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 23. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Temel Fikir Modelin Gerçekleştirimi Modelin Gerçekleştirimi Modelin Gerçekleştirimi - Reduce Aşaması Map metodu: Girdi değeri: < rassalBolumId, list(x) > Çıktı değeri: Hipotez kümesi: Ht Sözde Kod Algorithm 3: AdaBoostAÖM::Reduce Data: Anahtar k, Deger V , T Result: hm = sign T t=1 αtht(x) 1: (Xn, yn) ← V 2: for t = 1..T do 3: ht ← AOM(Xn, yn) 4: ypred , t ← ht(Xn) 5: αt ← 1 2 ln 1− t t 6: Dt+1 = Dt ×exp(−αt yi ht (xi )) Zt 7: end for Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 24. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Temel Fikir Modelin Gerçekleştirimi Modelin Gerçekleştirimi Şekil: Genel Mimari. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 25. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar İçindekiler 1 GİRİŞ Konunun Önemi Çalışmanın Katkıları 2 ÖN BİLGİLER İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce 3 SİSTEM MODELİ Temel Fikir Modelin Gerçekleştirimi 4 BENZETİM SONUÇLARI Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar 5 SONUÇ Sonuç Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 26. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar Deneysel Kurulum Tablo: Kullanılan veri setlerinin bilgileri. Veri seti # Eğitim # Test # Sınıf # Öz nitelik Pendigit 7495 3498 10 64 Skin 220543 24507 2 4 Statlog 43500 25000 10 7 Page-blocks 4500 973 5 10 Kullanılan Altyapı 64bit Python 2.7 MrJOB (MapReduce Streaming) Sckit-Learn Makine Öğrenme Kütüphanesi Scientific Python (SciPy), Numeric Python (NumPy) Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 27. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar Veri setlerinin Standart AÖM ile sonuçları Ön Bilgiler nh değeri, 1 – 500 arasında değişmektedir. Performans ölçümleri için doğruluk, hassasiyet, geri çekilme ve F1 değerleri kullanılmıştır. Tablo: Veri setlerinin standart AÖM sonuçları. Veri S. nh. Doğ. H. G.C. F1 Pendigit 149 0,8404 0,8393 0,8416 0,8407 Skin 98 0,9754 0,9956 0,9583 0,9894 Statlog 249 0,8871 0,8556 0,9237 0,9757 Page Blocks 498 0,9873 0,9794 0,9988 0,9977 Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 28. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar Model Ölçümü Sınıflandırıcı Hipotez Model Ölçümü Ortalama doğruluk Ortalama hassasiyet: Hassasiyet = Dogru Dogru+Hata , Hassasiyetort = 1 nsinif nsinif −1 i=0 Hassasiyeti , Ortalama geri çekim: Geri Cekilme = Dogru Dogru+Kayip , Geri Cekilmeort = 1 nsinif nsinif −1 i=0 GeriCekilmei F1 ölçümü: F1 = 2 × Hassasiyetort ×GeriCekilmeort Hassasiyetort +GeriCekilmeort Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 29. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar Model Ölçüm Sonuçları Tablo: Veri setlerinin en iyi performans sonuçları. Veri S. # C. T # H.N. Doğ. H. G.C. F1 Pendigit 20 10 21 0,8256 0,8369 0,8234 0,8301 Skin 21 5 21 0,9892 0,9773 0,9913 0,9842 Statlog 11 2 21 0,9103 0,7486 0,5069 0,6045 Page Blocks 1 1 340 0,9404 0,9027 0,5756 0,7030 Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 30. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar Model Ölçüm Sonuçları M T 3 5 7 9 11 13 15 17 19 21 2 3 4 5 6 7 8 9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (a) Bölümleme ve adaboost T boyu M nh 3 5 7 9 11 13 15 17 19 21 1 3 5 7 9 11 13 15 17 19 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (b) Bölümleme ve gizli düğüm sayısı. T nh 2 3 4 5 6 7 8 9 1 3 5 7 9 11 13 15 17 19 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (c) AdaBoost T boyu ve gizli düğüm sayısı. Şekil: Statlog veri kümesi ısı haritası. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 31. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar Model Ölçüm Sonuçları M T 2 4 6 8 10 12 14 16 18 20 1 2 3 4 5 6 7 8 9 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (a) Bölümleme ve adaboost T boyu M nh 2 4 6 8 10 12 14 16 18 20 1 3 5 7 9 11 13 15 17 19 21 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (b) Bölümleme ve gizli düğüm sayısı. T nh 1 2 3 4 5 6 7 8 9 10 1 3 5 7 9 11 13 15 17 19 21 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (c) AdaBoost T boyu ve gizli düğüm sayısı. Şekil: Pendigit veri kümesi ısı haritası. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 32. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar Model Ölçüm Sonuçları M T 1 3 5 7 9 11 13 15 17 19 21 1 2 3 4 5 6 7 8 9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (a) Bölümleme ve adaboost T boyu M nh 1 3 5 7 9 11 13 15 17 19 21 1 3 5 7 9 11 13 15 17 19 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (b) Bölümleme ve gizli düğüm sayısı. T nh 1 2 3 4 5 6 7 8 9 1 3 5 7 9 11 13 15 17 19 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (c) AdaBoost T boyu ve gizli düğüm sayısı. Şekil: Skin veri kümesi ısı haritası. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 33. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar Model Ölçüm Sonuçları M T 1 3 5 7 9 1 2 3 4 5 6 7 8 9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (a) Bölümleme ve adaboost T boyu M nh 1 3 5 7 9 11 13 15 17 19 21 20 40 60 80 100 120 140 160 180 200 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (b) Bölümleme ve gizli düğüm sayısı. T nh 1 2 3 4 5 6 7 8 9 20 40 60 80 100 120 140 160 180 200 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (c) AdaBoost T boyu ve gizli düğüm sayısı. Şekil: Page blocks veri kümesi ısı haritası. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 34. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar Sınıflandırma Modeli Stabilite Analizi Number of Mappers 0 2 4 6 8 10 12 14 16 18 20 StandartSapma 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 pageblocks pendigits skin statlog waveform (a) Mapper M. AdaBoost T 0 1 2 3 4 5 6 7 8 9 10 11 StandartSapma 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 pageblocks pendigits skin statlog waveform (b) AdaBoost T. Şekil: Sınıflandırma modeli stabilite analizi Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 35. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Sonuç İçindekiler 1 GİRİŞ Konunun Önemi Çalışmanın Katkıları 2 ÖN BİLGİLER İleri Yayılımlı Yapay Sinir Ağları Aşırı Öğrenme Makinesi AdaBoost MapReduce 3 SİSTEM MODELİ Temel Fikir Modelin Gerçekleştirimi 4 BENZETİM SONUÇLARI Deneysel Kurulum Veri setlerinin Standart AÖM ile sonuçları Sonuçlar 5 SONUÇ Sonuç Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 36. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Sonuç SONUÇ Sonuç Amaç: MapReduce temelli AdaBoost AÖM algoritması uygulaması, yüksek boyutlu veri setlerinin eğitilmesi için önerilmiştir. Girdi matrisini parçalara ayırarak, AÖM sınıflandırmasının eğitim aşamasının karmaşıklığı azaltılmaktadır. Sınıflandırma performans azalması için AdaBoost ile desteklenmiştir. Sadece eğitim karmaşıklığı azalmamakta, geleneksel AÖM sınıflandırma performansı artmaktadır. Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 37. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Sonuç SONUÇ Sonuç Deneysel sonuçlar: M ve T, nh’a göre sınıflandırma performansına olan etkisi daha fazla Tablo 5 ve Tablo 6 karşılaştırıldığında, model karmaşıklık göstergesi olarak düşünülen, nh sayısında azalma olduğu görülmektedir. Sadece girdi matrisi karmaşıklığı değil, model karmaşıklığıda azalmaktadır. Tablo: Standart AÖM. Veri S. nh. Pendigit 149 Skin 98 Statlog 249 Page Blocks 498 Tablo: Önerilen Yöntem. Veri S. nh. Pendigit 21 Skin 21 Statlog 21 Page Blocks 340 Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala
  • 38. GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Sonuç SORULAR SORULAR Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala