SlideShare a Scribd company logo
1 of 50
Download to read offline
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi
Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının
Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Dr. Ferhat ¨Ozg¨ur C¸ATAK
T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
16 Ekim 2014
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sunum Planı
Giri¸s
¨Ozet
Genel Kısımlar
E¸sle/˙Indirge (MapReduce)
Destek Vekt¨or Makinesi
Malzeme ve Y¨ontem
E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması
S¨ozde DVM Kodu
Sınıflandırma Modeli De˘gerlendirilmesi
Bulgular
Sosyal Medya Veri Seti
Uygulama Kapsamı
TF × IDF Vekt¨or Uzayı
Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi
Sonu¸clar
Sonu¸c
Sonu¸c
Sorular
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
¨Ozet
¨Ozet
C¸alı¸sma ¨Ozeti
DVM sınıflandırma algoritmasının E¸sle/˙Indirge (MapReduce) tekni˘gi ile y¨uksek
boyutlu veri setlerinin e˘gitilmesi
C¸alı¸smanın deneysel kısmında T¨urkiye’de bulunan vakıf ve devlet ¨universitelerinin
sosyal medya mesaj veri seti ile sınıflandırılması. E¸sle/˙Indirge tekni˘gi ile ortaya
¸cıkan modellerin testi
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sunum Planı
Giri¸s
¨Ozet
Genel Kısımlar
E¸sle/˙Indirge (MapReduce)
Destek Vekt¨or Makinesi
Malzeme ve Y¨ontem
E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması
S¨ozde DVM Kodu
Sınıflandırma Modeli De˘gerlendirilmesi
Bulgular
Sosyal Medya Veri Seti
Uygulama Kapsamı
TF × IDF Vekt¨or Uzayı
Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi
Sonu¸clar
Sonu¸c
Sonu¸c
Sorular
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
E¸sle/˙Indirge (MapReduce)
E¸sle/˙Indirge (MapReduce)
E¸sle/˙Indirge (MapReduce)
Bulut bili¸sim hizmet sa˘glayıcıları, servis olarak platform t¨ur¨unde verdikleri hizmetlerde
standart olarak E¸sle/˙Indirge (MapReduce) tekni˘ginin bir ¨orne˘gini sunmaktadırlar.
Amazon ¨uzerinde Amazon Elastic MapReduce.
Microsoft Windows Azure sistemi ¨uzerinde Project Daytona.
Google App Engine ¨uzerinde MapReduce
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
E¸sle/˙Indirge (MapReduce)
E¸sle/˙Indirge (MapReduce)
Y¨uksek boyutlu veri seti kullanımı gerektiren uygulamalarda en uygun ¸c¨oz¨um, veri
setinin alt k¨umelere par¸calanmasıdır. Bu ¸sekilde b¨uy¨uk problemin daha ufak alt
problemlere par¸calanması hedeflenir.
E¸sle/˙Indirge y¨ontemi y¨uksek boyutlu veri setlerinin i¸slenmesinde kullanılan, ayrıca
Google tarafından da olduk¸ca sık kullanılan bir programlama modelidir [24].
Kullanıcılar tarafından tanımlanan e¸sle (map) ve indirge (reduce) fonksiyonları ve
bu fonksiyonlara girdi de˘geri olarak verilen ¸ca˘grı¸sımsal diziler (Key-Value pairs)
kullanılmaktadır.
E¸sle fonksiyonu paralel olarak girdi veri setine uygulanır. Bir veri alanında bulunan veri ¸ciftlerini
alarak bunları farklı bir alana veri ¸cift listesine ¸cevirir.
esle(a1, d1) → liste(a2, d2)
˙Indirge fonksiyonu, e¸sle fonksiyonu tarafından ili¸skilendirilmi¸s anahtar de˘ger yapısına uygulanır, yeni
de˘gerler listesi olu¸sturulur.
indirge(a2, liste(d2)) → liste(a3, d3)
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
E¸sle/˙Indirge (MapReduce)
E¸sle/˙Indirge (MapReduce)
D = {(xi, yi)|xi ∈ Rm
, y ∈ {−1, +1}}n
i=1 (1)
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
E¸sle/˙Indirge (MapReduce)
Data: docid a, doc d
initialization;
1: for each t ∈ doc d do
2: Emit(term t,count 1)
3: end for
Algorithm 1: E¸sle (Mapper)
Data: term t, counts ∈ [c1, ..., cn]
initialization;
sum ← 0
2: for each count c ∈ counts[c1, ..., cn] d do
sum ← sum + c
4: end for
Emit(term t,count sum)
Algorithm 2: ˙Indirge (Reducer)
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Destek Vekt¨or Makinesi
Destek Vekt¨or Makinesi
Destek Vekt¨or Makinesi
˙Istatistik ve bilgisayar bilimlerinde verilerin analiz edilmesi, bu verilerden desenlerin
¸cıkarılmasıyla sınıflandırma ve regresyon problemlerinde kullanılan bir y¨ontemdir.
Yapısal risk minimizasyonu kullanır. ¨O˘grenme modelinin a¸sırı ¨o˘grenmesi problemi
yoktur.
Konveks optimizasyon problemi. Lokal minimum olmadı˘gından, problemin tek
¸c¨oz¨um¨u mevcut.
Do˘grusal sınıflandırıcı denklemin a˘gırlık vekt¨or¨u, e˘gitim veri setinde bulunan
destek vekt¨orleri kullanılır. Destek vekt¨orlerinin sayıları, sınıflandırıcı fonksiyonun
genelleme hatasını verir.
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Destek Vekt¨or Makinesi
Destek Vekt¨or Makinesi
S¸ekil : ˙Ikili sınıflandırma i¸cin e˘gitim setini +1 ve −1 ¸seklinde ikiye ayıran hiperd¨uzlemlerin
g¨osterimi.
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Destek Vekt¨or Makinesi
Destek Vekt¨or Makinesi
S¸ekil : Sert marjin do˘grusal ayrı¸stırılabilir veri seti. Optimal ayıran sınıflandırıcı fonksiyon ve marjin
de˘gerleri g¨osterilmektedir.
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Destek Vekt¨or Makinesi
Destek Vekt¨or Makinesi
Destek Vekt¨or Makinesi - Primal Form
Ama¸c: f(x) = w.x + b bulmak.
˙Iki paralel d¨uzlem arası uzaklık: 1
w
alternatif yakla¸sım 1
2
||w||2 - Kuadratik optimizasyon problemine d¨on¨u¸st¨ur¨ulebilir.
h(x) = arg min
w∈Rm
1
2
||w||2
kısıt : yi(wi × x) ≥ 1, i = 1, ..., n (2)
Lagranj Fonksiyonu - Primal Form
C¸¨oz¨um : Lagranj fonksiyonu
L(w, b, α) =
1
2
||w||2
−
n
i=1
αi(yi(wi × xi + b) − 1) (3)
∂L(w, b, α)
∂wi
= 0, i = 1, ..., n w =
n
i=1
αiyixi
∂L(w, b, α)
= 0, i = 1, ..., n 0 =
n
αiyi
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sunum Planı
Giri¸s
¨Ozet
Genel Kısımlar
E¸sle/˙Indirge (MapReduce)
Destek Vekt¨or Makinesi
Malzeme ve Y¨ontem
E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması
S¨ozde DVM Kodu
Sınıflandırma Modeli De˘gerlendirilmesi
Bulgular
Sosyal Medya Veri Seti
Uygulama Kapsamı
TF × IDF Vekt¨or Uzayı
Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi
Sonu¸clar
Sonu¸c
Sonu¸c
Sorular
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması
E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması
Da˘gıtık DVM Sınıflandırma Algoritması
Veri seti par¸calanmakta,alt veri setleri e˘gitilerek nihai bir sınıflandırma hipotezi
¸cıkarılmaya ¸calı¸sılmaktadır.
S¸ekil : E¸sle/˙Indirge DVM algoritmasının genel yapısı.
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
S¨ozde DVM Kodu
E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması
1: DV Global ← ∅
2: while ht = ht−1 do
3: for l ∈ L do
4: Dt
l ← Dt
l ∪ DV t
Global
5: end for
6: end while
Algorithm 3: Destek vekt¨or makinesi E¸sle fonksiyonu
1: while ht = ht−1 do
2: for l ∈ L do
3: DV l, ht ← SV M(Dl)
4: end for
5: for l ∈ L do
6: DV Global ← DV Global ∪ DV l
7: end for
8: end while
Algorithm 4: Destek vekt¨or makinesi ˙Indirge fonksiyonu
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sınıflandırma Modeli De˘gerlendirilmesi
Sınıflandırma Modeli De˘gerlendirilmesi
Sınıflandırma Modeli De˘gerlendirilmesi
Hipotez k¨umesi i¸cerisinde model de˘gerlendirilmesi i¸sleminde kayıp fonksiyonu olarak
Hinge kayıp fonksiyonu kullanılmı¸stır. Marjin ne kadar ihlal ediliyorsa daha fazla ceza
de˘geri cıkmaktadır.
l((w.φ(x) + b), y) = max{0, 1 − y(w.φ(x) + b)}
l(h(x), y) = max{0, 1 − y(w.φ(x) + b)}
(4)
Modelin deneysel risk de˘geri ise ¸su ¸sekilde olacaktır.
RDeneysel(h) =
1
n
n
i=1
l(h(xi), yi) (5)
Deneysel riskin minimize edilmesi prensibine g¨ore, ¨o˘grenme algoritması H hipotez
uzayında yer alan sınıflandırıcı modeller arasında deneysel riski en d¨u¸s¨uk olan h∗
sınıflandırıcı modelini se¸cmelidir.
h∗
= arg min
h∈H
RDeneysel(h) (6)
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sınıflandırma Modeli De˘gerlendirilmesi
Sınıflandırma Modeli De˘gerlendirilmesi
Sınıflandırma Modeli De˘gerlendirilmesi
Model, en d¨u¸s¨uk deneysel riskin de˘gi¸simine g¨ore kendini sonlandırmaktadır.
Algoritmanın durması i¸cin gerekli olan ko¸sul ¸su ¸sekildedir.
|RDeneysel(ht
) − RDeneysel(ht−1
)| ≤ η, η ≥ 0 (7)
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sunum Planı
Giri¸s
¨Ozet
Genel Kısımlar
E¸sle/˙Indirge (MapReduce)
Destek Vekt¨or Makinesi
Malzeme ve Y¨ontem
E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması
S¨ozde DVM Kodu
Sınıflandırma Modeli De˘gerlendirilmesi
Bulgular
Sosyal Medya Veri Seti
Uygulama Kapsamı
TF × IDF Vekt¨or Uzayı
Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi
Sonu¸clar
Sonu¸c
Sonu¸c
Sorular
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sosyal Medya Veri Seti
Sosyal Medya Veri Seti
Uygulama
T¨urk ¨Universitelerinin sosyal medya mesajları, E¸sle/˙Indirge tekni˘gi kullanılarak
geli¸stirilen da˘gıtık ve paralel DVM ¨o˘grenme modeli kullanılarak elde edilen
deneysel sonu¸cları verilecektir.
C¸alı¸smanın teorik kısmında yer alan DVM sınıflandırma algoritması ile bu ¸calı¸sma
kapsamında ¨onerilen model olan E¸sle/˙Indirge tabanlı DVM sınıflandırma
algoritması e˘gitiminin T¨urkiye’de bulunan ¨universitelerin sosyal medya mesajlarına
g¨ore duygu analizi(Sentiment Analysis) i¸cin bir uygulama yapılmı¸stır.
Duygu Analizi
Duygu analizi, bir metin par¸casının herhangi bir konu hakkında duygu veya d¨u¸s¨unce
i¸cerdi˘gini ve i¸cermesi durumunda bu metinin kutupsal de˘gerini ¨ol¸cmek i¸cin kullanılan
otomatik bir s¨ure¸ctir.
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Uygulama Kapsamı
Uygulama Kapsamı
Uygulama Kapsamı
C¸alı¸smada T¨urkiye’de bulunan 108 adet devlet ¨universitesi ve 66 adet vakıf
¨universitesi olmak ¨uzere ele alınmı¸stır.
Sınıflandırma modelinin olu¸sturulması i¸cin ise ¨universiteler sosyal medya mesaj
veri setinden farklı olarak 3.404.074 mesaj kullanılmı¸stır.
Uygulama i¸cin Java tabanlı bir uygulama geli¸stirilerek Twitter Stream API v1.1
kullanılmı¸stır. ¨Universite adlarından ve resmi Twitter hesaplarından olu¸san bir
kelime vekt¨or¨u olu¸sturulmu¸stur. Olu¸sturulan bu kelime vekt¨or¨u ile Twitter4j API
bile¸seni kullanılarak Twitter izlenmeye ba¸slanmı¸stır.
C¸alı¸sma kapsamında geli¸stirilen uygulama mesajları MySQL veri tabanına kayıt
etmektedir.
Mesajlar TF × IDF matrisleri olu¸sturularak sayısal hale d¨on¨u¸st¨ur¨ulm¨u¸st¨ur.
Sayısal veri seti E¸sle/˙Indirge tabanlı DVM sınıflandırma algoritmasında e˘gitilmi¸s
ortaya ¸cıkan model sayısalla¸stırılmı¸s veri setlerinin sınıflandırılmasında
kullanılmı¸stır.
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
T F × IDF Vekt¨or Uzayı
¨Ornek Mesajlar
@UniversiteEge: Ege ¨Universitesi ailesinin yeni ¨uyeleri, hepiniz Ege’ye
ho¸sgeldiniz... Ege’li Olmak Ayrıcalıktır...
@serdargokalp Ege ¨Universitesi festival toplulu˘gu ve t¨um ege ¨universitesi olarak;
seni aramızda g¨ormek istiyoruz.
@LeylaMecnunDizi ¨universitemizde sizi g¨ormekten ¸cok b¨uy¨uk mutluluk duyarız
Leyla ile Mecnun ekibi. ”Ege ¨Universitesi”
@ismailbaki sizi Ege ¨Universitesi’nde g¨ormek istiyoruz
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
T F × IDF Vekt¨or Uzayı
Kelime 1. Mesaj 2. Mesaj 3. Mesaj 4. Mesaj
@ismailbaki 0 0 0 1
@LeylaMecnunDizi 0 0 1 0
@serdargokalp 0 1 0 0
@UniversiteEge 1 0 0 0
ailesinin 1 0 0 0
aramızda 0 1 0 0
Ayrıcalıktır 1 0 0 0
b¨uy¨uk 0 0 1 0
¸cok 0 0 1 0
duyarız 0 0 1 0
Ege 3 2 1 1
ekibi 0 0 1 0
festival 0 1 0 0
g¨ormek 0 1 0 1
g¨ormekten 0 0 1 0
hepiniz 1 0 0 0
ho¸sgeldiniz 1 0 0 0
ile 0 0 1 0
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
T F × IDF Vekt¨or Uzayı
Transpoz Hali
Her bir mesaj i¸cin terim frekansı g¨osterilmektedir.
1. Mesaj 0,0,0,1,1,0,1,0,0,0,3,0,0,0,0,1,1,0,0,0,0,0,0,1,0,0,0,0,1,1,0,1
2. Mesaj 0,0,1,0,0,1,0,0,0,0,2,0,1,1,0,0,0,0,0,0,0,0,1,0,1,0,1,1,2,0,1,0
3. Mesaj 0,1,0,0,0,0,0,1,1,1,1,1,0,0,1,0,0,1,0,1,1,1,0,0,0,1,0,0,1,0,0,0
4. Mesaj 0,1,0,0,0,0,0,1,1,1,1,1,0,0,1,0,0,1,0,1,1,1,0,0,0,1,0,0,1,0,0,0
Ters d¨ok¨uman frekansı
Sadece terim frekansları ile olu¸sturulan veri seti, her terime e¸sit ¨onem verir. ¨Ornek veri
setimizde ”¨universite” kelimesi olduk¸ca sık ge¸cmektedir. Terim t’nin derlemde yer alan
N adet mesajda g¨or¨ulme frekansi, dokuman frekansı, dft, olarak adlandırılır. Ters
dokuman frekansı ¸su ¸sekilde tanımlanır.
idft = log
N
dft
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
T F × IDF Vekt¨or Uzayı
IDF de˘gerleri
Her bir nitelik(terim) i¸cin idf de˘geri hesaplanır. ¨ornek verisetimizde ”ege” kelimesi her
4 mesajda ge¸cmektedir. Bu durumda idfege = log 4
4
= 0 olacaktır.
Terim Terim
@ismailbaki 0,6021 ho¸sgeldiniz 0,6021
@LeylaMecnunDizi 0,6021 ile 0,6021
@serdargokalp 0,6021 istiyoruz 0,6021
@UniversiteEge 0,6021 Leyla 0,6021
ailesinin 0,6021 Mecnun 0,6021
aramızda 0,6021 mutluluk 0,6021
Ayrıcalıktır 0,6021 olarak 0,6021
b¨uy¨uk 0,6021 Olmak 0,6021
¸cok 0,6021 seni 0,6021
duyarız 0,6021 sizi 0,301
Ege 0 toplulu˘gu 0,6021
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
T F × IDF Vekt¨or Uzayı
TF × IDF Vekt¨or Uzayı
Her bir dokumanda yer alan terimlerin agırlıklarını hesaplamak icin terim frekansı ve
ters dokuman frekansı birlestirilerek terim frekansı-ters dokuman frekansı (TF-IDF)
matrisi olusturulur.
TF × IDF = tft,d × idft
TF-IDF modeli, dokuman d icinde yer alan terim t’ye su sekilde agırlık atamaktadır:
Terim t az sayıda dokumanda bulunması durumunda idf degeri yuksek
cıkmaktadır. Bu sekilde dokumanlar arasında yuksek ayırt edici guce sahip
olmaktadır.
Terim t bir dokuman icerisinde az gorulmesi veya bircok dokumanda gorunmesi
durumunda TF × IDF degeri dusuk cıkmaktadır.
Terim t hemen hemen butun dokumanlarda bulunması durumunda dusuk
olmaktadır.
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
T F × IDF Vekt¨or Uzayı
¨Ornek Veri Seti Tf-Idf Matrisi
Terim Mesaj 1 Mesaj 2 Mesaj 3 Mesaj 4
@ismailbaki 0 0 0 0,60206
@LeylaMecnunDizi 0 0 0,60206 0
@serdargokalp 0 0,60206 0 0
@UniversiteEge 0,60206 0 0 0
ailesinin 0,60206 0 0 0
aramızda 0 0,60206 0 0
Ayrıcalıktır 0,60206 0 0 0
b¨uy¨uk 0 0 0,60206 0
¸cok 0 0 0,60206 0
duyarız 0 0 0,60206 0
Ege 0 0 0 0
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sosyal Medya Mesajlarının T F × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi
Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi
Veri seti Boyutu
˙Insanlar duygularını ifade etmek i¸cin kullandı˘gı temel bazı kelimeler bulunmaktadır. Bu
kelimelerden olu¸san bir liste ¸cıkarılarak iki sınıflı, ¨u¸c sınıflı ve be¸s sınıflı veri setleri
olu¸sturulmu¸stur.
Tablo : DVM sınıflandırma algoritması e˘gitim a¸samasında kullanılacak veri setlerinin boyutuları
Sınıf Etiket Sayısı Mesaj sayısı
2 Sınıf 347.158
3 Sınıf 335.070
5 Sınıf 360.000
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sosyal Medya Mesajlarının T F × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi
Veri seti olu¸sturulması i¸cin kullanılan kelimeler
Tablo : ˙Iki sınıflı sınıflandırma veri seti i¸cin kullanılan kelimelerin listesi
Sınıflandırma Kelimeler
Pozitif g¨uzel, iyi, hayırlı, canım, mutlu, sevgili, a¸sk, seviyorum, te¸sekk¨ur, tatlı,
komik, g¨uld¨um, a¸skım, ho¸s, hediye, ho¸sgeldin, ¸seker, iyisi, muhte¸sem,
ma¸sallah, m¨ukemmel, g¨uzel, e˘glence, g¨ulmek, tebrikler, m¨uthi¸s, yakı¸sır,
keyifli, de˘gerli, sevindim, cesaret, minnet, g¨on¨ulden, kutluyorum, kazan-
mak, ¸cabalarını, i¸sbirli˘gi
Negatif yasak, y¨uzs¨uz, arsız, zul¨um, vahim, inkarcı, bedel, tasfiye, utan¸c, yalan,
su¸c, taciz, cahillik, ¨otekile¸stirme, yanıltıcı, yoksun, hesapla¸sma, yalan,
k¨uf¨ur, k¨ot¨u, katliam, ¨ol¨um, hakaret, ¸serefsiz, zorluklar
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sosyal Medya Mesajlarının T F × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi
Veri seti olu¸sturulması i¸cin kullanılan kelimeler
Tablo : ¨U¸c sınıflı sınıflandırma veri seti i¸cin kullanılan kelimelerin listesi
Sınıflandırma Kelimeler
Pozitif g¨uzel, iyi, hayırlı, canım, mutlu, sevgili, a¸sk, seviyorum, te¸sekk¨ur, tatlı,
komik, g¨uld¨um, a¸skım, ho¸s, hediye, ho¸sgeldin, ¸seker, iyisi, muhte¸sem,
ma¸sallah, m¨ukemmel, g¨uzel, e˘glence, g¨ulmek, tebrikler, m¨uthi¸s, yakı¸sır,
keyifli, de˘gerli, sevindim, cesaret, minnet, g¨on¨ulden, kutluyorum, kazan-
mak, ¸cabalarını, i¸sbirli˘gi
Negatif yasak, y¨uzs¨uz, arsız, zul¨um, vahim, inkarcı, bedel, tasfiye, utan¸c, yalan,
su¸c, taciz, cahillik, ¨otekile¸stirme, yanıltıcı, yoksun, hesapla¸sma, yalan,
k¨uf¨ur, k¨ot¨u, katliam, ¨ol¨um, hakaret, ¸serefsiz, zorluklar
N¨otr Bu kelimeleri i¸cermeyen mesajlar.
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sosyal Medya Mesajlarının T F × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi
Veri seti olu¸sturulması i¸cin kullanılan kelimeler
Tablo : Be¸s sınıflı sınıflandırma veri seti i¸cin kullanılan kelimelerin listesi
Sınıflandırma Kelimeler
Kutup 1 a˘glıyorum, cahillik, hakaret, katliam, k¨ot¨u, k¨uf¨ur, lanet, nefret, ¨ol¨um,
¸serefsiz, taciz, utan¸c, vahim, vefat, yasak, y¨uzs¨uz, zul¨um
Kutup 2 hesapla¸sma, inkarcı, maalesef, ¨otekile¸stirme, sıkıldım, su¸c, tasfiye,
¨uzg¨un¨um, ¨uz¨uc¨u, ¨uz¨uld¨um, ¨uz¨ul¨uyorum, yalan, yanıltıcı, yanlı¸s, yazık, yok-
sun, zorluklar
Kutup 3 Kutup 1,2,4 ve 5’de yer alan kelimeleri i¸cermeyen mesajlar.
Kutup 4 g¨uzel, iyi, hayırlı, te¸sekk¨ur, ho¸s, hediye, ho¸sgeldin, iyisi, muhte¸sem,
ma¸sallah, m¨ukemmel, e˘glence, m¨uthi¸s, yakı¸sır, de˘gerli, cesaret, minnet,
¸cabalarını, i¸sbirli˘gi
Kutup 5 canım, mutlu, sevgili, a¸sk, seviyorum, tatlı, komik, g¨uld¨um, a¸skım, ¸seker,
g¨uzel, g¨ulmek, tebrikler, keyifli, sevindim, g¨on¨ulden, kutluyorum, kazan-
mak
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sosyal Medya Mesajlarının T F × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi
B¨ut¨un S¨ure¸c
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
˙Iki sınıflı DVM sınıflandırma modeli
S¸ekil : ˙Iki sınıflı DVM sınıflandırma modelinin karma¸sıklık matrisi
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
˙Iki sınıflı sınıflandırma sonu¸cları
S¸ekil : En y¨uksek mesaj sayısına g¨ore ilk 10 ¨universitenin iki sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
˙Iki sınıflı sınıflandırma sonu¸cları
S¸ekil : Olumlu mesaj oranına g¨ore ilk 10 ¨universitenin iki sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
˙Iki sınıflı sınıflandırma sonu¸cları
S¸ekil : Olumsuz mesaj oranına g¨ore ilk 10 ¨universitenin iki sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
¨U¸c sınıflı DVM sınıflandırma modeli
S¸ekil : ¨U¸c sınıflı DVM sınıflandırma modelinin karma¸sıklık matrisi
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
¨U¸c sınıflı sınıflandırma sonu¸cları
S¸ekil : Mesaj sayısına g¨ore ilk 10 ¨universitenin ¨u¸c sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
¨U¸c sınıflı sınıflandırma sonu¸cları
S¸ekil : Olumlu mesaj oranına g¨ore ilk 10 ¨universitenin ¨u¸c sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
¨U¸c sınıflı sınıflandırma sonu¸cları
S¸ekil : N¨otr mesaj oranına g¨ore ilk 10 ¨universitenin ¨u¸c sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
¨U¸c sınıflı sınıflandırma sonu¸cları
S¸ekil : Olumsuz mesaj oranına g¨ore ilk 10 ¨universitenin ¨u¸c sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
Be¸s sınıflı DVM sınıflandırma modeli
S¸ekil : Be¸s sınıflı DVM sınıflandırma modelinin karma¸sıklık matrisi
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
Be¸s sınıflı sınıflandırma sonu¸cları
S¸ekil : Mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
Be¸s sınıflı sınıflandırma sonu¸cları
S¸ekil : Kutup 1 mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
Be¸s sınıflı sınıflandırma sonu¸cları
S¸ekil : Kutup 2 mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
Be¸s sınıflı sınıflandırma sonu¸cları
S¸ekil : Kutup 3 mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
Be¸s sınıflı sınıflandırma sonu¸cları
S¸ekil : Kutup 4 mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸clar
Be¸s sınıflı sınıflandırma sonu¸cları
S¸ekil : Kutup 5 mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sunum Planı
Giri¸s
¨Ozet
Genel Kısımlar
E¸sle/˙Indirge (MapReduce)
Destek Vekt¨or Makinesi
Malzeme ve Y¨ontem
E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması
S¨ozde DVM Kodu
Sınıflandırma Modeli De˘gerlendirilmesi
Bulgular
Sosyal Medya Veri Seti
Uygulama Kapsamı
TF × IDF Vekt¨or Uzayı
Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi
Sonu¸clar
Sonu¸c
Sonu¸c
Sorular
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sonu¸c
Sonu¸c
C¸alı¸sma Sonu¸cları
Makine ¨o˘grenmesinde kullanılan veri setleri her ge¸cen g¨un artmakta
B¨uy¨uk veri (Big Data) ¸seklinde tanımlanan kavram ¨uzerinde makine ¨o˘grenme
y¨ontemleri uygulanabilmesi i¸cin ¸ce¸sitli ara¸stırmalar yapılmaktadır
Bundan sonraki ¸calı¸smalarda, olu¸sturulan sınıflandırma modelinin zaman
i¸cerisinde g¨uncellenmesi d¨u¸s¨un¨ulmekte
Sosyal medya ¨uzerinde yer alan mesajların i¸ceri˘gi zaman i¸cerisinde de˘gi¸sece˘ginden
dolayı zaman i¸cerisinde kendini g¨uncelleyen e˘gitim veri seti kullanılarak
sınıflandırma modelinin g¨uncelli˘gini koruması gereklidir.
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c
Sorular
Sorular?
Sorular?
Dr. Ferhat ¨Ozg¨ur C¸ATAK
T¨UB˙ITAK - B˙ILGEM - Siber G¨uvenlik Enstit¨us¨u
ozgur.catak@tubitak.gov.tr
http://tr.linkedin.com/in/ozgurcatak
@ozgurcatak
Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u
E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi

More Related Content

Viewers also liked

Dağıtık Servis Dışı Bırakma Saldırıları
Dağıtık Servis Dışı Bırakma SaldırılarıDağıtık Servis Dışı Bırakma Saldırıları
Dağıtık Servis Dışı Bırakma SaldırılarıFerhat Ozgur Catak
 
Sızma Testi ve Güvenlik Denetlemeleri - Giriş
Sızma Testi ve Güvenlik Denetlemeleri - GirişSızma Testi ve Güvenlik Denetlemeleri - Giriş
Sızma Testi ve Güvenlik Denetlemeleri - GirişFerhat Ozgur Catak
 
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux Bilgisi
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux BilgisiSızma Testi ve Güvenlik Denetlemeleri - Temel Linux Bilgisi
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux BilgisiFerhat Ozgur Catak
 
Temel Linux Kullanımı ve Komutları
Temel Linux Kullanımı ve KomutlarıTemel Linux Kullanımı ve Komutları
Temel Linux Kullanımı ve KomutlarıAhmet Gürel
 
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...Ferhat Ozgur Catak
 
Berezha Security
Berezha SecurityBerezha Security
Berezha SecurityVlad Styran
 
Embracing Distributed Version Control
Embracing Distributed Version ControlEmbracing Distributed Version Control
Embracing Distributed Version ControlNowell Strite
 
Dağıtık Sistemler İçin Mahremiyet Korumalı Uç Öğrenme Makinesi Sınıflandırma ...
Dağıtık Sistemler İçin Mahremiyet Korumalı Uç Öğrenme Makinesi Sınıflandırma ...Dağıtık Sistemler İçin Mahremiyet Korumalı Uç Öğrenme Makinesi Sınıflandırma ...
Dağıtık Sistemler İçin Mahremiyet Korumalı Uç Öğrenme Makinesi Sınıflandırma ...Ferhat Ozgur Catak
 
Network ve Sistem 101 etkinliği
Network ve Sistem 101 etkinliği Network ve Sistem 101 etkinliği
Network ve Sistem 101 etkinliği Ahmet Han
 
Ethical Hacking & Penetration Testing
Ethical Hacking & Penetration TestingEthical Hacking & Penetration Testing
Ethical Hacking & Penetration Testingecmee
 
Network101 murat arslan
Network101 murat arslanNetwork101 murat arslan
Network101 murat arslanMURAT ARSLAN
 
IP Security
IP SecurityIP Security
IP SecurityS H
 

Viewers also liked (19)

Ddos Sızma Testleri - 2
Ddos Sızma Testleri - 2Ddos Sızma Testleri - 2
Ddos Sızma Testleri - 2
 
Dağıtık Servis Dışı Bırakma Saldırıları
Dağıtık Servis Dışı Bırakma SaldırılarıDağıtık Servis Dışı Bırakma Saldırıları
Dağıtık Servis Dışı Bırakma Saldırıları
 
Sızma Testi ve Güvenlik Denetlemeleri - Giriş
Sızma Testi ve Güvenlik Denetlemeleri - GirişSızma Testi ve Güvenlik Denetlemeleri - Giriş
Sızma Testi ve Güvenlik Denetlemeleri - Giriş
 
Pivoting ve Tunneling
Pivoting ve TunnelingPivoting ve Tunneling
Pivoting ve Tunneling
 
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux Bilgisi
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux BilgisiSızma Testi ve Güvenlik Denetlemeleri - Temel Linux Bilgisi
Sızma Testi ve Güvenlik Denetlemeleri - Temel Linux Bilgisi
 
Temel Linux Kullanımı ve Komutları
Temel Linux Kullanımı ve KomutlarıTemel Linux Kullanımı ve Komutları
Temel Linux Kullanımı ve Komutları
 
PAROLA KIRMA SALDIRILARI
PAROLA KIRMA SALDIRILARIPAROLA KIRMA SALDIRILARI
PAROLA KIRMA SALDIRILARI
 
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...
Fuzzy Analytic Hierarchy Based DBMS Selection In Turkish National Identity Ca...
 
MapReduce based SVM
MapReduce based SVMMapReduce based SVM
MapReduce based SVM
 
Berezha Security
Berezha SecurityBerezha Security
Berezha Security
 
Windows hacking 1
Windows hacking 1Windows hacking 1
Windows hacking 1
 
Embracing Distributed Version Control
Embracing Distributed Version ControlEmbracing Distributed Version Control
Embracing Distributed Version Control
 
Hesaplamalarım
HesaplamalarımHesaplamalarım
Hesaplamalarım
 
Dağıtık Sistemler İçin Mahremiyet Korumalı Uç Öğrenme Makinesi Sınıflandırma ...
Dağıtık Sistemler İçin Mahremiyet Korumalı Uç Öğrenme Makinesi Sınıflandırma ...Dağıtık Sistemler İçin Mahremiyet Korumalı Uç Öğrenme Makinesi Sınıflandırma ...
Dağıtık Sistemler İçin Mahremiyet Korumalı Uç Öğrenme Makinesi Sınıflandırma ...
 
Tablo oluşturma
Tablo oluşturmaTablo oluşturma
Tablo oluşturma
 
Network ve Sistem 101 etkinliği
Network ve Sistem 101 etkinliği Network ve Sistem 101 etkinliği
Network ve Sistem 101 etkinliği
 
Ethical Hacking & Penetration Testing
Ethical Hacking & Penetration TestingEthical Hacking & Penetration Testing
Ethical Hacking & Penetration Testing
 
Network101 murat arslan
Network101 murat arslanNetwork101 murat arslan
Network101 murat arslan
 
IP Security
IP SecurityIP Security
IP Security
 

Eşle/İndirge Yöntemi Kullanılarak Destek Vektör Makinesi Algoritması ile Yüksek Boyutlu Sosyal Medya Mesajlarının Kutupsal Değerinin  Ölçülmesi

  • 1. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u 16 Ekim 2014 Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 2. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sunum Planı Giri¸s ¨Ozet Genel Kısımlar E¸sle/˙Indirge (MapReduce) Destek Vekt¨or Makinesi Malzeme ve Y¨ontem E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması S¨ozde DVM Kodu Sınıflandırma Modeli De˘gerlendirilmesi Bulgular Sosyal Medya Veri Seti Uygulama Kapsamı TF × IDF Vekt¨or Uzayı Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi Sonu¸clar Sonu¸c Sonu¸c Sorular Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 3. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c ¨Ozet ¨Ozet C¸alı¸sma ¨Ozeti DVM sınıflandırma algoritmasının E¸sle/˙Indirge (MapReduce) tekni˘gi ile y¨uksek boyutlu veri setlerinin e˘gitilmesi C¸alı¸smanın deneysel kısmında T¨urkiye’de bulunan vakıf ve devlet ¨universitelerinin sosyal medya mesaj veri seti ile sınıflandırılması. E¸sle/˙Indirge tekni˘gi ile ortaya ¸cıkan modellerin testi Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 4. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sunum Planı Giri¸s ¨Ozet Genel Kısımlar E¸sle/˙Indirge (MapReduce) Destek Vekt¨or Makinesi Malzeme ve Y¨ontem E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması S¨ozde DVM Kodu Sınıflandırma Modeli De˘gerlendirilmesi Bulgular Sosyal Medya Veri Seti Uygulama Kapsamı TF × IDF Vekt¨or Uzayı Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi Sonu¸clar Sonu¸c Sonu¸c Sorular Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 5. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c E¸sle/˙Indirge (MapReduce) E¸sle/˙Indirge (MapReduce) E¸sle/˙Indirge (MapReduce) Bulut bili¸sim hizmet sa˘glayıcıları, servis olarak platform t¨ur¨unde verdikleri hizmetlerde standart olarak E¸sle/˙Indirge (MapReduce) tekni˘ginin bir ¨orne˘gini sunmaktadırlar. Amazon ¨uzerinde Amazon Elastic MapReduce. Microsoft Windows Azure sistemi ¨uzerinde Project Daytona. Google App Engine ¨uzerinde MapReduce Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 6. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c E¸sle/˙Indirge (MapReduce) E¸sle/˙Indirge (MapReduce) Y¨uksek boyutlu veri seti kullanımı gerektiren uygulamalarda en uygun ¸c¨oz¨um, veri setinin alt k¨umelere par¸calanmasıdır. Bu ¸sekilde b¨uy¨uk problemin daha ufak alt problemlere par¸calanması hedeflenir. E¸sle/˙Indirge y¨ontemi y¨uksek boyutlu veri setlerinin i¸slenmesinde kullanılan, ayrıca Google tarafından da olduk¸ca sık kullanılan bir programlama modelidir [24]. Kullanıcılar tarafından tanımlanan e¸sle (map) ve indirge (reduce) fonksiyonları ve bu fonksiyonlara girdi de˘geri olarak verilen ¸ca˘grı¸sımsal diziler (Key-Value pairs) kullanılmaktadır. E¸sle fonksiyonu paralel olarak girdi veri setine uygulanır. Bir veri alanında bulunan veri ¸ciftlerini alarak bunları farklı bir alana veri ¸cift listesine ¸cevirir. esle(a1, d1) → liste(a2, d2) ˙Indirge fonksiyonu, e¸sle fonksiyonu tarafından ili¸skilendirilmi¸s anahtar de˘ger yapısına uygulanır, yeni de˘gerler listesi olu¸sturulur. indirge(a2, liste(d2)) → liste(a3, d3) Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 7. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c E¸sle/˙Indirge (MapReduce) E¸sle/˙Indirge (MapReduce) D = {(xi, yi)|xi ∈ Rm , y ∈ {−1, +1}}n i=1 (1) Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 8. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c E¸sle/˙Indirge (MapReduce) Data: docid a, doc d initialization; 1: for each t ∈ doc d do 2: Emit(term t,count 1) 3: end for Algorithm 1: E¸sle (Mapper) Data: term t, counts ∈ [c1, ..., cn] initialization; sum ← 0 2: for each count c ∈ counts[c1, ..., cn] d do sum ← sum + c 4: end for Emit(term t,count sum) Algorithm 2: ˙Indirge (Reducer) Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 9. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Destek Vekt¨or Makinesi Destek Vekt¨or Makinesi Destek Vekt¨or Makinesi ˙Istatistik ve bilgisayar bilimlerinde verilerin analiz edilmesi, bu verilerden desenlerin ¸cıkarılmasıyla sınıflandırma ve regresyon problemlerinde kullanılan bir y¨ontemdir. Yapısal risk minimizasyonu kullanır. ¨O˘grenme modelinin a¸sırı ¨o˘grenmesi problemi yoktur. Konveks optimizasyon problemi. Lokal minimum olmadı˘gından, problemin tek ¸c¨oz¨um¨u mevcut. Do˘grusal sınıflandırıcı denklemin a˘gırlık vekt¨or¨u, e˘gitim veri setinde bulunan destek vekt¨orleri kullanılır. Destek vekt¨orlerinin sayıları, sınıflandırıcı fonksiyonun genelleme hatasını verir. Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 10. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Destek Vekt¨or Makinesi Destek Vekt¨or Makinesi S¸ekil : ˙Ikili sınıflandırma i¸cin e˘gitim setini +1 ve −1 ¸seklinde ikiye ayıran hiperd¨uzlemlerin g¨osterimi. Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 11. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Destek Vekt¨or Makinesi Destek Vekt¨or Makinesi S¸ekil : Sert marjin do˘grusal ayrı¸stırılabilir veri seti. Optimal ayıran sınıflandırıcı fonksiyon ve marjin de˘gerleri g¨osterilmektedir. Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 12. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Destek Vekt¨or Makinesi Destek Vekt¨or Makinesi Destek Vekt¨or Makinesi - Primal Form Ama¸c: f(x) = w.x + b bulmak. ˙Iki paralel d¨uzlem arası uzaklık: 1 w alternatif yakla¸sım 1 2 ||w||2 - Kuadratik optimizasyon problemine d¨on¨u¸st¨ur¨ulebilir. h(x) = arg min w∈Rm 1 2 ||w||2 kısıt : yi(wi × x) ≥ 1, i = 1, ..., n (2) Lagranj Fonksiyonu - Primal Form C¸¨oz¨um : Lagranj fonksiyonu L(w, b, α) = 1 2 ||w||2 − n i=1 αi(yi(wi × xi + b) − 1) (3) ∂L(w, b, α) ∂wi = 0, i = 1, ..., n w = n i=1 αiyixi ∂L(w, b, α) = 0, i = 1, ..., n 0 = n αiyi Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 13. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sunum Planı Giri¸s ¨Ozet Genel Kısımlar E¸sle/˙Indirge (MapReduce) Destek Vekt¨or Makinesi Malzeme ve Y¨ontem E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması S¨ozde DVM Kodu Sınıflandırma Modeli De˘gerlendirilmesi Bulgular Sosyal Medya Veri Seti Uygulama Kapsamı TF × IDF Vekt¨or Uzayı Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi Sonu¸clar Sonu¸c Sonu¸c Sorular Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 14. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması Da˘gıtık DVM Sınıflandırma Algoritması Veri seti par¸calanmakta,alt veri setleri e˘gitilerek nihai bir sınıflandırma hipotezi ¸cıkarılmaya ¸calı¸sılmaktadır. S¸ekil : E¸sle/˙Indirge DVM algoritmasının genel yapısı. Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 15. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c S¨ozde DVM Kodu E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması 1: DV Global ← ∅ 2: while ht = ht−1 do 3: for l ∈ L do 4: Dt l ← Dt l ∪ DV t Global 5: end for 6: end while Algorithm 3: Destek vekt¨or makinesi E¸sle fonksiyonu 1: while ht = ht−1 do 2: for l ∈ L do 3: DV l, ht ← SV M(Dl) 4: end for 5: for l ∈ L do 6: DV Global ← DV Global ∪ DV l 7: end for 8: end while Algorithm 4: Destek vekt¨or makinesi ˙Indirge fonksiyonu Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 16. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sınıflandırma Modeli De˘gerlendirilmesi Sınıflandırma Modeli De˘gerlendirilmesi Sınıflandırma Modeli De˘gerlendirilmesi Hipotez k¨umesi i¸cerisinde model de˘gerlendirilmesi i¸sleminde kayıp fonksiyonu olarak Hinge kayıp fonksiyonu kullanılmı¸stır. Marjin ne kadar ihlal ediliyorsa daha fazla ceza de˘geri cıkmaktadır. l((w.φ(x) + b), y) = max{0, 1 − y(w.φ(x) + b)} l(h(x), y) = max{0, 1 − y(w.φ(x) + b)} (4) Modelin deneysel risk de˘geri ise ¸su ¸sekilde olacaktır. RDeneysel(h) = 1 n n i=1 l(h(xi), yi) (5) Deneysel riskin minimize edilmesi prensibine g¨ore, ¨o˘grenme algoritması H hipotez uzayında yer alan sınıflandırıcı modeller arasında deneysel riski en d¨u¸s¨uk olan h∗ sınıflandırıcı modelini se¸cmelidir. h∗ = arg min h∈H RDeneysel(h) (6) Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 17. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sınıflandırma Modeli De˘gerlendirilmesi Sınıflandırma Modeli De˘gerlendirilmesi Sınıflandırma Modeli De˘gerlendirilmesi Model, en d¨u¸s¨uk deneysel riskin de˘gi¸simine g¨ore kendini sonlandırmaktadır. Algoritmanın durması i¸cin gerekli olan ko¸sul ¸su ¸sekildedir. |RDeneysel(ht ) − RDeneysel(ht−1 )| ≤ η, η ≥ 0 (7) Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 18. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sunum Planı Giri¸s ¨Ozet Genel Kısımlar E¸sle/˙Indirge (MapReduce) Destek Vekt¨or Makinesi Malzeme ve Y¨ontem E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması S¨ozde DVM Kodu Sınıflandırma Modeli De˘gerlendirilmesi Bulgular Sosyal Medya Veri Seti Uygulama Kapsamı TF × IDF Vekt¨or Uzayı Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi Sonu¸clar Sonu¸c Sonu¸c Sorular Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 19. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sosyal Medya Veri Seti Sosyal Medya Veri Seti Uygulama T¨urk ¨Universitelerinin sosyal medya mesajları, E¸sle/˙Indirge tekni˘gi kullanılarak geli¸stirilen da˘gıtık ve paralel DVM ¨o˘grenme modeli kullanılarak elde edilen deneysel sonu¸cları verilecektir. C¸alı¸smanın teorik kısmında yer alan DVM sınıflandırma algoritması ile bu ¸calı¸sma kapsamında ¨onerilen model olan E¸sle/˙Indirge tabanlı DVM sınıflandırma algoritması e˘gitiminin T¨urkiye’de bulunan ¨universitelerin sosyal medya mesajlarına g¨ore duygu analizi(Sentiment Analysis) i¸cin bir uygulama yapılmı¸stır. Duygu Analizi Duygu analizi, bir metin par¸casının herhangi bir konu hakkında duygu veya d¨u¸s¨unce i¸cerdi˘gini ve i¸cermesi durumunda bu metinin kutupsal de˘gerini ¨ol¸cmek i¸cin kullanılan otomatik bir s¨ure¸ctir. Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 20. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Uygulama Kapsamı Uygulama Kapsamı Uygulama Kapsamı C¸alı¸smada T¨urkiye’de bulunan 108 adet devlet ¨universitesi ve 66 adet vakıf ¨universitesi olmak ¨uzere ele alınmı¸stır. Sınıflandırma modelinin olu¸sturulması i¸cin ise ¨universiteler sosyal medya mesaj veri setinden farklı olarak 3.404.074 mesaj kullanılmı¸stır. Uygulama i¸cin Java tabanlı bir uygulama geli¸stirilerek Twitter Stream API v1.1 kullanılmı¸stır. ¨Universite adlarından ve resmi Twitter hesaplarından olu¸san bir kelime vekt¨or¨u olu¸sturulmu¸stur. Olu¸sturulan bu kelime vekt¨or¨u ile Twitter4j API bile¸seni kullanılarak Twitter izlenmeye ba¸slanmı¸stır. C¸alı¸sma kapsamında geli¸stirilen uygulama mesajları MySQL veri tabanına kayıt etmektedir. Mesajlar TF × IDF matrisleri olu¸sturularak sayısal hale d¨on¨u¸st¨ur¨ulm¨u¸st¨ur. Sayısal veri seti E¸sle/˙Indirge tabanlı DVM sınıflandırma algoritmasında e˘gitilmi¸s ortaya ¸cıkan model sayısalla¸stırılmı¸s veri setlerinin sınıflandırılmasında kullanılmı¸stır. Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 21. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c T F × IDF Vekt¨or Uzayı ¨Ornek Mesajlar @UniversiteEge: Ege ¨Universitesi ailesinin yeni ¨uyeleri, hepiniz Ege’ye ho¸sgeldiniz... Ege’li Olmak Ayrıcalıktır... @serdargokalp Ege ¨Universitesi festival toplulu˘gu ve t¨um ege ¨universitesi olarak; seni aramızda g¨ormek istiyoruz. @LeylaMecnunDizi ¨universitemizde sizi g¨ormekten ¸cok b¨uy¨uk mutluluk duyarız Leyla ile Mecnun ekibi. ”Ege ¨Universitesi” @ismailbaki sizi Ege ¨Universitesi’nde g¨ormek istiyoruz Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 22. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c T F × IDF Vekt¨or Uzayı Kelime 1. Mesaj 2. Mesaj 3. Mesaj 4. Mesaj @ismailbaki 0 0 0 1 @LeylaMecnunDizi 0 0 1 0 @serdargokalp 0 1 0 0 @UniversiteEge 1 0 0 0 ailesinin 1 0 0 0 aramızda 0 1 0 0 Ayrıcalıktır 1 0 0 0 b¨uy¨uk 0 0 1 0 ¸cok 0 0 1 0 duyarız 0 0 1 0 Ege 3 2 1 1 ekibi 0 0 1 0 festival 0 1 0 0 g¨ormek 0 1 0 1 g¨ormekten 0 0 1 0 hepiniz 1 0 0 0 ho¸sgeldiniz 1 0 0 0 ile 0 0 1 0 Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 23. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c T F × IDF Vekt¨or Uzayı Transpoz Hali Her bir mesaj i¸cin terim frekansı g¨osterilmektedir. 1. Mesaj 0,0,0,1,1,0,1,0,0,0,3,0,0,0,0,1,1,0,0,0,0,0,0,1,0,0,0,0,1,1,0,1 2. Mesaj 0,0,1,0,0,1,0,0,0,0,2,0,1,1,0,0,0,0,0,0,0,0,1,0,1,0,1,1,2,0,1,0 3. Mesaj 0,1,0,0,0,0,0,1,1,1,1,1,0,0,1,0,0,1,0,1,1,1,0,0,0,1,0,0,1,0,0,0 4. Mesaj 0,1,0,0,0,0,0,1,1,1,1,1,0,0,1,0,0,1,0,1,1,1,0,0,0,1,0,0,1,0,0,0 Ters d¨ok¨uman frekansı Sadece terim frekansları ile olu¸sturulan veri seti, her terime e¸sit ¨onem verir. ¨Ornek veri setimizde ”¨universite” kelimesi olduk¸ca sık ge¸cmektedir. Terim t’nin derlemde yer alan N adet mesajda g¨or¨ulme frekansi, dokuman frekansı, dft, olarak adlandırılır. Ters dokuman frekansı ¸su ¸sekilde tanımlanır. idft = log N dft Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 24. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c T F × IDF Vekt¨or Uzayı IDF de˘gerleri Her bir nitelik(terim) i¸cin idf de˘geri hesaplanır. ¨ornek verisetimizde ”ege” kelimesi her 4 mesajda ge¸cmektedir. Bu durumda idfege = log 4 4 = 0 olacaktır. Terim Terim @ismailbaki 0,6021 ho¸sgeldiniz 0,6021 @LeylaMecnunDizi 0,6021 ile 0,6021 @serdargokalp 0,6021 istiyoruz 0,6021 @UniversiteEge 0,6021 Leyla 0,6021 ailesinin 0,6021 Mecnun 0,6021 aramızda 0,6021 mutluluk 0,6021 Ayrıcalıktır 0,6021 olarak 0,6021 b¨uy¨uk 0,6021 Olmak 0,6021 ¸cok 0,6021 seni 0,6021 duyarız 0,6021 sizi 0,301 Ege 0 toplulu˘gu 0,6021 Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 25. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c T F × IDF Vekt¨or Uzayı TF × IDF Vekt¨or Uzayı Her bir dokumanda yer alan terimlerin agırlıklarını hesaplamak icin terim frekansı ve ters dokuman frekansı birlestirilerek terim frekansı-ters dokuman frekansı (TF-IDF) matrisi olusturulur. TF × IDF = tft,d × idft TF-IDF modeli, dokuman d icinde yer alan terim t’ye su sekilde agırlık atamaktadır: Terim t az sayıda dokumanda bulunması durumunda idf degeri yuksek cıkmaktadır. Bu sekilde dokumanlar arasında yuksek ayırt edici guce sahip olmaktadır. Terim t bir dokuman icerisinde az gorulmesi veya bircok dokumanda gorunmesi durumunda TF × IDF degeri dusuk cıkmaktadır. Terim t hemen hemen butun dokumanlarda bulunması durumunda dusuk olmaktadır. Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 26. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c T F × IDF Vekt¨or Uzayı ¨Ornek Veri Seti Tf-Idf Matrisi Terim Mesaj 1 Mesaj 2 Mesaj 3 Mesaj 4 @ismailbaki 0 0 0 0,60206 @LeylaMecnunDizi 0 0 0,60206 0 @serdargokalp 0 0,60206 0 0 @UniversiteEge 0,60206 0 0 0 ailesinin 0,60206 0 0 0 aramızda 0 0,60206 0 0 Ayrıcalıktır 0,60206 0 0 0 b¨uy¨uk 0 0 0,60206 0 ¸cok 0 0 0,60206 0 duyarız 0 0 0,60206 0 Ege 0 0 0 0 Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 27. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sosyal Medya Mesajlarının T F × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi Veri seti Boyutu ˙Insanlar duygularını ifade etmek i¸cin kullandı˘gı temel bazı kelimeler bulunmaktadır. Bu kelimelerden olu¸san bir liste ¸cıkarılarak iki sınıflı, ¨u¸c sınıflı ve be¸s sınıflı veri setleri olu¸sturulmu¸stur. Tablo : DVM sınıflandırma algoritması e˘gitim a¸samasında kullanılacak veri setlerinin boyutuları Sınıf Etiket Sayısı Mesaj sayısı 2 Sınıf 347.158 3 Sınıf 335.070 5 Sınıf 360.000 Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 28. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sosyal Medya Mesajlarının T F × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi Veri seti olu¸sturulması i¸cin kullanılan kelimeler Tablo : ˙Iki sınıflı sınıflandırma veri seti i¸cin kullanılan kelimelerin listesi Sınıflandırma Kelimeler Pozitif g¨uzel, iyi, hayırlı, canım, mutlu, sevgili, a¸sk, seviyorum, te¸sekk¨ur, tatlı, komik, g¨uld¨um, a¸skım, ho¸s, hediye, ho¸sgeldin, ¸seker, iyisi, muhte¸sem, ma¸sallah, m¨ukemmel, g¨uzel, e˘glence, g¨ulmek, tebrikler, m¨uthi¸s, yakı¸sır, keyifli, de˘gerli, sevindim, cesaret, minnet, g¨on¨ulden, kutluyorum, kazan- mak, ¸cabalarını, i¸sbirli˘gi Negatif yasak, y¨uzs¨uz, arsız, zul¨um, vahim, inkarcı, bedel, tasfiye, utan¸c, yalan, su¸c, taciz, cahillik, ¨otekile¸stirme, yanıltıcı, yoksun, hesapla¸sma, yalan, k¨uf¨ur, k¨ot¨u, katliam, ¨ol¨um, hakaret, ¸serefsiz, zorluklar Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 29. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sosyal Medya Mesajlarının T F × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi Veri seti olu¸sturulması i¸cin kullanılan kelimeler Tablo : ¨U¸c sınıflı sınıflandırma veri seti i¸cin kullanılan kelimelerin listesi Sınıflandırma Kelimeler Pozitif g¨uzel, iyi, hayırlı, canım, mutlu, sevgili, a¸sk, seviyorum, te¸sekk¨ur, tatlı, komik, g¨uld¨um, a¸skım, ho¸s, hediye, ho¸sgeldin, ¸seker, iyisi, muhte¸sem, ma¸sallah, m¨ukemmel, g¨uzel, e˘glence, g¨ulmek, tebrikler, m¨uthi¸s, yakı¸sır, keyifli, de˘gerli, sevindim, cesaret, minnet, g¨on¨ulden, kutluyorum, kazan- mak, ¸cabalarını, i¸sbirli˘gi Negatif yasak, y¨uzs¨uz, arsız, zul¨um, vahim, inkarcı, bedel, tasfiye, utan¸c, yalan, su¸c, taciz, cahillik, ¨otekile¸stirme, yanıltıcı, yoksun, hesapla¸sma, yalan, k¨uf¨ur, k¨ot¨u, katliam, ¨ol¨um, hakaret, ¸serefsiz, zorluklar N¨otr Bu kelimeleri i¸cermeyen mesajlar. Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 30. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sosyal Medya Mesajlarının T F × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi Veri seti olu¸sturulması i¸cin kullanılan kelimeler Tablo : Be¸s sınıflı sınıflandırma veri seti i¸cin kullanılan kelimelerin listesi Sınıflandırma Kelimeler Kutup 1 a˘glıyorum, cahillik, hakaret, katliam, k¨ot¨u, k¨uf¨ur, lanet, nefret, ¨ol¨um, ¸serefsiz, taciz, utan¸c, vahim, vefat, yasak, y¨uzs¨uz, zul¨um Kutup 2 hesapla¸sma, inkarcı, maalesef, ¨otekile¸stirme, sıkıldım, su¸c, tasfiye, ¨uzg¨un¨um, ¨uz¨uc¨u, ¨uz¨uld¨um, ¨uz¨ul¨uyorum, yalan, yanıltıcı, yanlı¸s, yazık, yok- sun, zorluklar Kutup 3 Kutup 1,2,4 ve 5’de yer alan kelimeleri i¸cermeyen mesajlar. Kutup 4 g¨uzel, iyi, hayırlı, te¸sekk¨ur, ho¸s, hediye, ho¸sgeldin, iyisi, muhte¸sem, ma¸sallah, m¨ukemmel, e˘glence, m¨uthi¸s, yakı¸sır, de˘gerli, cesaret, minnet, ¸cabalarını, i¸sbirli˘gi Kutup 5 canım, mutlu, sevgili, a¸sk, seviyorum, tatlı, komik, g¨uld¨um, a¸skım, ¸seker, g¨uzel, g¨ulmek, tebrikler, keyifli, sevindim, g¨on¨ulden, kutluyorum, kazan- mak Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 31. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sosyal Medya Mesajlarının T F × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi B¨ut¨un S¨ure¸c Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 32. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar ˙Iki sınıflı DVM sınıflandırma modeli S¸ekil : ˙Iki sınıflı DVM sınıflandırma modelinin karma¸sıklık matrisi Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 33. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar ˙Iki sınıflı sınıflandırma sonu¸cları S¸ekil : En y¨uksek mesaj sayısına g¨ore ilk 10 ¨universitenin iki sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 34. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar ˙Iki sınıflı sınıflandırma sonu¸cları S¸ekil : Olumlu mesaj oranına g¨ore ilk 10 ¨universitenin iki sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 35. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar ˙Iki sınıflı sınıflandırma sonu¸cları S¸ekil : Olumsuz mesaj oranına g¨ore ilk 10 ¨universitenin iki sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 36. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar ¨U¸c sınıflı DVM sınıflandırma modeli S¸ekil : ¨U¸c sınıflı DVM sınıflandırma modelinin karma¸sıklık matrisi Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 37. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar ¨U¸c sınıflı sınıflandırma sonu¸cları S¸ekil : Mesaj sayısına g¨ore ilk 10 ¨universitenin ¨u¸c sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 38. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar ¨U¸c sınıflı sınıflandırma sonu¸cları S¸ekil : Olumlu mesaj oranına g¨ore ilk 10 ¨universitenin ¨u¸c sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 39. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar ¨U¸c sınıflı sınıflandırma sonu¸cları S¸ekil : N¨otr mesaj oranına g¨ore ilk 10 ¨universitenin ¨u¸c sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 40. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar ¨U¸c sınıflı sınıflandırma sonu¸cları S¸ekil : Olumsuz mesaj oranına g¨ore ilk 10 ¨universitenin ¨u¸c sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 41. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar Be¸s sınıflı DVM sınıflandırma modeli S¸ekil : Be¸s sınıflı DVM sınıflandırma modelinin karma¸sıklık matrisi Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 42. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar Be¸s sınıflı sınıflandırma sonu¸cları S¸ekil : Mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 43. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar Be¸s sınıflı sınıflandırma sonu¸cları S¸ekil : Kutup 1 mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 44. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar Be¸s sınıflı sınıflandırma sonu¸cları S¸ekil : Kutup 2 mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 45. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar Be¸s sınıflı sınıflandırma sonu¸cları S¸ekil : Kutup 3 mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 46. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar Be¸s sınıflı sınıflandırma sonu¸cları S¸ekil : Kutup 4 mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 47. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸clar Be¸s sınıflı sınıflandırma sonu¸cları S¸ekil : Kutup 5 mesaj sayısına g¨ore ilk 10 ¨universitenin be¸s sınıflı sınıflandırma sonu¸cları Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 48. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sunum Planı Giri¸s ¨Ozet Genel Kısımlar E¸sle/˙Indirge (MapReduce) Destek Vekt¨or Makinesi Malzeme ve Y¨ontem E¸sle/˙Indirge Tabanlı Paralel DVM Sınıflandırma Algoritması S¨ozde DVM Kodu Sınıflandırma Modeli De˘gerlendirilmesi Bulgular Sosyal Medya Veri Seti Uygulama Kapsamı TF × IDF Vekt¨or Uzayı Sosyal Medya Mesajlarının TF × IDF Matrisi ˙I¸cin Hazır Hale Getirilmesi Sonu¸clar Sonu¸c Sonu¸c Sorular Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 49. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sonu¸c Sonu¸c C¸alı¸sma Sonu¸cları Makine ¨o˘grenmesinde kullanılan veri setleri her ge¸cen g¨un artmakta B¨uy¨uk veri (Big Data) ¸seklinde tanımlanan kavram ¨uzerinde makine ¨o˘grenme y¨ontemleri uygulanabilmesi i¸cin ¸ce¸sitli ara¸stırmalar yapılmaktadır Bundan sonraki ¸calı¸smalarda, olu¸sturulan sınıflandırma modelinin zaman i¸cerisinde g¨uncellenmesi d¨u¸s¨un¨ulmekte Sosyal medya ¨uzerinde yer alan mesajların i¸ceri˘gi zaman i¸cerisinde de˘gi¸sece˘ginden dolayı zaman i¸cerisinde kendini g¨uncelleyen e˘gitim veri seti kullanılarak sınıflandırma modelinin g¨uncelli˘gini koruması gereklidir. Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi
  • 50. Giri¸s Genel Kısımlar Malzeme ve Y¨ontem Bulgular Sonu¸c Sorular Sorular? Sorular? Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK - B˙ILGEM - Siber G¨uvenlik Enstit¨us¨u ozgur.catak@tubitak.gov.tr http://tr.linkedin.com/in/ozgurcatak @ozgurcatak Dr. Ferhat ¨Ozg¨ur C¸ATAK T¨UB˙ITAK-B˙ILGEM- Siber G¨uvenlik Enstit¨us¨u E¸sle/˙Indirge Y¨ontemi Kullanılarak Destek Vekt¨or Makinesi Algoritması ile Y¨uksek Boyutlu Sosyal Medya Mesajlarının Kutupsal De˘gerinin ¨Ol¸c¨ulmesi