5. Proje Tanımı
▸ Cümlelerin belirli kategorilere göre
sınıflandırılması
▸ Twitter verileri kullanılabilir
▸ Gazete , dergi , blog verileri kullanılabilinir
9. İş Planı
İş Tanımı Projedeki Yüzdesi Durumu
Literatür Taraması %10 Tamamlandı
Proje Tasarımı %5 Tamamlandı
Twitter Bağlantısı ve Data Oluşturma %5 Tamamlandı
Data Temizleme %20 Tamamlandı
Database Bağlantısı ve Dataları
Ekleme
%10 Tamamlandı
Veri Madenciliği Teknik Seçimi %5 Tamamlandı
Veri Madenciliği Tekniğini Kodlama %15 Tamamlandı
Tahmin Üretme %10 Tamamlandı
Başarı ve Hata Oranı Hesaplama %10 Tamamlandı
Literatürdeki Algoritmayla Karşılaştırma %10 Tamamlanmadı
11. ▸ Projede Java Programlama Dili kullanılmıştır
▸ Twitter4j - Twitter verilerini kullanabilmek için
▸ MySQL – Veri saklamak için
▸ Zemberek – Türkçe kelime köklerini bulmak için
▸ «Git» versiyon kontrol sistemi
13. ▸ Frekans analizi en çok kullanılan yöntem
▸ Makine öğrenmesinin çeşitli teknikleri
kullanılmış
▸ Türkiye’de yapılan çalışmalarda Zemberek
popüler
▸ Hata oranı hesaplamalarında «Accuracy» ve
«Error Rate» tekniklerinden faydalanılmış
14. Literatür - 1
▸ Kocaeli Üniversitesi
▸ Metin Madenciliği ile soru cevaplama
sistemi
▸ Kullanıcıdan alınan soru ön işlemeye tabi
tutulur ve anahtar sözcükler belirlenir.
▸ Anahtar sözcüklerin önemine göre uygun
cevap aranır.
15. Literatür - 1
▸ Ön işleme ; edat, bağlaç, ünlem çıkarılmış
▸ XML dosyasında tutulan istenmeyen
sözcükler metinde aranmış ve çıkarılmış
▸ Sözcüklerin anahtar cümlede az geçmesi
o cümle için belirleyici olduklarını gösterir
16. Literatür - 1
▸ Cevaplar veri tabanında hazır halde
▸ Burada kosinüs benzerliği ile cevap
aranır
17. Literatür - 2
▸ Sosyal Ağlarda Akan Veri Madenciliği
▸ Temel olarak veri madenciliği aşamaları
açıklanmıştır.
▸ Örnek olarak; boy, kilo bilgilerine göre
cinsiyet belirleme tekniği anlatılmış
18. Literatür - 2
▸ KNN Algoritması kullanılmış.
▸ Burada Kilo, Boy ve cinsiyete göre tablo
oluşturulmuş.
▸ Oluşturulan tabloya yeni gelen verinin
cinsiyeti hesaplanırken en yakın 3 komşuya
bakılmış ve karar verilmiştir.
19. Literatür - 3
▸ Sosyal Ağlarda Veri Madenciliği
▸ Amaç; sosyal medyanın veri kaynağı
olarak kullanılmasını anlatmak.
20. Literatür - 3
▸ Çizge teoremi ; graph yaklaşımı ,
Facebook kim kimle arkadaş ?
▸ Kümeleme yöntemi
-Küme merkezlerinin belirlenmesi
-Merkez dışındakilerin mesafeye göre
sınıflandırılması
-Sınıflandırma sonuçlarına göre
merkezin değişmesi
-Kararlı hal
21. Literatür - 3
▸ Fikir madenciliği;
- Olumlu, olumsuz yorum
- Duygu analizi
- Uzun yıllardır yapılan, mail spam mi?
çalışmaları.
23. Data oluşturma
▸ Kategoriler oluşturulurken en çok okunan
gazeteler kullanılmıştır (öğrenme)
▸ Test Dataları
-Twitter
-Gazete
24. Kategoriler
▸ Spor , Sağlık , Teknoloji , Magazin , Ekonomi
▸ Unknown
▸ Sampling random olarak alınmıştır
25. Data Temizleme
▸ Gazetelerden alınanlar – noktalama işaretleri
▸ Twitterdan alınanlar
-{"@","RT","http",")","(","#",":","/","*","=","-
","<",">","'"} (temizlendi)
- {"RT","?"} (çıkarıldı)
▸ Tüm datalar lowercase halinde
26. Sistem Öğrenmesi
▸ Gazete verileri
▸ Gazetelerden alınan kategori örnekleri
içerisinde geçen kelimelerin frekansları
hesaplanır.
▸ Frekans değerleri kelimelerin ağırlığı
olacaktır.
27. Sistem Öğrenmesi
▸ Gelen test verileri için her kategori üzerinde
değeri hesaplanır. (Ağırlıklar çarpımı)
▸ Çıkan sonuçlar büyük olduğundan
normalizasyon yapılır.
▸ Değeri en yüksek kategori belirlenir.
▸ «0» olan sonuçlar dahil edilmez.
28. Test Asaması
▸ Test dataları ile öğrenme dataları birbirinden
farklı
▸ Test dataları hem twitter hem de
gazetelerden alınmıştır
▸ Hata oranı hesaplanırken gazetelerden
alınan 45 cümle örneği kullanılmıştır
▸ Bu cümleler rastgele seçilmiştir
29. Hata Oranı ve Model
Değerlendirmesi
0,733 accuracy
0,267 error rate
35. KAYNAKLAR
▸ Seker,S. E. (2015). Sosyal Ağlarda Veri Madenciliği,YBS
Ansiklopedi
▸ Seker,S. E. (2014). Sosyal Ağlarda Akan Veri Madenciliği,YBS
Ansiklopedi
▸ Sevinç I, Duru,N, Karagöz Ş, Sağır M. Metin Madenciliği ile Soru
Cevaplama Sistem, Kocaeli Üniversitesi
▸ Bilgisayar Kavramları , Sadi Evren Şeker