Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Metin Madenciliği ile Cümleleri Kategorilendirme

1,562 views

Published on

GTU Veri Madenciliği dersi kapsamında hazırlamış olduğum Metin Madenciliği ile Cümleleri Kategorilendirme Projesini anlatmış olduğum sunumdur.

Published in: Education
  • Login to see the comments

Metin Madenciliği ile Cümleleri Kategorilendirme

  1. 1. VERİ MADENCİLİĞİ DÖNEM PROJESİ
  2. 2. Merhaba! Oğuzcan Pamuk oguzcanpamuk@gmail.com
  3. 3. İÇERİK ▸ Projenin Tanımı ▸ Proje Tasarımı ▸ Kullanılan Teknolojiler ▸ Literatür Araştırması ▸ İşlem Basamakları ▸ Proje Değerlendirmesi
  4. 4. 1. Projenin Tanımı Proje hakkında kısa bilgiler
  5. 5. Proje Tanımı ▸ Cümlelerin belirli kategorilere göre sınıflandırılması ▸ Twitter verileri kullanılabilir ▸ Gazete , dergi , blog verileri kullanılabilinir
  6. 6. 2. Projenin Tasarımı Projenin basamakları
  7. 7. Öğrenme Datası Oluşturma Datayı Öğrenme Verilerin Kaydedilmesi Test Datası Oluşturma Test Sonuç
  8. 8. KDD Process
  9. 9. İş Planı İş Tanımı Projedeki Yüzdesi Durumu Literatür Taraması %10 Tamamlandı Proje Tasarımı %5 Tamamlandı Twitter Bağlantısı ve Data Oluşturma %5 Tamamlandı Data Temizleme %20 Tamamlandı Database Bağlantısı ve Dataları Ekleme %10 Tamamlandı Veri Madenciliği Teknik Seçimi %5 Tamamlandı Veri Madenciliği Tekniğini Kodlama %15 Tamamlandı Tahmin Üretme %10 Tamamlandı Başarı ve Hata Oranı Hesaplama %10 Tamamlandı Literatürdeki Algoritmayla Karşılaştırma %10 Tamamlanmadı
  10. 10. 3. Kullanılan Teknolojiler Programlama dili, versiyon kontrol sistemi vb.
  11. 11. ▸ Projede Java Programlama Dili kullanılmıştır ▸ Twitter4j - Twitter verilerini kullanabilmek için ▸ MySQL – Veri saklamak için ▸ Zemberek – Türkçe kelime köklerini bulmak için ▸ «Git» versiyon kontrol sistemi
  12. 12. 4. Benzer Çalışmalar Kullanılan teknolojiler ve yapılar
  13. 13. ▸ Frekans analizi en çok kullanılan yöntem ▸ Makine öğrenmesinin çeşitli teknikleri kullanılmış ▸ Türkiye’de yapılan çalışmalarda Zemberek popüler ▸ Hata oranı hesaplamalarında «Accuracy» ve «Error Rate» tekniklerinden faydalanılmış
  14. 14. Literatür - 1 ▸ Kocaeli Üniversitesi ▸ Metin Madenciliği ile soru cevaplama sistemi ▸ Kullanıcıdan alınan soru ön işlemeye tabi tutulur ve anahtar sözcükler belirlenir. ▸ Anahtar sözcüklerin önemine göre uygun cevap aranır.
  15. 15. Literatür - 1 ▸ Ön işleme ; edat, bağlaç, ünlem çıkarılmış ▸ XML dosyasında tutulan istenmeyen sözcükler metinde aranmış ve çıkarılmış ▸ Sözcüklerin anahtar cümlede az geçmesi o cümle için belirleyici olduklarını gösterir
  16. 16. Literatür - 1 ▸ Cevaplar veri tabanında hazır halde ▸ Burada kosinüs benzerliği ile cevap aranır
  17. 17. Literatür - 2 ▸ Sosyal Ağlarda Akan Veri Madenciliği ▸ Temel olarak veri madenciliği aşamaları açıklanmıştır. ▸ Örnek olarak; boy, kilo bilgilerine göre cinsiyet belirleme tekniği anlatılmış
  18. 18. Literatür - 2 ▸ KNN Algoritması kullanılmış. ▸ Burada Kilo, Boy ve cinsiyete göre tablo oluşturulmuş. ▸ Oluşturulan tabloya yeni gelen verinin cinsiyeti hesaplanırken en yakın 3 komşuya bakılmış ve karar verilmiştir.
  19. 19. Literatür - 3 ▸ Sosyal Ağlarda Veri Madenciliği ▸ Amaç; sosyal medyanın veri kaynağı olarak kullanılmasını anlatmak.
  20. 20. Literatür - 3 ▸ Çizge teoremi ; graph yaklaşımı , Facebook kim kimle arkadaş ? ▸ Kümeleme yöntemi -Küme merkezlerinin belirlenmesi -Merkez dışındakilerin mesafeye göre sınıflandırılması -Sınıflandırma sonuçlarına göre merkezin değişmesi -Kararlı hal
  21. 21. Literatür - 3 ▸ Fikir madenciliği; - Olumlu, olumsuz yorum - Duygu analizi - Uzun yıllardır yapılan, mail spam mi? çalışmaları.
  22. 22. 5. İşlem Basamakları Data toplama, temizleme , öğrenme..
  23. 23. Data oluşturma ▸ Kategoriler oluşturulurken en çok okunan gazeteler kullanılmıştır (öğrenme) ▸ Test Dataları -Twitter -Gazete
  24. 24. Kategoriler ▸ Spor , Sağlık , Teknoloji , Magazin , Ekonomi ▸ Unknown ▸ Sampling random olarak alınmıştır
  25. 25. Data Temizleme ▸ Gazetelerden alınanlar – noktalama işaretleri ▸ Twitterdan alınanlar -{"@","RT","http",")","(","#",":","/","*","=","- ","<",">","'"} (temizlendi) - {"RT","?"} (çıkarıldı) ▸ Tüm datalar lowercase halinde
  26. 26. Sistem Öğrenmesi ▸ Gazete verileri ▸ Gazetelerden alınan kategori örnekleri içerisinde geçen kelimelerin frekansları hesaplanır. ▸ Frekans değerleri kelimelerin ağırlığı olacaktır.
  27. 27. Sistem Öğrenmesi ▸ Gelen test verileri için her kategori üzerinde değeri hesaplanır. (Ağırlıklar çarpımı) ▸ Çıkan sonuçlar büyük olduğundan normalizasyon yapılır. ▸ Değeri en yüksek kategori belirlenir. ▸ «0» olan sonuçlar dahil edilmez.
  28. 28. Test Asaması ▸ Test dataları ile öğrenme dataları birbirinden farklı ▸ Test dataları hem twitter hem de gazetelerden alınmıştır ▸ Hata oranı hesaplanırken gazetelerden alınan 45 cümle örneği kullanılmıştır ▸ Bu cümleler rastgele seçilmiştir
  29. 29. Hata Oranı ve Model Değerlendirmesi 0,733 accuracy 0,267 error rate
  30. 30. Basarı Oranları Toplam Başarılı Başarısız Magazin 10 8 2 Spor 11 7 4 Teknoloji 8 6 2 Ekonomi 8 6 2 Sağlık 8 6 2
  31. 31. 73,3% Total success!
  32. 32. Daha Neler Yapılabilir ?
  33. 33. Neler Eklenebilir / Değiştirilebilir ? ▸ Öğrenme datası arttırılmalı ▸ Öğrenme datasına Twitter’dan veri eklenebilir ▸ Literatür uygulamalarıyla karşılaştırma (Başarı oranları) ▸ Veri toplamak için otomasyon yazılabilinir
  34. 34. Tesekkürler ! Sorularınız ? oguzcanpamuk@gmail.com Github / oguzpamuk
  35. 35. KAYNAKLAR ▸ Seker,S. E. (2015). Sosyal Ağlarda Veri Madenciliği,YBS Ansiklopedi ▸ Seker,S. E. (2014). Sosyal Ağlarda Akan Veri Madenciliği,YBS Ansiklopedi ▸ Sevinç I, Duru,N, Karagöz Ş, Sağır M. Metin Madenciliği ile Soru Cevaplama Sistem, Kocaeli Üniversitesi ▸ Bilgisayar Kavramları , Sadi Evren Şeker

×