Metin Madenciliği ile Cümleleri Kategorilendirme

VERİ
MADENCİLİĞİ
DÖNEM PROJESİ

Merhaba!
Oğuzcan Pamuk
oguzcanpamuk@gmail.com

İÇERİK
▸ Projenin Tanımı
▸ Proje Tasarımı
▸ Kullanılan Teknolojiler
▸ Literatür Araştırması
▸ İşlem Basamakları
▸ Proje Değerlendirmesi

1.
Projenin Tanımı
Proje hakkında
kısa bilgiler

Proje Tanımı
▸ Cümlelerin belirli kategorilere göre
sınıflandırılması
▸ Twitter verileri kullanılabilir
▸ Gazete , dergi , blog verileri kullanılabilinir

2.
Projenin
Tasarımı
Projenin
basamakları

Öğrenme
Datası
Oluşturma
Datayı
Öğrenme
Verilerin
Kaydedilmesi
Test
Datası
Oluşturma
Test Sonuç

İş Planı
İş Tanımı Projedeki Yüzdesi Durumu
Literatür Taraması %10 Tamamlandı
Proje Tasarımı %5 Tamamlandı
Twitter Bağlantısı ve Data Oluşturma %5 Tamamlandı
Data Temizleme %20 Tamamlandı
Database Bağlantısı ve Dataları
Ekleme
%10 Tamamlandı
Veri Madenciliği Teknik Seçimi %5 Tamamlandı
Veri Madenciliği Tekniğini Kodlama %15 Tamamlandı
Tahmin Üretme %10 Tamamlandı
Başarı ve Hata Oranı Hesaplama %10 Tamamlandı
Literatürdeki Algoritmayla Karşılaştırma %10 Tamamlanmadı

3.
Kullanılan
Teknolojiler
Programlama
dili, versiyon
kontrol sistemi
vb.

▸ Projede Java Programlama Dili kullanılmıştır
▸ Twitter4j - Twitter verilerini kullanabilmek için
▸ MySQL – Veri saklamak için
▸ Zemberek – Türkçe kelime köklerini bulmak için
▸ «Git» versiyon kontrol sistemi

4.
Benzer
Çalışmalar
Kullanılan
teknolojiler ve
yapılar

▸ Frekans analizi en çok kullanılan yöntem
▸ Makine öğrenmesinin çeşitli teknikleri
kullanılmış
▸ Türkiye’de yapılan çalışmalarda Zemberek
popüler
▸ Hata oranı hesaplamalarında «Accuracy» ve
«Error Rate» tekniklerinden faydalanılmış

Literatür - 1
▸ Kocaeli Üniversitesi
▸ Metin Madenciliği ile soru cevaplama
sistemi
▸ Kullanıcıdan alınan soru ön işlemeye tabi
tutulur ve anahtar sözcükler belirlenir.
▸ Anahtar sözcüklerin önemine göre uygun
cevap aranır.

Literatür - 1
▸ Ön işleme ; edat, bağlaç, ünlem çıkarılmış
▸ XML dosyasında tutulan istenmeyen
sözcükler metinde aranmış ve çıkarılmış
▸ Sözcüklerin anahtar cümlede az geçmesi
o cümle için belirleyici olduklarını gösterir

Literatür - 1
▸ Cevaplar veri tabanında hazır halde
▸ Burada kosinüs benzerliği ile cevap
aranır

Literatür - 2
▸ Sosyal Ağlarda Akan Veri Madenciliği
▸ Temel olarak veri madenciliği aşamaları
açıklanmıştır.
▸ Örnek olarak; boy, kilo bilgilerine göre
cinsiyet belirleme tekniği anlatılmış

Literatür - 2
▸ KNN Algoritması kullanılmış.
▸ Burada Kilo, Boy ve cinsiyete göre tablo
oluşturulmuş.
▸ Oluşturulan tabloya yeni gelen verinin
cinsiyeti hesaplanırken en yakın 3 komşuya
bakılmış ve karar verilmiştir.

Literatür - 3
▸ Sosyal Ağlarda Veri Madenciliği
▸ Amaç; sosyal medyanın veri kaynağı
olarak kullanılmasını anlatmak.

Literatür - 3
▸ Çizge teoremi ; graph yaklaşımı ,
Facebook kim kimle arkadaş ?
▸ Kümeleme yöntemi
-Küme merkezlerinin belirlenmesi
-Merkez dışındakilerin mesafeye göre
sınıflandırılması
-Sınıflandırma sonuçlarına göre
merkezin değişmesi
-Kararlı hal

Literatür - 3
▸ Fikir madenciliği;
- Olumlu, olumsuz yorum
- Duygu analizi
- Uzun yıllardır yapılan, mail spam mi?
çalışmaları.

5.
İşlem
Basamakları
Data toplama,
temizleme ,
öğrenme..

Data oluşturma
▸ Kategoriler oluşturulurken en çok okunan
gazeteler kullanılmıştır (öğrenme)
▸ Test Dataları
-Twitter
-Gazete

Kategoriler
▸ Spor , Sağlık , Teknoloji , Magazin , Ekonomi
▸ Unknown
▸ Sampling random olarak alınmıştır

Data Temizleme
▸ Gazetelerden alınanlar – noktalama işaretleri
▸ Twitterdan alınanlar
-{"@","RT","http",")","(","#",":","/","*","=","-
","<",">","'"} (temizlendi)
- {"RT","?"} (çıkarıldı)
▸ Tüm datalar lowercase halinde

Sistem Öğrenmesi
▸ Gazete verileri
▸ Gazetelerden alınan kategori örnekleri
içerisinde geçen kelimelerin frekansları
hesaplanır.
▸ Frekans değerleri kelimelerin ağırlığı
olacaktır.

Sistem Öğrenmesi
▸ Gelen test verileri için her kategori üzerinde
değeri hesaplanır. (Ağırlıklar çarpımı)
▸ Çıkan sonuçlar büyük olduğundan
normalizasyon yapılır.
▸ Değeri en yüksek kategori belirlenir.
▸ «0» olan sonuçlar dahil edilmez.

Test Asaması
▸ Test dataları ile öğrenme dataları birbirinden
farklı
▸ Test dataları hem twitter hem de
gazetelerden alınmıştır
▸ Hata oranı hesaplanırken gazetelerden
alınan 45 cümle örneği kullanılmıştır
▸ Bu cümleler rastgele seçilmiştir

Hata Oranı ve Model
Değerlendirmesi
0,733 accuracy
0,267 error rate

Basarı Oranları
Toplam Başarılı Başarısız
Magazin 10 8 2
Spor 11 7 4
Teknoloji 8 6 2
Ekonomi 8 6 2
Sağlık 8 6 2

Neler Eklenebilir / Değiştirilebilir ?
▸ Öğrenme datası arttırılmalı
▸ Öğrenme datasına Twitter’dan veri
eklenebilir
▸ Literatür uygulamalarıyla karşılaştırma
(Başarı oranları)
▸ Veri toplamak için otomasyon yazılabilinir

Tesekkürler !
Sorularınız ?
oguzcanpamuk@gmail.com
Github / oguzpamuk

KAYNAKLAR
▸ Seker,S. E. (2015). Sosyal Ağlarda Veri Madenciliği,YBS
Ansiklopedi
▸ Seker,S. E. (2014). Sosyal Ağlarda Akan Veri Madenciliği,YBS
Ansiklopedi
▸ Sevinç I, Duru,N, Karagöz Ş, Sağır M. Metin Madenciliği ile Soru
Cevaplama Sistem, Kocaeli Üniversitesi
▸ Bilgisayar Kavramları , Sadi Evren Şeker

Metin Madenciliği ile Cümleleri Kategorilendirme

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (16)

Metin Madenciliği ile Cümleleri Kategorilendirme