SlideShare a Scribd company logo
1 of 35
VERİ
MADENCİLİĞİ
DÖNEM PROJESİ
Merhaba!
Oğuzcan Pamuk
oguzcanpamuk@gmail.com
İÇERİK
▸ Projenin Tanımı
▸ Proje Tasarımı
▸ Kullanılan Teknolojiler
▸ Literatür Araştırması
▸ İşlem Basamakları
▸ Proje Değerlendirmesi
1.
Projenin Tanımı
Proje hakkında
kısa bilgiler
Proje Tanımı
▸ Cümlelerin belirli kategorilere göre
sınıflandırılması
▸ Twitter verileri kullanılabilir
▸ Gazete , dergi , blog verileri kullanılabilinir
2.
Projenin
Tasarımı
Projenin
basamakları
Öğrenme
Datası
Oluşturma
Datayı
Öğrenme
Verilerin
Kaydedilmesi
Test
Datası
Oluşturma
Test Sonuç
KDD Process
İş Planı
İş Tanımı Projedeki Yüzdesi Durumu
Literatür Taraması %10 Tamamlandı
Proje Tasarımı %5 Tamamlandı
Twitter Bağlantısı ve Data Oluşturma %5 Tamamlandı
Data Temizleme %20 Tamamlandı
Database Bağlantısı ve Dataları
Ekleme
%10 Tamamlandı
Veri Madenciliği Teknik Seçimi %5 Tamamlandı
Veri Madenciliği Tekniğini Kodlama %15 Tamamlandı
Tahmin Üretme %10 Tamamlandı
Başarı ve Hata Oranı Hesaplama %10 Tamamlandı
Literatürdeki Algoritmayla Karşılaştırma %10 Tamamlanmadı
3.
Kullanılan
Teknolojiler
Programlama
dili, versiyon
kontrol sistemi
vb.
▸ Projede Java Programlama Dili kullanılmıştır
▸ Twitter4j - Twitter verilerini kullanabilmek için
▸ MySQL – Veri saklamak için
▸ Zemberek – Türkçe kelime köklerini bulmak için
▸ «Git» versiyon kontrol sistemi
4.
Benzer
Çalışmalar
Kullanılan
teknolojiler ve
yapılar
▸ Frekans analizi en çok kullanılan yöntem
▸ Makine öğrenmesinin çeşitli teknikleri
kullanılmış
▸ Türkiye’de yapılan çalışmalarda Zemberek
popüler
▸ Hata oranı hesaplamalarında «Accuracy» ve
«Error Rate» tekniklerinden faydalanılmış
Literatür - 1
▸ Kocaeli Üniversitesi
▸ Metin Madenciliği ile soru cevaplama
sistemi
▸ Kullanıcıdan alınan soru ön işlemeye tabi
tutulur ve anahtar sözcükler belirlenir.
▸ Anahtar sözcüklerin önemine göre uygun
cevap aranır.
Literatür - 1
▸ Ön işleme ; edat, bağlaç, ünlem çıkarılmış
▸ XML dosyasında tutulan istenmeyen
sözcükler metinde aranmış ve çıkarılmış
▸ Sözcüklerin anahtar cümlede az geçmesi
o cümle için belirleyici olduklarını gösterir
Literatür - 1
▸ Cevaplar veri tabanında hazır halde
▸ Burada kosinüs benzerliği ile cevap
aranır
Literatür - 2
▸ Sosyal Ağlarda Akan Veri Madenciliği
▸ Temel olarak veri madenciliği aşamaları
açıklanmıştır.
▸ Örnek olarak; boy, kilo bilgilerine göre
cinsiyet belirleme tekniği anlatılmış
Literatür - 2
▸ KNN Algoritması kullanılmış.
▸ Burada Kilo, Boy ve cinsiyete göre tablo
oluşturulmuş.
▸ Oluşturulan tabloya yeni gelen verinin
cinsiyeti hesaplanırken en yakın 3 komşuya
bakılmış ve karar verilmiştir.
Literatür - 3
▸ Sosyal Ağlarda Veri Madenciliği
▸ Amaç; sosyal medyanın veri kaynağı
olarak kullanılmasını anlatmak.
Literatür - 3
▸ Çizge teoremi ; graph yaklaşımı ,
Facebook kim kimle arkadaş ?
▸ Kümeleme yöntemi
-Küme merkezlerinin belirlenmesi
-Merkez dışındakilerin mesafeye göre
sınıflandırılması
-Sınıflandırma sonuçlarına göre
merkezin değişmesi
-Kararlı hal
Literatür - 3
▸ Fikir madenciliği;
- Olumlu, olumsuz yorum
- Duygu analizi
- Uzun yıllardır yapılan, mail spam mi?
çalışmaları.
5.
İşlem
Basamakları
Data toplama,
temizleme ,
öğrenme..
Data oluşturma
▸ Kategoriler oluşturulurken en çok okunan
gazeteler kullanılmıştır (öğrenme)
▸ Test Dataları
-Twitter
-Gazete
Kategoriler
▸ Spor , Sağlık , Teknoloji , Magazin , Ekonomi
▸ Unknown
▸ Sampling random olarak alınmıştır
Data Temizleme
▸ Gazetelerden alınanlar – noktalama işaretleri
▸ Twitterdan alınanlar
-{"@","RT","http",")","(","#",":","/","*","=","-
","<",">","'"} (temizlendi)
- {"RT","?"} (çıkarıldı)
▸ Tüm datalar lowercase halinde
Sistem Öğrenmesi
▸ Gazete verileri
▸ Gazetelerden alınan kategori örnekleri
içerisinde geçen kelimelerin frekansları
hesaplanır.
▸ Frekans değerleri kelimelerin ağırlığı
olacaktır.
Sistem Öğrenmesi
▸ Gelen test verileri için her kategori üzerinde
değeri hesaplanır. (Ağırlıklar çarpımı)
▸ Çıkan sonuçlar büyük olduğundan
normalizasyon yapılır.
▸ Değeri en yüksek kategori belirlenir.
▸ «0» olan sonuçlar dahil edilmez.
Test Asaması
▸ Test dataları ile öğrenme dataları birbirinden
farklı
▸ Test dataları hem twitter hem de
gazetelerden alınmıştır
▸ Hata oranı hesaplanırken gazetelerden
alınan 45 cümle örneği kullanılmıştır
▸ Bu cümleler rastgele seçilmiştir
Hata Oranı ve Model
Değerlendirmesi
0,733 accuracy
0,267 error rate
Basarı Oranları
Toplam Başarılı Başarısız
Magazin 10 8 2
Spor 11 7 4
Teknoloji 8 6 2
Ekonomi 8 6 2
Sağlık 8 6 2
73,3%
Total success!
Daha
Neler
Yapılabilir
?
Neler Eklenebilir / Değiştirilebilir ?
▸ Öğrenme datası arttırılmalı
▸ Öğrenme datasına Twitter’dan veri
eklenebilir
▸ Literatür uygulamalarıyla karşılaştırma
(Başarı oranları)
▸ Veri toplamak için otomasyon yazılabilinir
Tesekkürler !
Sorularınız ?
oguzcanpamuk@gmail.com
Github / oguzpamuk
KAYNAKLAR
▸ Seker,S. E. (2015). Sosyal Ağlarda Veri Madenciliği,YBS
Ansiklopedi
▸ Seker,S. E. (2014). Sosyal Ağlarda Akan Veri Madenciliği,YBS
Ansiklopedi
▸ Sevinç I, Duru,N, Karagöz Ş, Sağır M. Metin Madenciliği ile Soru
Cevaplama Sistem, Kocaeli Üniversitesi
▸ Bilgisayar Kavramları , Sadi Evren Şeker

More Related Content

Viewers also liked

Test Mühendisliğine Giriş Eğitimi - Bölüm 1
Test Mühendisliğine Giriş Eğitimi - Bölüm 1Test Mühendisliğine Giriş Eğitimi - Bölüm 1
Test Mühendisliğine Giriş Eğitimi - Bölüm 1Mesut Günes
 
Test Mühendisliğine Giriş Eğitimi - Bölüm 2
Test Mühendisliğine Giriş Eğitimi - Bölüm 2Test Mühendisliğine Giriş Eğitimi - Bölüm 2
Test Mühendisliğine Giriş Eğitimi - Bölüm 2Mesut Günes
 
Yazilim Projelerinde Test Sureci
Yazilim Projelerinde Test SureciYazilim Projelerinde Test Sureci
Yazilim Projelerinde Test SureciNecdet Terkes
 
Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇Musa BEKTAŞ
 
DDoS Benzetimi Projesi Raporu
DDoS Benzetimi Projesi RaporuDDoS Benzetimi Projesi Raporu
DDoS Benzetimi Projesi RaporuOğuzcan Pamuk
 
DDoS Saldırıları ve Benzetim Teknikleri
DDoS Saldırıları ve Benzetim TeknikleriDDoS Saldırıları ve Benzetim Teknikleri
DDoS Saldırıları ve Benzetim TeknikleriOğuzcan Pamuk
 
DDoS Benzetimi Projesi Ara Raporu
DDoS Benzetimi Projesi Ara RaporuDDoS Benzetimi Projesi Ara Raporu
DDoS Benzetimi Projesi Ara RaporuOğuzcan Pamuk
 
DDoS - Bitirme Projesi Ön Sunumu
DDoS - Bitirme Projesi Ön SunumuDDoS - Bitirme Projesi Ön Sunumu
DDoS - Bitirme Projesi Ön SunumuOğuzcan Pamuk
 

Viewers also liked (16)

Test Mühendisliğine Giriş Eğitimi - Bölüm 1
Test Mühendisliğine Giriş Eğitimi - Bölüm 1Test Mühendisliğine Giriş Eğitimi - Bölüm 1
Test Mühendisliğine Giriş Eğitimi - Bölüm 1
 
Test Mühendisliğine Giriş Eğitimi - Bölüm 2
Test Mühendisliğine Giriş Eğitimi - Bölüm 2Test Mühendisliğine Giriş Eğitimi - Bölüm 2
Test Mühendisliğine Giriş Eğitimi - Bölüm 2
 
50 Soruda Yazılım Testi
50 Soruda Yazılım Testi50 Soruda Yazılım Testi
50 Soruda Yazılım Testi
 
Yazilim Projelerinde Test Sureci
Yazilim Projelerinde Test SureciYazilim Projelerinde Test Sureci
Yazilim Projelerinde Test Sureci
 
Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇
 
Unix Denetim Dokümanı
Unix Denetim DokümanıUnix Denetim Dokümanı
Unix Denetim Dokümanı
 
BTRisk iOS Mobil Uygulama Denetimi Eğitimi
BTRisk iOS Mobil Uygulama Denetimi EğitimiBTRisk iOS Mobil Uygulama Denetimi Eğitimi
BTRisk iOS Mobil Uygulama Denetimi Eğitimi
 
BTRisk Adli Bilişim Eğitimi Sunumu
BTRisk Adli Bilişim Eğitimi SunumuBTRisk Adli Bilişim Eğitimi Sunumu
BTRisk Adli Bilişim Eğitimi Sunumu
 
Sizma testi bilgi toplama
Sizma testi bilgi toplamaSizma testi bilgi toplama
Sizma testi bilgi toplama
 
Kali Linux Hakkında Herşey
Kali Linux Hakkında HerşeyKali Linux Hakkında Herşey
Kali Linux Hakkında Herşey
 
Web uygulama açıklıklarından faydalanarak sistem ele geçirme
Web uygulama açıklıklarından faydalanarak sistem ele geçirmeWeb uygulama açıklıklarından faydalanarak sistem ele geçirme
Web uygulama açıklıklarından faydalanarak sistem ele geçirme
 
Proje sunum
Proje sunumProje sunum
Proje sunum
 
DDoS Benzetimi Projesi Raporu
DDoS Benzetimi Projesi RaporuDDoS Benzetimi Projesi Raporu
DDoS Benzetimi Projesi Raporu
 
DDoS Saldırıları ve Benzetim Teknikleri
DDoS Saldırıları ve Benzetim TeknikleriDDoS Saldırıları ve Benzetim Teknikleri
DDoS Saldırıları ve Benzetim Teknikleri
 
DDoS Benzetimi Projesi Ara Raporu
DDoS Benzetimi Projesi Ara RaporuDDoS Benzetimi Projesi Ara Raporu
DDoS Benzetimi Projesi Ara Raporu
 
DDoS - Bitirme Projesi Ön Sunumu
DDoS - Bitirme Projesi Ön SunumuDDoS - Bitirme Projesi Ön Sunumu
DDoS - Bitirme Projesi Ön Sunumu
 

Metin Madenciliği ile Cümleleri Kategorilendirme