SlideShare a Scribd company logo
WEKA İLE VERİ
MADENCİLİĞİ VE
UYGULAMALI
ÖRNEKLER
ABBASGULU ALLAHVERDILI
PARVIN TELMANLI
Giriş
WEKA Programı
Veri Madenciliği
LABOR Veri Seti
Weka Programı
WEKA
Programı
Hakkında
WEKA, makine öğrenimi amacıyla
Waikato Üniversitesinde geliştirilmiş ve
Waikato Environment for Knowledge
Analysis kelimelerinin baş harflerinden
oluşmuş yazılımın ismidir.
Günümüzde yaygın kullanımı olan
çoğu makine öğrenimi algoritmalarını
ve metotlarını içermektedir. WEKA,
tamamen modüler bir tasarıma sahip
olup, içerdiği özelliklerle veri kümeleri
üzerinde görselleştirme, veri analizi, iş
zekası uygulamaları, veri madenciliği
gibi işlemler yapabilmektedir.
Veri
Madenciliği
Veri
Madenciliği
Hakkında
Büyük veri kaynaklarından
yararlı ve ilginç bilgi bulunmalı
ve bulunan bilgi, gizli, önemli,
önceden bilinmeyen ve yararlı
olmalıdır. Teoride veri
madenciliği bilgi keşfi işleminin
aşamalarından biridir ama
pratikte ise veri madenciliği ve
bilgi keşfi eş anlamlı olarak
kullanılır.
Veri, Veri
Tabanı ve Veri
Ambarı
Veri: Veri sayılar, metinler, sesler, görüntüler,
rasat parkında kayıt cihazında depolananlar,
otomasyonda öğrenci kayıtlarıdır. Genel
olarak veri karar vermeye yarayan soyut
simge dizileridir.
Veri Tabanı: Veri tabanı, birbiri ile ilişkili
verilerin toplanması ve depolanmasıdır.
Sistematik erişim imkanı olan, yönetilebilir,
güncellenebilir, taşınabilir, birbirleri arasında
tanımlı ilişkiler bulunabilen verilerdir ve belli
bir amaç için verilerin toplanması ve
tasarımıdır.
Veri Ambarı: Veri ambarları kesin bir tanım
yapmayı zorlaştıran bir şekilde, pek çok
biçimde tanımlanmaktadırlar. Veri ambarı bir
organizasyonun kullanılmakta olan veri
tabanlarından ayrı olarak sürdürülen bir
karar destek veritabanıdır.
LABOR
Veri Seti
LABOR Veri
Seti Hakkında
LABOR veri seti işçiler hakkında
bilgiler vermektedir. Bu veriler
Kanada endüstrisinde işçi
müzakereleri sonucunda
toplanmıştır. Çalışma saatleri,
işçilerin maaşı, tatilleri, maaş artış
veya azalışları, sağlık ve başka
yardımlar gibi özellikleri dikkate
alarak, bize çalışma ortamı veya
şartlarının iyi mi kötü mü olduğunu
söylemektedir. Veri seti içerisinde
17 adet öznitelik ve 57 adet kayıt
bulunmaktadır.
Öznitelikler
1. Anlaşma süreleri (duration)
2. İlk yıl ücret artışı (wage-increase-first-year)
3. İkinci yıl ücret artışı (wage-increase-second-year)
4. Üçüncü yıl ücret artışı (wage-increase-third-year)
5. Yaşam maliyeti ayarlaması (cost-of-living-adjustment)
6. Çalışma saatleri (working-hours)
7. Emekli maaşı (pension)
8. Bekleme ücreti: Görev için derhal hazır bulunması gereken
çalışanlar için ek ücrettir (standby-pay)
9. Vardiya Değişimi (shift-differential)
10. Eğitim ödeneği (education-allowance)
11. Resmi Tatiller (statutory-holidays)
12. Ücretli tatil günleri (vacation)
13. Uzun süreli engellilik yardımı (longterm-disability-assistance)
14. Diş planına katkı (contribution-to-dental-plan)
15. Cenaze masraflarına işverenin mali katkısı (bereavement-
assistance)
16. Sağlık planına katkı (contribution-to-health-plan)
17. Sınıf (class)
OneR
Algoritması
Bu algoritmanın amacı hangi
sınıfı kullanırsak daha iyi
sonucu tespit ederiz sorusuna
cevap bulmaktır. Algoritma
bunu yaparken sınıflandırmak
istediğimiz sınıfla elindeki
diğer sınıflar arasındaki
bağlantıya bakıp hangisi ile
daha fazla benzerlik
gösteriyorsa o sınıfı almaktır.
Veri Seti
Üzerinde
Uygulanması
Veri seti için ilk olarak bir sınıflandırma
algoritması olan OneR algoritması
uygulanmıştır. Burada test seçenekleri
içerisinde en çok kullanılan cross-
validation modeli kullanılmıştır. Veri seti
büyük bir veri seti olmadığı için algoritma
uygulanırken 3 katmana (fold)
bölünmüştür. Bu modelde “2 set eğitim, 1
set test verisi” olarak, tüm setlerin
üzerinden geçene kadar kullanılır ve her
bir parça test ve eğitim verisi olarak
kullanılmış olur. Sınıflandırma modeline
göre ilk yıl ücret artışı (wage-increase-
first-year) özniteliği seçilmiştir. 42 kayıt
doğru 15 kayıt ise yanlış
sınıflandırılmıştır. Sonuç olarak algoritma
uygulandığında %73.6842 başarı oranı
vermektedir.
ZeroR
Algoritması
ZeroR algoritması veri
madenciliği için en basit
ve çok kullanılan
algoritmalardan biridir.
Veri setindeki
sınıflandırmalardan
hangisinin sıklığı daha
çok ise gelen herşeyi o
sınıftan kabul eder.
Veri Seti
Üzerinde
Uygulanması
İkinci olarak sınıflandırma
algoritmalarından biri olan ZeroR
algoritması veri seti üzerinde
uygulanmıştır. Burada ZeroR
algoritması sınıf (class) özniteliği
için uygulanmıştır. ZeroR
algoritması veri setindeki
sınıflandırmalardan hangisinin
sıklığı daha çok ise gelen her şeyi
o sınıftan kabul ettiği için 37’ye 20
şeklinde bir dağılım olduğu için
daha sık olan sınıflandırmayı
almış ve %64.9123 başarı oranı
elde edilmiştir.
Naive Bayes
Algoritması
Naive Bayes
algoritmasının temeli
Bayes teoremine dayanır.
Naive Bayes
algoritmasının çalışma
şekli bir eleman için her
durumun olasılığını
hesaplamak ve olasılık
değeri en yüksek olana
göre sınıflandırmak
olarak özetlenebilir.
Veri Seti
Üzerinde
Uygulanması
En son olarak sınıflandırma
algoritmalarından biri olan Naive
Bayes algoritması veri seti üzerinde
uygulanmıştır. Burada F-Measure’a
baktığımızda ‘good’ sonucunun ‘bad’
sonucundan daha iyi olduğu
görülmektedir. Toplam 57 veriden 54
tanesi doğru tamamlanmış ve %
94.7368 başarı oranı elde edilmiştir.
Confusion Matrix’e bakıldığı zaman
iyi bir sonuç görülmektedir. Model
‘good’ sonuçlarının tamamını doğru
tahmin etmişken, ‘bad’
sonuçlarından 3 tanesini ‘good’
olarak karıştırmıştır.
Sonuç
Çalışmada ilk olarak WEKA programı hakkında gerekli bilgilerden bahsedilmiş, dosya tipleri ve önemli paneller
hakkında bilgi verilmiştir. Ayrıca veri madenciliği başlığı altında veri, veri tabanı ve veri ambarı ile ilgili detaylı bilgi
eklenmiştir.
Genel olarak veri seti üzerinde sınıflandırma yapıldığı için sınıflandırma algoritmalarına değinilmiştir.
LABOR veri seti incelenmiş, içermiş olduğu özniteliklerle ilgili detaylı bilgi verilmiş ve veri seti üzerinde en yaygın
kullanılan sınıflandırma algoritmalarından olan OneR, ZeroR, Naive Bayes algoritmaları uygulanmış ve
karşılaştırılmıştır.
Bu üç algoritma başarı oranına göre karşılaştırıldığı zaman en iyi sonucu veren algoritma Naive Bayes algoritması
olmuştur. Bunun nedeni Naive Bayes algoritmasının çalışma şekli bir eleman için her durumun olasılığını
hesaplamak ve olasılık değeri en yüksek olana göre sınıflandırmak olarak özetlenebilir.
Algoritmaların
Başarı Yüzdeleri
Sınıflandırma
Algoritması
Başarı
Yüzdesi
OneR %73.6842
ZeroR %64.9123
Naive Bayes %94.7368
Kaynak
• [1] https://tr.wikipedia.org/wiki/Weka [Çevrimiçi Erişim Tarihi: 19.01.2022]
• [2] Dr. Öğr. Üyesi Nilgün GÜLER BAYAZIT, ‘Veri Madenciliğine Giriş’, Yıldız Teknik Üniversitesi, 2021.
• [3] https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/labor.arff [Çevrimiçi Erişim Tarihi: 19.01.2022]
Teşekkür Ederiz

More Related Content

What's hot

Performans Yönetimi Yatırımın Geri Dönüşü - ROI
Performans Yönetimi Yatırımın Geri Dönüşü - ROIPerformans Yönetimi Yatırımın Geri Dönüşü - ROI
Performans Yönetimi Yatırımın Geri Dönüşü - ROI
Ipek Aral
 
Delta lakesummary
Delta lakesummaryDelta lakesummary
Delta lakesummary
Ryoma Nagata
 
Microsoft Azure Data Factory Hands-On Lab Overview Slides
Microsoft Azure Data Factory Hands-On Lab Overview SlidesMicrosoft Azure Data Factory Hands-On Lab Overview Slides
Microsoft Azure Data Factory Hands-On Lab Overview Slides
Mark Kromer
 
Zararlı Yazılım Tespiti ve Siber i̇stihbarat Amaçlı IOC Kullanımı
Zararlı Yazılım Tespiti ve Siber i̇stihbarat Amaçlı IOC KullanımıZararlı Yazılım Tespiti ve Siber i̇stihbarat Amaçlı IOC Kullanımı
Zararlı Yazılım Tespiti ve Siber i̇stihbarat Amaçlı IOC Kullanımı
BGA Cyber Security
 
Microsoft Purview
Microsoft PurviewMicrosoft Purview
Microsoft Purview
Mohammed Chaaraoui
 
üLkemizde gerçekleştirilen güncel ve önemli projeler
üLkemizde  gerçekleştirilen  güncel  ve  önemli  projelerüLkemizde  gerçekleştirilen  güncel  ve  önemli  projeler
üLkemizde gerçekleştirilen güncel ve önemli projelerNalan Özcan
 
Building Advanced Analytics Pipelines with Azure Databricks
Building Advanced Analytics Pipelines with Azure DatabricksBuilding Advanced Analytics Pipelines with Azure Databricks
Building Advanced Analytics Pipelines with Azure Databricks
Lace Lofranco
 
Azure Synapse Analytics Overview (r2)
Azure Synapse Analytics Overview (r2)Azure Synapse Analytics Overview (r2)
Azure Synapse Analytics Overview (r2)
James Serra
 
Zararlı Yazılım Analizi Eğitimi Lab Kitabı
Zararlı Yazılım Analizi Eğitimi Lab KitabıZararlı Yazılım Analizi Eğitimi Lab Kitabı
Zararlı Yazılım Analizi Eğitimi Lab Kitabı
BGA Cyber Security
 
WEB ve MOBİL SIZMA TESTLERİ
WEB ve MOBİL SIZMA TESTLERİ WEB ve MOBİL SIZMA TESTLERİ
WEB ve MOBİL SIZMA TESTLERİ
BGA Cyber Security
 
Yonetim kuramlari
Yonetim kuramlariYonetim kuramlari
Yonetim kuramlari
GÜRKAN AKKAN
 
Oci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ssOci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ss
Kenichi Sonoda
 
İş Analizi 101
İş Analizi 101İş Analizi 101
Oracle Database: リリースモデルとアップグレード・パッチ計画 (2021年2月版)
Oracle Database: リリースモデルとアップグレード・パッチ計画 (2021年2月版)Oracle Database: リリースモデルとアップグレード・パッチ計画 (2021年2月版)
Oracle Database: リリースモデルとアップグレード・パッチ計画 (2021年2月版)
オラクルエンジニア通信
 
Tasarım Analiz Raporu: Üniversite Web Sitesi
Tasarım Analiz Raporu: Üniversite Web SitesiTasarım Analiz Raporu: Üniversite Web Sitesi
Tasarım Analiz Raporu: Üniversite Web Sitesi
trkaplan
 
Kurum kültürü burcu çınar
Kurum kültürü burcu çınarKurum kültürü burcu çınar
Kurum kültürü burcu çınar
Burcu Çınar
 
Sızma Testlerinde Armitage Kullanımı
Sızma Testlerinde Armitage KullanımıSızma Testlerinde Armitage Kullanımı
Sızma Testlerinde Armitage Kullanımı
BGA Cyber Security
 
ETL in the Cloud With Microsoft Azure
ETL in the Cloud With Microsoft AzureETL in the Cloud With Microsoft Azure
ETL in the Cloud With Microsoft Azure
Mark Kromer
 
Karar ağaçlari
Karar ağaçlariKarar ağaçlari
Karar ağaçlari
reyhan koç
 
Amac - kitap sunumu
Amac - kitap sunumuAmac - kitap sunumu
Amac - kitap sunumu
Eren Yılmaz
 

What's hot (20)

Performans Yönetimi Yatırımın Geri Dönüşü - ROI
Performans Yönetimi Yatırımın Geri Dönüşü - ROIPerformans Yönetimi Yatırımın Geri Dönüşü - ROI
Performans Yönetimi Yatırımın Geri Dönüşü - ROI
 
Delta lakesummary
Delta lakesummaryDelta lakesummary
Delta lakesummary
 
Microsoft Azure Data Factory Hands-On Lab Overview Slides
Microsoft Azure Data Factory Hands-On Lab Overview SlidesMicrosoft Azure Data Factory Hands-On Lab Overview Slides
Microsoft Azure Data Factory Hands-On Lab Overview Slides
 
Zararlı Yazılım Tespiti ve Siber i̇stihbarat Amaçlı IOC Kullanımı
Zararlı Yazılım Tespiti ve Siber i̇stihbarat Amaçlı IOC KullanımıZararlı Yazılım Tespiti ve Siber i̇stihbarat Amaçlı IOC Kullanımı
Zararlı Yazılım Tespiti ve Siber i̇stihbarat Amaçlı IOC Kullanımı
 
Microsoft Purview
Microsoft PurviewMicrosoft Purview
Microsoft Purview
 
üLkemizde gerçekleştirilen güncel ve önemli projeler
üLkemizde  gerçekleştirilen  güncel  ve  önemli  projelerüLkemizde  gerçekleştirilen  güncel  ve  önemli  projeler
üLkemizde gerçekleştirilen güncel ve önemli projeler
 
Building Advanced Analytics Pipelines with Azure Databricks
Building Advanced Analytics Pipelines with Azure DatabricksBuilding Advanced Analytics Pipelines with Azure Databricks
Building Advanced Analytics Pipelines with Azure Databricks
 
Azure Synapse Analytics Overview (r2)
Azure Synapse Analytics Overview (r2)Azure Synapse Analytics Overview (r2)
Azure Synapse Analytics Overview (r2)
 
Zararlı Yazılım Analizi Eğitimi Lab Kitabı
Zararlı Yazılım Analizi Eğitimi Lab KitabıZararlı Yazılım Analizi Eğitimi Lab Kitabı
Zararlı Yazılım Analizi Eğitimi Lab Kitabı
 
WEB ve MOBİL SIZMA TESTLERİ
WEB ve MOBİL SIZMA TESTLERİ WEB ve MOBİL SIZMA TESTLERİ
WEB ve MOBİL SIZMA TESTLERİ
 
Yonetim kuramlari
Yonetim kuramlariYonetim kuramlari
Yonetim kuramlari
 
Oci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ssOci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ss
 
İş Analizi 101
İş Analizi 101İş Analizi 101
İş Analizi 101
 
Oracle Database: リリースモデルとアップグレード・パッチ計画 (2021年2月版)
Oracle Database: リリースモデルとアップグレード・パッチ計画 (2021年2月版)Oracle Database: リリースモデルとアップグレード・パッチ計画 (2021年2月版)
Oracle Database: リリースモデルとアップグレード・パッチ計画 (2021年2月版)
 
Tasarım Analiz Raporu: Üniversite Web Sitesi
Tasarım Analiz Raporu: Üniversite Web SitesiTasarım Analiz Raporu: Üniversite Web Sitesi
Tasarım Analiz Raporu: Üniversite Web Sitesi
 
Kurum kültürü burcu çınar
Kurum kültürü burcu çınarKurum kültürü burcu çınar
Kurum kültürü burcu çınar
 
Sızma Testlerinde Armitage Kullanımı
Sızma Testlerinde Armitage KullanımıSızma Testlerinde Armitage Kullanımı
Sızma Testlerinde Armitage Kullanımı
 
ETL in the Cloud With Microsoft Azure
ETL in the Cloud With Microsoft AzureETL in the Cloud With Microsoft Azure
ETL in the Cloud With Microsoft Azure
 
Karar ağaçlari
Karar ağaçlariKarar ağaçlari
Karar ağaçlari
 
Amac - kitap sunumu
Amac - kitap sunumuAmac - kitap sunumu
Amac - kitap sunumu
 

Similar to Weka ile Veri Madenciliği

İlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQLİlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQL
Murat Azimli
 
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdfKaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdf
aarthitimesgd
 
Medical data mining applications
Medical data mining applicationsMedical data mining applications
Medical data mining applicationsEsranur Öğretmen
 
Medical data mining applications
Medical data mining applicationsMedical data mining applications
Medical data mining applicationsEsranur Öğretmen
 
ML_3.pdf
ML_3.pdfML_3.pdf
ML_3.pdf
mustafa aadel
 
Gizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez SunumuGizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez SunumuG. Basak Berk
 
tacalan_proje_rapor_v4
tacalan_proje_rapor_v4tacalan_proje_rapor_v4
tacalan_proje_rapor_v4Ozan Taçalan
 
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistem.pdf
Kaputun Altndan Bakmak ORION  UPSte Yeni Navigasyon Sistem.pdfKaputun Altndan Bakmak ORION  UPSte Yeni Navigasyon Sistem.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistem.pdf
aaseletronics2013
 
Urun Gami 3
Urun Gami 3Urun Gami 3
Urun Gami 3
erkut81
 
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
AISecLab
 
Sunucu işletim sistemi 4
Sunucu işletim sistemi 4Sunucu işletim sistemi 4
Sunucu işletim sistemi 4Erol Dizdar
 
Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇
Musa BEKTAŞ
 
Veritas Vision Solution Day 2020, Istanbul, Turkey
Veritas Vision Solution Day 2020, Istanbul, TurkeyVeritas Vision Solution Day 2020, Istanbul, Turkey
Veritas Vision Solution Day 2020, Istanbul, Turkey
Veritas Technologies LLC
 
OpenAIRE PROVIDE Dashboard for Turkish repository managers
OpenAIRE PROVIDE Dashboard for Turkish repository managersOpenAIRE PROVIDE Dashboard for Turkish repository managers
OpenAIRE PROVIDE Dashboard for Turkish repository managers
OpenAIRE
 
Naive Bayes Sınıflandırma Uygulaması
Naive Bayes Sınıflandırma UygulamasıNaive Bayes Sınıflandırma Uygulaması
Naive Bayes Sınıflandırma Uygulaması
Harun Çetin
 
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme YöntemiUtku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi
Zeo
 
Urun Gami 1
Urun Gami 1Urun Gami 1
Urun Gami 1
erkut81
 
YÖNETİM BİLGİ SİSTEMİ
YÖNETİM BİLGİ SİSTEMİYÖNETİM BİLGİ SİSTEMİ
YÖNETİM BİLGİ SİSTEMİ
MUHAMMED ÖMER BULAKÇIBAŞI
 
agem_intern_report
agem_intern_reportagem_intern_report
agem_intern_reportMeliz Ersoy
 

Similar to Weka ile Veri Madenciliği (20)

İlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQLİlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQL
 
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdfKaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdf
 
Medical data mining applications
Medical data mining applicationsMedical data mining applications
Medical data mining applications
 
Medical data mining applications
Medical data mining applicationsMedical data mining applications
Medical data mining applications
 
ML_3.pdf
ML_3.pdfML_3.pdf
ML_3.pdf
 
Gizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez SunumuGizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez Sunumu
 
tacalan_proje_rapor_v4
tacalan_proje_rapor_v4tacalan_proje_rapor_v4
tacalan_proje_rapor_v4
 
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistem.pdf
Kaputun Altndan Bakmak ORION  UPSte Yeni Navigasyon Sistem.pdfKaputun Altndan Bakmak ORION  UPSte Yeni Navigasyon Sistem.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistem.pdf
 
Urun Gami 3
Urun Gami 3Urun Gami 3
Urun Gami 3
 
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
 
Sunucu işletim sistemi 4
Sunucu işletim sistemi 4Sunucu işletim sistemi 4
Sunucu işletim sistemi 4
 
Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇
 
Veritas Vision Solution Day 2020, Istanbul, Turkey
Veritas Vision Solution Day 2020, Istanbul, TurkeyVeritas Vision Solution Day 2020, Istanbul, Turkey
Veritas Vision Solution Day 2020, Istanbul, Turkey
 
OpenAIRE PROVIDE Dashboard for Turkish repository managers
OpenAIRE PROVIDE Dashboard for Turkish repository managersOpenAIRE PROVIDE Dashboard for Turkish repository managers
OpenAIRE PROVIDE Dashboard for Turkish repository managers
 
Naive Bayes Sınıflandırma Uygulaması
Naive Bayes Sınıflandırma UygulamasıNaive Bayes Sınıflandırma Uygulaması
Naive Bayes Sınıflandırma Uygulaması
 
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme YöntemiUtku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi
 
Urun Gami 1
Urun Gami 1Urun Gami 1
Urun Gami 1
 
Urun gami 3
Urun gami 3Urun gami 3
Urun gami 3
 
YÖNETİM BİLGİ SİSTEMİ
YÖNETİM BİLGİ SİSTEMİYÖNETİM BİLGİ SİSTEMİ
YÖNETİM BİLGİ SİSTEMİ
 
agem_intern_report
agem_intern_reportagem_intern_report
agem_intern_report
 

More from Abbasgulu Allahverdili

Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptxKötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
Abbasgulu Allahverdili
 
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptxYapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
Abbasgulu Allahverdili
 
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileriAzerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
Abbasgulu Allahverdili
 
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
Abbasgulu Allahverdili
 
Karabağ Futbol Kulübü
Karabağ Futbol KulübüKarabağ Futbol Kulübü
Karabağ Futbol Kulübü
Abbasgulu Allahverdili
 
Futbol ve Temel Hareket Öğretimi
Futbol ve Temel Hareket ÖğretimiFutbol ve Temel Hareket Öğretimi
Futbol ve Temel Hareket Öğretimi
Abbasgulu Allahverdili
 
A Software Engineer
A Software EngineerA Software Engineer
A Software Engineer
Abbasgulu Allahverdili
 
A Business Analyst
A Business AnalystA Business Analyst
A Business Analyst
Abbasgulu Allahverdili
 
A Software Tester
A Software TesterA Software Tester
A Software Tester
Abbasgulu Allahverdili
 

More from Abbasgulu Allahverdili (9)

Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptxKötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
 
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptxYapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
 
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileriAzerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
 
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
 
Karabağ Futbol Kulübü
Karabağ Futbol KulübüKarabağ Futbol Kulübü
Karabağ Futbol Kulübü
 
Futbol ve Temel Hareket Öğretimi
Futbol ve Temel Hareket ÖğretimiFutbol ve Temel Hareket Öğretimi
Futbol ve Temel Hareket Öğretimi
 
A Software Engineer
A Software EngineerA Software Engineer
A Software Engineer
 
A Business Analyst
A Business AnalystA Business Analyst
A Business Analyst
 
A Software Tester
A Software TesterA Software Tester
A Software Tester
 

Weka ile Veri Madenciliği

  • 1. WEKA İLE VERİ MADENCİLİĞİ VE UYGULAMALI ÖRNEKLER ABBASGULU ALLAHVERDILI PARVIN TELMANLI
  • 4. WEKA Programı Hakkında WEKA, makine öğrenimi amacıyla Waikato Üniversitesinde geliştirilmiş ve Waikato Environment for Knowledge Analysis kelimelerinin baş harflerinden oluşmuş yazılımın ismidir. Günümüzde yaygın kullanımı olan çoğu makine öğrenimi algoritmalarını ve metotlarını içermektedir. WEKA, tamamen modüler bir tasarıma sahip olup, içerdiği özelliklerle veri kümeleri üzerinde görselleştirme, veri analizi, iş zekası uygulamaları, veri madenciliği gibi işlemler yapabilmektedir.
  • 6. Veri Madenciliği Hakkında Büyük veri kaynaklarından yararlı ve ilginç bilgi bulunmalı ve bulunan bilgi, gizli, önemli, önceden bilinmeyen ve yararlı olmalıdır. Teoride veri madenciliği bilgi keşfi işleminin aşamalarından biridir ama pratikte ise veri madenciliği ve bilgi keşfi eş anlamlı olarak kullanılır.
  • 7. Veri, Veri Tabanı ve Veri Ambarı Veri: Veri sayılar, metinler, sesler, görüntüler, rasat parkında kayıt cihazında depolananlar, otomasyonda öğrenci kayıtlarıdır. Genel olarak veri karar vermeye yarayan soyut simge dizileridir. Veri Tabanı: Veri tabanı, birbiri ile ilişkili verilerin toplanması ve depolanmasıdır. Sistematik erişim imkanı olan, yönetilebilir, güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen verilerdir ve belli bir amaç için verilerin toplanması ve tasarımıdır. Veri Ambarı: Veri ambarları kesin bir tanım yapmayı zorlaştıran bir şekilde, pek çok biçimde tanımlanmaktadırlar. Veri ambarı bir organizasyonun kullanılmakta olan veri tabanlarından ayrı olarak sürdürülen bir karar destek veritabanıdır.
  • 9. LABOR Veri Seti Hakkında LABOR veri seti işçiler hakkında bilgiler vermektedir. Bu veriler Kanada endüstrisinde işçi müzakereleri sonucunda toplanmıştır. Çalışma saatleri, işçilerin maaşı, tatilleri, maaş artış veya azalışları, sağlık ve başka yardımlar gibi özellikleri dikkate alarak, bize çalışma ortamı veya şartlarının iyi mi kötü mü olduğunu söylemektedir. Veri seti içerisinde 17 adet öznitelik ve 57 adet kayıt bulunmaktadır.
  • 10. Öznitelikler 1. Anlaşma süreleri (duration) 2. İlk yıl ücret artışı (wage-increase-first-year) 3. İkinci yıl ücret artışı (wage-increase-second-year) 4. Üçüncü yıl ücret artışı (wage-increase-third-year) 5. Yaşam maliyeti ayarlaması (cost-of-living-adjustment) 6. Çalışma saatleri (working-hours) 7. Emekli maaşı (pension) 8. Bekleme ücreti: Görev için derhal hazır bulunması gereken çalışanlar için ek ücrettir (standby-pay) 9. Vardiya Değişimi (shift-differential) 10. Eğitim ödeneği (education-allowance) 11. Resmi Tatiller (statutory-holidays) 12. Ücretli tatil günleri (vacation) 13. Uzun süreli engellilik yardımı (longterm-disability-assistance) 14. Diş planına katkı (contribution-to-dental-plan) 15. Cenaze masraflarına işverenin mali katkısı (bereavement- assistance) 16. Sağlık planına katkı (contribution-to-health-plan) 17. Sınıf (class)
  • 11. OneR Algoritması Bu algoritmanın amacı hangi sınıfı kullanırsak daha iyi sonucu tespit ederiz sorusuna cevap bulmaktır. Algoritma bunu yaparken sınıflandırmak istediğimiz sınıfla elindeki diğer sınıflar arasındaki bağlantıya bakıp hangisi ile daha fazla benzerlik gösteriyorsa o sınıfı almaktır.
  • 12. Veri Seti Üzerinde Uygulanması Veri seti için ilk olarak bir sınıflandırma algoritması olan OneR algoritması uygulanmıştır. Burada test seçenekleri içerisinde en çok kullanılan cross- validation modeli kullanılmıştır. Veri seti büyük bir veri seti olmadığı için algoritma uygulanırken 3 katmana (fold) bölünmüştür. Bu modelde “2 set eğitim, 1 set test verisi” olarak, tüm setlerin üzerinden geçene kadar kullanılır ve her bir parça test ve eğitim verisi olarak kullanılmış olur. Sınıflandırma modeline göre ilk yıl ücret artışı (wage-increase- first-year) özniteliği seçilmiştir. 42 kayıt doğru 15 kayıt ise yanlış sınıflandırılmıştır. Sonuç olarak algoritma uygulandığında %73.6842 başarı oranı vermektedir.
  • 13. ZeroR Algoritması ZeroR algoritması veri madenciliği için en basit ve çok kullanılan algoritmalardan biridir. Veri setindeki sınıflandırmalardan hangisinin sıklığı daha çok ise gelen herşeyi o sınıftan kabul eder.
  • 14. Veri Seti Üzerinde Uygulanması İkinci olarak sınıflandırma algoritmalarından biri olan ZeroR algoritması veri seti üzerinde uygulanmıştır. Burada ZeroR algoritması sınıf (class) özniteliği için uygulanmıştır. ZeroR algoritması veri setindeki sınıflandırmalardan hangisinin sıklığı daha çok ise gelen her şeyi o sınıftan kabul ettiği için 37’ye 20 şeklinde bir dağılım olduğu için daha sık olan sınıflandırmayı almış ve %64.9123 başarı oranı elde edilmiştir.
  • 15. Naive Bayes Algoritması Naive Bayes algoritmasının temeli Bayes teoremine dayanır. Naive Bayes algoritmasının çalışma şekli bir eleman için her durumun olasılığını hesaplamak ve olasılık değeri en yüksek olana göre sınıflandırmak olarak özetlenebilir.
  • 16. Veri Seti Üzerinde Uygulanması En son olarak sınıflandırma algoritmalarından biri olan Naive Bayes algoritması veri seti üzerinde uygulanmıştır. Burada F-Measure’a baktığımızda ‘good’ sonucunun ‘bad’ sonucundan daha iyi olduğu görülmektedir. Toplam 57 veriden 54 tanesi doğru tamamlanmış ve % 94.7368 başarı oranı elde edilmiştir. Confusion Matrix’e bakıldığı zaman iyi bir sonuç görülmektedir. Model ‘good’ sonuçlarının tamamını doğru tahmin etmişken, ‘bad’ sonuçlarından 3 tanesini ‘good’ olarak karıştırmıştır.
  • 17. Sonuç Çalışmada ilk olarak WEKA programı hakkında gerekli bilgilerden bahsedilmiş, dosya tipleri ve önemli paneller hakkında bilgi verilmiştir. Ayrıca veri madenciliği başlığı altında veri, veri tabanı ve veri ambarı ile ilgili detaylı bilgi eklenmiştir. Genel olarak veri seti üzerinde sınıflandırma yapıldığı için sınıflandırma algoritmalarına değinilmiştir. LABOR veri seti incelenmiş, içermiş olduğu özniteliklerle ilgili detaylı bilgi verilmiş ve veri seti üzerinde en yaygın kullanılan sınıflandırma algoritmalarından olan OneR, ZeroR, Naive Bayes algoritmaları uygulanmış ve karşılaştırılmıştır. Bu üç algoritma başarı oranına göre karşılaştırıldığı zaman en iyi sonucu veren algoritma Naive Bayes algoritması olmuştur. Bunun nedeni Naive Bayes algoritmasının çalışma şekli bir eleman için her durumun olasılığını hesaplamak ve olasılık değeri en yüksek olana göre sınıflandırmak olarak özetlenebilir.
  • 19. Kaynak • [1] https://tr.wikipedia.org/wiki/Weka [Çevrimiçi Erişim Tarihi: 19.01.2022] • [2] Dr. Öğr. Üyesi Nilgün GÜLER BAYAZIT, ‘Veri Madenciliğine Giriş’, Yıldız Teknik Üniversitesi, 2021. • [3] https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/labor.arff [Çevrimiçi Erişim Tarihi: 19.01.2022]