SlideShare a Scribd company logo
1 of 36
Abbasgulu Allahverdili
YAPAY ZEKA İLE
ARAÇLARIN
YAKIT TÜKETİMİ
TAHMİNİ
ÖZET
Bu projede, yapay zeka ve veri analizi
yöntemleri kullanılarak araçların ne kadar
yakıt tükettiklerinin tahmini yapılmıştır.
GİRİŞ
Çalışma
Ortamının
Hazırlanması Veri Analizi
Tanımlar Sonuç
Veri Seti
TANIMLAR
• Yapay Zeka Nedir?
• Makine Öğrenimi Nedir?
01
Yapay Zeka Nedir?
AI kısaltmasıyla da ifade edilen Yapay Zeka,
görevleri yerine getirmek için insan zekasını
taklit eden ve topladığı bilgilerle kendisini
kademeli olarak geliştirebilen sistemler veya
makineler anlamına gelir [1].
Makine Öğrenimi Nedir?
Makine öğrenimi (ML), tükettikleri verilere
göre öğrenen ya da performansı iyileştiren
sistemler oluşturmaya odaklanan bir yapay
zeka (AI) alt kümesidir. Yapay zeka, insan
zekasını taklit eden sistemler veya
makineler anlamına gelen kapsamlı bir
terimdir [2].
ÇALIŞMA
ORTAMININ
HAZIRLANMASI • Anaconda Programı
• Spyder Yazılımı
02
Anaconda Programı
Anaconda ücretsiz ve açık kaynaklı, Python
ve R programlama dillerinin bilimsel
hesaplama kullanımında paket yönetimini
kolaylaştırmayı amaçlayan bir özgür ve açık
kaynaklı dağıtımdır. Paket sürümleri conda
paket yönetim sistemi ile yönetilir.
Anaconda dağıtımı Windows, Linux ve
MacOS işletim sistemlerinde kullanılabilen
veri bilimi paketleri içerir [3].
Spyder Yazılımı
Spyder, Python dilinde bilimsel
programlama için açık kaynaklı bir çapraz
platform entegre geliştirme ortamıdır.
Spyder, bilimsel Python yığınındaki NumPy,
SciPy, Matplotlib, pandalar, IPython, SymPy
ve Cython ve diğer açık kaynaklı yazılımlar
dahil olmak üzere bir dizi önde gelen
paketle entegre olur [4].
VERİ SETİ
• Veri Seti Tanıtımı
• Veri Setinin Spyder Yazılımına Aktarılması
• Veri Seti ile İlgili Bilgiler
03
Veri Seti Tanıtımı
Auto MPG veri kümesi, StatLib kitaplığında sağlanan veri
kümesinin biraz değiştirilmiş bir versiyonudur [5].
Veri seti toplam 398 örnekten ve 9 sınıf özellik (class
attribute) bilgilerinden oluşmaktadır.
Veri Setinin Özellik Bilgileri:
• mpg: continuous – 1 galon benzin veya mazotla kaç mil
gittiğini gösterir
• cylinders: multi-valued discrete – silindir sayısı
• displacement: continuous – motor hacmi
• horsepower: continuous – beygir gücü
• weight: continuous – ağırlığı
• acceleration: continuous – hızlanma
• model year: multi-valued discrete – model yılı
• origin: multi-valued discrete – kökeni
• car name: string (unique for each instance) – araç ismi
Veri Setinin Spyder Yazılımına Aktarılması
Öncelikle aktarmak istediğimiz veri setinin ismini yazmamız gerekiyor (auto-mpg.data). Sonraki işlemler sırasıyla
names (sütun adı), na_values (boş değer – eğer boş değer varsa soru işareti ile gösterilecek), comment (yorum), sep
(ayırma – veri seti boşluklarla ayrıldığı için tırnak içinde boşluk kullanılmıştır.) ve skipinitialspace (boşluk – veri
boşluklarla ayrıldığı için boşluk atlamaya yarayan komut)
Veri Seti ile İlgili Bilgiler
Data Info() komutu: Göründüğü gibi 398 tane girdi
(entries) var ve bunlar 0’dan 397’e kadar
işaretlenmişler. 8 tane sütun mevcut ve sadece
beygir gücünde (Hoursepower) 6 tane kayıp değer
var. Veri seti ondalık (float) ve tam (int) sayılardan
oluşmaktadır.
Describe komutu: Count (sayı) – Girdi sayısını
ifade eder. Mean (ortalama) – veri setimizdeki tüm
veri noktalarının toplamının toplam veri noktasına
bölümü ile edilen bir ortalama sayıdır. Std
(Standart Sapma) – Varyansın karekökü olarak
tanımlanır.
VERİ ANALİZİ
• Kayıp Değerlerin Bulunması ve Doldurulması
• Keşifsel Veri Analizi
• Aykırı Değer
• Öz Nitelik Mühendisliği
• Ön İşleme
• Doğrusal Regresyon
• Düzenlileştirme
• XGBoost
• Modellerin Ortalaması
04
Kayıp Değerlerin Bulunması ve Doldurulması
Her sütundaki eksik değerleri bulmak için
data.isna().sum() komutunu kullanmak gerekiyor.
Bu veri seti için en sağlıklı yöntem istatistiksel
dağılıma göre (mean) kayıp verilerin
doldurulmasıdır.
Göründüğü gibi Hoursepower (beygir gücü)
sütununda 6 tane kayıp değer bulunmaktadır.
Diğer sütunlarda kayıp değer bulunmamaktadır.
Burada fillna kayıp değerleri doldurmak için
kullanılan bir komut.
Keşifsel Veri Analizi
Korelasyon, olasılık kuramı ve istatistikte iki rassal değişken
arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir [6].
Veri setinde nümerik sayılar olduğu için birbirleri arasındaki
ilişkiyi daha iyi analiz etmek mümkün.
Acceleration (hızlanma) ile Weight (ağırlık) arasındaki ilişkiye
baktığımız zaman negatif korelasyon gözükmektedir. Yani
aracın ağırlığı ne kadar az ise o kadar hızlıdır sonucunu
çıkarabiliriz. Target (MPG) ile Horsepower (beygir gücü),
Weight (ağırlık), Cylinders (silindir sayısı) ve Displacement
(motor hacmi) arasındaki ilişkiye baktığımız zaman yine
negatif bir korelasyon gözükmektedir. Target (MPG) ile diğer
sütunlar arasındaki ilişkiyi araştırdığımız için burada Target
(MPG) bağımlı değişken diğer sütunlar ise bağımsız
değişkenlerdir.
Keşifsel Veri Analizi
Bir korelasyon matrisinde birleri ile yüksek korelasyona
sahip özellikler varsa buna çoklu doğrusal bağlantı
(multicollinearity) denir.
Korelasyon matrisini küçültmek ve daha iyi analiz yapmak
için ±0,75 aralığındaki korelasyonlara bakıldı ve özellikler
arasında yüksek korelasyon bulundu. Sonuç olarak özellikler
arasında çoklu doğrusal bağlantı (multicollinearity) vardır.
Keşifsel Veri Analizi
Genel Grafiğe bakıldığı zaman Target (MPG) ile Target (MPG)
arasında histogram ortaya çıkmıştır. Target (MPG) ile
Cylinders (silindir sayısı) ve Origin (kökeni) arasında
kategorik bir ilişki mevcuttur. Target (MPG) ile Displacement
(motor hacmi), Horsepower (beygir gücü) ve Weight (ağırlık)
arasında ters orantı vardır. Target (MPG) ile Acceleration
(hızlanma) ve Model Year (model yılı) arasında herhangi bir
korelasyon gözükmemektedir.
Aykırı Değer
İstatistikte aykırı değer (outlier), diğer gözlemlerden önemli ölçüde farklı olan bir veri noktasıdır. Aykırı değer,
ölçümdeki değişkenlikten kaynaklanabilir veya deneysel hatayı gösterebilir; ikincisi bazen veri setinden hariç tutulur.
Bir aykırı değer, istatistiksel analizlerde ciddi sorunlara neden olabilir [7].
Q1 (1. Çeyreklik) ve Q3 (3. Çeyreklik) değerleri birbirlerinden çıkartılarak IQR (Çeyrek arası açıklık) değeri elde edilir. Q3
ile 1,5*IQR topladığı zaman sağ, Q1 ile 1,5*IQR farkını aldığımız zaman sol aykırı değer sınırını elde etmiş oluyoruz.
Aykırı sınır değerlerinden dışarda kalan değerler aykırı değerlerdir.
Aykırı Değer
Aykırı Değerlerin Tespiti
Grafikten de görüldüğü gibi, Horsepower (beygir
gücü) ve Acceleration (hızlanma) sütununda aykırı
değerler mevcuttur. Target (MPG) sütununda çok
az aykırı değer vardır. Diğer sütunlarda aykırı
değerler yoktur.
Aykırı Değerlerin Çıkarılması
Göründüğü gibi 398 tane girdiden sadece 395
tanesi kaldı. Horsepower (beygir gücü) ve
Acceleration (hızlanma) sütunlarındaki aykırı
değerler başarılı bir şekilde veri setinden çıkarıldı.
Öz Nitelik Mühendisliği
Çarpıklık olasılık kuramı ve istatistik bilim dallarında bir reel-değerli rassal değişkenin olasılık dağılımının simetrik
olamayışının ölçülmesidir [8].
Öz Nitelik Mühendisliği
İlk önce Target (MPG) bağımlı değişkenin çarpıklık
dağılımının grafiğine bakacak olursak, kuyruğun
sağ tarafta olduğu görülmektedir. Yani pozitif bir
çarpıklık vardır.
Bu çarpıklık değerini azaltabilmek için Log
dönüşümü yapıldı.
Grafikten de anlaşılacağı üzere çarpıklık değeri
azalmıştır.
Öz Nitelik Mühendisliği
Bağımsız Değişkenlerin Çarpıklık Dağılımı
Horsepower (beygir gücü) 1’den büyük
olduğu için pozitif bir çarpıklık var fakat
çok küçük olduğu için sorun teşkil
etmemektedir. Geri kalan bağımsız
değişkenlerin çarpıklık değeri gayet
idealdir.
Öz Nitelik Mühendisliği
One Hot Encoding, kategorik
değişkenlerin ikili (binary) vektörler
olarak temsilidir.
Cylinders (silindir sayısı) ve Origin
(kökeni) kategorik özellikler oldukları için
başarılı bir şekilde One Hot Encoding
yapılmıştır.
Ön İşleme
Ön işleme, makine öğrenimi modellerini eğitmeden önce veri seti üzerinde yapılan birtakım işlemlerdir.
Ön İşleme
Eğitim ve Test Verisinin Tanımlanması Eğitim ve Test Verisinin Tanımlanması
Ön İşleme
Standardizasyon, veri yapısını bozmadan standart hale getirme işlemidir.
Normal bir dağılım olması için Train ve Test verisinin Mean (ortalama) değeri 1 olarak, Std (Standart Sapma) değeri 0
olarak tanımlandı.
Doğrusal Regresyon
Doğrusal regresyon, bir bağımlı
değişken ile diğer başka bir
bağımsız değişken arasındaki ilişkiyi
tahmin etmeye çalışan doğrusal bir
model yaklaşımıdır.
Amaç her zaman en küçük kareler
yöntemini (Least Squared Error)
minimize etmektir.
Ortalama kare hata (mean squared
error) payı 0,020 olarak bulundu.
Düzenlileştirme
Ridge
Regularization
ElasticNet
Regularization
Lasso
Regularization
Düzenlileştirme, modelin karmaşıklığını ve aşırı öğrenme problemini azaltmak için kullanılan bir tekniktir.
Düzenlileştirme
Ridge Regularization
Birden fazla değişkenli regresyon
verilerini analiz etmek için kullanılır.
Doğrusal bir modeldir.
Ortalama kare hata (mean squared
error) payı 0,018 olarak bulundu.
Düzenlileştirme
Lasso Regularization
Oluşturulan modelin tahmin
doğruluğunu geliştirmek için hem
değişken seçimi hem de düzenleme
gerçekleştirir.
Ortalama kare hata (mean squared
error) payı 0,016 olarak bulundu.
Ridge Regularization’dan en büyük
farkı gereksiz özelliklere sıfır değeri
atamasıdır.
Düzenlileştirme
ElasticNet Regularization
Ridge ve Lasso Regularization’nın
karışımı gibidir. Her ikisinin de
kuvvetli yönlerine sahiptir.
Ortalama kare hata (mean squared
error) payı 0,017 olarak bulundu.
XGBoost
Büyük ve karmaşık veri setleri için tasarlanmış bir algoritmadır. Bu algoritmanın en önemli özelliği hızlı çalışması ve
yüksek tahmin gücü elde edebiliyor olmasıdır.
Ortalama kare hata (mean squared error) payı 0,017 olarak bulundu.
Modellerin Hata Payları
Doğrusal Regresyon 0,020
Ridge Regularization 0,018
Lasso Regularization 0,016
ElasticNet Regularization 0,017
XGBoost 0,017
Modellerin Ortalaması
En iyi sonucu veren iki algoritmanın ortalaması alınarak bulunur.
Ortalama kare hata (mean squared error) payı 0,015 olarak bulundu.
Sonuç
Kullanılmış olan modellerin regresyon skoru bulunmuş ve en iyi sonucu veren modellerin ortalaması alınarak test
skoru ortaya çıkarılmıştır. Projenin geliştirilme sürecinde karşılaşılan hataları çözebilmek için literatür araştırması
yapılmıştır. Yapılan bu araştırmalarda yapay zeka, veri analizi, makine öğrenimi modelleri ve Python programlama dili
ile ilgili bilgiler edinilmiştir. Yeni makine öğrenimi modelleri kullanılarak proje daha da geliştirilebilir.
[1] Oracle, «Yapay Zeka nedir? Yapay Zeka hakkında bilgi edinin», erişim tarihi: 15 Haziran 2022,
https://www.oracle.com/tr/artificial-intelligence/what-is-ai/
[2] Oracle, «Makine Öğrenimi nedir?», erişim tarihi: 15 Haziran 2022,
https://www.oracle.com/tr/data-science/machine-learning/what-is-machine-learning/
[3] Wikipedia, “Anaconda (Python dağıtımı)”, erişim: 15 Haziran 2022,
https://tr.wikipedia.org/wiki/Anaconda_(Python_da%C4%9F%C4%B1t%C4%B1m%C4%B1)
[4] Wikipedia, “Spyder (software)”, erişim: 15 Haziran 2022,
https://en.wikipedia.org/wiki/Spyder_(software)
[5] UCI Machine Learning Repository, “Auto MPG Data Set”, erişim: 02 Haziran 2022,
https://archive.ics.uci.edu/ml/datasets/Auto+MPG
[6] Wikipedia, “Korelasyon”, erişim: 02 Haziran 2022,
https://tr.wikipedia.org/wiki/Korelasyon
[7] Wikipedia, “Aykırı değer”, erişim: 02 Haziran 2022,
https://tr.wikipedia.org/wiki/Ayk%C4%B1r%C4%B1_de%C4%9Fer
[8] Wikipedia, “Çarpıklık”, erişim 02 Haziran 2022,
https://tr.wikipedia.org/wiki/%C3%87arp%C4%B1kl%C4%B1k
KAYNAKÇA

More Related Content

What's hot

Microsoft AI Platform Overview
Microsoft AI Platform OverviewMicrosoft AI Platform Overview
Microsoft AI Platform OverviewDavid Chou
 
S08_Microsoft 365 E5 Compliance による内部不正対策の実践 [Microsoft Japan Digital Days]
S08_Microsoft 365 E5 Compliance による内部不正対策の実践 [Microsoft Japan Digital Days]S08_Microsoft 365 E5 Compliance による内部不正対策の実践 [Microsoft Japan Digital Days]
S08_Microsoft 365 E5 Compliance による内部不正対策の実践 [Microsoft Japan Digital Days]日本マイクロソフト株式会社
 
Introduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprisesIntroduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprisesMessaoud Hatri
 
Federated learning in brief
Federated learning in briefFederated learning in brief
Federated learning in briefShashi Perera
 
Derin Öğrenme (Deep Learning) Nedir?
Derin Öğrenme (Deep Learning) Nedir?Derin Öğrenme (Deep Learning) Nedir?
Derin Öğrenme (Deep Learning) Nedir?eburhan
 
Histoire de l'informatique 1.pdf
Histoire de l'informatique 1.pdfHistoire de l'informatique 1.pdf
Histoire de l'informatique 1.pdfssuserffd383
 
Big Data Stockholm v 7 | "Federated Machine Learning for Collaborative and Se...
Big Data Stockholm v 7 | "Federated Machine Learning for Collaborative and Se...Big Data Stockholm v 7 | "Federated Machine Learning for Collaborative and Se...
Big Data Stockholm v 7 | "Federated Machine Learning for Collaborative and Se...Dataconomy Media
 
Machine learning libraries with python
Machine learning libraries with pythonMachine learning libraries with python
Machine learning libraries with pythonVishalBisht9217
 
نظام إدارة الصيدليات
نظام إدارة الصيدلياتنظام إدارة الصيدليات
نظام إدارة الصيدلياتAhmad Arafa
 
Adversarial Attacks and Defense
Adversarial Attacks and DefenseAdversarial Attacks and Defense
Adversarial Attacks and DefenseKishor Datta Gupta
 
【de:code 2020】 Microsoft 365 E5 を活用したセキュア リモート ワーク環境の構築
【de:code 2020】 Microsoft 365 E5 を活用したセキュア リモート ワーク環境の構築【de:code 2020】 Microsoft 365 E5 を活用したセキュア リモート ワーク環境の構築
【de:code 2020】 Microsoft 365 E5 を活用したセキュア リモート ワーク環境の構築日本マイクロソフト株式会社
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Amani Baklouti
 
Manipulation GLPI / OCS
Manipulation GLPI / OCSManipulation GLPI / OCS
Manipulation GLPI / OCSChris Dogny
 

What's hot (20)

Microsoft AI Platform Overview
Microsoft AI Platform OverviewMicrosoft AI Platform Overview
Microsoft AI Platform Overview
 
S08_Microsoft 365 E5 Compliance による内部不正対策の実践 [Microsoft Japan Digital Days]
S08_Microsoft 365 E5 Compliance による内部不正対策の実践 [Microsoft Japan Digital Days]S08_Microsoft 365 E5 Compliance による内部不正対策の実践 [Microsoft Japan Digital Days]
S08_Microsoft 365 E5 Compliance による内部不正対策の実践 [Microsoft Japan Digital Days]
 
Machine Learning
Machine LearningMachine Learning
Machine Learning
 
Introduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprisesIntroduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprises
 
Federated learning in brief
Federated learning in briefFederated learning in brief
Federated learning in brief
 
Exam 15.02.2022.pdf
Exam 15.02.2022.pdfExam 15.02.2022.pdf
Exam 15.02.2022.pdf
 
Diapo - SI.ppt
Diapo - SI.pptDiapo - SI.ppt
Diapo - SI.ppt
 
Derin Öğrenme (Deep Learning) Nedir?
Derin Öğrenme (Deep Learning) Nedir?Derin Öğrenme (Deep Learning) Nedir?
Derin Öğrenme (Deep Learning) Nedir?
 
Histoire de l'informatique 1.pdf
Histoire de l'informatique 1.pdfHistoire de l'informatique 1.pdf
Histoire de l'informatique 1.pdf
 
Big Data Stockholm v 7 | "Federated Machine Learning for Collaborative and Se...
Big Data Stockholm v 7 | "Federated Machine Learning for Collaborative and Se...Big Data Stockholm v 7 | "Federated Machine Learning for Collaborative and Se...
Big Data Stockholm v 7 | "Federated Machine Learning for Collaborative and Se...
 
Machine learning libraries with python
Machine learning libraries with pythonMachine learning libraries with python
Machine learning libraries with python
 
نظام إدارة الصيدليات
نظام إدارة الصيدلياتنظام إدارة الصيدليات
نظام إدارة الصيدليات
 
Big data
Big dataBig data
Big data
 
Yapay Zeka ve Makine Öğrenmesi
Yapay Zeka ve Makine ÖğrenmesiYapay Zeka ve Makine Öğrenmesi
Yapay Zeka ve Makine Öğrenmesi
 
Adversarial Attacks and Defense
Adversarial Attacks and DefenseAdversarial Attacks and Defense
Adversarial Attacks and Defense
 
Introduction à ITIL
Introduction à ITILIntroduction à ITIL
Introduction à ITIL
 
【de:code 2020】 Microsoft 365 E5 を活用したセキュア リモート ワーク環境の構築
【de:code 2020】 Microsoft 365 E5 を活用したセキュア リモート ワーク環境の構築【de:code 2020】 Microsoft 365 E5 を活用したセキュア リモート ワーク環境の構築
【de:code 2020】 Microsoft 365 E5 を活用したセキュア リモート ワーク環境の構築
 
Eğitim.ppt
 Eğitim.ppt  Eğitim.ppt
Eğitim.ppt
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1
 
Manipulation GLPI / OCS
Manipulation GLPI / OCSManipulation GLPI / OCS
Manipulation GLPI / OCS
 

Similar to Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx

Similar to Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx (8)

Algoritma
AlgoritmaAlgoritma
Algoritma
 
sunu (Asp-1)
sunu (Asp-1)sunu (Asp-1)
sunu (Asp-1)
 
Slayt_4
Slayt_4Slayt_4
Slayt_4
 
Ysa matlab
Ysa matlabYsa matlab
Ysa matlab
 
Matlab Seminer2005
Matlab Seminer2005Matlab Seminer2005
Matlab Seminer2005
 
Yzm 2116 - Bölüm 2 (Algoritma Analizi)
Yzm 2116  - Bölüm 2 (Algoritma Analizi)Yzm 2116  - Bölüm 2 (Algoritma Analizi)
Yzm 2116 - Bölüm 2 (Algoritma Analizi)
 
Az ve Öz Matlab - Muhammet ÇAĞATAY
Az ve Öz Matlab - Muhammet ÇAĞATAYAz ve Öz Matlab - Muhammet ÇAĞATAY
Az ve Öz Matlab - Muhammet ÇAĞATAY
 
Introduction to SQL Tuning
Introduction to SQL TuningIntroduction to SQL Tuning
Introduction to SQL Tuning
 

More from Abbasgulu Allahverdili

More from Abbasgulu Allahverdili (9)

Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptxKötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
 
Weka ile Veri Madenciliği
Weka ile Veri MadenciliğiWeka ile Veri Madenciliği
Weka ile Veri Madenciliği
 
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileriAzerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
 
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
 
Karabağ Futbol Kulübü
Karabağ Futbol KulübüKarabağ Futbol Kulübü
Karabağ Futbol Kulübü
 
Futbol ve Temel Hareket Öğretimi
Futbol ve Temel Hareket ÖğretimiFutbol ve Temel Hareket Öğretimi
Futbol ve Temel Hareket Öğretimi
 
A Software Engineer
A Software EngineerA Software Engineer
A Software Engineer
 
A Business Analyst
A Business AnalystA Business Analyst
A Business Analyst
 
A Software Tester
A Software TesterA Software Tester
A Software Tester
 

Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx

  • 1. Abbasgulu Allahverdili YAPAY ZEKA İLE ARAÇLARIN YAKIT TÜKETİMİ TAHMİNİ
  • 2. ÖZET Bu projede, yapay zeka ve veri analizi yöntemleri kullanılarak araçların ne kadar yakıt tükettiklerinin tahmini yapılmıştır.
  • 4. TANIMLAR • Yapay Zeka Nedir? • Makine Öğrenimi Nedir? 01
  • 5. Yapay Zeka Nedir? AI kısaltmasıyla da ifade edilen Yapay Zeka, görevleri yerine getirmek için insan zekasını taklit eden ve topladığı bilgilerle kendisini kademeli olarak geliştirebilen sistemler veya makineler anlamına gelir [1]. Makine Öğrenimi Nedir? Makine öğrenimi (ML), tükettikleri verilere göre öğrenen ya da performansı iyileştiren sistemler oluşturmaya odaklanan bir yapay zeka (AI) alt kümesidir. Yapay zeka, insan zekasını taklit eden sistemler veya makineler anlamına gelen kapsamlı bir terimdir [2].
  • 6. ÇALIŞMA ORTAMININ HAZIRLANMASI • Anaconda Programı • Spyder Yazılımı 02
  • 7. Anaconda Programı Anaconda ücretsiz ve açık kaynaklı, Python ve R programlama dillerinin bilimsel hesaplama kullanımında paket yönetimini kolaylaştırmayı amaçlayan bir özgür ve açık kaynaklı dağıtımdır. Paket sürümleri conda paket yönetim sistemi ile yönetilir. Anaconda dağıtımı Windows, Linux ve MacOS işletim sistemlerinde kullanılabilen veri bilimi paketleri içerir [3].
  • 8. Spyder Yazılımı Spyder, Python dilinde bilimsel programlama için açık kaynaklı bir çapraz platform entegre geliştirme ortamıdır. Spyder, bilimsel Python yığınındaki NumPy, SciPy, Matplotlib, pandalar, IPython, SymPy ve Cython ve diğer açık kaynaklı yazılımlar dahil olmak üzere bir dizi önde gelen paketle entegre olur [4].
  • 9. VERİ SETİ • Veri Seti Tanıtımı • Veri Setinin Spyder Yazılımına Aktarılması • Veri Seti ile İlgili Bilgiler 03
  • 10. Veri Seti Tanıtımı Auto MPG veri kümesi, StatLib kitaplığında sağlanan veri kümesinin biraz değiştirilmiş bir versiyonudur [5]. Veri seti toplam 398 örnekten ve 9 sınıf özellik (class attribute) bilgilerinden oluşmaktadır. Veri Setinin Özellik Bilgileri: • mpg: continuous – 1 galon benzin veya mazotla kaç mil gittiğini gösterir • cylinders: multi-valued discrete – silindir sayısı • displacement: continuous – motor hacmi • horsepower: continuous – beygir gücü • weight: continuous – ağırlığı • acceleration: continuous – hızlanma • model year: multi-valued discrete – model yılı • origin: multi-valued discrete – kökeni • car name: string (unique for each instance) – araç ismi
  • 11. Veri Setinin Spyder Yazılımına Aktarılması Öncelikle aktarmak istediğimiz veri setinin ismini yazmamız gerekiyor (auto-mpg.data). Sonraki işlemler sırasıyla names (sütun adı), na_values (boş değer – eğer boş değer varsa soru işareti ile gösterilecek), comment (yorum), sep (ayırma – veri seti boşluklarla ayrıldığı için tırnak içinde boşluk kullanılmıştır.) ve skipinitialspace (boşluk – veri boşluklarla ayrıldığı için boşluk atlamaya yarayan komut)
  • 12. Veri Seti ile İlgili Bilgiler Data Info() komutu: Göründüğü gibi 398 tane girdi (entries) var ve bunlar 0’dan 397’e kadar işaretlenmişler. 8 tane sütun mevcut ve sadece beygir gücünde (Hoursepower) 6 tane kayıp değer var. Veri seti ondalık (float) ve tam (int) sayılardan oluşmaktadır. Describe komutu: Count (sayı) – Girdi sayısını ifade eder. Mean (ortalama) – veri setimizdeki tüm veri noktalarının toplamının toplam veri noktasına bölümü ile edilen bir ortalama sayıdır. Std (Standart Sapma) – Varyansın karekökü olarak tanımlanır.
  • 13. VERİ ANALİZİ • Kayıp Değerlerin Bulunması ve Doldurulması • Keşifsel Veri Analizi • Aykırı Değer • Öz Nitelik Mühendisliği • Ön İşleme • Doğrusal Regresyon • Düzenlileştirme • XGBoost • Modellerin Ortalaması 04
  • 14. Kayıp Değerlerin Bulunması ve Doldurulması Her sütundaki eksik değerleri bulmak için data.isna().sum() komutunu kullanmak gerekiyor. Bu veri seti için en sağlıklı yöntem istatistiksel dağılıma göre (mean) kayıp verilerin doldurulmasıdır. Göründüğü gibi Hoursepower (beygir gücü) sütununda 6 tane kayıp değer bulunmaktadır. Diğer sütunlarda kayıp değer bulunmamaktadır. Burada fillna kayıp değerleri doldurmak için kullanılan bir komut.
  • 15. Keşifsel Veri Analizi Korelasyon, olasılık kuramı ve istatistikte iki rassal değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir [6]. Veri setinde nümerik sayılar olduğu için birbirleri arasındaki ilişkiyi daha iyi analiz etmek mümkün. Acceleration (hızlanma) ile Weight (ağırlık) arasındaki ilişkiye baktığımız zaman negatif korelasyon gözükmektedir. Yani aracın ağırlığı ne kadar az ise o kadar hızlıdır sonucunu çıkarabiliriz. Target (MPG) ile Horsepower (beygir gücü), Weight (ağırlık), Cylinders (silindir sayısı) ve Displacement (motor hacmi) arasındaki ilişkiye baktığımız zaman yine negatif bir korelasyon gözükmektedir. Target (MPG) ile diğer sütunlar arasındaki ilişkiyi araştırdığımız için burada Target (MPG) bağımlı değişken diğer sütunlar ise bağımsız değişkenlerdir.
  • 16. Keşifsel Veri Analizi Bir korelasyon matrisinde birleri ile yüksek korelasyona sahip özellikler varsa buna çoklu doğrusal bağlantı (multicollinearity) denir. Korelasyon matrisini küçültmek ve daha iyi analiz yapmak için ±0,75 aralığındaki korelasyonlara bakıldı ve özellikler arasında yüksek korelasyon bulundu. Sonuç olarak özellikler arasında çoklu doğrusal bağlantı (multicollinearity) vardır.
  • 17. Keşifsel Veri Analizi Genel Grafiğe bakıldığı zaman Target (MPG) ile Target (MPG) arasında histogram ortaya çıkmıştır. Target (MPG) ile Cylinders (silindir sayısı) ve Origin (kökeni) arasında kategorik bir ilişki mevcuttur. Target (MPG) ile Displacement (motor hacmi), Horsepower (beygir gücü) ve Weight (ağırlık) arasında ters orantı vardır. Target (MPG) ile Acceleration (hızlanma) ve Model Year (model yılı) arasında herhangi bir korelasyon gözükmemektedir.
  • 18. Aykırı Değer İstatistikte aykırı değer (outlier), diğer gözlemlerden önemli ölçüde farklı olan bir veri noktasıdır. Aykırı değer, ölçümdeki değişkenlikten kaynaklanabilir veya deneysel hatayı gösterebilir; ikincisi bazen veri setinden hariç tutulur. Bir aykırı değer, istatistiksel analizlerde ciddi sorunlara neden olabilir [7]. Q1 (1. Çeyreklik) ve Q3 (3. Çeyreklik) değerleri birbirlerinden çıkartılarak IQR (Çeyrek arası açıklık) değeri elde edilir. Q3 ile 1,5*IQR topladığı zaman sağ, Q1 ile 1,5*IQR farkını aldığımız zaman sol aykırı değer sınırını elde etmiş oluyoruz. Aykırı sınır değerlerinden dışarda kalan değerler aykırı değerlerdir.
  • 19. Aykırı Değer Aykırı Değerlerin Tespiti Grafikten de görüldüğü gibi, Horsepower (beygir gücü) ve Acceleration (hızlanma) sütununda aykırı değerler mevcuttur. Target (MPG) sütununda çok az aykırı değer vardır. Diğer sütunlarda aykırı değerler yoktur. Aykırı Değerlerin Çıkarılması Göründüğü gibi 398 tane girdiden sadece 395 tanesi kaldı. Horsepower (beygir gücü) ve Acceleration (hızlanma) sütunlarındaki aykırı değerler başarılı bir şekilde veri setinden çıkarıldı.
  • 20. Öz Nitelik Mühendisliği Çarpıklık olasılık kuramı ve istatistik bilim dallarında bir reel-değerli rassal değişkenin olasılık dağılımının simetrik olamayışının ölçülmesidir [8].
  • 21. Öz Nitelik Mühendisliği İlk önce Target (MPG) bağımlı değişkenin çarpıklık dağılımının grafiğine bakacak olursak, kuyruğun sağ tarafta olduğu görülmektedir. Yani pozitif bir çarpıklık vardır. Bu çarpıklık değerini azaltabilmek için Log dönüşümü yapıldı. Grafikten de anlaşılacağı üzere çarpıklık değeri azalmıştır.
  • 22. Öz Nitelik Mühendisliği Bağımsız Değişkenlerin Çarpıklık Dağılımı Horsepower (beygir gücü) 1’den büyük olduğu için pozitif bir çarpıklık var fakat çok küçük olduğu için sorun teşkil etmemektedir. Geri kalan bağımsız değişkenlerin çarpıklık değeri gayet idealdir.
  • 23. Öz Nitelik Mühendisliği One Hot Encoding, kategorik değişkenlerin ikili (binary) vektörler olarak temsilidir. Cylinders (silindir sayısı) ve Origin (kökeni) kategorik özellikler oldukları için başarılı bir şekilde One Hot Encoding yapılmıştır.
  • 24. Ön İşleme Ön işleme, makine öğrenimi modellerini eğitmeden önce veri seti üzerinde yapılan birtakım işlemlerdir.
  • 25. Ön İşleme Eğitim ve Test Verisinin Tanımlanması Eğitim ve Test Verisinin Tanımlanması
  • 26. Ön İşleme Standardizasyon, veri yapısını bozmadan standart hale getirme işlemidir. Normal bir dağılım olması için Train ve Test verisinin Mean (ortalama) değeri 1 olarak, Std (Standart Sapma) değeri 0 olarak tanımlandı.
  • 27. Doğrusal Regresyon Doğrusal regresyon, bir bağımlı değişken ile diğer başka bir bağımsız değişken arasındaki ilişkiyi tahmin etmeye çalışan doğrusal bir model yaklaşımıdır. Amaç her zaman en küçük kareler yöntemini (Least Squared Error) minimize etmektir. Ortalama kare hata (mean squared error) payı 0,020 olarak bulundu.
  • 29. Düzenlileştirme Ridge Regularization Birden fazla değişkenli regresyon verilerini analiz etmek için kullanılır. Doğrusal bir modeldir. Ortalama kare hata (mean squared error) payı 0,018 olarak bulundu.
  • 30. Düzenlileştirme Lasso Regularization Oluşturulan modelin tahmin doğruluğunu geliştirmek için hem değişken seçimi hem de düzenleme gerçekleştirir. Ortalama kare hata (mean squared error) payı 0,016 olarak bulundu. Ridge Regularization’dan en büyük farkı gereksiz özelliklere sıfır değeri atamasıdır.
  • 31. Düzenlileştirme ElasticNet Regularization Ridge ve Lasso Regularization’nın karışımı gibidir. Her ikisinin de kuvvetli yönlerine sahiptir. Ortalama kare hata (mean squared error) payı 0,017 olarak bulundu.
  • 32. XGBoost Büyük ve karmaşık veri setleri için tasarlanmış bir algoritmadır. Bu algoritmanın en önemli özelliği hızlı çalışması ve yüksek tahmin gücü elde edebiliyor olmasıdır. Ortalama kare hata (mean squared error) payı 0,017 olarak bulundu.
  • 33. Modellerin Hata Payları Doğrusal Regresyon 0,020 Ridge Regularization 0,018 Lasso Regularization 0,016 ElasticNet Regularization 0,017 XGBoost 0,017
  • 34. Modellerin Ortalaması En iyi sonucu veren iki algoritmanın ortalaması alınarak bulunur. Ortalama kare hata (mean squared error) payı 0,015 olarak bulundu.
  • 35. Sonuç Kullanılmış olan modellerin regresyon skoru bulunmuş ve en iyi sonucu veren modellerin ortalaması alınarak test skoru ortaya çıkarılmıştır. Projenin geliştirilme sürecinde karşılaşılan hataları çözebilmek için literatür araştırması yapılmıştır. Yapılan bu araştırmalarda yapay zeka, veri analizi, makine öğrenimi modelleri ve Python programlama dili ile ilgili bilgiler edinilmiştir. Yeni makine öğrenimi modelleri kullanılarak proje daha da geliştirilebilir.
  • 36. [1] Oracle, «Yapay Zeka nedir? Yapay Zeka hakkında bilgi edinin», erişim tarihi: 15 Haziran 2022, https://www.oracle.com/tr/artificial-intelligence/what-is-ai/ [2] Oracle, «Makine Öğrenimi nedir?», erişim tarihi: 15 Haziran 2022, https://www.oracle.com/tr/data-science/machine-learning/what-is-machine-learning/ [3] Wikipedia, “Anaconda (Python dağıtımı)”, erişim: 15 Haziran 2022, https://tr.wikipedia.org/wiki/Anaconda_(Python_da%C4%9F%C4%B1t%C4%B1m%C4%B1) [4] Wikipedia, “Spyder (software)”, erişim: 15 Haziran 2022, https://en.wikipedia.org/wiki/Spyder_(software) [5] UCI Machine Learning Repository, “Auto MPG Data Set”, erişim: 02 Haziran 2022, https://archive.ics.uci.edu/ml/datasets/Auto+MPG [6] Wikipedia, “Korelasyon”, erişim: 02 Haziran 2022, https://tr.wikipedia.org/wiki/Korelasyon [7] Wikipedia, “Aykırı değer”, erişim: 02 Haziran 2022, https://tr.wikipedia.org/wiki/Ayk%C4%B1r%C4%B1_de%C4%9Fer [8] Wikipedia, “Çarpıklık”, erişim 02 Haziran 2022, https://tr.wikipedia.org/wiki/%C3%87arp%C4%B1kl%C4%B1k KAYNAKÇA