SlideShare a Scribd company logo
1 of 8
BASİT LİNEER REGRESYON
Basit lineer regresyon, 2 nicel veri arasındaki ilişkiyi özetleyen istatiksel bir metoddur. X ekseninde
gösterilen 1.değişken tahmin edici, bağımsız değişkendir. Y ekseninde gösterilen 2.değişken ise tahmin
edilen çıktı ise bağımlı değişkendir.
Basit lineer regresyon ile bulunan bu ilişki, istatistiksel bir ilişkidir. Bu bağlamda istatistiksel ve
deterministik ilişkiden bahsedelim.
Deterministik ilişki, 2 değişken arasındaki ilişkiyi kesin olarak tanımlayan bi denklem mevcuttur.
Örneğin;
Fahrenheit ve Celcius arasındaki ilişkisi kesin olarak gösteren
bir denklem vardır ve grafikte görüldüğü gibi her Celcius’a
karşılık gelen değer kesin denklem sonucu çıkan kesin
değerdir.
Fahr = 95Cels+32
İstatistiksel ilişki ise değişkenler arasındaki kesin olmayan ilişkiyi tanımlar. Örneğin, boy uzadıkça doğru
orantılı olarak kilonun da artması beklenir ama bu her zaman doğru değildir. Çünkü bu sonucu etkileyen
birden fazla durum vardır biz sadece 1 tane durumu alarak sonuç üretmeye çalışıyoruz. Bütün durumlarla
çalışmasında bile kesin sonuç üretilmez.
Regresyon konusu boyunca ev fiyat tahminlemesi örneği üzerinden ilerleyeceğiz. Elimizde evlere ait evin
fiyatı, alanı, banyo sayısı, bahçe alanı vs gibi özellikler mevcut, bu özelliklere veri setimize dahil olan evin
fiyat tahminlemesini yapacağız. Konumuz Basit Lineer Regresyon olduğu için 2 değişkenimiz olacak, evin
fiyatı ($) ve alanı(sq.ft). Evin alanı (bağımsız değişken) x ekseninde, evin fiyatı (bağımlı değişken) y
ekseninde yer alacaktır.
Veri setimizde ki evler, evi = (xi,yi) olarak tanımlanır. Regresyonla oluşan model, evin tahminlenen fiyatına
(f(x) fonkisyonu) gerçek fiyattan tahminlenen fiyatın çıkarılması ile bulunan değerin (hata) eklenmesi ile
bulunan;
Regresyon model: yi = f(xi) + εi
Hatanın 0 olması istenilen durumdur, hatanın pozitif yada negatif olması verinin eğrinin üstünde yada
altında kalmasına göre değişir.
Veri üzerinde Regresyonnasıl çalışır?
Örneğimizde yola çıkarak şema üzerinden ilerleyelim. Eğitim verisi, yazının başında bahsettiğim gibi
evlere ait belirli değerlerdir. Özellik çıkarımında modelde oluştururken kullanacağımız x, evin alanı.
Regresyonla oluşan Model’in (f) sonucu tahmin edilen fiyat y kalite metriği olan evin gerçek fiyatı y ile
karşılaştırılarak hata (error) bulunur. Hataya göre model güncellenir.
Basit regresyon sonucunda oluşan
lineer doğru f(x) = w0 + w1 x ,
oluşan model ise yi = w0 + w1 xi + εi dir.
w0 ve w1 regresyon katsayıları olan intercept ve slope dur. Veriye uygun olan model nasıl bulunur, yada
modelin uygun olma kriteri nedir ? Bunun için uygun doğrunun bulunması gereklidir.
Uygun doğru nedir?
Uygun doğru, veri en yakın şekilde tahminleyen dolayısıyla hatanın az olduğu doğrudur. Bu kavramı
öğrencilere ait boy ve kilo bilgilerinden oluşturulmuş örnek üzerinde irdeleyelim.
Örnekte 10 tane öğrenciye ait olan veriye 2 tane doğru uydurulmuştur, beraberce hangi doğrunun daha
uygun olduğunu bulalım.
Doğru için kullandığımız denklem yi = w0 + w1 xi + εi idi. Şimdi doğru denklemlerinde öğrenciye ait boy
bilgisini h yerine koyup, kilo yani tahminlenen w bilgisini elde edeceğiz. Elimizde bu öğrencilere ait
gerçek kilo bilgileride yer aldığı için işlemleri yapıp 2 doğrudan hangisinde daha az hata varsa o doğruyu
seçeceğiz. 1.öğrencinin boyu 63 inch, kilosu ise 127 pounds, doğruda bilgileri yerine koyduğumuzda;
w = -266.53 + 6.1376h
= -266.53 + 6.1376(63)
= 120.1 pounds
ε i = 127- 120.1 = 6.9 pounds
Her bir doğru için her öğrenci bilgileri ile hata bulunur, hataların karesi alınarak toplanır. 1.doğrunun hata
karelerinin toplamı ve 2. doğrunun hata karelerinin toplamı bulunur. İşlem sonucunda ;
w = -331.2 + 7.1 h ε1 = 766.5
w = -266.53 + 6.1376 h ε2 = 597.4
Hesaplamalara göre 2.doğrunun hatası daha küçük olduğu için uygun olan doğru 2.doğrudur. Hataların
neden direkt toplanması yerine karelerinin alındığını düşünüyor olabilirsiniz. Bunun nedeni negatif ve
pozitif hata oranlarının toplanırken birbirlerini götürmesini engellemektir.
Yukarıda her bir doğru için yaptığımız hata hesabı RSS olarak tanımlanır,
Intercept (doğrunun y ekseninde kestiği nokta) ve slope (eğim) üzerinden
yazarsak aynı denklemi,
Sonuç olarak uygun doğru bulunurken doğrulara ait RSS
değeri bulunur ve minimum RSS’e ait doğru, en iyi
doğrudur.
Model’in ve Doğru’nun incelenmesi
Model, bilinmeyen parametrelerden oluşturulan genel bir denklem iken, doğru ise tahmin edilen intercept
ve slope ile yazılan spesifik bir denklemdir.
w0 > 0 ise yani slope (eğim) pozitif ise grafik te pozitiftir, x
arttığında y nin de artacağımanasına gelir.
w0 < 0 ise yani slope (eğim) negatif ise grafikte negatiftir, x
arttığında y nin azalacağı manasına gelir.
Öğrencilerin boy ve kilo bilgilerinden oluşturulan doğruda
xi = 0 ise yi = -266.53 + 6.1376 xi
yi = -266.53
Bu değer boyu 0 inç olan bir öğrencinin kilosunun -266.53 çıktığı anlamına gelir ve manasız bir sonuç olur.
Bunun nedeni x’in aralığıdır. (the scope of the model). Ayrıca xi = 0 modelinin de iyi bir model olmadığını
söyler bize, verinin gürültülü bir veri olduğu sonucuna bizi ulaştırır.
Intercept w^1 ise x ekseninde 1 birimlik değişimin y ekseninde ki karşılığı manasına gelir. Örneğin 66 inç
ve 67 inç lik 2 kişinin kiloları tahmin edildiğinde 144.38 – 138.24 = 6.14 pounds bulunur, bu da 1 inç in
6.14 pounds değişimi ifade ettiğini anlatır. Fakat bu model oluşturulurken kullanılan birimler ile tahmin
değerleri aynı ise bu yaklaşım doğrudur.
Least Square Optimizasyonu
Veriye en uygun doğruyu bulmak için w0 ve w1 değerlerinin minimum tahmin ederek dolayısıyla RSS i de
minimum sağlamış oluruz. Pekala w0 ve w1 değerlerinin minimum değerlerini nasıl buluruz?
Öncelikle genel olarak fonksiyonlarda minimum ve maksimum nokta nasıl bulunur bakalım. Eğer
fonksiyon iç bükey (concave) ise maksimum nokta bulmak için fonksiyonun türevi 0 eşitlenirken, dış
bükey (convex) ise minimum nokta bulmak için fonksiyonun türevi 0 eşitlenir.
Hill climbing: İç bükey fonksiyonlarda maksimum noktayı bulmak için kullanılan iterative bir
algoritmadır. Eğrinin herhangi bir yerinden başlayarak ilerlediğimiz noktayı sağa yada sola doğru kaydırır.
Sağa yada sola doğru kayacağımızı fonksiyonun türevinden anlarız. Eğer türev pozitif ise sağa doğru w yi
artırarak ilerleriz, negatif ise sola doğru w yi azaltrak ilerleriz. Her attığımız adımla fonksiyonun türevi
küçülmeye başlar bu da optimum noktaya yaklaştığımız anlamına gelir. Türev yeteri kadar küçüldüğünde
max noktaya ulaşırız ve w u artırmayı bırakırız.
t iterasyonundaki değerler kullanılarak n adım boyu ile t+1 deki değer
bulunur.
Hill descent : dış bükey fonksiyonlarda minimum nokta noktayı bulmak için kullanılan iterative bir
algoritmadır. Hill climbing algoritması gibi, eğrinin bir yerinden başlayarak sağa yada sola doğru ilerlenir.
Sağa yada sola doğru ilerleyeceğimizi fonksiyonun türevi üzerinden anlarız.
Türev negatif ise sağa ilerleyip w yi artırıyoruz, pozitif ise sola doğru w
yi azaltarak ilerliyoruz.
Adım boyu seçimi 2 algoritma için de önemli bir konudur.
 Sabit adım boyu ile ilerlendiğinde minimum yada maksimum noktaya ulaşmak zaman alabilir.
 Adım boyunun azaltılarak ilerlenilmesi ise daha çok tercih edilen bir yöntemdir.
Adım boyumuz da belli fakat türevin 0 a eşit olduğu optimum noktayı bulamadık, ne zaman durmalıyız.
Bunun için bir eşik değeri (ᵋ) belirlenir. Fonksiyonun türevi eşik değerinden küçük olduğunda ilerlemeyi
durdururuz ve o noktayı optimum nokta olarak kabul ederiz.
Gradients hesaplanması
Basit lineer regresyonda çalıştığımız fonksiyonlar 2 bilinmeyenli denklemlerdi (w0 ve w1). Çoklu
değişkenler yüksek boyutta olduğundan türev yerine gradient hesaplaması yapılır. Gradient, her bir
değişkenin kısmi türevinin yer aldığı vectordür. İterative olarak ilerlenilerek optimum nokta bulunur ve
nokta bulunurken durulması gereken iterasyon yine bir eşik değeri ile sınırlayarak belirlenir.
p tane değişkenli bir
fonksiyondan p+1 lik bir vectör
oluşur. Vectörün her bir elemanı
değişkenlerin kısmı türevidir.
Sonuç olarak w0 ve w1
değişkenli fonksiyonun
gradient’i bulunur.
Gradient descent ise optimum
noktayı bulmak için her adımda
azalarak ilerlemektir. Yine
duracağımız nokta eşik değeri
ile belirlenir.
Least Square Doğrunun Bulunması
Veriye çizilen bir çok eğriden en uygun olanını seçmek için minimum RSS bulacağız, bunun için RSS ‘in
gradientini hesaplamamız gerekmektedir. Örnekte convex bir fonksiyon üzerinden işlemler
gerçekleştirilmektedir. Bulacağımız minimum değeri eşsiz (unique) tir ve gradient descent algortiması bu
değere yakınsar.
Closed Form Çözümü : Bulunan Gradient’in 0 a eşitlenerek çözülmesi.
Gradient Descent Çözümü
Tek değişkenli denklemlerde hill descent algoritmasının çoklu değişkenli versiyonudur. Yandaki şekil
gradient kuş bakışı görünümüdür ve her bir halka aynı fonkiyona aittir. Bir önceki adımdaki değerleri
kullanarak bir sonraki değer elde edilir. RSS ‘in gradient hesabında tahmin yerine
İki Yöntemin Karşılaştırılması
Çoğunlukla tercih edilen yöntem Gradient Descent’tir fakat adım boyu, eşik değeri gibi durumları
belirlemek zordur. Closed form da bu tarz belirlemeler olmadığı için daha kolaydır ama değişkenler
arttıkça Gradient Descent’ti kullanmak daha verimli olur.
Örnekler:
 Gradient Descent Örneği
 Closed Form Örneği
Kaynaklar:
 Machine Learning, Tom Mitchell, McGraw Hill
 Introduction to Linear Algebra, Fourth Edition 4th Edition, Gilbert Strang
 https://www.coursera.org/learn/ml-regression/home/welcome
 https://onlinecourses.science.psu.edu/stat501/

More Related Content

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

Basi̇t li̇neer regresyon

  • 1. BASİT LİNEER REGRESYON Basit lineer regresyon, 2 nicel veri arasındaki ilişkiyi özetleyen istatiksel bir metoddur. X ekseninde gösterilen 1.değişken tahmin edici, bağımsız değişkendir. Y ekseninde gösterilen 2.değişken ise tahmin edilen çıktı ise bağımlı değişkendir. Basit lineer regresyon ile bulunan bu ilişki, istatistiksel bir ilişkidir. Bu bağlamda istatistiksel ve deterministik ilişkiden bahsedelim. Deterministik ilişki, 2 değişken arasındaki ilişkiyi kesin olarak tanımlayan bi denklem mevcuttur. Örneğin; Fahrenheit ve Celcius arasındaki ilişkisi kesin olarak gösteren bir denklem vardır ve grafikte görüldüğü gibi her Celcius’a karşılık gelen değer kesin denklem sonucu çıkan kesin değerdir. Fahr = 95Cels+32 İstatistiksel ilişki ise değişkenler arasındaki kesin olmayan ilişkiyi tanımlar. Örneğin, boy uzadıkça doğru orantılı olarak kilonun da artması beklenir ama bu her zaman doğru değildir. Çünkü bu sonucu etkileyen birden fazla durum vardır biz sadece 1 tane durumu alarak sonuç üretmeye çalışıyoruz. Bütün durumlarla çalışmasında bile kesin sonuç üretilmez. Regresyon konusu boyunca ev fiyat tahminlemesi örneği üzerinden ilerleyeceğiz. Elimizde evlere ait evin fiyatı, alanı, banyo sayısı, bahçe alanı vs gibi özellikler mevcut, bu özelliklere veri setimize dahil olan evin fiyat tahminlemesini yapacağız. Konumuz Basit Lineer Regresyon olduğu için 2 değişkenimiz olacak, evin fiyatı ($) ve alanı(sq.ft). Evin alanı (bağımsız değişken) x ekseninde, evin fiyatı (bağımlı değişken) y ekseninde yer alacaktır. Veri setimizde ki evler, evi = (xi,yi) olarak tanımlanır. Regresyonla oluşan model, evin tahminlenen fiyatına (f(x) fonkisyonu) gerçek fiyattan tahminlenen fiyatın çıkarılması ile bulunan değerin (hata) eklenmesi ile bulunan; Regresyon model: yi = f(xi) + εi Hatanın 0 olması istenilen durumdur, hatanın pozitif yada negatif olması verinin eğrinin üstünde yada altında kalmasına göre değişir.
  • 2. Veri üzerinde Regresyonnasıl çalışır? Örneğimizde yola çıkarak şema üzerinden ilerleyelim. Eğitim verisi, yazının başında bahsettiğim gibi evlere ait belirli değerlerdir. Özellik çıkarımında modelde oluştururken kullanacağımız x, evin alanı. Regresyonla oluşan Model’in (f) sonucu tahmin edilen fiyat y kalite metriği olan evin gerçek fiyatı y ile karşılaştırılarak hata (error) bulunur. Hataya göre model güncellenir. Basit regresyon sonucunda oluşan lineer doğru f(x) = w0 + w1 x , oluşan model ise yi = w0 + w1 xi + εi dir. w0 ve w1 regresyon katsayıları olan intercept ve slope dur. Veriye uygun olan model nasıl bulunur, yada modelin uygun olma kriteri nedir ? Bunun için uygun doğrunun bulunması gereklidir. Uygun doğru nedir? Uygun doğru, veri en yakın şekilde tahminleyen dolayısıyla hatanın az olduğu doğrudur. Bu kavramı öğrencilere ait boy ve kilo bilgilerinden oluşturulmuş örnek üzerinde irdeleyelim.
  • 3. Örnekte 10 tane öğrenciye ait olan veriye 2 tane doğru uydurulmuştur, beraberce hangi doğrunun daha uygun olduğunu bulalım. Doğru için kullandığımız denklem yi = w0 + w1 xi + εi idi. Şimdi doğru denklemlerinde öğrenciye ait boy bilgisini h yerine koyup, kilo yani tahminlenen w bilgisini elde edeceğiz. Elimizde bu öğrencilere ait gerçek kilo bilgileride yer aldığı için işlemleri yapıp 2 doğrudan hangisinde daha az hata varsa o doğruyu seçeceğiz. 1.öğrencinin boyu 63 inch, kilosu ise 127 pounds, doğruda bilgileri yerine koyduğumuzda; w = -266.53 + 6.1376h = -266.53 + 6.1376(63) = 120.1 pounds ε i = 127- 120.1 = 6.9 pounds Her bir doğru için her öğrenci bilgileri ile hata bulunur, hataların karesi alınarak toplanır. 1.doğrunun hata karelerinin toplamı ve 2. doğrunun hata karelerinin toplamı bulunur. İşlem sonucunda ; w = -331.2 + 7.1 h ε1 = 766.5 w = -266.53 + 6.1376 h ε2 = 597.4 Hesaplamalara göre 2.doğrunun hatası daha küçük olduğu için uygun olan doğru 2.doğrudur. Hataların neden direkt toplanması yerine karelerinin alındığını düşünüyor olabilirsiniz. Bunun nedeni negatif ve pozitif hata oranlarının toplanırken birbirlerini götürmesini engellemektir. Yukarıda her bir doğru için yaptığımız hata hesabı RSS olarak tanımlanır, Intercept (doğrunun y ekseninde kestiği nokta) ve slope (eğim) üzerinden yazarsak aynı denklemi, Sonuç olarak uygun doğru bulunurken doğrulara ait RSS değeri bulunur ve minimum RSS’e ait doğru, en iyi doğrudur.
  • 4. Model’in ve Doğru’nun incelenmesi Model, bilinmeyen parametrelerden oluşturulan genel bir denklem iken, doğru ise tahmin edilen intercept ve slope ile yazılan spesifik bir denklemdir. w0 > 0 ise yani slope (eğim) pozitif ise grafik te pozitiftir, x arttığında y nin de artacağımanasına gelir. w0 < 0 ise yani slope (eğim) negatif ise grafikte negatiftir, x arttığında y nin azalacağı manasına gelir. Öğrencilerin boy ve kilo bilgilerinden oluşturulan doğruda xi = 0 ise yi = -266.53 + 6.1376 xi yi = -266.53 Bu değer boyu 0 inç olan bir öğrencinin kilosunun -266.53 çıktığı anlamına gelir ve manasız bir sonuç olur. Bunun nedeni x’in aralığıdır. (the scope of the model). Ayrıca xi = 0 modelinin de iyi bir model olmadığını söyler bize, verinin gürültülü bir veri olduğu sonucuna bizi ulaştırır. Intercept w^1 ise x ekseninde 1 birimlik değişimin y ekseninde ki karşılığı manasına gelir. Örneğin 66 inç ve 67 inç lik 2 kişinin kiloları tahmin edildiğinde 144.38 – 138.24 = 6.14 pounds bulunur, bu da 1 inç in 6.14 pounds değişimi ifade ettiğini anlatır. Fakat bu model oluşturulurken kullanılan birimler ile tahmin değerleri aynı ise bu yaklaşım doğrudur. Least Square Optimizasyonu Veriye en uygun doğruyu bulmak için w0 ve w1 değerlerinin minimum tahmin ederek dolayısıyla RSS i de minimum sağlamış oluruz. Pekala w0 ve w1 değerlerinin minimum değerlerini nasıl buluruz? Öncelikle genel olarak fonksiyonlarda minimum ve maksimum nokta nasıl bulunur bakalım. Eğer fonksiyon iç bükey (concave) ise maksimum nokta bulmak için fonksiyonun türevi 0 eşitlenirken, dış bükey (convex) ise minimum nokta bulmak için fonksiyonun türevi 0 eşitlenir.
  • 5. Hill climbing: İç bükey fonksiyonlarda maksimum noktayı bulmak için kullanılan iterative bir algoritmadır. Eğrinin herhangi bir yerinden başlayarak ilerlediğimiz noktayı sağa yada sola doğru kaydırır. Sağa yada sola doğru kayacağımızı fonksiyonun türevinden anlarız. Eğer türev pozitif ise sağa doğru w yi artırarak ilerleriz, negatif ise sola doğru w yi azaltrak ilerleriz. Her attığımız adımla fonksiyonun türevi küçülmeye başlar bu da optimum noktaya yaklaştığımız anlamına gelir. Türev yeteri kadar küçüldüğünde max noktaya ulaşırız ve w u artırmayı bırakırız. t iterasyonundaki değerler kullanılarak n adım boyu ile t+1 deki değer bulunur. Hill descent : dış bükey fonksiyonlarda minimum nokta noktayı bulmak için kullanılan iterative bir algoritmadır. Hill climbing algoritması gibi, eğrinin bir yerinden başlayarak sağa yada sola doğru ilerlenir. Sağa yada sola doğru ilerleyeceğimizi fonksiyonun türevi üzerinden anlarız. Türev negatif ise sağa ilerleyip w yi artırıyoruz, pozitif ise sola doğru w yi azaltarak ilerliyoruz. Adım boyu seçimi 2 algoritma için de önemli bir konudur.  Sabit adım boyu ile ilerlendiğinde minimum yada maksimum noktaya ulaşmak zaman alabilir.  Adım boyunun azaltılarak ilerlenilmesi ise daha çok tercih edilen bir yöntemdir. Adım boyumuz da belli fakat türevin 0 a eşit olduğu optimum noktayı bulamadık, ne zaman durmalıyız. Bunun için bir eşik değeri (ᵋ) belirlenir. Fonksiyonun türevi eşik değerinden küçük olduğunda ilerlemeyi durdururuz ve o noktayı optimum nokta olarak kabul ederiz. Gradients hesaplanması Basit lineer regresyonda çalıştığımız fonksiyonlar 2 bilinmeyenli denklemlerdi (w0 ve w1). Çoklu değişkenler yüksek boyutta olduğundan türev yerine gradient hesaplaması yapılır. Gradient, her bir değişkenin kısmi türevinin yer aldığı vectordür. İterative olarak ilerlenilerek optimum nokta bulunur ve nokta bulunurken durulması gereken iterasyon yine bir eşik değeri ile sınırlayarak belirlenir.
  • 6. p tane değişkenli bir fonksiyondan p+1 lik bir vectör oluşur. Vectörün her bir elemanı değişkenlerin kısmı türevidir. Sonuç olarak w0 ve w1 değişkenli fonksiyonun gradient’i bulunur. Gradient descent ise optimum noktayı bulmak için her adımda azalarak ilerlemektir. Yine duracağımız nokta eşik değeri ile belirlenir. Least Square Doğrunun Bulunması Veriye çizilen bir çok eğriden en uygun olanını seçmek için minimum RSS bulacağız, bunun için RSS ‘in gradientini hesaplamamız gerekmektedir. Örnekte convex bir fonksiyon üzerinden işlemler gerçekleştirilmektedir. Bulacağımız minimum değeri eşsiz (unique) tir ve gradient descent algortiması bu değere yakınsar.
  • 7. Closed Form Çözümü : Bulunan Gradient’in 0 a eşitlenerek çözülmesi. Gradient Descent Çözümü Tek değişkenli denklemlerde hill descent algoritmasının çoklu değişkenli versiyonudur. Yandaki şekil gradient kuş bakışı görünümüdür ve her bir halka aynı fonkiyona aittir. Bir önceki adımdaki değerleri kullanarak bir sonraki değer elde edilir. RSS ‘in gradient hesabında tahmin yerine
  • 8. İki Yöntemin Karşılaştırılması Çoğunlukla tercih edilen yöntem Gradient Descent’tir fakat adım boyu, eşik değeri gibi durumları belirlemek zordur. Closed form da bu tarz belirlemeler olmadığı için daha kolaydır ama değişkenler arttıkça Gradient Descent’ti kullanmak daha verimli olur. Örnekler:  Gradient Descent Örneği  Closed Form Örneği Kaynaklar:  Machine Learning, Tom Mitchell, McGraw Hill  Introduction to Linear Algebra, Fourth Edition 4th Edition, Gilbert Strang  https://www.coursera.org/learn/ml-regression/home/welcome  https://onlinecourses.science.psu.edu/stat501/