SlideShare a Scribd company logo
1 of 25
Big Data && Apache Spark
Hakkımda
§ İstanbul Ünv . Bilgisayar Müh
§ 9+ Java , Java EE
§ 3+ Hadoop,Spark,Pig,Hive,Oozie
§ Big Data Developer - Comodo
§ Blogger/Trainer - buyukveri.co
İçerik
• Büyük Veri(Big Data) Nedir ?
• Hadoop Nedir ve Temel Bileşenleri (HDFS , MapReduce)?
• Kullanım Senaryoları
• Apache Spark
• Apache Spark Bileşenleri
• Apache Spark Mimarisi
• RDD,DataFrame,DataSet
• Spark Streaming
• Mlib
Büyük Veri Nedir?
●
Big data(büyük veri) genel olarak yüksek hacimlerdeki veriler için kullanılan bir terimdir.
Volume(Veri Hacmi)
●
Bu özellik verinin yüksek hacimli olduğunu belirtir
Velocity(Veri hızı)
●
Veriler o kadar hızlı üretilmektedir ki , bir dakika içerisinde 200+ milyon e-mail , 4+ milyon
Facebook like , 1+ milyon Instagram like işlemi yapılmaktadır
Variety(Veri çeşitliliği)
●
Verilerin belirli bir yapısı yoktur, genellikle değişkendir.Resimler, ses dosyaları, text dosyaları
Hadoop Nedir ?
Hadoop , büyük veri kümeleri ile birden fazla makinada paralel olarak işlem yapmamızı
sağlayan Java ile yazılmış açık kaynak kodlu kütüphanedir
Hadoop Hdfs Nedir ?
Hadoop içerisinde büyük verileri sakladığımız bileşene HDFS (Hadoop Distributed File System)
denir
Hadoop MapReduce Nedir?
Hadoop içerisinde büyük verileri paralel olarak işleyebileceğimiz bileşene MapReduce denir .
Kullanım Senaryoları
Örnek Analizler
●
Son bir saat içerisinde 50 den fazla reklama tıklayan kullanıcılar
●
Referer_url bilgisinden arama yapılan anahtar kelimelerin bulunması
●
Tavsiye motoru (Müzik siteleri , sinema siteleri , alışveriş siteleri)
●
Network üzerinde anormal durumlar ( fraud , anomaly detection )
●
Reklam gösterimleri (Ad-network)
Apache Spark
Apache Spark büyük verileri dağıtık makinalarda işlemek için kullanılan bir kütüphanedir
Apache Spark
●
2009 yılında UC Berkeley ' de geliştiriliyor
●
Hadoop ile karşılaştırıldığında
10(x) disk ve 100(x) memory hızlı
●
Java, Scala, Python, R
●
Şu an Apache Software Foundation altında geliştiriliyor
●
2014 yılında TLP(Top Level Project) olarak duyuruluyor
Apache Spark Bileşenleri
Apache Spark Mimarisi
RDD, DataFrame, DataSet
●
Verileri cluster üzerinde saklayarak paralel olarak işlemler yapmamızı sağlar
RDD
●
Dağıtık(Distributed) JVM nesneleridir
●
map,reduce,count,groupBy,filter,join,saveAsTextFile .. gibi metodlar sağlar
DataFrame
●
Spark 1.3 ile gelmiştir
●
RDD ye göre performansı daha iyidir . SQL benzeri sorgular çalıştırılabilir.
DataSet
●
Spark 1.6 ile gelmiştir
●
Type-safe sağlar ,
hataları compile time da gösterir
●
Memory üzerinde daha az yer kaplar
●
RDD ' ye göre hızlıdır
●
Encoder yapısı değişmiştir
Spark Streaming
●
Gelen verileri anlık olarak(real time) analiz etmemizi sağlar
●
Topladığı verileri parametrik olarak window lara ayırır (window1,window2...)
MLib
●
Ölçeklenebilir machine learning kütüphaneleri mevcuttur
●
Java, Scala, Python ve R ile geliştirilebilir
●
Logistic regression
Gelen e-mailler içerisinde spam olanlar belirlenebilir
●
Clustering
K-means ile network verileri üzerinde anormal atakların(anomaly detection) bulunması
●
Recomendation
ALS ile bireylerin davranışlarının birbirlerine benzetilerek film,müzik.. önerisi
K-means
ALS
Teşekkürler

More Related Content

What's hot

Big Data & Hadoop Tutorial
Big Data & Hadoop TutorialBig Data & Hadoop Tutorial
Big Data & Hadoop TutorialEdureka!
 
Apache Hive Tutorial
Apache Hive TutorialApache Hive Tutorial
Apache Hive TutorialSandeep Patil
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы HadoopTechnopark
 
Introduction to Hadoop Technology
Introduction to Hadoop TechnologyIntroduction to Hadoop Technology
Introduction to Hadoop TechnologyManish Borkar
 
Big data 24 mart 2015
Big data 24 mart 2015Big data 24 mart 2015
Big data 24 mart 2015Bilge Narin
 
Hadoop Training | Hadoop Training For Beginners | Hadoop Architecture | Hadoo...
Hadoop Training | Hadoop Training For Beginners | Hadoop Architecture | Hadoo...Hadoop Training | Hadoop Training For Beginners | Hadoop Architecture | Hadoo...
Hadoop Training | Hadoop Training For Beginners | Hadoop Architecture | Hadoo...Simplilearn
 
Impala presentation
Impala presentationImpala presentation
Impala presentationtrihug
 
Introduction to HADOOP.pdf
Introduction to HADOOP.pdfIntroduction to HADOOP.pdf
Introduction to HADOOP.pdf8840VinayShelke
 
What Is Hadoop | Hadoop Tutorial For Beginners | Edureka
What Is Hadoop | Hadoop Tutorial For Beginners | EdurekaWhat Is Hadoop | Hadoop Tutorial For Beginners | Edureka
What Is Hadoop | Hadoop Tutorial For Beginners | EdurekaEdureka!
 
Introduction to Big Data
Introduction to Big DataIntroduction to Big Data
Introduction to Big DataHaluan Irsad
 
Apache Sentry for Hadoop security
Apache Sentry for Hadoop securityApache Sentry for Hadoop security
Apache Sentry for Hadoop securitybigdatagurus_meetup
 
Apache Tez: Accelerating Hadoop Query Processing
Apache Tez: Accelerating Hadoop Query Processing Apache Tez: Accelerating Hadoop Query Processing
Apache Tez: Accelerating Hadoop Query Processing DataWorks Summit
 
Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Ha...
Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Ha...Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Ha...
Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Ha...Edureka!
 
Managing your Hadoop Clusters with Apache Ambari
Managing your Hadoop Clusters with Apache AmbariManaging your Hadoop Clusters with Apache Ambari
Managing your Hadoop Clusters with Apache AmbariDataWorks Summit
 
Hadoop Overview & Architecture
Hadoop Overview & Architecture  Hadoop Overview & Architecture
Hadoop Overview & Architecture EMC
 

What's hot (20)

Big Data & Hadoop Tutorial
Big Data & Hadoop TutorialBig Data & Hadoop Tutorial
Big Data & Hadoop Tutorial
 
Apache Hive Tutorial
Apache Hive TutorialApache Hive Tutorial
Apache Hive Tutorial
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы Hadoop
 
Introduction to Hadoop Technology
Introduction to Hadoop TechnologyIntroduction to Hadoop Technology
Introduction to Hadoop Technology
 
Big data 24 mart 2015
Big data 24 mart 2015Big data 24 mart 2015
Big data 24 mart 2015
 
Hadoop Training | Hadoop Training For Beginners | Hadoop Architecture | Hadoo...
Hadoop Training | Hadoop Training For Beginners | Hadoop Architecture | Hadoo...Hadoop Training | Hadoop Training For Beginners | Hadoop Architecture | Hadoo...
Hadoop Training | Hadoop Training For Beginners | Hadoop Architecture | Hadoo...
 
Impala presentation
Impala presentationImpala presentation
Impala presentation
 
Introduction to HADOOP.pdf
Introduction to HADOOP.pdfIntroduction to HADOOP.pdf
Introduction to HADOOP.pdf
 
Apache Hadoop 3
Apache Hadoop 3Apache Hadoop 3
Apache Hadoop 3
 
Hadoop
HadoopHadoop
Hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
What Is Hadoop | Hadoop Tutorial For Beginners | Edureka
What Is Hadoop | Hadoop Tutorial For Beginners | EdurekaWhat Is Hadoop | Hadoop Tutorial For Beginners | Edureka
What Is Hadoop | Hadoop Tutorial For Beginners | Edureka
 
Big data and Hadoop
Big data and HadoopBig data and Hadoop
Big data and Hadoop
 
Introduction to Big Data
Introduction to Big DataIntroduction to Big Data
Introduction to Big Data
 
Apache Sentry for Hadoop security
Apache Sentry for Hadoop securityApache Sentry for Hadoop security
Apache Sentry for Hadoop security
 
Apache Tez: Accelerating Hadoop Query Processing
Apache Tez: Accelerating Hadoop Query Processing Apache Tez: Accelerating Hadoop Query Processing
Apache Tez: Accelerating Hadoop Query Processing
 
Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Ha...
Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Ha...Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Ha...
Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Ha...
 
Managing your Hadoop Clusters with Apache Ambari
Managing your Hadoop Clusters with Apache AmbariManaging your Hadoop Clusters with Apache Ambari
Managing your Hadoop Clusters with Apache Ambari
 
Hadoop Overview & Architecture
Hadoop Overview & Architecture  Hadoop Overview & Architecture
Hadoop Overview & Architecture
 

Similar to Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu

Hadoop @ devveri.com
Hadoop @ devveri.comHadoop @ devveri.com
Hadoop @ devveri.comHakan Ilter
 
Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakış Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakış Veysel Taşcıoğlu
 
Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel BakışBerkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakıştechbase
 
Hadoop,Pig,Hive ve Oozie ile Büyük Veri Analizi
Hadoop,Pig,Hive ve Oozie ile Büyük Veri AnaliziHadoop,Pig,Hive ve Oozie ile Büyük Veri Analizi
Hadoop,Pig,Hive ve Oozie ile Büyük Veri AnaliziSerkan Sakınmaz
 
Veri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan SarıbıyıkVeri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan SarıbıyıkHakan Sarıbıyık
 
Istanbul Datascience Academy Talks
Istanbul Datascience Academy TalksIstanbul Datascience Academy Talks
Istanbul Datascience Academy TalksMetin Uslu
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data AnalyticsMudur Alkan
 
Bilginç IT Academy - JPA (Java Persistence API)
Bilginç IT Academy - JPA (Java Persistence API)Bilginç IT Academy - JPA (Java Persistence API)
Bilginç IT Academy - JPA (Java Persistence API)Mimar Aslan
 
Hepsistream real time click-stream data analytics platform
Hepsistream real time click-stream  data analytics platformHepsistream real time click-stream  data analytics platform
Hepsistream real time click-stream data analytics platformHepsiburada
 
Python programlama
Python programlamaPython programlama
Python programlamaMurat KARA
 
Nosql wars & machine learning
Nosql wars & machine learningNosql wars & machine learning
Nosql wars & machine learningEnsarERDOAN
 
PHPkonf'15 - PHP Uygulamanızı Güçlendirin
PHPkonf'15 - PHP Uygulamanızı GüçlendirinPHPkonf'15 - PHP Uygulamanızı Güçlendirin
PHPkonf'15 - PHP Uygulamanızı GüçlendirinMuhittin Özer
 
Kod günleri veritabnı
Kod günleri veritabnıKod günleri veritabnı
Kod günleri veritabnıMustafa Tepe
 
Eticaret akademi Yazılım ve IT süreçleri
Eticaret akademi Yazılım ve IT süreçleriEticaret akademi Yazılım ve IT süreçleri
Eticaret akademi Yazılım ve IT süreçleriMurat Kader
 

Similar to Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu (20)

Big Data Sunum
Big Data SunumBig Data Sunum
Big Data Sunum
 
Hadoop @ devveri.com
Hadoop @ devveri.comHadoop @ devveri.com
Hadoop @ devveri.com
 
Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakış Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakış
 
Berkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel BakışBerkeley Data Analytics Stack Genel Bakış
Berkeley Data Analytics Stack Genel Bakış
 
Hadoop,Pig,Hive ve Oozie ile Büyük Veri Analizi
Hadoop,Pig,Hive ve Oozie ile Büyük Veri AnaliziHadoop,Pig,Hive ve Oozie ile Büyük Veri Analizi
Hadoop,Pig,Hive ve Oozie ile Büyük Veri Analizi
 
1 hafta_dersi
1  hafta_dersi1  hafta_dersi
1 hafta_dersi
 
Veri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan SarıbıyıkVeri işleme üzerine, Hakan Sarıbıyık
Veri işleme üzerine, Hakan Sarıbıyık
 
Istanbul Datascience Academy Talks
Istanbul Datascience Academy TalksIstanbul Datascience Academy Talks
Istanbul Datascience Academy Talks
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Nosql & MongoDB
Nosql & MongoDBNosql & MongoDB
Nosql & MongoDB
 
Bilginç IT Academy - JPA (Java Persistence API)
Bilginç IT Academy - JPA (Java Persistence API)Bilginç IT Academy - JPA (Java Persistence API)
Bilginç IT Academy - JPA (Java Persistence API)
 
Hepsistream real time click-stream data analytics platform
Hepsistream real time click-stream  data analytics platformHepsistream real time click-stream  data analytics platform
Hepsistream real time click-stream data analytics platform
 
Python programlama
Python programlamaPython programlama
Python programlama
 
Riak ve RiakCS
Riak ve RiakCSRiak ve RiakCS
Riak ve RiakCS
 
Nosql wars & machine learning
Nosql wars & machine learningNosql wars & machine learning
Nosql wars & machine learning
 
PHPkonf'15 - PHP Uygulamanızı Güçlendirin
PHPkonf'15 - PHP Uygulamanızı GüçlendirinPHPkonf'15 - PHP Uygulamanızı Güçlendirin
PHPkonf'15 - PHP Uygulamanızı Güçlendirin
 
MongoDB Overview
MongoDB OverviewMongoDB Overview
MongoDB Overview
 
Kod günleri veritabnı
Kod günleri veritabnıKod günleri veritabnı
Kod günleri veritabnı
 
Kod günleri veritabnı
Kod günleri veritabnıKod günleri veritabnı
Kod günleri veritabnı
 
Eticaret akademi Yazılım ve IT süreçleri
Eticaret akademi Yazılım ve IT süreçleriEticaret akademi Yazılım ve IT süreçleri
Eticaret akademi Yazılım ve IT süreçleri
 

Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu

Editor's Notes

  1. <number>
  2. <number>
  3. <number>
  4. <number>
  5. <number>
  6. <number>
  7. <number>
  8. <number>
  9. <number>
  10. <number>
  11. <number>
  12. <number>
  13. <number>
  14. <number>
  15. <number>
  16. <number>
  17. <number>
  18. <number>
  19. <number>
  20. <number>
  21. <number>
  22. <number>
  23. <number>
  24. <number>
  25. <number>