Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu

Hakkımda
§ İstanbul Ünv . Bilgisayar Müh
§ 9+ Java , Java EE
§ 3+ Hadoop,Spark,Pig,Hive,Oozie
§ Big Data Developer - Comodo
§ Blogger/Trainer - buyukveri.co

İçerik
• Büyük Veri(Big Data) Nedir ?
• Hadoop Nedir ve Temel Bileşenleri (HDFS , MapReduce)?
• Kullanım Senaryoları
• Apache Spark
• Apache Spark Bileşenleri
• Apache Spark Mimarisi
• RDD,DataFrame,DataSet
• Spark Streaming
• Mlib

Büyük Veri Nedir?
●
Big data(büyük veri) genel olarak yüksek hacimlerdeki veriler için kullanılan bir terimdir.

Volume(Veri Hacmi)
●
Bu özellik verinin yüksek hacimli olduğunu belirtir

Velocity(Veri hızı)
●
Veriler o kadar hızlı üretilmektedir ki , bir dakika içerisinde 200+ milyon e-mail , 4+ milyon
Facebook like , 1+ milyon Instagram like işlemi yapılmaktadır

Variety(Veri çeşitliliği)
●
Verilerin belirli bir yapısı yoktur, genellikle değişkendir.Resimler, ses dosyaları, text dosyaları

Hadoop Nedir ?
Hadoop , büyük veri kümeleri ile birden fazla makinada paralel olarak işlem yapmamızı
sağlayan Java ile yazılmış açık kaynak kodlu kütüphanedir

Hadoop Hdfs Nedir ?
Hadoop içerisinde büyük verileri sakladığımız bileşene HDFS (Hadoop Distributed File System)
denir

Hadoop MapReduce Nedir?
Hadoop içerisinde büyük verileri paralel olarak işleyebileceğimiz bileşene MapReduce denir .

Örnek Analizler
●
Son bir saat içerisinde 50 den fazla reklama tıklayan kullanıcılar
●
Referer_url bilgisinden arama yapılan anahtar kelimelerin bulunması
●
Tavsiye motoru (Müzik siteleri , sinema siteleri , alışveriş siteleri)
●
Network üzerinde anormal durumlar ( fraud , anomaly detection )
●
Reklam gösterimleri (Ad-network)

Apache Spark
Apache Spark büyük verileri dağıtık makinalarda işlemek için kullanılan bir kütüphanedir

Apache Spark
●
2009 yılında UC Berkeley ' de geliştiriliyor
●
Hadoop ile karşılaştırıldığında
10(x) disk ve 100(x) memory hızlı
●
Java, Scala, Python, R
●
Şu an Apache Software Foundation altında geliştiriliyor
●
2014 yılında TLP(Top Level Project) olarak duyuruluyor

RDD, DataFrame, DataSet
●
Verileri cluster üzerinde saklayarak paralel olarak işlemler yapmamızı sağlar

RDD
●
Dağıtık(Distributed) JVM nesneleridir
●
map,reduce,count,groupBy,filter,join,saveAsTextFile .. gibi metodlar sağlar

DataFrame
●
Spark 1.3 ile gelmiştir
●
RDD ye göre performansı daha iyidir . SQL benzeri sorgular çalıştırılabilir.

DataSet
●
Spark 1.6 ile gelmiştir
●
Type-safe sağlar ,
hataları compile time da gösterir
●
Memory üzerinde daha az yer kaplar
●
RDD ' ye göre hızlıdır
●
Encoder yapısı değişmiştir

Spark Streaming
●
Gelen verileri anlık olarak(real time) analiz etmemizi sağlar
●
Topladığı verileri parametrik olarak window lara ayırır (window1,window2...)

MLib
●
Ölçeklenebilir machine learning kütüphaneleri mevcuttur
●
Java, Scala, Python ve R ile geliştirilebilir
●
Logistic regression
Gelen e-mailler içerisinde spam olanlar belirlenebilir
●
Clustering
K-means ile network verileri üzerinde anormal atakların(anomaly detection) bulunması
●
Recomendation
ALS ile bireylerin davranışlarının birbirlerine benzetilerek film,müzik.. önerisi

Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu

Similar to Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu (20)

Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu

Editor's Notes