6. Velocity(Veri hızı)
●
Veriler o kadar hızlı üretilmektedir ki , bir dakika içerisinde 200+ milyon e-mail , 4+ milyon
Facebook like , 1+ milyon Instagram like işlemi yapılmaktadır
8. Hadoop Nedir ?
Hadoop , büyük veri kümeleri ile birden fazla makinada paralel olarak işlem yapmamızı
sağlayan Java ile yazılmış açık kaynak kodlu kütüphanedir
9. Hadoop Hdfs Nedir ?
Hadoop içerisinde büyük verileri sakladığımız bileşene HDFS (Hadoop Distributed File System)
denir
12. Örnek Analizler
●
Son bir saat içerisinde 50 den fazla reklama tıklayan kullanıcılar
●
Referer_url bilgisinden arama yapılan anahtar kelimelerin bulunması
●
Tavsiye motoru (Müzik siteleri , sinema siteleri , alışveriş siteleri)
●
Network üzerinde anormal durumlar ( fraud , anomaly detection )
●
Reklam gösterimleri (Ad-network)
13. Apache Spark
Apache Spark büyük verileri dağıtık makinalarda işlemek için kullanılan bir kütüphanedir
14. Apache Spark
●
2009 yılında UC Berkeley ' de geliştiriliyor
●
Hadoop ile karşılaştırıldığında
10(x) disk ve 100(x) memory hızlı
●
Java, Scala, Python, R
●
Şu an Apache Software Foundation altında geliştiriliyor
●
2014 yılında TLP(Top Level Project) olarak duyuruluyor
19. DataFrame
●
Spark 1.3 ile gelmiştir
●
RDD ye göre performansı daha iyidir . SQL benzeri sorgular çalıştırılabilir.
20. DataSet
●
Spark 1.6 ile gelmiştir
●
Type-safe sağlar ,
hataları compile time da gösterir
●
Memory üzerinde daha az yer kaplar
●
RDD ' ye göre hızlıdır
●
Encoder yapısı değişmiştir
22. MLib
●
Ölçeklenebilir machine learning kütüphaneleri mevcuttur
●
Java, Scala, Python ve R ile geliştirilebilir
●
Logistic regression
Gelen e-mailler içerisinde spam olanlar belirlenebilir
●
Clustering
K-means ile network verileri üzerinde anormal atakların(anomaly detection) bulunması
●
Recomendation
ALS ile bireylerin davranışlarının birbirlerine benzetilerek film,müzik.. önerisi