Büyük Veri, Küme Hesaplama, Dağıtık Dosya Sistemi, Yüksek Performanslı Kümeleme, Apache Spark ve Streaming Modülünü içeren bir sunum.
Apache Spark’ın küme hesaplamaları için kullanımının anlatıldığı sunumda, Java API ile temel bir uygulama örneği gösteriliyor ve beraberinde gelen “Streaming Modülü” ile Twitter’dan canlı veri çekerek işlenmesi anlatılıyor.
1. Apache Spark ile Twitter’ı izlemek
Mehmet Uluer @Tübitak-Uzay
Özgür Web Teknolojileri Günleri
23 Ekim 2016
mehmet.uluer@gmail.com
2. Apache Spark
● Açık kaynak kodlu bir “Küme Hesaplama” altyapısı
● Matei Zaharia, (Mart 30, 2014)
– Tathagata Das (Streaming)
● AMPLAB
– Algorithms, Machines and People Lab.
– Univ. of California, Berkeley
● Apache Yazılım Vakfı himayesinde
● Kararlı son sürümü:
– v.2.0.1
● http://spark.apache.org
20. Lambda 'sız
.map(
new Function<String, String>() {
private static final long serialVersionUID = 1L;
@Override
public String call(String satir) throws Exception {
return satir.toLowerCase();
}
});
21. Yazdır - Kapat
for (Tuple2<Integer, String> l : liste)
System.out.printf("%4d %sn",l._1(),l._2());
sc.close();
22. Örnek İşletme : Girdi - Çıktı
17855120 boz
12498584 tarlaya
12498584 kekere
12498584 şinik
8927560 pis
8927560 dadanan
8927560 başlıklı
3571024 mekere
3571024 bi
3571024 ben
3571024 ekmişler
3571024 porsuğum
3571024 şu
1785512 da
8927560 bir
8927560 mekereye
8927560 ala
8927560 ekilen
7142048 bu
5356536 demiş
1785512 de
1785512 öteki
1785512 ki
1785512 porsuğa
1785512 porsuk
1785512 porsukta
tekerleme
..
Şu tarlaya bi şinik kekere mekere ekmişler.
Bu tarlaya da bi şinik kekere mekere ekmişler.
Şu tarlaya ekilen bir şinik kekere mekereye dadanan boz ala boz başlıklı pis porsuk,
bu tarlaya ekilen bir şinik kekere mekereye dadanan boz ala boz başlıklı pis porsuğa demiş ki;
"ben bu tarlaya ekilen bir şinik kekere mekereye dadanan boz ala boz başlıklı pis porsuğum" demiş.
Öteki tarlaya ekilen bir şinik kekere mekereye dadanan boz ala boz başlıklı pis porsukta;
ben de; "bu tarlaya ekilen bir şinik kekere mekereye dadanan boz ala boz başlıklı pis porsuğum" demiş.
..
Örnek veriyi çoğaltmak için (yeterince büyüdüğünde CTRL+D);
bash # cat tekerleme >> tekerleme
1GB →→→→→→→ < 1dk
10GB →→→→→→→ < 4dk
https://databricks.com/blog/2014/10/10/spark-petabyte-sort.html
23. Büyük Veri –----------------– >
Büyük Akan(Streaming) Veri
Finansal operasyonlarda sahtecilik?
Sensör verilerinde anormallik?
Kuşların haber verdiği kediler