Pig ve Hive ile Hadoop üzerinde Veri AnaliziHakan Ilter
Hadoop üzerinde Map Reduce programları yazmayı kolaylaştıran Pig ve Hive projesi ile ilgili Özgür Yazılım ve Linux Günleri 2013 organizasyonunda yaptığım sunum.
Ceph Türkiye 3.Meetup Ankara: Ceph Tasarımında Dikkat Edilecek HususlarHuseyin Cotuk
22.11.2017 tarihinde Ankara Ataköşk Hotel'de Ceph Türkiye adına yapılan üçüncü meetup'a ait sunum. Uyumsoft firmasından Ramazan ÖZTEMUR tarafından yapılan sunum süresince aşağıdaki konular ele alınmıştır.
Gereksinimlerin Belirlenmesi
Replika vs Erasure Coding
Performans Maliyet Kapasite
İş Yüküne Özel tasarım
Donanım Seçimi
Önerilen Donanım Listesi
Performans ve Maliyet Odaklı Örnek Tasarımlar
02.10.2017 tarihinde Ankara Ataköşk Hotel'de Ceph Türkiye adına yapılan ilk meetup'a ait kayıt. Dr. Hüseyin ÇOTUK tarafından yapılan sunum süresince aşağıdaki konular ele alınmıştır.
İlk Bakışta Ceph
Geleneksel Depolama Mimarisi
Dağıtık Depolama Mimarisi
Diğer Dağıtık Depolama Çözümleri ile Karşılaştırmalar
Neden Ceph?
Dünyada Ceph Kullanımı
OpenStack'te Depolama Alternatifleri
Neden OpenStack ve Ceph?
OpenStack'te Ceph Kullanımı ve Performans OptimizasyonuHuseyin Cotuk
17 Ekim 2017 tarihinde Levent Wyndham Grand İstanbul Hotel'de düzenlenen OpenStack Days İstanbul etkinliğinde Dr. OpenStack Days Istanbul 2017 sırasında Dr. Hüseyin ÇOTUK tarafından yapılan "OpenStack'te Ceph Kullanımı ve Performans Optimizasyonu" konulu sunum
Ceph Türkiye 7. Meetup Ankara: Ceph Temelleri ve CRUSH MAP YönetimiHuseyin Cotuk
Konu: Ceph Temelleri ve CRUSH Map Yönetimi
Sunum: Dr. Hüseyin ÇOTUK
İçerik: • Ceph Nedir?
• Ceph Bileşenleri
• CRUSH Map Nedir?
• CRUSH Map nasıl kişiselleştirilir?
• Karma diskler ile veri havuzu oluşturma
OpenStack Türkiye 14. Meetup Ankara: Yeni Başlayanlar için OpenStackHuseyin Cotuk
Konu: OpenStack Bulut Platformu Nedir? Nerelerde Kullanılır?
Sunum: Dr. Hüseyin ÇOTUK
İçerik:
• Dünyada Bulut Dönüşümü
• Neden Bulut?
• OpenStack Nedir?
• OpenStack Bileşenleri
• Servis Olarak Verilebilen Hizmetler
• Neden OpenStack?
• Dünyada OpenStack Kullanımı
• OpenStack'te Depolama Alternatifleri
• Neden OpenStack ve Ceph?
• Demo
• Soru / Cevap
Günümüz dünyasında “performansın zaman metriği değişmiştir, aynı zamanda performans düzeyi de artmıştır”. Dolayısıyla gerçek zamanlı bir analizden söz ediliyorsa firmanın yarattığı gerçek değerin ölçülmesine ve görselleştirilmesine olanak sağlayacak Grafik DataMining tekniğine yoğunlaşmaları ve bunu öğrenmeleri gerekiyor. Bu bağlamda günümüz iş modelinin temel sorunu “hâlâ analitik dünyanın ölü diyagramlarına itibar ediliyor olmasıdır”. Yaşayan çok boyutlu işletmeleri kâğıt üzerindeki iki boyutlu ölü diyagramlara indirgemek faydadan çok zarara yol açmaktadır.
Gelişen enformatik teknolojisinin olanak sağladığı veri depolama kapasitesinin konvansiyonel tekniklerle stratejik bilgiye dönüştürülemediği yaygın olarak paylaşılan bir gerçek. ASO Dergisi 2015 Aralık Sayısında yayınlanan bu çalışma dosyası matematiğin ve istatistiğin ötesinde bu verilerin bilgiye dönüştürülmesi ve risk yönetiminde kullanılması olanaklarını araştırıyor.
Pig ve Hive ile Hadoop üzerinde Veri AnaliziHakan Ilter
Hadoop üzerinde Map Reduce programları yazmayı kolaylaştıran Pig ve Hive projesi ile ilgili Özgür Yazılım ve Linux Günleri 2013 organizasyonunda yaptığım sunum.
Ceph Türkiye 3.Meetup Ankara: Ceph Tasarımında Dikkat Edilecek HususlarHuseyin Cotuk
22.11.2017 tarihinde Ankara Ataköşk Hotel'de Ceph Türkiye adına yapılan üçüncü meetup'a ait sunum. Uyumsoft firmasından Ramazan ÖZTEMUR tarafından yapılan sunum süresince aşağıdaki konular ele alınmıştır.
Gereksinimlerin Belirlenmesi
Replika vs Erasure Coding
Performans Maliyet Kapasite
İş Yüküne Özel tasarım
Donanım Seçimi
Önerilen Donanım Listesi
Performans ve Maliyet Odaklı Örnek Tasarımlar
02.10.2017 tarihinde Ankara Ataköşk Hotel'de Ceph Türkiye adına yapılan ilk meetup'a ait kayıt. Dr. Hüseyin ÇOTUK tarafından yapılan sunum süresince aşağıdaki konular ele alınmıştır.
İlk Bakışta Ceph
Geleneksel Depolama Mimarisi
Dağıtık Depolama Mimarisi
Diğer Dağıtık Depolama Çözümleri ile Karşılaştırmalar
Neden Ceph?
Dünyada Ceph Kullanımı
OpenStack'te Depolama Alternatifleri
Neden OpenStack ve Ceph?
OpenStack'te Ceph Kullanımı ve Performans OptimizasyonuHuseyin Cotuk
17 Ekim 2017 tarihinde Levent Wyndham Grand İstanbul Hotel'de düzenlenen OpenStack Days İstanbul etkinliğinde Dr. OpenStack Days Istanbul 2017 sırasında Dr. Hüseyin ÇOTUK tarafından yapılan "OpenStack'te Ceph Kullanımı ve Performans Optimizasyonu" konulu sunum
Ceph Türkiye 7. Meetup Ankara: Ceph Temelleri ve CRUSH MAP YönetimiHuseyin Cotuk
Konu: Ceph Temelleri ve CRUSH Map Yönetimi
Sunum: Dr. Hüseyin ÇOTUK
İçerik: • Ceph Nedir?
• Ceph Bileşenleri
• CRUSH Map Nedir?
• CRUSH Map nasıl kişiselleştirilir?
• Karma diskler ile veri havuzu oluşturma
OpenStack Türkiye 14. Meetup Ankara: Yeni Başlayanlar için OpenStackHuseyin Cotuk
Konu: OpenStack Bulut Platformu Nedir? Nerelerde Kullanılır?
Sunum: Dr. Hüseyin ÇOTUK
İçerik:
• Dünyada Bulut Dönüşümü
• Neden Bulut?
• OpenStack Nedir?
• OpenStack Bileşenleri
• Servis Olarak Verilebilen Hizmetler
• Neden OpenStack?
• Dünyada OpenStack Kullanımı
• OpenStack'te Depolama Alternatifleri
• Neden OpenStack ve Ceph?
• Demo
• Soru / Cevap
Günümüz dünyasında “performansın zaman metriği değişmiştir, aynı zamanda performans düzeyi de artmıştır”. Dolayısıyla gerçek zamanlı bir analizden söz ediliyorsa firmanın yarattığı gerçek değerin ölçülmesine ve görselleştirilmesine olanak sağlayacak Grafik DataMining tekniğine yoğunlaşmaları ve bunu öğrenmeleri gerekiyor. Bu bağlamda günümüz iş modelinin temel sorunu “hâlâ analitik dünyanın ölü diyagramlarına itibar ediliyor olmasıdır”. Yaşayan çok boyutlu işletmeleri kâğıt üzerindeki iki boyutlu ölü diyagramlara indirgemek faydadan çok zarara yol açmaktadır.
Gelişen enformatik teknolojisinin olanak sağladığı veri depolama kapasitesinin konvansiyonel tekniklerle stratejik bilgiye dönüştürülemediği yaygın olarak paylaşılan bir gerçek. ASO Dergisi 2015 Aralık Sayısında yayınlanan bu çalışma dosyası matematiğin ve istatistiğin ötesinde bu verilerin bilgiye dönüştürülmesi ve risk yönetiminde kullanılması olanaklarını araştırıyor.
2012 yılında, o sırada gerçekleştireceğiniz bir projede hangi dili kullanacağımız konusunda kararsız kalmıştık. Ben Python yanlısıydım ve görüşümü desteklemek için Java ve Python'u yapısal ve performans olarak kıyaslayan nu sunumu hazırlamıştım. Benzer kararsızlıklar yaşayanlara faydalı olmasını umuyorum.
Man in the Middle Atack (Ortadaki Adam Saldırısı)Ahmet Gürel
Süleyman Demirel Üniversitesi Siber Güvenlik Laboratuvarında yapmış olduğum Man in the Middle Atack (Ortadaki Adam Saldırısı) sunumu. Mail : info@gurelahmet.com | Blog: www.gurelahmet.com | Twitter: @ahmettgurell
Verinin temsili, işlenmesi, saklanmasında gelişen ve değişen
koşullar ele alındıktan sonra, büyük verinin işlenmesi konusu
ele alınıyor.
Verinin anlamlandırılması konusunda değişen terimler, ünvanlar, algoritmalar, kullanılan aletler konusunda değerlendirmeler paylaşıldı.
sunumun videosuna aşağıdaki adresten ulaşabilirsiniz.
https://www.youtube.com/watch?v=pnvvMU8L-O0
Hepsistream real time click-stream data analytics platformHepsiburada
Hepsistream veri analitik platformu, Hepsiburada platformuna desktop, mobile, mobile-site kanalları üzerinden erişen kullanıcıların gerçekleştirdikleri ürün görüntüleme, sayfa görüntüleme, sepete ekleme vs. gibi aksiyonları gerçek zamanlı olarak toplayıp, lambda mimarisi ile büyük veri altyapısı üzerinde işlemektedir. Hepsistream büyük veri altyapısına değinilerek, Efsane Cuma gibi büyük bir ölçekte gerçek zamanlı veri keşif ve izleme aracının geliştirilmesi sürecinde kullanılan teknolojiler ve kazanılan deneyimler sunulmustur.
Introduction to OpenShift Container Platform, developer tools including Red Hat Container Development Kit (Minishift), JBoss Developer Studio Container Related capabilities and continuous delivery pipelines on OCP.
Dspace Migration and Dspace Piwik IntegrationMesut Güngör
Bu sunum eski bir Dspace versiyonundan 5.x versiyonuna veri aktarımı ve piwik analitik sisteminin analitiklerinin dinamik bir şekilde dspace içerisine gömülmesini anlatıyor.
Dspace Veri Aktarımı, Analitik, Sosyal Ağlar, Scopus EntegrasyonuMesut Güngör
Dspace e toplu bir şekilde MARC ve basit bibliografik formattaki dosyaların aktarılması, Piwik Analitik yazılımı ve dspace in entegrasyonu, Scopus atıf bilgisinin dspacede bulunan öğe sayfasında gösterilmesi, Sosyal Ağ butonlarının dspace ile entegrasyonu
5. Log özellikleri
Log lar anlık olarak toplanıyor
Her log çeşidi farklı bir topic altından HDFS üzerinde farklı dosyalara
kopyalanıyor
browsed , click , crash_reports , pc_info …
Bir topic altından günlük 20 milyona yakın data toplanabiliyor
Saatlik , günlük , haftalık , aylık bazda raporlar talep ediliyor
Log lar HDFS sisteminde saklanıyor
Her bir log un 3 farklı yerde kopyası saklanıyor (replication factor )
Log dosyaları SnappyCodec ile sıkıştırılıyor (Average compression rate %81)
6. Örnek Analizler
Ülke bazında tekil ziyaretçi sayısı
Son bir saat içerisinde 50 den fazla reklama tıklayan kullanıcılar
Referer_url bilgisinden arama yapılan anahtar kelimelerin bulunması
Kullanıcıların günlük olarak browser kullanım süreleri
Ülke ve kategori bazında web sitelerinde gezinme oranları
Shopping , travel , news …
9. Apache Pig
HDFS (Hadoop distributed file system ) üzerindeki verileri işlemek için kullanılan platformdur
Verileri işlemek için Pig Latin ismi verilen scripting dili kullanılmaktadır
20. Apache Pig – UDF(User Defined Functions)
Adım 1 - Java ile maven projesi oluşturulur
Adım 2 - pig ve hadoop-core dependency ler eklenir
Adım 3 - Örnek java program
Adım 4 - jar dosyası export edilir ve hdfs sistemine yüklenir
22. Apache Hive
Apache Hive ; büyük verileri işlememizi sağlayan SQL yapısına benzer açık kaynak kodlu
kütüphanedir
Örnek sorgular ;
SELECT COUNT(1) FROM www_access;
SELECT COUNT(distinct ip) FROM www_access WHERE url=‘www.google.com’;
SELECT ip, COUNT(1) FROM www_access GROUP BY ip LIMIT 30;
SELECT ip, COUNT(1) AS cnt FROM www_access GROUP BY ip ORDER BY cnt
DESC LIMIT 30;
23. Apache Hive – External Table
select count(1) as cnt, country from browsed where log_date = '2016-01-11' and type='search'
group by country;
CREATE EXTERNAL TABLE browsed( id string, date_time string, visitor_guid string,
referer_url string,
type str'ng)
PARTITIONED BY (log_date string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY 't';
ALTER TABLE browsed ADD PARTITION (log_date = '2016-01-01') LOCATION
'/data/stats/searches/2016_01_11/';
24. Pig , Hive , MapReduce
Pig
Script dili
Java ile MapReduce geliştirmenin alternatifi
Hive
SQL tabanlı
Basit raporlamalar için daha uygun . Kompleks işlemler için uygun değil
Metadata bilgisi tutabiliyor
MapReduce
Hive ve Pig e göre daha fazla geliştirme eforu gerekli
Pig ve hive ile geliştirilmiş kodlara göre daha hızlı çalışıyor
Join işlemleri daha zahmetli
26. Apache Oozie
Belirli periyotlarda iş akışı çalıştırılabilir
Saatlik , günlük , aylık , haftalık
İşlemler bittikten sonra mail atabilir
Belirli bir sırada iş akışı çalıştırılabilir
switch-case gibi control ifadesi eklenebilir
Paralel aksiyonlar çalıştırılabilir ve sonrasında bunlar birleştirilebilir
Çalıştırılabilen aksiyonlar
Pig , shell , hive , spark , java , map reduce , sqoop , fs (hdfs) ,ssh
27.
28. Apache Hue
Hadoop ekosistemindeki bazı teknolojilerin kullanımını kolaylaştırmak için web arayüzü sunan
açık kaynak kodlu bir kütüphanedir
Kullanılabilen teknolojiler
Hive , Oozie , Imlala , Pig , Oozie
29.
30. Apache Sqoop
Hadoop ile ilişkisel veritabanı arasında verilerin aktarılmasını sağlayan açık kaynak kodlu bir
kütüphanedir
sqoop-import --connect jdbc:mysql://$1/admarket --username $2 --password $3 --table
'domains_table' --delete-target-dir --target-dir $4 --columns 'adultdomain'