Big Data yani büyük veri nedir diyorsanız ve büyük veri analizinin ne gibi yararlar sağlayacağını merak ediyorsanız sizin için Renerald olarak bu sunumu hazırladık. Büyük veri analizleri sayesinde, stratejilerinizi bilimsel veriler ışığında geliştirip şirketinize inanılmaz artı değerler kazandırabileceksiniz.
Pig ve Hive ile Hadoop üzerinde Veri AnaliziHakan Ilter
Hadoop üzerinde Map Reduce programları yazmayı kolaylaştıran Pig ve Hive projesi ile ilgili Özgür Yazılım ve Linux Günleri 2013 organizasyonunda yaptığım sunum.
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )SANG WON PARK
몇년 전부터 Data Architecture의 변화가 빠르게 진행되고 있고,
그 중 Cloud DW는 기존 Data Lake(Hadoop 기반)의 한계(성능, 비용, 운영 등)에 대한 대안으로 주목받으며,
많은 기업들이 이미 도입했거나, 도입을 검토하고 있다.
본 자료는 이러한 Cloud DW에 대해서 개념적으로 이해하고,
시장에 존재하는 다양한 Cloud DW 중에서 기업의 환경에 맞는 제품이 어떤 것인지 성능/비용 관점으로 비교했다.
- 왜기업들은 CloudDW에주목하는가?
- 시장에는어떤 제품들이 있는가?
- 우리Biz환경에서는 어떤 제품을 도입해야 하는가?
- CloudDW솔루션의 성능은?
- 기존DataLake(EMR)대비 성능은?
- 유사CloudDW(snowflake vs redshift) 대비성능은?
앞으로도 Data를 둘러싼 시장은 Cloud DW를 기반으로 ELT, Mata Mesh, Reverse ETL등 새로운 생테계가 급속하게 발전할 것이고,
이를 위한 데이터 엔지니어/데이터 아키텍트 관점의 기술적 검토와 고민이 필요할 것 같다.
https://blog.naver.com/freepsw/222654809552
Big Data yani büyük veri nedir diyorsanız ve büyük veri analizinin ne gibi yararlar sağlayacağını merak ediyorsanız sizin için Renerald olarak bu sunumu hazırladık. Büyük veri analizleri sayesinde, stratejilerinizi bilimsel veriler ışığında geliştirip şirketinize inanılmaz artı değerler kazandırabileceksiniz.
Pig ve Hive ile Hadoop üzerinde Veri AnaliziHakan Ilter
Hadoop üzerinde Map Reduce programları yazmayı kolaylaştıran Pig ve Hive projesi ile ilgili Özgür Yazılım ve Linux Günleri 2013 organizasyonunda yaptığım sunum.
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )SANG WON PARK
몇년 전부터 Data Architecture의 변화가 빠르게 진행되고 있고,
그 중 Cloud DW는 기존 Data Lake(Hadoop 기반)의 한계(성능, 비용, 운영 등)에 대한 대안으로 주목받으며,
많은 기업들이 이미 도입했거나, 도입을 검토하고 있다.
본 자료는 이러한 Cloud DW에 대해서 개념적으로 이해하고,
시장에 존재하는 다양한 Cloud DW 중에서 기업의 환경에 맞는 제품이 어떤 것인지 성능/비용 관점으로 비교했다.
- 왜기업들은 CloudDW에주목하는가?
- 시장에는어떤 제품들이 있는가?
- 우리Biz환경에서는 어떤 제품을 도입해야 하는가?
- CloudDW솔루션의 성능은?
- 기존DataLake(EMR)대비 성능은?
- 유사CloudDW(snowflake vs redshift) 대비성능은?
앞으로도 Data를 둘러싼 시장은 Cloud DW를 기반으로 ELT, Mata Mesh, Reverse ETL등 새로운 생테계가 급속하게 발전할 것이고,
이를 위한 데이터 엔지니어/데이터 아키텍트 관점의 기술적 검토와 고민이 필요할 것 같다.
https://blog.naver.com/freepsw/222654809552
Amazon Elastic Block Store (Amazon EBS) provides persistent block level storage volumes for use with Amazon EC2 instances. In this technical session, we conduct a detailed analysis of the differences among the three types of Amazon EBS block storage: General Purpose (SSD), Provisioned IOPS (SSD), and Magnetic. We discuss how to maximize Amazon EBS performance, with a special eye towards low-latency, high-throughput applications like databases. We discuss Amazon EBS encryption and share best practices for Amazon EBS snapshot management. Throughout, we share tips for success.
(BDT303) Construct Your ETL Pipeline with AWS Data Pipeline, Amazon EMR, and ...Amazon Web Services
An advantage to leveraging Amazon Web Services for your data processing and warehousing use cases is the number of services available to construct complex, automated architectures easily. Using AWS Data Pipeline, Amazon EMR, and Amazon Redshift, we show you how to build a fault-tolerant, highly available, and highly scalable ETL pipeline and data warehouse. Coursera will show how they built their pipeline, and share best practices from their architecture.
HDFS is a Java-based file system that provides scalable and reliable data storage, and it was designed to span large clusters of commodity servers. HDFS has demonstrated production scalability of up to 200 PB of storage and a single cluster of 4500 servers, supporting close to a billion files and blocks.
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
This presentation describes how to efficiently load data into Hive. I cover partitioning, predicate pushdown, ORC file optimization and different loading schemes
Amazon Elastic Block Store (Amazon EBS) provides persistent block level storage volumes for use with Amazon EC2 instances. In this technical session, we conduct a detailed analysis of the differences among the three types of Amazon EBS block storage: General Purpose (SSD), Provisioned IOPS (SSD), and Magnetic. We discuss how to maximize Amazon EBS performance, with a special eye towards low-latency, high-throughput applications like databases. We discuss Amazon EBS encryption and share best practices for Amazon EBS snapshot management. Throughout, we share tips for success.
(BDT303) Construct Your ETL Pipeline with AWS Data Pipeline, Amazon EMR, and ...Amazon Web Services
An advantage to leveraging Amazon Web Services for your data processing and warehousing use cases is the number of services available to construct complex, automated architectures easily. Using AWS Data Pipeline, Amazon EMR, and Amazon Redshift, we show you how to build a fault-tolerant, highly available, and highly scalable ETL pipeline and data warehouse. Coursera will show how they built their pipeline, and share best practices from their architecture.
HDFS is a Java-based file system that provides scalable and reliable data storage, and it was designed to span large clusters of commodity servers. HDFS has demonstrated production scalability of up to 200 PB of storage and a single cluster of 4500 servers, supporting close to a billion files and blocks.
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
This presentation describes how to efficiently load data into Hive. I cover partitioning, predicate pushdown, ORC file optimization and different loading schemes
Verinin temsili, işlenmesi, saklanmasında gelişen ve değişen
koşullar ele alındıktan sonra, büyük verinin işlenmesi konusu
ele alınıyor.
Verinin anlamlandırılması konusunda değişen terimler, ünvanlar, algoritmalar, kullanılan aletler konusunda değerlendirmeler paylaşıldı.
sunumun videosuna aşağıdaki adresten ulaşabilirsiniz.
https://www.youtube.com/watch?v=pnvvMU8L-O0
Hepsistream real time click-stream data analytics platformHepsiburada
Hepsistream veri analitik platformu, Hepsiburada platformuna desktop, mobile, mobile-site kanalları üzerinden erişen kullanıcıların gerçekleştirdikleri ürün görüntüleme, sayfa görüntüleme, sepete ekleme vs. gibi aksiyonları gerçek zamanlı olarak toplayıp, lambda mimarisi ile büyük veri altyapısı üzerinde işlemektedir. Hepsistream büyük veri altyapısına değinilerek, Efsane Cuma gibi büyük bir ölçekte gerçek zamanlı veri keşif ve izleme aracının geliştirilmesi sürecinde kullanılan teknolojiler ve kazanılan deneyimler sunulmustur.
2. Hakkımda
İstanbul Ünv . Bilgisayar Müh
8+ Java , Java EE
3+ Hadoop,Spark,Pig,Hive,Oozie
Big Data Developer (Comodo)
3. İçerik
• Büyük Verilerin Özellikleri
• Büyük Verilerin saklanma yöntemleri
• Hadoop Nedir ve Temel Bileşenleri (HDFS , MapReduce)?
• Apache Spark , Apache Kafka , MongoDB
• Kullanım Senaryoları
• Uzmanlaşmak için tavsiyeler
4. Büyük Verilerin Özellikleri
Veri Miktarı (Volume)
◦ Boeing 737 uçağı tek bir uçuşta 240 terabyte veri üretmektedir
Veri hızı (Velocity)
◦ Bir dakika içerisinde 204 milyon e-mail , 1.8 milyon Facebook like , 278000 tweet işlemi yapılmaktadır
Veri çeşitliliği (Variety)
◦ Klasik veritabanı sistemleri küçük boyutta düzenli yapıdaki veriler için tasarlanmıştır . Oysa gerçek
hayatta resim , ses , konum , log , mekan verileri sıkça karşımıza çıkmaktadır
Verinin değerli olması (Value)
◦ Amazon firması tavsiye sistemi ile satış oranlarını %29 artırmıştır
5. Büyük verilerin saklanma yöntemleri
Verilerin karakteristiği ve işlenme yöntemine göre bir saklama sistemi kullanılır
Wide Column Stores/Column Family database
◦ HBase , Cassandra
◦ Buradaki yapı klasik veritabanına benzer bir şekilde tablo , kolon ve satır yapısı vardır.
Document Store
◦ ElasticSearch , MongoDB
◦ Veriler belirli bir şema yapısına sahip olmadan kaydedilir . JSON gibi
Key Value Store
◦ Redis , MemcacheDB
6. Hadoop Nedir ?
Hadoop , büyük veri kümeleri ile birden fazla makinada paralel olarak işlem yapmamızı sağlayan
Java ile yazılmış açık kaynak kodlu kütüphanedir
7. Hadoop Hdfs Nedir ?
Hadoop içerisinde büyük verileri sakladığımız bileşene HDFS (Hadoop Distributed File System)
denir
13. Örnek Analizler
Son bir saat içerisinde 50 den fazla reklama tıklayan kullanıcılar
Referer_url bilgisinden arama yapılan anahtar kelimelerin bulunması
Tavsiye motoru (Müzik siteleri , sinema siteleri , alışveriş siteleri)
Network üzerinde anormal durumlar ( fraud , anomaly detection )
Reklam gösterimleri (Ad-network)