Cloudera World Tokyo 2015 で発表した資料です。
https://clouderaworld.tokyo/
概要
かつてHadoopによるビッグデータ基盤は HiveやPig、MapReduce、そしてHDFSだけで構成されるシンプルなシステムでした。しかし現在では、SparkやImpalaを始めとして、Kafka、HBase、Parquet、そしてKuduなどの新しいコンポーネントを組み合わせた複雑なシステムが次々に本番環境で稼働し始めています。
このセッションでは、データの取得、加工、提供までの流れがどのように変わっていったか、そして現在ではどのような基盤が主流なのか、最新のトレンドについて解説します。
Cloudera World Tokyo 2015 で発表した資料です。
https://clouderaworld.tokyo/
概要
かつてHadoopによるビッグデータ基盤は HiveやPig、MapReduce、そしてHDFSだけで構成されるシンプルなシステムでした。しかし現在では、SparkやImpalaを始めとして、Kafka、HBase、Parquet、そしてKuduなどの新しいコンポーネントを組み合わせた複雑なシステムが次々に本番環境で稼働し始めています。
このセッションでは、データの取得、加工、提供までの流れがどのように変わっていったか、そして現在ではどのような基盤が主流なのか、最新のトレンドについて解説します。
This document appears to be test results from running the Yahoo! Cloud Serving Benchmark on a system. It includes performance metrics like request latency distributions and throughput for different request sizes and concurrency levels. Various graphs and tables are presented showing results from multiple benchmark runs. The benchmark was run to test the performance of the system for serving requests in a cloud computing environment.
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?Edureka!
This document discusses various Hadoop distributions and how to choose between them. It introduces Apache Hadoop and describes popular distributions from Cloudera, Hortonworks, and MapR. Cloudera is based on open source Hadoop but adds proprietary tools, while Hortonworks uses only open source software. MapR takes a different approach than Hadoop with its own file system. The document advises trying different distributions' community editions to compare them and determine features needed before selecting a distribution.
JVM and OS Tuning for accelerating Spark applicationTatsuhiro Chiba
1) The document discusses optimizing Spark applications through JVM and OS tuning. Tuning aspects covered include JVM heap sizing, garbage collection options, process affinity, and large memory pages.
2) Benchmark results show that after applying these optimizations, execution time was reduced by 30-50% for Kmeans clustering and TPC-H queries compared to the default configuration.
3) Dividing the application across multiple smaller JVMs instead of a single large JVM helped reduce garbage collection overhead and resource contention, improving performance by up to 16%.
The document discusses big data and Hadoop concepts. It covers Hadoop operations like put, get, scan, filter, delete as well as join and group by. It also discusses the different types of data access patterns like random write, sequential read, sequential write and random read. The document focuses on big data, Hadoop operations, and data access patterns.
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016Nagato Kasaki
現在、DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集し、データドリブンマーケティングやマーケティングオートメーションに活用しています。しかし、データの規模が増大し、その用途が多様化するにともなって、データ処理のレイテンシが課題となってきました。本発表では、既存のデータ処理に用いられていたHiveの処理をHive on Sparkに置き換えることで、1日あたりのバッチ処理の時間を3分の1まで削減することができた事例を紹介し、Hive on Sparkの導入方法やメリットを具体的に解説します。
Hadoop / Spark Conference Japan 2016
http://www.eventbrite.com/e/hadoop-spark-conference-japan-2016-tickets-20809016328
Cloudera World Tokyo 2014 で発表した、 Strata + Hadoop World 2014 のレポートです。Cloudera 会長 Mike Olson のキーノートや、保険会社の事例、ソーシャルグラフ作成、ETLの課題、HBase のアーキテクチャなどについて紹介しています。
This document appears to be a presentation on Cloudera and related technologies. It introduces Cloudera and provides an agenda. It then discusses Cloudera's growth from 2008-2018, products and services offered, organizational structure, and the technologies that make up their Hadoop platform including components like HDFS, HBase, Zookeeper, YARN and more. It also covers some Linux system administration and monitoring topics like log analysis and storage.
How to go into production your machine learning models? #CWT2017Cloudera Japan
This document discusses various patterns for deploying machine learning systems. It describes different approaches for model building, prediction, and serving including:
- Developing models in Cloudera Data Science Workbench and exporting them for prediction through APIs or databases.
- Using microservices architectures with web applications, APIs, and databases connecting to machine learning systems.
- Serving models through REST APIs or databases and updating models continuously through streaming data.
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
This document provides an overview of Apache Kudu, an open source columnar storage system that enables fast analytics on fast changing data. It discusses Kudu's architecture including its use of tablets, replication using Raft consensus, and columnar storage with compression. The document also covers Kudu's write path involving memstores, delta memstores, and flushing to disk; its read path involving lookups without merging files; and compaction processes. Overall, the summary provides a high-level technical introduction to Kudu's capabilities and design.
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
Data Engineering and Data Analysis Workshop #1 での有賀 (@chezou)の発表です。
https://cyberagent.connpass.com/event/58808/
Cloudera Data Science WorkbenchとPySparkを使い、Pythonで好きなライブラリを分散実行する方法についてです。日本語の形態素解析ライブラリMeCabをPySparkから実行します。