Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Cloudera Japan
PDF, PPTX
7,967 views
CDHの歴史とCDH5新機能概要 #at_tokuben
@特勉(@IT 特集連動勉強会) で発表させていただきました、CDH5についての資料です。 http://atnd.org/events/46924
Technology
◦
Read more
16
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 40
2
/ 40
3
/ 40
4
/ 40
5
/ 40
6
/ 40
7
/ 40
8
/ 40
9
/ 40
10
/ 40
11
/ 40
12
/ 40
13
/ 40
14
/ 40
15
/ 40
16
/ 40
17
/ 40
18
/ 40
19
/ 40
20
/ 40
21
/ 40
22
/ 40
23
/ 40
24
/ 40
25
/ 40
26
/ 40
27
/ 40
28
/ 40
29
/ 40
30
/ 40
31
/ 40
32
/ 40
33
/ 40
34
/ 40
35
/ 40
36
/ 40
37
/ 40
38
/ 40
39
/ 40
40
/ 40
More Related Content
PDF
Apache Hadoop YARNとマルチテナントにおけるリソース管理
by
Cloudera Japan
PDF
Spark徹底入門 #cwt2015
by
Cloudera Japan
PPTX
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
by
Cloudera Japan
PDF
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
by
Cloudera Japan
PDF
Hadoop Operations #cwt2013
by
Cloudera Japan
PDF
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
by
Cloudera Japan
PPTX
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
by
Cloudera Japan
PPTX
機械学習の定番プラットフォームSparkの紹介
by
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
by
Cloudera Japan
Spark徹底入門 #cwt2015
by
Cloudera Japan
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
by
Cloudera Japan
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
by
Cloudera Japan
Hadoop Operations #cwt2013
by
Cloudera Japan
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
by
Cloudera Japan
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
by
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
by
Cloudera Japan
What's hot
PDF
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
by
Cloudera Japan
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
by
Cloudera Japan
PDF
#cwt2016 Apache Kudu 構成とテーブル設計
by
Cloudera Japan
PDF
Apache Impalaパフォーマンスチューニング #dbts2018
by
Cloudera Japan
PDF
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
by
Cloudera Japan
PPTX
HDFS Supportaiblity Improvements
by
Cloudera Japan
PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
by
Cloudera Japan
PDF
HDFS HA セミナー #hadoop
by
Cloudera Japan
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
by
Hadoop / Spark Conference Japan
PDF
Hadoop ecosystem NTTDATA osc15tk
by
NTT DATA OSS Professional Services
PDF
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
by
Hadoop / Spark Conference Japan
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
by
NTT DATA OSS Professional Services
PDF
20190314 PGStrom Arrow_Fdw
by
Kohei KaiGai
PDF
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
by
NTT DATA OSS Professional Services
PDF
Impalaチューニングポイントベストプラクティス
by
Yahoo!デベロッパーネットワーク
PDF
Cloudera Manager 5 (hadoop運用) #cwt2013
by
Cloudera Japan
PDF
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
by
MapR Technologies Japan
PDF
CDH5最新情報 #cwt2013
by
Cloudera Japan
PDF
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
by
オラクルエンジニア通信
PDF
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
by
Cloudera Japan
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
by
Cloudera Japan
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
by
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
by
Cloudera Japan
Apache Impalaパフォーマンスチューニング #dbts2018
by
Cloudera Japan
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
by
Cloudera Japan
HDFS Supportaiblity Improvements
by
Cloudera Japan
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
by
Cloudera Japan
HDFS HA セミナー #hadoop
by
Cloudera Japan
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
by
Hadoop / Spark Conference Japan
Hadoop ecosystem NTTDATA osc15tk
by
NTT DATA OSS Professional Services
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
by
Hadoop / Spark Conference Japan
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
by
NTT DATA OSS Professional Services
20190314 PGStrom Arrow_Fdw
by
Kohei KaiGai
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
by
NTT DATA OSS Professional Services
Impalaチューニングポイントベストプラクティス
by
Yahoo!デベロッパーネットワーク
Cloudera Manager 5 (hadoop運用) #cwt2013
by
Cloudera Japan
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
by
MapR Technologies Japan
CDH5最新情報 #cwt2013
by
Cloudera Japan
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
by
オラクルエンジニア通信
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
by
Cloudera Japan
Viewers also liked
PDF
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
by
YusukeKuramata
PDF
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
by
Hadoop / Spark Conference Japan
PDF
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
by
Nagato Kasaki
PDF
Cassandraとh baseの比較して入門するno sql
by
Yutuki r
PDF
なぜApache HBaseを選ぶのか? #cwt2013
by
Cloudera Japan
PDF
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
by
Edureka!
PDF
MapReduce入門
by
Satoshi Noto
PPTX
JVM and OS Tuning for accelerating Spark application
by
Tatsuhiro Chiba
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
PDF
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
by
Hadoop / Spark Conference Japan
PDF
Hadoop / MapReduce とは
by
Takeshi Matsuoka
PDF
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
by
MapR Technologies Japan
PDF
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
by
オラクルエンジニア通信
PDF
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
by
Hadoop / Spark Conference Japan
PDF
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
by
Yu Ishikawa
PDF
日々進化するHadoopの 「いま」
by
NTT DATA OSS Professional Services
PDF
Sqoopコネクタを書いてみた (Hadoopソースコードリーディング第12回 発表資料)
by
NTT DATA OSS Professional Services
PPTX
Stormとその周辺 2013.03.15
by
Minoru Chikamune
PDF
Apache HBase 入門 (第1回)
by
tatsuya6502
PDF
Apache HBase 入門 (第2回)
by
tatsuya6502
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
by
YusukeKuramata
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
by
Hadoop / Spark Conference Japan
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
by
Nagato Kasaki
Cassandraとh baseの比較して入門するno sql
by
Yutuki r
なぜApache HBaseを選ぶのか? #cwt2013
by
Cloudera Japan
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
by
Edureka!
MapReduce入門
by
Satoshi Noto
JVM and OS Tuning for accelerating Spark application
by
Tatsuhiro Chiba
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
by
Hadoop / Spark Conference Japan
Hadoop / MapReduce とは
by
Takeshi Matsuoka
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
by
MapR Technologies Japan
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
by
オラクルエンジニア通信
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
by
Hadoop / Spark Conference Japan
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
by
Yu Ishikawa
日々進化するHadoopの 「いま」
by
NTT DATA OSS Professional Services
Sqoopコネクタを書いてみた (Hadoopソースコードリーディング第12回 発表資料)
by
NTT DATA OSS Professional Services
Stormとその周辺 2013.03.15
by
Minoru Chikamune
Apache HBase 入門 (第1回)
by
tatsuya6502
Apache HBase 入門 (第2回)
by
tatsuya6502
Similar to CDHの歴史とCDH5新機能概要 #at_tokuben
PDF
Hadoopデータプラットフォーム #cwt2013
by
Cloudera Japan
PDF
Cloudera in the Cloud #CWT2017
by
Cloudera Japan
PDF
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
by
Cloudera Japan
PDF
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
by
Cloudera Japan
PDF
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
by
Cloudera Japan
PPTX
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
by
Cloudera Japan
PDF
Cloudera Manager 4 の紹介
by
Cloudera Japan
PDF
Apache Hadoopの現在と未来
by
Yahoo!デベロッパーネットワーク
PDF
Cloud Native Hadoop #cwt2016
by
Cloudera Japan
PPTX
Cloudera大阪セミナー 20130219
by
Cloudera Japan
PDF
Evolution of Impala #hcj2014
by
Cloudera Japan
PDF
Cloudera サポートの現場から、YARN の最新事情 #hcj2014
by
Cloudera Japan
PDF
Hadoop Trends & Hadoop on EC2
by
Yifeng Jiang
PDF
CDH4セミナー資料
by
Cloudera Japan
PDF
CDH4.1オーバービュー
by
Cloudera Japan
PDF
Apache Hadoop and YARN, current development status
by
NTT DATA OSS Professional Services
PDF
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
by
Cloudera Japan
PDF
Cloudera Manager4.0とNameNode-HAセミナー資料
by
Cloudera Japan
PDF
Yifeng hadoop-present-public
by
Yifeng Jiang
PDF
Cloudera Impalaをサービスに組み込むときに苦労した話
by
Yukinori Suda
Hadoopデータプラットフォーム #cwt2013
by
Cloudera Japan
Cloudera in the Cloud #CWT2017
by
Cloudera Japan
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
by
Cloudera Japan
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
by
Cloudera Japan
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
by
Cloudera Japan
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
by
Cloudera Japan
Cloudera Manager 4 の紹介
by
Cloudera Japan
Apache Hadoopの現在と未来
by
Yahoo!デベロッパーネットワーク
Cloud Native Hadoop #cwt2016
by
Cloudera Japan
Cloudera大阪セミナー 20130219
by
Cloudera Japan
Evolution of Impala #hcj2014
by
Cloudera Japan
Cloudera サポートの現場から、YARN の最新事情 #hcj2014
by
Cloudera Japan
Hadoop Trends & Hadoop on EC2
by
Yifeng Jiang
CDH4セミナー資料
by
Cloudera Japan
CDH4.1オーバービュー
by
Cloudera Japan
Apache Hadoop and YARN, current development status
by
NTT DATA OSS Professional Services
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
by
Cloudera Japan
Cloudera Manager4.0とNameNode-HAセミナー資料
by
Cloudera Japan
Yifeng hadoop-present-public
by
Yifeng Jiang
Cloudera Impalaをサービスに組み込むときに苦労した話
by
Yukinori Suda
More from Cloudera Japan
PDF
Apache Kuduを使った分析システムの裏側
by
Cloudera Japan
PDF
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
by
Cloudera Japan
PDF
大規模データに対するデータサイエンスの進め方 #CWT2016
by
Cloudera Japan
PDF
先行事例から学ぶ IoT / ビッグデータの始め方
by
Cloudera Japan
PDF
Train, predict, serve: How to go into production your machine learning model
by
Cloudera Japan
PDF
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
by
Cloudera Japan
PDF
HBase Across the World #LINE_DM
by
Cloudera Japan
PDF
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
by
Cloudera Japan
PDF
Cloudera のサポートエンジニアリング #supennight
by
Cloudera Japan
PDF
How to go into production your machine learning models? #CWT2017
by
Cloudera Japan
PDF
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
by
Cloudera Japan
PPTX
Hue 4.0 / Hue Meetup Tokyo #huejp
by
Cloudera Japan
PDF
Apache Kudu - Updatable Analytical Storage #rakutentech
by
Cloudera Japan
PPTX
基調講演: 「データエコシステムへの挑戦」 #cwt2015
by
Cloudera Japan
PPTX
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
by
Cloudera Japan
Apache Kuduを使った分析システムの裏側
by
Cloudera Japan
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
by
Cloudera Japan
大規模データに対するデータサイエンスの進め方 #CWT2016
by
Cloudera Japan
先行事例から学ぶ IoT / ビッグデータの始め方
by
Cloudera Japan
Train, predict, serve: How to go into production your machine learning model
by
Cloudera Japan
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
by
Cloudera Japan
HBase Across the World #LINE_DM
by
Cloudera Japan
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
by
Cloudera Japan
Cloudera のサポートエンジニアリング #supennight
by
Cloudera Japan
How to go into production your machine learning models? #CWT2017
by
Cloudera Japan
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
by
Cloudera Japan
Hue 4.0 / Hue Meetup Tokyo #huejp
by
Cloudera Japan
Apache Kudu - Updatable Analytical Storage #rakutentech
by
Cloudera Japan
基調講演: 「データエコシステムへの挑戦」 #cwt2015
by
Cloudera Japan
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
by
Cloudera Japan
Recently uploaded
PDF
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
PDF
2025→2026宙畑ゆく年くる年レポート_100社を超える企業アンケート総まとめ!!_企業まとめ_1229_3版
by
sorabatake
PDF
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
PDF
自転車ユーザ参加型路面画像センシングによる点字ブロック検出における性能向上方法の模索 (20260123 SeMI研)
by
Yuto Matsuda
PDF
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
PDF
PMBOK 7th Edition Project Management Process Scrum
by
akipii ogaoga
PDF
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
PDF
PMBOK 7th Edition_Project Management Context Diagram
by
akipii ogaoga
PDF
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
PDF
FY2025 IT Strategist Afternoon I Question-1 Balanced Scorecard
by
akipii ogaoga
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
PDF
PMBOK 7th Edition_Project Management Process_WF Type Development
by
akipii ogaoga
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
2025→2026宙畑ゆく年くる年レポート_100社を超える企業アンケート総まとめ!!_企業まとめ_1229_3版
by
sorabatake
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
自転車ユーザ参加型路面画像センシングによる点字ブロック検出における性能向上方法の模索 (20260123 SeMI研)
by
Yuto Matsuda
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
PMBOK 7th Edition Project Management Process Scrum
by
akipii ogaoga
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
PMBOK 7th Edition_Project Management Context Diagram
by
akipii ogaoga
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
FY2025 IT Strategist Afternoon I Question-1 Balanced Scorecard
by
akipii ogaoga
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
PMBOK 7th Edition_Project Management Process_WF Type Development
by
akipii ogaoga
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
CDHの歴史とCDH5新機能概要 #at_tokuben
1.
CDH5 2014/01/23 Cloudera株式会社
嶋内 翔 1
2.
自己紹介 嶋内 翔(しまうち しょう)
• 2011年4月にClouderaの最初の日本人社員として入 社 • テクニカルサポート業務をメインに、日本における技 術に関係する業務全般を担当 • 翻訳のレビューなど ちょっと手伝いました 2
3.
Cloudera Impala の⽇日本語フリーブック • • • オライリーの「インパラ本」、日本語PDF版が無償公開される予定です! Cloudera
の John Russell 著 Hadoop、HBase、Hadoopオペレーション、 プログラミングHiveなどを翻訳された 玉川竜司さんが翻訳! 「これまでClouderaの皆 さんにご尽力いただいた 翻訳レビューへの感謝の 気持ちとして、Cloudera World Tokyo開催のお祝 いに翻訳寄贈します!」 3
4.
本日のアジェンダ CDHの歴史 •
CDH5 • • • • • • • 4 HDFS YARN MapReduce Cloudera Impala Cloudera Search Spark
5.
CDHの歴史 5
6.
Apache Hadoop 大量のデータのための
分散ストレージ + 分散処理 プラットフォーム 分散ストレージ 6 分散処理
7.
HDFS 自己修復機能を持つ高帯域な 1 2 3 4 5 HDFS 2 1 1 2 1 4 2 3 3 3 5 5 4 5 4 HDFSは受け取ったファイルをブロックに分割し、
そのブロックをクラスタ全体にわたって重複して格納します 7
8.
HDFS 1つのサーバが壊れても自動複製 生きているノードに 自動的に複製し、
常に3つのレプリカ があるようにする 1 1 2 1 4 2 3 3 3 5 5 4 5 4 1 8 2 3 4
9.
MapReduce フレームワーク 1 2 3 4 5 MR 2 1 1 2 1 4 2 3 3 3 5 5 4 5 4 多数のノード間で大規模ジョブを並列処理し、処理結果を結合します
9
10.
CDHとは? Cloudera’s DistribuLon
including Apache Hadoop • エンタープライズ向けに開発された100%オープン ソースのビッグデータプラットフォーム • 10
11.
CDHアーキテクチャ • • ストレージ
リソース管理 それらを基盤としたアプリ群 • MapReduce • Cloudera Impala • Cloudera Search • etc… バッチ 処理理 MAPREDUC E, HIVE, PIG メタデータ • インタラク ティブ SQL CLOUDERA IMPALA インタラク ティブ サーチ CLOUDERA SEARCH リソース管理理 ストレージ 統合 11 機械学習 MAHOUT, DATAFU …
12.
CDH開発の歴史 2013 § YARN完全対応
§ HDFSスナップショット、NFS対応、高速化 § Impala, Search, Spark, etc… Q3 2009 2009 Q2 2011 2010 Q1 2010 12 2011 2012 Q2 2012 2013
13.
CDH2 (2010年) • 13
Hadoop、Hive、Pigのみの簡素なディストリビューショ ン
14.
CDH3 (2011年4月) Hadoop
にセキュリティ機能を追加 • 分散データストア HBase を追加 • 分散ログコレクタ Flume や、RDBMSとの連携ツール Sqoopなど、外部連携のツールを多数追加 • 14
15.
CDH4 (2012年6月) • HDFS
に高可用性(HA)を追加 • 後にMapReduceにもHAを追加 機械学習ソフト Mahout の追加 • HBase, Flume, Hue などを始め各コンポーネントが大 きくバージョンアップ。機能追加と信頼性向上 • 15
16.
そしてCDH5 YARN完全対応 •
HDFSのスナップショット、NFS対応、高速化 • 追加コンポーネント: Impala, Search(Solr)、Sentry, Accumulo, Spark • 16
17.
CDH5 17
18.
HDFS Hadoop の分散ファイルシステム
大量のデータを多数のノードに分散して保存する • 耐障害性が高く、シーケンシャルアクセスに対するス ループットが高い • SPOFはもうない! CDH4 • 高速化 • • • • • • 多様なインタフェース • • 18 ショートサーキットリード mmapローカルリード HDFSアドバイザリキャッシュ REST API NFSv3インタフェース CDH4 CDH5 CDH4 CDH5 CDH5
19.
CDH5 HDFSスナップショット • 指定したディレクトリのスナップショットを取ることができる
• • スナップショットはブロック情報とファイルサイズのみ保存 • • /path/to/dir/.snapshot の下に保存される ストレージを圧迫しない スナップショットを取得した状態にいつでも復元可能 参考: Cloudera Manager の GUI画面 19
20.
HBase HDFS 上で動作する分散データストア
• HDFS が苦手とする低レイテンシのアクセスや小さい ファイルの操作を得意とする CDH4 • テーブル・列レベルのアクセス制御 CDH4 • コプロセッサ CDH4 CDH5 • HBase スナップショット CDH5 • オンラインリージョンマージ • 20
21.
HBaseの復旧時間 CDHバージョン 障害発生時の復旧時間
CDH3 最悪の場合、数時間 CDH4 数分〜数十分 CDH5 ソフトウェア障害: 数十秒 完全なノード障害: 数分 • こうした復旧時間の改善の裏には数多くの高度な技 術が使われている • 21 ここでは説明しません
22.
YARN CDH5 Yet-‐‑‒Another-‐‑‒Resource-‐‑‒Negotiator •
JobTrackerが管理理していた以下の機能を分離離 • • • リソース管理理 ジョブスケジューリングと監視 MapReduceはYARNアプリケーションの⼀一つと して分離離 • Impala、SparkなどもYARNを使ってリソース管 理理を⾏行行う • 22
23.
MapReduce 1.0 のおさらい
Job Client Submit Job JobTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker Map Slot Reduce Slot 23
24.
CDH5 YARNのアーキテクチャ Client ResourceManager Submit
Application Client NodeManager NodeManager NodeManager AppMaster Cotainer Container Container Container Cotainer Container Container AppMaster 24 NodeManager Container
25.
CDH5の分散処理エンジン MapReduce •
Cloudera Impala • Spark • Cloudera Search • • 25 計算処理ではなく、分散検索エンジン
26.
MapReduce • MapReduce 2.0
(MRv2) の正式サポート • • • • 26 CDH5 YARNベース ResourceManager(RM) + ApplicationMaster(AsM) が JobTracker の代わり NodeManager(AM) が TaskTracker の代わり MRv1 も引き続きサポート
27.
Cloudera Impala • オープンソースの低レイテンシSQLエンジン
• • HiveQLベース Hive の文法はほぼそのまま使えます MapReduceは使わない • HDFS や HBase 上のデータを処理可能 • 非常に高速 • • 大体 x10〜30、遅い時でも x2〜3 CDH5から正式にCDHコンポーネントの一つとして扱われ るようになった CDH5 • Llama (リャマ) • • 27 ImpalaをYARNからリソース管理する
28.
Cloudera Search CDH
と Apache Solr の統合ソフト • CDH5から正式にCDHコンポーネントの一つとして扱 われるようになった • HDFS上のあらゆるデータを検索インデックスに • • • • 29 MapReduceによるバッチインデクシング Flumeからのデータ取り込みと同時にインデクシング(ニア リアルタイム、NRT) HBase上のデータのインデクシング
29.
使用例1: メール検索 30
30.
使用例2: Twicer 検索
31
31.
CDH5 Spark Scala製の分散処理フレームワーク
• 計算途中のデータをメモリにキャッシュするので、同 一データに対する繰り返しの処理などは特に高速 • Scalaの他、JavaやPythonでも記述可能 • val file = sc.textFile("hdfs://.../pagecounts-‐*.gz") val counts = file.flatMap(line => line.split(" ")) .map(word => (word, 1)) .reduceByKey(_ + _) counts.saveAsTextFile("hdfs://.../word-‐count") Scalaによるワードカウント 32
32.
まとめ 33
33.
一箇所にデータを集める 複数のシステムにデータをためる必要はもうない •
あらゆるデータをHadoopに蓄積し、あらゆるデータを 分析・検索するシステムが一つあればいい • 34
34.
Hadoopシステムの全体構成 APIアクセス 外部システム
外部システム APIアクセス BIツール + JDBC/ODBC Webサーバ等の ログを生成するサーバ SQL Hadoop 検索 ログ収集 ユーザ 携帯端末の 通信ログ RDBMS 35 テーブルごと インポート テーブルごと エクスポート 分散処理・機械学習 DWH
35.
CDH5 さらに高速で使いやすくなったHDFS •
MapReduceだけじゃない、様々な分散処理エンジン • 分散システムのリソース管理基盤 • ビッグデータ基盤を選ぶなら CDH5 詳細はこちらから hcp://Lny.cloudera.com/cdh5doc 36
36.
Cloudera Manager 5
• • • 37 CDHのための運用管理・監視ソフト YARNによる複雑なリソース管理もGUIで簡単に設定できます Standard 版は無償公開!
37.
Cloudera Manager 構築・運用が大変なHadoopの管理を楽にします
• 100ノードのクラスタを1時間で構築可能 • YARNによるリソース管理も簡単 • ビッグデータ基盤を選ぶなら Cloudera Manager + CDH5 ダウンロードはこちら hcp://cloudera.com/content/support/en/downloads.html 38
38.
CDHコミュニティ・MLの紹介 CDH ユーザ
メーリングリスト(日本語) cdh-‐user-‐jp@cloudera.org CDH の質問についてはこちら Cloudera ニュースレター hcp://www.cloudera.co.jp/newslecer Cloudera に関するニュースをお届けします CDH/CMの最新情報・使い方なども紹介します 39
39.
We are Hiring!
• Clouderaは貴方を求めています!! • ソリューションアーキテクト • • カスタマーオペレーションエンジニア(サポート) • • • • Hadoopを使ったコンサルティングやモデリング 世界中のお客様のHadoopを守る! インストラクター システムエンジニア(技術営業) セールス 興味のある方は info-‐jp@cloudera.com まで ご連絡下さい! 40
40.
41
Download