Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Cloudera Japan
PDF, PPTX
3,126 views
CDH5最新情報 #cwt2013
#cwt2013 Clouderaの水丸 @kmizumar によるCDH5の紹介スライドを公開しました。HBaseの障害復旧の高速化、HDFSのNFSサポートなどを紹介しています
Technology
◦
Read more
3
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 47
2
/ 47
3
/ 47
4
/ 47
5
/ 47
6
/ 47
7
/ 47
8
/ 47
9
/ 47
10
/ 47
11
/ 47
12
/ 47
13
/ 47
14
/ 47
15
/ 47
16
/ 47
17
/ 47
18
/ 47
19
/ 47
20
/ 47
21
/ 47
22
/ 47
23
/ 47
24
/ 47
25
/ 47
26
/ 47
27
/ 47
28
/ 47
29
/ 47
30
/ 47
31
/ 47
32
/ 47
33
/ 47
34
/ 47
35
/ 47
36
/ 47
37
/ 47
38
/ 47
39
/ 47
40
/ 47
41
/ 47
42
/ 47
43
/ 47
44
/ 47
45
/ 47
46
/ 47
47
/ 47
More Related Content
PDF
Cloudera Manager 5 (hadoop運用) #cwt2013
by
Cloudera Japan
PDF
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
by
Cloudera Japan
PDF
HDFS HA セミナー #hadoop
by
Cloudera Japan
PDF
Hadoop Operations #cwt2013
by
Cloudera Japan
PPTX
HBaseサポート最前線 #hbase_ca
by
Cloudera Japan
PPTX
HDFS Supportaiblity Improvements
by
Cloudera Japan
PPTX
Impala 2.0 Update 日本語版 #impalajp
by
Cloudera Japan
PDF
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
by
Cloudera Japan
Cloudera Manager 5 (hadoop運用) #cwt2013
by
Cloudera Japan
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
by
Cloudera Japan
HDFS HA セミナー #hadoop
by
Cloudera Japan
Hadoop Operations #cwt2013
by
Cloudera Japan
HBaseサポート最前線 #hbase_ca
by
Cloudera Japan
HDFS Supportaiblity Improvements
by
Cloudera Japan
Impala 2.0 Update 日本語版 #impalajp
by
Cloudera Japan
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
by
Cloudera Japan
What's hot
PDF
CDHの歴史とCDH5新機能概要 #at_tokuben
by
Cloudera Japan
PDF
Apache Hadoop YARNとマルチテナントにおけるリソース管理
by
Cloudera Japan
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
by
Cloudera Japan
PDF
Apache Impalaパフォーマンスチューニング #dbts2018
by
Cloudera Japan
PDF
#cwt2016 Apache Kudu 構成とテーブル設計
by
Cloudera Japan
PDF
Evolution of Impala #hcj2014
by
Cloudera Japan
PDF
Troubleshooting Using Cloudera Manager #cwt2015
by
Cloudera Japan
PDF
5分でわかる Apache HBase 最新版 #hcj2014
by
Cloudera Japan
PPTX
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
by
Cloudera Japan
PDF
Strata + Hadoop World 2014 レポート #cwt2014
by
Cloudera Japan
PDF
CDH4.1オーバービュー
by
Cloudera Japan
PPTX
機械学習の定番プラットフォームSparkの紹介
by
Cloudera Japan
PDF
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
by
Cloudera Japan
PDF
Kuduを調べてみた #dogenzakalt
by
Toshihiro Suzuki
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
by
Hadoop / Spark Conference Japan
PDF
HBase Across the World #LINE_DM
by
Cloudera Japan
PPTX
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
by
Cloudera Japan
PDF
20190314 PGStrom Arrow_Fdw
by
Kohei KaiGai
PDF
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
by
Cloudera Japan
PDF
Impalaチューニングポイントベストプラクティス
by
Yahoo!デベロッパーネットワーク
CDHの歴史とCDH5新機能概要 #at_tokuben
by
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
by
Cloudera Japan
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
by
Cloudera Japan
Apache Impalaパフォーマンスチューニング #dbts2018
by
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
by
Cloudera Japan
Evolution of Impala #hcj2014
by
Cloudera Japan
Troubleshooting Using Cloudera Manager #cwt2015
by
Cloudera Japan
5分でわかる Apache HBase 最新版 #hcj2014
by
Cloudera Japan
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
by
Cloudera Japan
Strata + Hadoop World 2014 レポート #cwt2014
by
Cloudera Japan
CDH4.1オーバービュー
by
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
by
Cloudera Japan
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
by
Cloudera Japan
Kuduを調べてみた #dogenzakalt
by
Toshihiro Suzuki
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
by
Hadoop / Spark Conference Japan
HBase Across the World #LINE_DM
by
Cloudera Japan
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
by
Cloudera Japan
20190314 PGStrom Arrow_Fdw
by
Kohei KaiGai
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
by
Cloudera Japan
Impalaチューニングポイントベストプラクティス
by
Yahoo!デベロッパーネットワーク
Viewers also liked
PDF
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
by
MapR Technologies Japan
PDF
Sqoopコネクタを書いてみた (Hadoopソースコードリーディング第12回 発表資料)
by
NTT DATA OSS Professional Services
PDF
AnalyzingMovieData and Business Intelligence
by
JUNWEI GUAN
PDF
Single node hadoop cluster installation
by
Mahantesh Angadi
PDF
One Hadoop, Multiple Clouds - NYC Big Data Meetup
by
Andrei Savu
PDF
Unit testing Agile OpenSpace
by
Andrei Savu
PDF
Apache Accumulo and Cloudera
by
Joey Echeverria
PDF
なぜApache HBaseを選ぶのか? #cwt2013
by
Cloudera Japan
PPT
Recommendation Engine using Apache Mahout
by
Ambarish Hazarnis
PDF
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
by
Edureka!
PDF
Cloudera hadoop installation
by
Sumitra Pundlik
PPTX
YARN High Availability
by
DataWorks Summit
PDF
Introducing Cloudera Director at Big Data Bash
by
Andrei Savu
PDF
Hadoop Operations for Production Systems (Strata NYC)
by
Kathleen Ting
PDF
Extending and Automating Cloudera Manager via API
by
ClouderaUserGroups
PPTX
Cloudera Director: Unlock the Full Potential of Hadoop in the Cloud
by
Cloudera, Inc.
PPTX
Samsung’s First 90-Days Building a Next-Generation Analytics Platform
by
Cloudera, Inc.
PDF
Cluster management and automation with cloudera manager
by
Chris Westin
PPTX
Five Tips for Running Cloudera on AWS
by
Cloudera, Inc.
PDF
Apache HBase 入門 (第1回)
by
tatsuya6502
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
by
MapR Technologies Japan
Sqoopコネクタを書いてみた (Hadoopソースコードリーディング第12回 発表資料)
by
NTT DATA OSS Professional Services
AnalyzingMovieData and Business Intelligence
by
JUNWEI GUAN
Single node hadoop cluster installation
by
Mahantesh Angadi
One Hadoop, Multiple Clouds - NYC Big Data Meetup
by
Andrei Savu
Unit testing Agile OpenSpace
by
Andrei Savu
Apache Accumulo and Cloudera
by
Joey Echeverria
なぜApache HBaseを選ぶのか? #cwt2013
by
Cloudera Japan
Recommendation Engine using Apache Mahout
by
Ambarish Hazarnis
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
by
Edureka!
Cloudera hadoop installation
by
Sumitra Pundlik
YARN High Availability
by
DataWorks Summit
Introducing Cloudera Director at Big Data Bash
by
Andrei Savu
Hadoop Operations for Production Systems (Strata NYC)
by
Kathleen Ting
Extending and Automating Cloudera Manager via API
by
ClouderaUserGroups
Cloudera Director: Unlock the Full Potential of Hadoop in the Cloud
by
Cloudera, Inc.
Samsung’s First 90-Days Building a Next-Generation Analytics Platform
by
Cloudera, Inc.
Cluster management and automation with cloudera manager
by
Chris Westin
Five Tips for Running Cloudera on AWS
by
Cloudera, Inc.
Apache HBase 入門 (第1回)
by
tatsuya6502
Similar to CDH5最新情報 #cwt2013
PDF
CDH4セミナー資料
by
Cloudera Japan
PPTX
Cloudera大阪セミナー 20130219
by
Cloudera Japan
PPTX
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
by
NTT DATA Technology & Innovation
PDF
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
by
Cloudera Japan
PPTX
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
by
AdvancedTechNight
PPTX
The truth about SQL and Data Warehousing on Hadoop
by
DataWorks Summit/Hadoop Summit
PPTX
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
by
Takahiro Moteki
PDF
Hadoopデータプラットフォーム #cwt2013
by
Cloudera Japan
PDF
TokyoWebminig カジュアルなHadoop
by
Teruo Kawasaki
PDF
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
by
NTT DATA OSS Professional Services
PPTX
BigData Architecture for Azure
by
Ryoma Nagata
PDF
Developers.IO 2019 Effective Datalake
by
Satoru Ishikawa
PDF
Apache Hadoopの現在と未来
by
Yahoo!デベロッパーネットワーク
PPTX
Flumeを活用したAmebaにおける大規模ログ収集システム
by
Satoshi Iijima
PDF
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
by
Cloudera Japan
PDF
Snowflake Elastic Data Warehouse as a Service
by
Mineaki Motohashi
PDF
第13回CloudStackユーザ会_CloudStack4.1新機能
by
Midori Oge
PDF
Beginner must-see! A future that can be opened by learning Hadoop
by
DataWorks Summit
PDF
Clouderaの品質保証・CDHのテスト工程について by Andrew bayer
by
Cloudera Japan
PDF
Hadoop Trends & Hadoop on EC2
by
Yifeng Jiang
CDH4セミナー資料
by
Cloudera Japan
Cloudera大阪セミナー 20130219
by
Cloudera Japan
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
by
NTT DATA Technology & Innovation
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
by
Cloudera Japan
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
by
AdvancedTechNight
The truth about SQL and Data Warehousing on Hadoop
by
DataWorks Summit/Hadoop Summit
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
by
Takahiro Moteki
Hadoopデータプラットフォーム #cwt2013
by
Cloudera Japan
TokyoWebminig カジュアルなHadoop
by
Teruo Kawasaki
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
by
NTT DATA OSS Professional Services
BigData Architecture for Azure
by
Ryoma Nagata
Developers.IO 2019 Effective Datalake
by
Satoru Ishikawa
Apache Hadoopの現在と未来
by
Yahoo!デベロッパーネットワーク
Flumeを活用したAmebaにおける大規模ログ収集システム
by
Satoshi Iijima
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
by
Cloudera Japan
Snowflake Elastic Data Warehouse as a Service
by
Mineaki Motohashi
第13回CloudStackユーザ会_CloudStack4.1新機能
by
Midori Oge
Beginner must-see! A future that can be opened by learning Hadoop
by
DataWorks Summit
Clouderaの品質保証・CDHのテスト工程について by Andrew bayer
by
Cloudera Japan
Hadoop Trends & Hadoop on EC2
by
Yifeng Jiang
More from Cloudera Japan
PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
by
Cloudera Japan
PDF
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
by
Cloudera Japan
PDF
Cloudera のサポートエンジニアリング #supennight
by
Cloudera Japan
PDF
Train, predict, serve: How to go into production your machine learning model
by
Cloudera Japan
PDF
Apache Kuduを使った分析システムの裏側
by
Cloudera Japan
PDF
Cloudera in the Cloud #CWT2017
by
Cloudera Japan
PDF
先行事例から学ぶ IoT / ビッグデータの始め方
by
Cloudera Japan
PPTX
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
by
Cloudera Japan
PDF
How to go into production your machine learning models? #CWT2017
by
Cloudera Japan
PDF
Apache Kudu - Updatable Analytical Storage #rakutentech
by
Cloudera Japan
PPTX
Hue 4.0 / Hue Meetup Tokyo #huejp
by
Cloudera Japan
PDF
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
by
Cloudera Japan
PDF
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
by
Cloudera Japan
PDF
Cloud Native Hadoop #cwt2016
by
Cloudera Japan
PDF
大規模データに対するデータサイエンスの進め方 #CWT2016
by
Cloudera Japan
PDF
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
by
Cloudera Japan
PDF
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
by
Cloudera Japan
PDF
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
by
Cloudera Japan
PDF
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
by
Cloudera Japan
PPTX
基調講演: 「データエコシステムへの挑戦」 #cwt2015
by
Cloudera Japan
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
by
Cloudera Japan
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
by
Cloudera Japan
Cloudera のサポートエンジニアリング #supennight
by
Cloudera Japan
Train, predict, serve: How to go into production your machine learning model
by
Cloudera Japan
Apache Kuduを使った分析システムの裏側
by
Cloudera Japan
Cloudera in the Cloud #CWT2017
by
Cloudera Japan
先行事例から学ぶ IoT / ビッグデータの始め方
by
Cloudera Japan
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
by
Cloudera Japan
How to go into production your machine learning models? #CWT2017
by
Cloudera Japan
Apache Kudu - Updatable Analytical Storage #rakutentech
by
Cloudera Japan
Hue 4.0 / Hue Meetup Tokyo #huejp
by
Cloudera Japan
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
by
Cloudera Japan
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
by
Cloudera Japan
Cloud Native Hadoop #cwt2016
by
Cloudera Japan
大規模データに対するデータサイエンスの進め方 #CWT2016
by
Cloudera Japan
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
by
Cloudera Japan
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
by
Cloudera Japan
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
by
Cloudera Japan
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
by
Cloudera Japan
基調講演: 「データエコシステムへの挑戦」 #cwt2015
by
Cloudera Japan
Recently uploaded
PPTX
ChatGPTのコネクタ開発から学ぶ、外部サービスをつなぐMCPサーバーの仕組み
by
Ryuji Egashira
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ2「『Slinky』 SlurmとクラウドのKuber...
by
PC Cluster Consortium
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ1「大規模AIの能力を最大限に活用するHPE Comp...
by
PC Cluster Consortium
PDF
論文紹介:MotionMatcher: Cinematic Motion Customizationof Text-to-Video Diffusion ...
by
Toru Tamaki
PDF
AI開発の最前線を変えるニューラルネットワークプロセッサと、未来社会における応用可能性
by
Data Source
PPTX
2025年11月24日情報ネットワーク法学会大井哲也発表「API利用のシステム情報」
by
Tetsuya Oi
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ3「IT運用とデータサイエンティストを強力に支援するH...
by
PC Cluster Consortium
PDF
論文紹介:DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
by
Toru Tamaki
PDF
論文紹介:HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Gene...
by
Toru Tamaki
PDF
ニューラルプロセッサによるAI処理の高速化と、未知の可能性を切り拓く未来の人工知能
by
Data Source
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):エヌビディア合同会社 テーマ1「NVIDIA 最新発表製品等のご案内」
by
PC Cluster Consortium
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):富士通株式会社 テーマ1「HPC&AI: Accelerating material develo...
by
PC Cluster Consortium
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ3「『TrinityX』 AI時代のクラスターマネジメ...
by
PC Cluster Consortium
PDF
膨大なデータ時代を制する鍵、セグメンテーションAIが切り拓く解析精度と効率の革新
by
Data Source
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):コアマイクロシステムズ株式会社 テーマ 「AI HPC時代のトータルソリューションプロバイダ」
by
PC Cluster Consortium
ChatGPTのコネクタ開発から学ぶ、外部サービスをつなぐMCPサーバーの仕組み
by
Ryuji Egashira
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ2「『Slinky』 SlurmとクラウドのKuber...
by
PC Cluster Consortium
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ1「大規模AIの能力を最大限に活用するHPE Comp...
by
PC Cluster Consortium
論文紹介:MotionMatcher: Cinematic Motion Customizationof Text-to-Video Diffusion ...
by
Toru Tamaki
AI開発の最前線を変えるニューラルネットワークプロセッサと、未来社会における応用可能性
by
Data Source
2025年11月24日情報ネットワーク法学会大井哲也発表「API利用のシステム情報」
by
Tetsuya Oi
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ3「IT運用とデータサイエンティストを強力に支援するH...
by
PC Cluster Consortium
論文紹介:DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
by
Toru Tamaki
論文紹介:HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Gene...
by
Toru Tamaki
ニューラルプロセッサによるAI処理の高速化と、未知の可能性を切り拓く未来の人工知能
by
Data Source
PCCC25(設立25年記念PCクラスタシンポジウム):エヌビディア合同会社 テーマ1「NVIDIA 最新発表製品等のご案内」
by
PC Cluster Consortium
PCCC25(設立25年記念PCクラスタシンポジウム):富士通株式会社 テーマ1「HPC&AI: Accelerating material develo...
by
PC Cluster Consortium
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ3「『TrinityX』 AI時代のクラスターマネジメ...
by
PC Cluster Consortium
膨大なデータ時代を制する鍵、セグメンテーションAIが切り拓く解析精度と効率の革新
by
Data Source
PCCC25(設立25年記念PCクラスタシンポジウム):コアマイクロシステムズ株式会社 テーマ 「AI HPC時代のトータルソリューションプロバイダ」
by
PC Cluster Consortium
CDH5最新情報 #cwt2013
1.
1 CDH最新情報 Kiyoshi Mizuamru |
Systems Engineer Cloudera World Tokyo 2013
2.
⾃自⼰己紹介 • ⽔水丸淳(みずまるきよし) • email:
maru@cloudera.com • 2013年年2⽉月にCloudera株式会社⼊入社 • プリセールス段階の技術対応を担当 • 2010年年6⽉月からとある研究所のプロジェクトでHadoop対抗となる 分散フレームワークの開発に従事 • Hadoopとの関わりは3年年⽬目 2
3.
本⽇日のアジェンダ • CDHとは • CDH開発の歴史 •
CDH4 • CDH5ではこう変わる 3
4.
4 ビッグデータに取り組むためのプラットフォーム CDHとは
5.
CDHとは何か • Clouderaʼ’s Distribution
including Apache Hadoop • エンタープライズ向けに開発された100%オープンソースの Hadoopディストリビューション • Apache Hadoopを中⼼心としたオープンソースコンポーネント (CDH4.4現在) 5
6.
CDHで実現するビッグデータプラットフォーム 6
7.
CDH概念念図 • 総てのデータを集約 • その上に様々な処理理 を乗せる 7 統合 ストレージ リソース管理理 メタデータ バッチ 処理理 MAPREDUCE,
HIVE, PIG インタラク ティブ SQL CLOUDERA IMPALA インタラク ティブ サーチ CLOUDERA SEARCH 機械学習 MAHOUT, DATAFU …
8.
CDHを採⽤用する理理由 8 ポイント ユーザにもたらされるメリット パッケージ化済み 他のどの形態のHadoopよりはるかに簡単にインストールすることがで きます パッチ適⽤用済み
Apacheブランチをただダウンロードするよりも安定かつセキュアにし てくれます 実績の証明済み 数千もの組織が既にCDHを使っているため、利利⽤用リスクが低くなって います ⾼高機能 CDHはより多くのユースケースをカバーし、ユーザはコアのHadoopだ けを使っていたときよりも⽣生産性を向上できます 統合済み 全体を把握するための時間を節約し、バージョン間あるいはパッチ間 依存に基づく障害のリスクを減らします 標準と認められている 既に多額の投資をしているRDBMS, ETL, そしてBIなどとCDHは最も うまく連携できます サポートあり CDHは商業組織が⽀支援しているディストリビューションです 100% Apacheライセンス この技術への投資は保障されています
9.
CDH開発の歴史 9 2009 2010 2011
2012 2012/06 2012/09 2013 2013/02 2013/05 2013/09 CDH3 Q2 2011 CDH4 2012/06 • ⾼高可⽤用性ネームノード(NFS) • 複数のデータ処理理フレームワーク (MR1とMR2) CDH4.1 2012/09 • ⾼高可⽤用性ネームノード (QJM) CDH4.2 2013/02 • ジョブトラッカーHA • HBaseスナップショット CDH4.3 2013/05 • データノードディスク間 バランシング • HueにPigエディタ搭載 CDH1 Q3 2009 CDH2 Q1 2010 CDH4.4 2013/09 • ロールベースの認可
10.
CDHバージョンの意味 10 • CDH3以前:CDH3u0, CDH3u1,
CDH3u2 … • 2013/06/20にメンテナンス終了了済み(EOM) • CDH4以降降:CDH X.Y.Z • X:メジャーバージョン(⼤大規模な変更更を含む) • Y:マイナーバージョン(CDH3以前のupdateに相当) • Z:ポイントバージョン(重⼤大なバグ修正のみ) • 最新のリリース版はCDH4.4.0
11.
CDH5ではこう変わる 主要な変更更について
12.
おねがい • CDH 5
Release Notesを読みましょう • ここではすべての変更更点をカバーしません • β版のドラフトから正式リリースまでに更更新される可能性あり • Release Notesのセクション構成 • New Features in CDH5 • Incompatible Changes • Known issues in CDH5 • Release Notesの配布場所 • https://www.cloudera.com/content/cloudera-‐‑‒content/cloudera-‐‑‒ docs/CDH5/latest/CDH5-‐‑‒Release-‐‑‒Notes/CDH5-‐‑‒Release-‐‑‒ Notes.html 12
13.
CDH 5.0.0 β1
コンポーネント⼀一覧 13 CDH 5.0.0 β1 CDH 4.4.0 Apache Avro avro-‐‑‒1.7.4+3 Apache Hadoop 2.0 hadoop-‐‑‒2.2.0+353 2.0.0+1475 Apache DataFu pig-‐‑‒udf-‐‑‒ datafu-‐‑‒0.0.4+12 0.0.4+22 Apache Flume flume-‐‑‒ng-‐‑‒1.4.0+44 1.4.0+23 Apache HBase hbase-‐‑‒0.95.2+272 0.94.6+132 HBase Solr hbase-‐‑‒solr-‐‑‒1.2+16 Apache Hive hive-‐‑‒0.11.0+483 0.10.0+198 Apache Mahout mahout-‐‑‒0.8+27 0.7+21 Apache Oozie oozie-‐‑‒4.0.0+54 3.3.2+92 Apache Pig pig-‐‑‒0.11.0+46 0.11.0+33 Apache Sentry (incubating) sentry-‐‑‒1.2.0+10 1.1.0
14.
CDH 5.0.0 β1
コンポーネント⼀一覧・続き 14 CDH 5.0.0 β1 CDH 4.4.0 Apache Solr solr-‐‑‒4.4.0+98 Apache Sqoop sqoop-‐‑‒1.4.4+20 1.4.3+62 Apache Sqoop 2 sqoop2-‐‑‒1.99.2+105 1.99.2+85 Apache Whirr whirr-‐‑‒0.8.2+19 0.8.2+15 Apache ZooKeper zookeeper-‐‑‒3.4.5+25 3.4.5+23 Parquet parquet-‐‑‒1.0.0+7 Cloudera Development Kit cdk-‐‑‒0.7.0+3 Cloudera Hue hue-‐‑‒3.0.0+266 2.5.0+139 Cloudera Impala impala-‐‑‒1.2.0+0 1.1.1 Cloudera Llama llama-‐‑‒1.0.0+0 Cloudera Search search-‐‑‒1.0.0+0 1.0.0
15.
Java対応 • CDH5はOracle JDK
1.7をサポートします • CDH5ではJDK 1.7でコンパイルされたアプリケーションをサポート • CDH5 Beta1の検証バージョンはJDK 1.7.0_̲25 • すべてのコンポーネントにおいて上記バージョンでテストを実施 • CDH5ではJDK 1.6はノンサポートです • Oracle JDK 1.7に移⾏行行をお願いします 15
16.
MapReduce 2.0の正式サポート • YARNでMapReduce以外のジョブも効率率率的に •
YARN(Yet-‐‑‒Another-‐‑‒Resource-‐‑‒Negotiator) • JobTracker+TaskTrackerを置き換え • JobTrakerの持っていた以下の機能を分離離 • リソース管理理 • ジョブスケジューリング/モニタリング 16
17.
MapReduce 1.0のおさらい 17 Job Client Submit
Job JobTracker TaskTracker Map Slot Reduce Slot TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker
18.
YARNのアーキテクチャ 18 Client Submit Application ResourceManager NodeManager Client AppMaster Container NodeManager Cotainer AppMaster NodeManager Container Container NodeManager Container ContainerCotainer Container
19.
YARNのアーキテクチャ • クラスタ全体でただひとつのResourceManager(RM) • ⾼高可⽤用性対応済み •
アプリケーションごとに存在するApplicationManager (AM) • フレームワーク固有のライブラリ • ResourceManagerから割り当てられたリソースで動作する • NodeManagerと協⼒力力してタスクを実⾏行行・モニタリングする • ノードごとに存在するNodeManager(NM) • MapReduce 2.0では • ResourceManagerとApplicationMasterがJobTrackerを置き換える • NodeManagerがTaskTrackerを置き換える 19
20.
MapReduce 1.0のサポートも継続 • MRv1かMRv2のどちらかを選択 •
MRv1とYARNのプロセスを同時に実⾏行行することはノンサポート • CDH5のMRv1では若若⼲干のAPI変更更あり • Hadoop 2.0.0との互換性維持のため • CDH4で利利⽤用していたMRv1アプリケーションをCDH5 MRv1で利利⽤用す るためにはリコンパイルが必要 • CDH5上でMRv1からMRv2への移⾏行行はリコンパイル不不要 20
21.
⾮非推奨プロパティ • Hadoop 2.0.0以降降で多くのプロパティが廃⽌止予定に •
HadoopとHDFSに関連するもの • CDH5のMRv1では引き続き動作します • これらを置き換える新しい mapreduce* プロパティは CDH5のMRv1では動作しません • 廃⽌止予定のプロパティのリスト • http://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-‐‑‒ project-‐‑‒dist/hadoop-‐‑‒common/DeprecatedProperties.html 21
22.
Apache Flume新機能 • Twitter
Sourceの追加 • FLUME-‐‑‒2190 • Twitterからデータを取得する • HTTP SourceのHTTPS対応 • FLUME-‐‑‒2109 22
23.
Apache HBase新機能 • Hadoop
2.0対応 • MTTRの改善 • 互換性の向上とアップグレードのしやすさの改善 • スナップショット対応 • CDH4.2/HBase0.94へバックポート済み • オンラインでのリージョンマージ • REST proxyサーバでのセキュリティ、機能改善 23
24.
Apache HBase管理理に関係する機能 • サーバ間のネットワークを通りHBaseファイルフォーマット で読み書きされるデータは拡張可能なProtoBufエンコーディ ングでシリアライズされるように変更更 •
将来の拡張で互換性を維持しやすくなることを期待 • 以前のバージョンとの互換性は維持できない • ネームスペースのサポート • テーブルをいくつかの管理理ドメインにまとめる • 管理理者に特定のネームスペースの権限を付与する 24
25.
Apache HBase障害に関係する機能 • MasterからRS/Clientへのコストなしでの通知 •
MasterからClientへマルチキャストコネクションを張る • あるRSがMasterにより異異常と認識識されたとき、Masterからマル チキャストメッセージを送出することでClientはソケットタイム アウトまで待たずにRSの異異常に気付くことができる • .META., -‐‑‒ROOT-‐‑‒専⽤用のHLog .metaの導⼊入 • サーバクラッシュ時にメタ情報を優先的に回復復 • 試験的な機能 • 分散ログリプレイ • リージョンとノードのマッピングを参照/編集するツール 25
26.
Apache HBaseデータ保護に関係する機能 • レプリケーション機能のバグ修正 •
レプリケーションの信頼性を向上(HBASE-‐‑‒9373) • 循環レプリケーションの深刻なバグを修正(HBASE-‐‑‒9158) • スナップショット対応 • オンラインスナップショット • ディレクトリ名を.snapshotから.hbase_̲snapshotsへ変更更 • CopyTableの機能強化 • startRow, stopRowオプションの追加 • Import MapReduceジョブの機能強化 • 取り込むデータにフィルターをかけることが可能に 26
27.
Apache HBase注意すべき変更更点 • CDH5
HBase(Apache HBase 0.95.2/0.96.xに基づく) とCDH4 HBase(同0.92/0.94に基づく)とで通信に互換 性がありません • CDH 5 HBaseへのローリングアップグレードはできません • HBaseを完全に停⽌止させる必要があります • -‐‑‒ROOT-‐‑‒の廃⽌止 • .META.の場所はZooKeeperに直接格納 • TotalOrderPartitonerの廃⽌止 • ネームスペース導⼊入に伴うディレクトリ構成の変更更 • HFile v1はサポートされなくなりました 27
28.
Apache HDFS新機能 • mmapを利利⽤用したHDFSローカルリード •
HDFS RW/ROスナップショット • HDFSへのNFSv3インターフェース • ファイル単位のHDFSアドバイザリ・キャッシング • WebHdfsFileSystemでのフェイルオーバーとリトライ • HdfsFileStatusでディレクトリの⼦子供の数を取得 • INodeIdからINodeへのマッピング • DistributedFileSystemのCreate API拡張によるブロック配置 を優先的に⾏行行うDataNode指定 28
29.
Apache HDFS変更更点 • ファイルに実⾏行行属性ビットが付与できるように •
CDH5ではcopyToLocalで持ってきたファイルに実⾏行行属性が付いている 場合がある • ランダムに⽣生成されていたブロックIDがシーケンシャル に⽣生成されるように • HDFSバランサーコマンドの終了了コードの変更更 • 成功すると1が返る • それまでは0が返っていた • スクリプトで運⽤用している場合は要注意 29
30.
Cloudera Hue新機能 • Sqoop
App • データベースとHDFSの間でデータを簡単にエクスポート・インポート • ウィザードでジョブを作成、ダッシュボードから進捗状況とログの参照 • ZooKeeper App • Znode階層構造・ZooKeeperクラスタのブラウジング • Znodeの追加・削除・編集と複数クラスタの管理理 • Pig Editor, HBase Browser, Sqoop App • Hue Shellは廃⽌止されて上記アプリケーションで置き換え 30
31.
Cloudera Hue変更更点 • 画⾯面レイアウトの再設計 •
⾼高可⽤用性JobTracker対応の強化 • HiveServer2の採⽤用 • Beeswaxデーモンから置き換え • CDH5のHueはHiveServer2にしか対応しない • Djangoバックエンドを1.2から1.4に • SAML認証によるシングルサインオン 31
32.
Cloudera Hue変更更点・続き • ドキュメントモデルの改善 •
Hive/Impalaのクエリ画⾯面にメタストア情報を統合 • メタストア情報の詳細な表⽰示 • Hueの機能紹介をするミニツアーの追加 • Hue Shell Appの完全な廃⽌止 • YARNがデフォルトに 32
33.
Apache Hive・HCatalog新機能 • テーブルのTRUNCATE対応 •
HIVE-‐‑‒466 • LEAD/LAG/FIRST/LAST関数の追加 • Hiveで利利⽤用可能な分析⽤用ウィンドウ関数の充実 • HIVE-‐‑‒896 • DECIMALデータ型の追加 • HIVE-‐‑‒2693 • ALTER VIEW AS SELECT構⽂文の追加 • HIVE-‐‑‒3834 33
34.
Apache Hive・HCatalog変更更点 • メタストアバージョンの⼀一貫性チェック •
HIVE-‐‑‒3764 • ORDER BYのパラレル実⾏行行サポート • HIVE-‐‑‒1402 • 相関検出・最適化のための新しいオプティマイザ • HIVE-‐‑‒2206 • GROUP BYの構造体サポート • HIVE-‐‑‒2517 • HQLによる関数定義のサポート • HIVE-‐‑‒2655 34
35.
Apache Hive変更更点 • CDH5
β1のHiveバージョンは0.11 • Hive 0.11へアップグレードするためにはメタストアのスキーマアップ グレードが必要 • 新しいバージョンのHiveを使い始める前にメタストアのアップグレード を • 忘れるとメタストア破壊に繋がるので特に注意を • CDH5に含まれる新しいschematool • メタストアスキーマをオフラインでアップグレードするための推奨ツール • JDBCアプリケーションとHiveServer2 • HiveServer2に接続するためには新しいCDH5 JDBCパッケージが必要 • アプリケーションの再コンパイルは必要なし • CDH5 HueはCDH4のHiveServer2とは互換性なし 35
36.
Cloudera Impala新機能 • UDF対応 •
ImpalaをETL/ELTパイプラインに組み込みことが容易易に • これまではUDFを使⽤用するときはHiveに頼らざるを得なかった • スカラUDFに加えてユーザ定義の集約関数も実⾏行行可能 • C++で記述された関数の実⾏行行サポート • Javaで記述された既存のHive関数の実⾏行行サポート • CREATE FUNCTION⽂文によるUDFの作成 • DROP FUNCTION⽂文によるUDFの削除 36
37.
Cloudera Impala新機能 • メタデータの⾃自動伝搬 •
INVALIDATE METADATA, REFRESHの必要性が減ります • Impalaノードから実⾏行行されたCREATE TABLE, ALTER TABLE, DROP TABLE, INSERT, LOAD DATAに起因するメタデータは他 のImpalaノードに⾃自動的に伝搬していく • Hiveから加えられたメタデータの変更更については引き続き INVALIDATE METADATA, REFRESHの操作が必要 • catalogdデーモンにより実現 37
38.
Cloudera Impala新機能 • YARNリソース管理理フレームワークとの統合 •
CDH5でのみ • LlamaがYARNに対してリソースを要求、必要なリソースが確保 できたときにのみImpalaクエリを実⾏行行 • テーブルの統計情報取得を怠ると正しいリソースの⾒見見積もりが出 せないので注意 • EXPLAIN出⼒力力の詳細化 • EXPLAIN_̲LEVELオプションの新設 • リソース消費の⾒見見込み量量を表⽰示 • テーブル・カラムの統計情報有無を表⽰示 38
39.
Cloudera Llama • Long-‐‑‒Lived
Application MAster • YARNがフォーカスしているのはバッチ処理理 • Impalaの低レイテンシクエリではImpalaの起動コストは無視できない • キューごとにAMを事前に起動しておいて使い回す • ImpalaとYARNの間でリソースの調停を⾏行行う • Hadoopクラスタ内のリソースの確保、利利⽤用、解放をImpalaから実⾏行行 • Impalaでリソース管理理を有効にしているときだけ必要 39
40.
Apache Mahout新機能 • Vector,
Matrixの実装とAPIの変更更によるパフォーマンスの改善 • レコメンダーの実装変更更によるパフォーマンスの改善 • バイアス有りのアイテムベースレコメンダをサポート • SGD⾏行行列列の因⼦子分解 • SVD++のサポート • LuceneストレージインデックスからSequenceFileへの変換 • k-‐‑‒meansのストリーミング実装によるオンラインクラスタリング • ⾏行行列列の結合ユーティリティ 40
41.
Apache MapReduce 2.0(YARN)新機能 •
ResourceManagerの⾼高可⽤用性対応 • 複数のResourceManagerを利利⽤用することでSPOFを回避 • 実⾏行行中のジョブは完了了済みのタスクを再実⾏行行することなく回復復可能 • リソース管理理 • cgroupsを利利⽤用したメモリ・CPU使⽤用量量のモニタリングと制限 • 継続的スケジューリング • ノードのハートビートと切切り離離すことで⼤大規模クラスタでのパフォーマ ンスを改善 41
42.
Apache Oozie新機能 • ⾼高可⽤用性対応 •
Oozieサーバを複数利利⽤用してサービスを提供 • スケーラビリティも同時に実現 • HCatalogの統合 • コーディネータでHCatalogテーブルのパーティションを依存関係の中 に組み込むことが可能に • SLAモニタリング • ジョブを監視してSLAを満⾜足した、満たせなかった、について通知を送 ることが可能に • JMS通知 • JMSプロバイダに対してジョブの状態やSLAイベントを通知可能 42
43.
Apache Oozie変更更点 • Oozie共有ライブラリ •
CDH5 Beta 1パッケージで提供されるものに置き換えが必要 • Oozieデータベース • データベースのアップグレードが必要 • Oozieクライアント • CDH4.xのクライアントはCDH5.xのOozieサーバと互換性なし • すべてのOozieクライアントをアップデートしてください 43
44.
44 補⾜足資料料
45.
CDH4 コンポーネント⼀一覧 45 CDH4.1.5 CDH4.2.2
CDH4.3.2 CDH4.4.0 DataFu 0.0.4+14 0.0.4+17 0.0.4+20 0.0.4+22 Flume 1.2.0+142 1.3.0+97 1.3.0+161 1.4.0+23 Hadoop 2.0.0+573 2.0.0+968 2.0.0+1369 2.0.0+1475 HBase 0.92.1+176 0.94.2+228 0.94.6+107 0.94.6+132 HCatalog 0.4.0+219 0.5.0+11 0.5.0+13 Hive 0.9.0+161 0.10.0+84 0.10.0+135 0.10.0+198 Mahout 0.7+14 0.7+17 0.7+19 0.7+21 MR1 0.20.2+1281 0.20.2+1361 0.20.2+1369 0.20.2+1475 Oozie 3.2.0+140 3.3.0+83 3.3.2+54 3.3.2+92 Pig 0.10.0+64 0.10.0+511 0.11.0+30 0.11.0+33
46.
CDH4 コンポーネント⼀一覧・続き 46 CDH4.1.5 CDH4.2.2
CDH4.3.2 CDH4.4.0 Sqoop 1.4.1+60 1.4.2+61 1.4.3+36 1.4.3+62 Sqoop2 1.99.1+34 1.99.1+117 1.99.2+85 Whirr 0.8.0+24 0.8.0+27 0.8.2+13 0.8.2+15 ZooKeeper 3.4.3+35 3.4.5+17 3.4.5+21 3.4.5+23 Sentry 1.1.0 1.1.0 Cloudera Hue 2.1.0+226 2.2.0+198 2.3.0+140 2.5.0+139 Cloudera Impala 1.1.1 1.1.1 Cloudera Search 1.0.0 1.0.0
47.
47
Download