SlideShare a Scribd company logo
1 of 34
1
ビッグデータ時代到来!どうするデータ活用
〜Hadoopの導入事例から学ぶ〜
川崎 達夫 |
Cloudera株式会社 エデュケーションサービス
2013年4月24日
自己紹介
2
• 川崎 達夫
• シニアインストラクター&研修全般の業務を担
当
• email: kawasaki@cloudera.com
• Hadoopトレーニングに関するお問い合わせ先
• web: http://www.cloudera.co.jp/university
• email: training-jp@cloudera.com
後半のアジェンダ
3
• ビッグデータとは
• Hadoop事例紹介
• Hadoopのアーキテクチャ
• ビッグデータ時代の人材育成
4
Hadoopのアーキテクチャ
Googleの課題
5
• Googleの課題
• Googleの重要なサービスのひとつ、検索サービス
• インターネット上のコンテンツを集めて、検索イン
デックスを作る必要があった
• 2つの課題
• 大量のコンテンツを「蓄積」(保存)しなければならない
• 大量のコンテンツを「加工」(処理)しなければならない
インターネッ
ト
蓄積
加工
課題と解決(1)
6
• 一般的にデータはハードディスクに保存される
• 利点
• GBあたりの単価が安い
• 例)3TBのディスクは$0.05/GB
• 欠点
• 読み書き速度が遅い
• 例)転送レートが210MB/sのディスク
• 3TBの読み込みに約4時間かかる
→ 複数のディスクを並列で使用す
る
課題と解決(2)
7
• データを一カ所に保存する
• 処理時に共有ディスクからデータを読み込む
• ボトルネックの要因
• 処理するデータのサイズが大きい
• 多くの台数が同時にアクセス
• ネットワークの帯域
→ 処理をデータ側に持ってくる
課題と解決(3)
8
• 一台で処理するのではなく、複数のマシンに処
理を分散する
• 一方、分散処理は難しい
• C言語、フォートラン、MPI、、、、
• 専門知識が必要
→ 汎用言語と高レベルなAPIを使用して
複雑さを抽象化
課題と解決(4)
9
• 分散システムには高価なコンポーネントが必要
• 障害の可能性を最小限に抑える
→ 障害は発生すると認識した設計
Googleの解決策: GFSとMapReduce
10
• GFS(分散ファイルシステム)
• 多数のサーバ上に分散してデータを保存できるファ
イルシステム
• Google はGFSを使って大量 webページを多数のサー
バの上に保存した
• MapReduce(分散処理)
• GFSで分散された多数のサーバの上でそのまま計算処
理を行うための分散フレームワーク
• GoogleはMapReduceを使って検索インデックスを作成
した
キーワードは「分散」
Hadoopの登場
11
• Hadoop = Googleが公開した論文を元にしてオー
プンソースで開発されたクローン
• GFS -> HDFS (Hadoop分散ファイルシステム)
• MapReduce -> MapReduce (分散処理)
Hadoop
12
ただしスレーブ数は非常に多い(10-1000台、10000台も可
能)
マスター
スレーブ群
Hadoop
13
データを分散して保存
マスター
スレーブ群
データ
Hadoop
14
処理を分散して実行
マスター
スレーブ群
処理
ここまでのまとめ
15
• Hadoopのアーキテクチャ
• 「分散して蓄積」と「分散して処理」
• Hadoopが有効なケース
• 大量のデータを蓄積したい
• 比較的単純な処理を高速に行いたい
→台数を増やすことで容易にスケールアウトできます
• Hadoopに向いていないケース
• RDBMSではありません(低遅延ではありません)
• トランザクションのような複雑な処理はありません
16
ビッグデータ時代の人材育成
Cloudera University
ビッグデータと人材不足
17
• ‘ビッグデータ’を業務に活かす基盤は整って来た
• 大きな課題は「人材不足」
• 関連記事
• 日経コンピュータ 2011年9月15日号
• ビッグデータ革命:最大の課題は人材不足
• COMPUTERWORLD(IDC調査)
• Hadoop/MapReduce関連ソフトの世界市場、今後5年間の年平
均成長率は60.2%の見通し。(中略)その一方で、今後2〜3
年間、HadoopやMapReduceを使いこなせる人材の不足がこれ
らの技術の普及拡大のネックになるだろうとも付け加えてい
る
Hadoopエンジニアと給与
18
• 関連記事
• 10 Tech Skills That Will Instantly Net You A $100,000+
Salary
• 第7位: “Haddop は尐なくとも $103,000の価値がある”
• http://www.businessinsider.com/10-tech-skills-that-will-instantly-
net-you-100000-salary-2012-8?op=1
• As Demand Keeps On Increasing, Hadoop And NoSQL Skills
Pay Off
• “HadoopとNoSQLを使用している社員の年収は$100,000以上で
あり、IT業界平均年収の平均$85,619よりもかなり高い”
• http://inside-bigdata.com/as-demand-keeps-on-increasing-hadoop-
and-nosql-skills-pay-off/
なぜHadoopのトレーニングなのか?
不足 エキスパートを雇用するよりも社員に研修を行う方が安価
速度 訓練されたプロフェッショナルは迅速でより効率的に業務を遂行
セキュリティ 認定資格はリーダーシップとスキルの明らかな証明
19
戦略 独自の利用事例と卓越した研究拠点の構築を開始
25%
$115K
20
Hadoopプロフェッショナル:育成か雇用
か?
Hadoopのスキルを持つエンジニアの給与は、尐なくとも一般
より多く必要
Hadoopの開発者は、現在技術職において賃金が最も高額であり、
この水準以上になっている
Sources: Business Insider, “10 Tech Skills That Will Instantly Net You A $100,000+ Salary,” 11 August 2012.
Business Insider, “30 Tech Skills That Will Instantly Net You A $100,000+ Salary,” 21 February 2013.
GigaOm, “Big Data Skills Bring Big Dough,” 17 February 17 2012.
$300K
かなりシニアなデータサイエンティストの求人における賃金
21
なぜClouderaのトレーニングなの
か?
1 広範囲なコース体系
開発,管理,HBase,Hive & Pig,データサイエンス
2
3
経験豊かな講師
2009年以降、15,000人以上が受講
5 世界各国で実施
ほとんどのコースが20カ国、およびバーチャルでも提
供
6 プラットフォームとコミュニティに密
接
CDHは他社のディストリビューションよりも展開され
ている
7 詳しいトレーニング教材
ハンズオン演習と仮想マシンが実操作に役立つ
認定資格のリーダー
Clouderaの認定取得者は5,000人以上
4 最高水準のカリキュラム
Hadoopの進化に伴い定期的に更新 8 学習の継続
ビデオチュートリアルとe-learningでトレーニングを補
完
55%
22
がClouderaの
トレーニングを受講
Source: Fortune, “Fortune 500 “ and “Global 500,” May 2012.
Clouderaはトップ企業への研修を提供
100%
の企業の社員に対する
研修をClouderaで提供
Hadoopの導入を検討し
ている世界のテクノロ
ジー
企業のトップ20社のうち
Fortune 100 企業の
ビッグデータプロ
フェッショナルのうち、
94%
66%
23
がClouderaのトレーニングを同僚ま
たは知人に推奨、または強く推奨
が尐なくとも毎月開催しているCloudera
のトレーニングを当てにしている
Source: Cloudera Past Public Training Participant Study, December 2012, n = 206
40%
がClouderaのトレーニング後、新し
いアプリケーションを開発、あるい
はビジネスに重要な分析を実施
Clouderaのトレーニング受講者は現場のリーダー
88% がClouderaのトレーニングは受講
生の役割に求められるHadoopの専
門知識を提供していると示唆
24
講師の専門スキルと講義中に得られる
技術知識の向上は素晴らしかった。
トレーニングの品質は大学の授業に
比肩する
25
Cloudera Universityとは何か?
役割ベースの
トレーニングコー
ス
開発者 管理者 分析者
専門的な
認定資格
プロジェクトベース
のビデオチュートリ
アル
(英語)
製品ベースの
E-Learning
Hadoop クラスタの発展
Cloudera ナレッジベース
26
Cloudera
エッセン
シャル
1 日
Hadoop
管理者向け
3 日間 & 認定試験
Cloudera
Enterprise
1 日間
Hadoop
開発者向け
4 日間 & 認定試験
Proposed Company Training Timeline
Proposed Evolution of Cloudera Enterprise Deployment
Apache
HBase
2 日間 & 認定試験
Apache
Hive & Pig
2 日間
Data
Science
3 日間 & 認定試験
最初の
ユースケース
追加の
ユースケース
リアルタイムの
ユースケース
広範囲な
ユーザーが採択
Estimated Data in Production
最新の
分析
Hadoop選択のライフサイクル
Hadoopで
何をすることが
できるか?
本番環境での
Hadoopを準備
27
ラーニングパス:開発者とソフトウェアエンジニ
ア
Data Science
トレーニン
グ
開発者向け
トレーニン
グ
HBase
トレーニン
グ
本番環境でMapReduceプログラムを記述する方法を学習
実際のデータ分析に必要となる高度なAPIのトピックをマスター
大量データセットでの遅延を最小化するためのスキーマ設計
秒間数十万オペレーションまでスケールアップ
レコメンダとデータ解析を実装
異種データの分析からすぐに利用可能な洞察力を認識
28
ラーニングパス:システム管理者とITマネー
ジャー
Hive & Pig
トレーニン
グ
Cloudera
Enterprise
トレーニン
グ
迅速なクラスタのデプロイと拡大のためにCloudera Managerを使用
クラスタの性能向上のためにどのツールと技術を使用するかを学習
外部BIツールなしに大量データセットの完全な分析を実行
高い価値がある用途で扱うためにデータを変換して操作
管理者向け
トレーニング
設定、インストール、最適なパフォーマンスのための監視
セキュリティ機能と複数ユーザを実現するための実装
29
ラーニングパス:分析者&ビジネス情報スペシャリ
スト
Data Science
トレーニン
グ
Cloudera
エッセン
シャル
トレーニン
グ
Hive & Pig
トレーニング
既存の技術と並行してHadoopの価値を創造
複数の構造化された大量な量のデータを分析するための方法を学習
大きすぎるデータセットに対してSQLとスクリプト言語を適用
Hadoopのアクセスの容易さを加速する高度なテクニックを取得
好機を生かすために業界固有のデータプラットフォームを構築
コスト削減、利益拡大、顧客維持のためにデータを使用
30
Course Overview
Cloudera Apache Hadoop エッセンシャル
1 日
なぜHadoopが存在しているのか、いつ利用するのが適切か、拡張を成功
させるために必要なリソースは何かを学習します。Hadoopの主要なコン
ポーネントと広範囲なHadoopエコシステムを紹介します。
Cloudera Apache Hadoop 開発者向けトレーニング
4 日間
HDFSとMapReduceの基本と同様に、APIを使用してどのようにプログラム
を記述するのか、デバッグと最適化のテクニック、大きなワークフローの
管理方法を学習します。関連するApacheプロジェクトの概要を紹介します。
Cloudera Apache Hadoop 管理者向けトレーニング
3日間
Hadoopシステム管理者のコンセプトと実務について、インストールと設
定、デプロイにおける問題の診断と解決するための負荷分散とチューニン
グについて学習します。
Cloudera Enterprise トレーニング
1 日
大規模Hadoopクラスタを維持管理するために、Cloudera Managerを含む
Cloudera Enterpriseの一部として提供されるアプリケーションの使用方法に
ついて学習します。
Cloudera Apache HBase トレーニング
2日間
低遅延クエリと高スループットを実現するための分散データストアとして、
HBaseの使用方法を学習します。本コースではスキーマ設計、アプリケー
ションの作成、設定とメンテナンスも網羅しています。
Cloudera Apache Hive & Pig トレーニング
2日間
Apache Hadoopで分析とデータ変換を行うための、2つの人気のあるApache
プロジェクト、HiveとPigの使用方法について、フィルタ、結合、ユーザー
定義関数などを学習します。
データサイエンス入門:レコメンドシステムを構築する
3日間
データサイエンティストとは何か、解決できる問題は何か、異なる業界に
おいてデータからビジネスの価値を導くために現実的な課題に適用する方
法について学習します。自動化されたレコメンダシステムを実装します。
31
Clouderaはビッグデータの動向に福音
を説いている最適なベンダーであり、
業界でHadoopを促進する素晴らしい
サービスを提供している。開発者向
けトレーニングは私が旅を始めるの
に素晴らしい方法だった。
32
なぜプライベートトレーニングなの
か?
利便性
希望日に希望した場所で
プライバシー
相互の情報開示契約はない
フォーカス
1教室あたり10名または20名に限定
関連性
Hadoopの目的に合わせた議論
カスタマイズ
研修の内容はご要望に応じて提供
価格
旅費と最小限の作業に追加費用は発生しない
本日のまとめ
34
• ビッグデータとは何か
• Hadoopの事例
• Hadoopのアーキテクチャ
• ビッグデータ時代の人材育成
• 前半の資料は参加者のみに期間限定で公開しています
35 CONFIDENTIAL - RESTRICTED

More Related Content

Similar to Cloudera Seminar 2013/04/23

クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~CData Software Japan
 
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptxチームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptxRakuten Commerce Tech (Rakuten Group, Inc.)
 
JPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステム
JPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステムJPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステム
JPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステムMPN Japan
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...Google Cloud Platform - Japan
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Cloudera Japan
 
AWS における Microservices Architecture と DevOps を推進する組織と人とツール
AWS における Microservices Architecture と DevOps を推進する組織と人とツールAWS における Microservices Architecture と DevOps を推進する組織と人とツール
AWS における Microservices Architecture と DevOps を推進する組織と人とツールAmazon Web Services Japan
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料オラクルエンジニア通信
 
Drupal + Japan IT 2017
Drupal + Japan IT    2017Drupal + Japan IT    2017
Drupal + Japan IT 2017Hidekazu Ikeda
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Takahiro Inoue
 
リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例Recruit Technologies
 
DBCJ Drupal + Japan 2017
DBCJ  Drupal + Japan  2017DBCJ  Drupal + Japan  2017
DBCJ Drupal + Japan 2017Hidekazu Ikeda
 
JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)Osamu Shimoda
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Cloudera Japan
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
良くわかる!Adobe Creative Cloud グループ版
良くわかる!Adobe Creative Cloud グループ版良くわかる!Adobe Creative Cloud グループ版
良くわかる!Adobe Creative Cloud グループ版Tsuyoshi Nakao
 
Sit tokyo2022 sac/dwc Big data real-time cooperation
Sit tokyo2022 sac/dwc Big data real-time cooperation Sit tokyo2022 sac/dwc Big data real-time cooperation
Sit tokyo2022 sac/dwc Big data real-time cooperation ssuser0cf3dd
 
Asahikawa_Ict 20120726
Asahikawa_Ict 20120726Asahikawa_Ict 20120726
Asahikawa_Ict 20120726kspro
 

Similar to Cloudera Seminar 2013/04/23 (20)

クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
 
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptxチームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
 
JPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステム
JPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステムJPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステム
JPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステム
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
AWS における Microservices Architecture と DevOps を推進する組織と人とツール
AWS における Microservices Architecture と DevOps を推進する組織と人とツールAWS における Microservices Architecture と DevOps を推進する組織と人とツール
AWS における Microservices Architecture と DevOps を推進する組織と人とツール
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
 
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
 
Drupal + Japan IT 2017
Drupal + Japan IT    2017Drupal + Japan IT    2017
Drupal + Japan IT 2017
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
 
リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例
 
DBCJ Drupal + Japan 2017
DBCJ  Drupal + Japan  2017DBCJ  Drupal + Japan  2017
DBCJ Drupal + Japan 2017
 
JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
 
良くわかる!Adobe Creative Cloud グループ版
良くわかる!Adobe Creative Cloud グループ版良くわかる!Adobe Creative Cloud グループ版
良くわかる!Adobe Creative Cloud グループ版
 
Sit tokyo2022 sac/dwc Big data real-time cooperation
Sit tokyo2022 sac/dwc Big data real-time cooperation Sit tokyo2022 sac/dwc Big data real-time cooperation
Sit tokyo2022 sac/dwc Big data real-time cooperation
 
Asahikawa_Ict 20120726
Asahikawa_Ict 20120726Asahikawa_Ict 20120726
Asahikawa_Ict 20120726
 

More from Cloudera Japan

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とはCloudera Japan
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Cloudera Japan
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelCloudera Japan
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera Japan
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方Cloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017Cloudera Japan
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpCloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera Japan
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloudera Japan
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 

More from Cloudera Japan (20)

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Recently uploaded (12)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

Cloudera Seminar 2013/04/23

Editor's Notes

  1. There are three ah-ha moments here:Private training costs less when training a team, not only considering total cost (i.e., including productivity loss due to time off task) or total dollars spent (i.e., including travel and lodging expenses), but also when comparing base price (no discounting).Private training not only saves tons of time on task, but there are additional implicit savings involved in getting trained on the customer’s own schedule (i.e., sooner rather than later, when the entire team will be present to collaborate synchronously).Private training achieves economies of scale such that additional people can be trained at virtually no marginal cost – considering base price alone, it costs less to train 10 participants in a private training than it does to train nine in a public training. Including travel and lodging expenses and productivity loss, breakeven for public training is seven participants.