More Related Content Similar to ITインフラsummit 2017発表資料 (20) ITインフラsummit 2017発表資料1. 1© Cloudera, Inc. All rights reserved.
データの分析者と運用者
互いの業務と必要性の「理解」の
壁を打ち破るデータ基盤とは!?
Masayuki Hyugaji - SE Manager, Cloudera
3. 3© Cloudera, Inc. All rights reserved.
自己紹介
• 名前:日向寺 正之 (♂ナイスミドルでありたい年頃)
• Clouderaでの役割:Sales Engineering Manager (マネージャっぽく
ない)
• 過去の経歴
• 国内システムインテグレータにて
RDBMSやNoSQLの技術/事業開発
• 外資系テクノロジーベンダーにて
IT基盤高度化の推進/分析基盤の
利用推進
• 趣味:潜水、登山、野営。
# 週末は平地には居ない
4. 4© Cloudera, Inc. All rights reserved.
会社概要 - Cloudera(クラウデラ)
設立 2008年、以下4社出身の社員により設立
本社 アメリカ パロアルト
マーケット ビッグデータプラットフォームソフトウェア&サービス
ビジネスモデル ソフトウェア・トレーニング・プロフェッショナルサービス
従業員数 世界全体で 1,400人以上
事業展開 世界28カ国
パートナー数 2,600 社以上
Hadoopのディストリビューションの
一つである、CDHの開発、保守、
各種プロフェッショナルサービスを提供
https://www.cloudera.com/more/about.html
5. 5© Cloudera, Inc. All rights reserved.
アジェンダ
• データ分析の事例
• ビッグデータに関わる人々、理想と現実
• BIユーザー:サクサク使いたいBIツール
• データサイエンス担当:言語やライブラリに縛られない自由な環境
• 開発者、柔軟なテスト環境 vs コスト
• まとめ
7. 7© Cloudera, Inc. All rights reserved.
様々な業界でのデータ活用事例及びテーマ
Finance Government Telecom Manufacturing Energy Healthcare
不正検知 科学研究
ブロードキャスト
モニタリング
サプライチェーンの
最適化
天然資源の最適化 製薬の開発
アンチ-
マネーロンダリング
タックス
コンプライアンス
解約防止 故障予測 地震データの処理 ゲノム解析
リスクマネジメント
トラフィックの
最適化
宣伝広告の最適化
RFIDデータの
収集
スマートメーターの
分析
臨床品質
コスト分析
共通するテーマ
感情分析
Webアプリケーションの最適化
ソーシャルCRM / ネットワーク分析
ロイヤリティ / プロモーション分析
ERP
価格の最適化
マーケティング施策の最適化
内部リスクのアセスメント
収益保証
ブランド管理
物流の最適化
ITインフラの分析
法的ディスカバリー
企業内での検索
機器の監視
8. 8© Cloudera, Inc. All rights reserved.
課題
ソリューション
全てのデータが複数のDBに分散されていた
• 1日分10億件のレコードに対し、
ETLのプロセスが24時間以上かかっていた
• IoTやNW分析を実施する能力が不足
1900にのぼる運用中のデータベースとシステム
を統合・再構築し、全社横断的なViewを実現
• 以前の5倍のデータを1/3の時間で処理
• Better broadband performance through
ネットワーク分析 と 通信障害の予測により、
より良い帯域性能を提供
• IoTとセンサーデータを活用し、地方都市の
再開発計画に活用
• 200-250%のROIを実現し新しいプロジェ
クトをより速やかに実行できる基盤を持て
た
Customer
360
IT
Optimization
9. 9© Cloudera, Inc. All rights reserved.
予兆保守を活用することで、効率性を向上し、
貨物の輸送障害を削減
チャレンジ:
• 貨物の輸送障害を削減するために、
180,000を超えるトラックの運行状況を
リアルタイムにモニタリングする必要があっ
た
ソリューション:
• トラック全体の通信情報および位置情報デー
タをオンデマンドに接続して収集
• エンジンの情報を収集して問題を特定し、
貨物輸送車の稼働時間を向上
• メンテナンスコストを1マイルあたり$.12-
$.15から$.03に削減
Connected Car
DATA-
DRIVEN
PROCESS
DATA-
DRIVEN
PRODUCTS
TRANSPORTATION
» PREDICTIVE MAINTENANCE
» TELEMETRY
» IMPROVED SERVICE
Product
& Service
10. 10© Cloudera, Inc. All rights reserved.
センサーとIoTを活用し、
旅客の安全と空港の効率化を向上
チャレンジ:
• 設備機器(エスカレーター等)のダウン
タイムを低減することで、旅客の満足度
と安全性を向上させる必要があった
ソリューション:
• Azure上にCloudera Hadoop環境を構築
し、エスカレーター、エレベーター、
貨物輸送装置のセンサーデータを
収集し安全な運用を確保
• 計画外のダウンタイムを防止するために
必要な修正を提供
DATA-
DRIVEN
PROCESS
DATA-
DRIVEN
PRODUCTS
TRAVEL & TRANSPORTATION
» INTERNET OF THINGS
» PREDICTIVE MAINTENANCE
» ADVANCED ANALYTICS
Product
& Service
スマートビルディング– 予兆管理
12. 12© Cloudera, Inc. All rights reserved.
Object Store HDFS
データサイエンス・探索
共通のガバナンス
共通のセキュリティ
共通の運用・ガバナンス・セキュリティ・スキーマ・カタログ
データ・アプリケーションBI・レポーティング
配置場所に関わらず分析基盤を提供する状況へ
ワークロード管理
KuduHBase
Cloud OnPrem
基盤利用3V, Volume(量、ユーザの量), Velocity (速度、要求される処理速度や対応の速さ), Variability (多様性、使われ方の多様性)
13. 13© Cloudera, Inc. All rights reserved.
データ基盤イメージ
セキュリティ
コンプライアンス
データストリーム
データサイエンス
担当者
BIツール
利用者
外部データや複数のデータとの連携
バッチ
リアルタイム
データ・ソース
データ・ストレージ &
データ処理
提供、分析 & 機械学習データ入力
接続された装置/
データ・ソース
Enterprise Data Hub
機械学習等からの分析フィードバック
アプリケーション
開発者
外部アプリ連携
クラウド オンプレミス
データ所有者 ネットワーク担当者 インフラ担当者 インターフェース担当者
セキュリティ担当者、サイト・リライアビリティ/運用担当者者、DevOps担当者
事業・ビジネスオーナー
データ統合・ガバナンス担当者
14. 14© Cloudera, Inc. All rights reserved.
データ基盤イメージ
セキュリティ
コンプライアンス
データストリーム
データサイエンス
担当者
BIツール
利用者
外部データや複数のデータとの連携
バッチ
リアルタイム
データ・ソース
データ・ストレージ &
データ処理
提供、分析 & 機械学習データ入力
接続された装置/
データ・ソース
Enterprise Data Hub
機械学習等からの分析フィードバック
アプリケーション
開発者
外部アプリ連携
クラウド オンプレミス
データ所有者 ネットワーク担当者 インフラ担当者 インターフェース担当者
セキュリティ担当者、サイト・リライアビリティ/運用担当者者、DevOps担当者
事業・ビジネスオーナー
データ統合・ガバナンス担当者
分析・利用広い意味での運用者
15. 15© Cloudera, Inc. All rights reserved.
インフラ担当
理想と現実
開発エンジニアデータサイエンティストBIユーザー
必要な開発環境
が必要なときに
利用できるとい
いな…
基盤の環境に左右さ
れることなく、必要
なデータとライブラ
リが使えれば…
分析ツールがサ
クサク動く環境
だと仕事の効率
が上がる!
データ基盤として利用
者みんなが幸せになる
ような環境を提供した
い
処理が遅い、制限がある、環境が作れない
使いづらい、セキュリティは…
17. 17© Cloudera, Inc. All rights reserved.
インフラ担当
理想と現実
開発エンジニアデータサイエンティストBIユーザー
必要な開発環境
が必要なときに
利用できるとい
いな…
基盤の環境に左右さ
れることなく、必要
なデータとライブラ
リが使えれば…
分析ツールがサ
クサク動く環境
だと仕事の効率
が上がる!
データ基盤として利用
者みんなが幸せになる
ような環境を提供した
い
処理が遅い、制限がある、環境が作れない
使いづらい、セキュリティは…
18. 18© Cloudera, Inc. All rights reserved.
BIツールの利用環境を取り巻く課題
ユーザの課題
データ量の制約のない分析ができない、重い、データ待ち
インフラ管理者の課題
重い原因がわからない、コストが予測できない、高い
データ管理者の課題
データの意味がわからない、使われているかどうかもわからない
19. 19© Cloudera, Inc. All rights reserved.
BIツール利用者からのありがちな声
使いたいデータが手元にない
• 欲しいデータを毎回ダウンロードしなければいけない
BIツールの動作が重い
• ちょっとデータ量増えるだけで、画面遷移のたびに待たされる
データが準備できるまで時間がかかる
• 今すぐほしいのに、夜間バッチ待ちで使えるのは翌営業日から
過去のデータもまとめて一度に分析できない
• 過去3年分のデータを分析したいのに直近3ヶ月分しか手元にない
• 3年分のデータをロードしたら重すぎて動かない
20. 20© Cloudera, Inc. All rights reserved.
インフラ管理者の課題
• どんなクエリを実行されるかわからない
• 何が原因で重いのかわからない
• あるユーザがとんでもないクエリを実行したおかげで他のユーザがBIを
動かせなくなる
結局…
• 管理されていない個別の環境が増殖していく
• 自分の独自環境にデータをダウンロードしてBIを利用してしまう
…という方向に動いてしまう可能性が!
21. 21© Cloudera, Inc. All rights reserved.
データ管理者の課題
そもそも専任のデータ管理者がいない
• インフラ管理者、古参のBIユーザ、データサイエンティストなどが仕
事の片手間に行っている
データの意味がわからない
• sales, sales_new, sales_new_2
# このテーブル名だけで「売上のマスターテーブルは sales_new」と解釈できる人は誰もいない
データを削除・変更していいかどうかわからない
• もう誰も使ってないと思ったテーブルを消したらオフィスの片隅で悲
鳴が聞こえた
22. 22© Cloudera, Inc. All rights reserved.
適切なテクノロジーの選択
BIツール利用時にはImpalaとKuduの組み合わせが正解。
設計の段階からBI利用者を意識し、ImpalaとKuduの利用を想定。
それぞれの技術の得意・不得意を把握した上で準備。
適切な分析エンジンの選択 適切なストレージの選択
BIやSQL
ベースでのア
ドホック分析
バッチ処理
手続き処理の
中でのSQLの
一部利用
更新頻度:高
大規模分析
構造化データ
更新頻度:高
高速ランダムIO
多構造データ
更新頻度:低
大規模スキャン
非構造データ
HDFS
データ量の制約のない分析ができない、重い、データ待ち
23. 23© Cloudera, Inc. All rights reserved.
適切な監視とデータガバナンス・カタログを
Cloudera Manager:クラスタ管理ツール Cloudera Navigator:メタデータ管理ツール
• BIから発行されたSQLの履歴・実行状態・パフォーマン
ス・プロファイル
• SQLチューニングに関するメトリックスの集計とヒント
• 利用ユーザー毎のリソース制御、リソース利用別レポート
環境構築、サービス管理、監視、トラブルシューティング
までカバーする運用ツール
データのアクセス監査、データの意味(タギング等)、デー
タの出処等の情報を管理するメタデータ管理ツール
• データリネージ機能:データの変換・抽出過程を可視化
(テーブルの元データ追跡、テーブル変更の影響度の把握)
• オブジェクトに対するメタデータ付与:テーブル、列、
ファイル、クエリ等
• 誰がいつどのオブジェクトに何をしたを追跡・不正アクセ
スや無許可オペレーションの有無などの確認でも利用可
重い原因がわからない、コストが予測できない、データの意味がわからない、利用の有無がわからない
25. 25© Cloudera, Inc. All rights reserved.
インフラ担当
理想と現実
開発エンジニアデータサイエンティストBIユーザー
必要な開発環境
が必要なときに
利用できるとい
いな…
基盤の環境に左右さ
れることなく、必要
なデータとライブラ
リが使えれば…
分析ツールがサ
クサク動く環境
だと仕事の効率
が上がる!
データ基盤として利用
者みんなが幸せになる
ような環境を提供した
い
処理が遅い、制限がある、環境が作れない
使いづらい、セキュリティは…
26. 26© Cloudera, Inc. All rights reserved.
チーム データサイエンティストとアナリスト
ゴール データの理解、モデルの開発と改善、知見の共有
データ 新規のデータ、かつ頻繁に変更される。大抵の場
合サンプリングしたデータが用いられる
環境 ローカルマシンかサンドボックスクラスタ
ツール R、Python、SAS/SPSS、SQL、ノートブック、
データラングリング・ディスカバリツール
最終アウトプット レポート、ダッシュボード、PDF、Excel、Word、
PowerPoint
データサイエンス業務における2つのステージ
探索
(新しい機会の捜索と定量化)
運用
(本番システムへのデプロイ)
チーム データエンジニア、開発者、SRE
ゴール アプリケーションのビルドとメンテナンス、改善
データ 既知のデータ、全データ
環境 本番クラスタ
ツール Java/Scala、C++、IDE、CI、ソース管理など
最終アウトプット オンライン・本番アプリケーション
27. 27© Cloudera, Inc. All rights reserved.
データサイエンスに対する期待
より多くの
データサイエンティストに
データ基盤をもっと自由に
使ってほしい
Hadoopのデータと計算能力に直接
アクセスして、使い慣れたツール
をパワフルに活用する
データサイエンティスト
データエンジニア
簡単かつセキュアに
新しいユーザやユースケースを
追加してほしい
セキュアなセルフサービスの分析
ツールを提供し、普及していて手
頃な価格の基盤上でより素早く本
番投入する
エンタープライズアーキテクト
Hadoop管理者
28. 28© Cloudera, Inc. All rights reserved.
データサイエンス環境を取り巻く課題
データサイエンティスト
探索、実験、イテレーション
インフラ担当者
事業の加速とコンプライアンスの両立
データ基盤上で好きなツールが
利用出来ない
基盤チームが標準提供するツールは使いたくない
結局自分のノートPC上に小さいデータをダウンロードし
ないといけない
データサイエンスチームの雑多な要望への
対応が困難に
セキュリティを保つのが大変になる
コンプライアンスを維持しながら本番適用するのが辛い
限定されたモデル
クラウド上の自由な環境のメンテナンス負荷
個別に高価でハイスペックな環境を購入しないといけない
出処不明のデータ
開発/本番環境での実行環境のバージョンの差異
高価でセキュアでない、サイロ化されたシステム
29. 29© Cloudera, Inc. All rights reserved.
データサイエンス環境を取り巻く課題
データサイエンティスト
探索、実験、イテレーション
インフラ担当者
事業の加速とコンプライアンスの両立
データ基盤上で好きなツールが
利用出来ない
基盤チームが標準提供するツールは使いたくない
結局自分のノートPC上に小さいデータをダウンロードし
ないといけない
データサイエンスチームの雑多な要望への
対応が困難に
セキュリティを保つのが大変になる
コンプライアンスを維持しながら本番適用するのが辛い
・データサイエンティストはインフラに左右されない自由を得ることが出来るように。
・インフラエンジニアはガバナンスを確保できるように。
30. 30© Cloudera, Inc. All rights reserved.
データサイエンティストに自由を与える仕組み
• 1つのプラットフォームで複数言語
が利用可能
• マルチテナント目的に利用可能なリ
ソース分離されたセッション
• セキュアなクラスタとの連携が簡単
に
• コードや成果物を共有・再利用可能
• データサイエンスのワークフローの
自動化とジョブスケジューリング
エンタープライズのためのセルフサービスデータサイエンス基盤
Cloudera Data Science Workbench
31. 31© Cloudera, Inc. All rights reserved.
Cloudera Data Science Workbench
データサイエンティストが享受する環境
インフラ担当者が安心して提供できる環境
エンタープライズのためのセルフサービスデータサイエンス基盤
• R/Python/Scalaをブラウザから環境構築なしにすぐに使える
• 好みのライブラリやフレームワークをプロジェクトごとに独立した環境にインストール可能
• SparkとImpalaを使いセキュアなクラスタのデータを直接触れる
• 知見をチームに再利用・共同開発可能な形で共有できる
• データパイプラインの自動化と監視を組み込みのジョブスケジューラで可能
• データサイエンティスト自身が好きな分析環境を作れる自由を与えられる
• 複雑な設定なしにKerberosと連携ができ、セキュリティの確保も容易
• オンプレミスでもクラウドでもどこでもデータのある場所で提供が可能に
33. 33© Cloudera, Inc. All rights reserved.
インフラ担当
理想と現実
開発エンジニアデータサイエンティストBIユーザー
必要な開発環境
が必要なときに
利用できるとい
いな…
基盤の環境に左右さ
れることなく、必要
なデータとライブラ
リが使えれば…
分析ツールがサ
クサク動く環境
だと仕事の効率
が上がる!
データ基盤として利用
者みんなが幸せになる
ような環境を提供した
い
処理が遅い、制限がある、環境が作れない
使いづらい、セキュリティは…
34. 34© Cloudera, Inc. All rights reserved.
開発側の想い
データ基盤に載せるアプリケーション開発
テスト環境としてのHadoop環境の準備
→ 最適な実験台としての環境がほしい
過不足があまりなく、必要に応じて使った分だけ
のコスト
データとサービスがどこからでも利用可能に
開発効率の向上
開発関連コストの削減
インフラ・運用側の想い
ビジネスの柔軟性とデータのポータビリティを保
持したまま、環境依存・ロックインを避ける
管理対象の環境に求められる、統合的な管理性、
可用性、セキュリティ、データガバナンス等の各
種要件を保持したままリスクを低減
運用効率の向上
リスク軽減
適宜Cloudの利用を検討すべき。
35. 35© Cloudera, Inc. All rights reserved.
クラウドで大規模データを扱う際の課題
● クラスターの立ち上げが遅いと
それだけ実作業に割ける時間が
短くなる
● ユーザーがフォーカスしたいの
はクラスタ管理ではなく彼らの
やるべき仕事
● ログを失うとクラスター起動の
失敗や実行時のパフォーマンス
問題への対処が不可能
● サイロなサービスではビジネス
価値を生み出すことが難しい
● Proprietary なファイル構造が
インフラのロックインを引き起
こす
運用の負荷 アプリのトラブルシューティング サイロなアプリケーション
36. 36© Cloudera, Inc. All rights reserved.
一時的
長時間稼働か一時的な環境か
Object Store
長時間稼働
• 高可用性とディザスタリカバリ
• 運用管理(パッチ・ローリングアップグレード)
• リソース管理
• セキュリティ
• オブジェクトストレージの統合
• 迅速なクラスタープロビジョニング
要件に応じて、必要な環境を利用可能にする必要がある。
37. 37© Cloudera, Inc. All rights reserved.
Cloudera Director
Cloudera DirectorとCloudera Altus
Cloudera Altus
• Cloudera EDH をクラウド環境でデプロイ&管理するための
ツール
• ベストプラクティスを再利用可能な構成ファイルで提供
• クラスターのライフサイクル(grow & shrink)を管理
• Cloudera Manager との管理の同期
• 運用も含めて自前になるが、(クラウドプロバイダの選択肢を
含めて)自由度は非常に高い
• Clouderaからのビッグデータ分析用 PaaS
サービスを構築するためのフレームワークの基礎要素
• サービスの第一弾が Altus for data engineering
• 運用はPaaS側で巻き取る代わりに運用の自由度は低め。
• インフラ担当からの目線で、開発環境の細かな運用はPaaSに
まかせてしまいたい場合はおすすめ。
Analytic
DBMS
Operational
DBMS
Data
Engineering
Altus Platform Services
Altus PaaS Foundation
39. 39© Cloudera, Inc. All rights reserved.
まとめ:データ基盤、分析者と運用者の理解
• データ基盤は利用されて初めて真価を発揮する。
• 継続的に最適化され、用途も変化する。
• 利用者との意思疎通を積極的に
• BIツールの利用者
• データサイエンティスト
• 開発者
• その他
• 運用側でもクラウドとオンプレミスの混在環境と成り得るが、データ
を利用してもらうためのデータカタログや適切に利用してもらうため
のデータガバナンス・セキュリティの提供も重要なインフラ設計・運
用のポイントとなる。
40. 40© Cloudera, Inc. All rights reserved.
さいごに:効率的なアイディエーションと意思
疎通がカギ
• 仕組みはいくつもあるが、広範囲の担当者
が関わり会い、システムの重要度も上がる。
• 何らかのフレームワークに則ったアイディ
エーションや意思疎通プロセスを敷くこと
で、リスクの共有やプライオリティ付けの
明確化を促進させる。
• リーンキャンバス等を用いた議論も優位に
なるのでは。
開発者
BIユーザ
データサイエンス
ビジネスオーナー
データの活用方法が高度化し、データ
基盤の重要性が高まる傾向があるので
関係各所との連携を継続的に!
Editor's Notes IoT and predictive analytics.
Company Background: Navistar is a leading manufacturer of commercial trucks, buses, defense vehicles and engines. Navistar International Corporation (NYSE:NAV) is comprised of four segments: North America Truck, North America Parts, Global Operations, and Financial Services. The company’s portfolio includes International® brand commercial and military trucks, proprietary diesel engines, and IC Bus™ brand school and commercial buses.
Use Case: Hadoop is being used to bring together data from multiple telematics sources to synthesize a fleet-wide view and enable predictive analytics.
http://www.cio.com/article/3009011/analytics/navistar-cio-looks-to-big-data-analytics-to-fuel-turnaround.html IoT and predictive analytics.
Company Background: Schiphol Airport – Amsterdam. Joint Success with Azure
Use Case: One of the busiest airports in Europe is using Cloudera on Azure to capture, secure, and correlate sensor (IoT) data collected from industrial equipment like escalators, elevators, and baggage carousels with transactional data from passengers to proactively assess the health of its machines and prevent any unplanned downtime.
Improve traveler satisfaction and safety
Reduce downtime for critical operational machines ・データを貯めるからデータを使うへのシフト
・データを使わせるための基盤、
・利用用途、提供場所・利用場所、利用スピードの変化
・基盤利用に関する、3V, Volume(量、ユーザの量), Velocity(速度、要求される処理速度や対応の速さ), Variavility(多様性、使われ方の多様性) ・本日は、おおまかに赤線部分でデータの利用者と基盤の運用者という定義でいきたいとおもいます。 ・Tableau、Zoomdata、Pentaho、Talendなど、BIツールとして利用されるレスポンスの問題
・設計当初の想定利用シーンや、利用者数に変化、分析内容の変化に伴う環境の劣化
・多様なデータを提供する上でのデータの出処や意味の整理が複雑になる。
・利用したいときに利用したいものが利用できない、という状況が徐々に見え隠れしだす。
・ほしい分析結果が、ほしいときに出てこない。
・データを要求して、結果を見て、考える、一連のスピードが遅くなる。
・性能劣化が始まり、使い勝手がわるくなってくると、自分の必要なデータを基盤から個人の環境に移動することもあり得る。
・とは言え、データが オープンソースのインタラクティブSQLエンジン
最新版のHiveより通常5-70倍速い
レスポンスは数分ではなく、数秒(場合によっては1秒以下)
バッチ処理からランタイムを分離
Hive, Pig, MapReduce はバッチ処理に特化して設計されていた
ImpalaはHadoop上の低レイテンシSQLクエリのために開発された
ーーー
以下はストレージを選択する大まかな基準
HDFS
更新が頻繁でない(バッチ処理で構わない)分析用
大規模スキャン(基本は読み取り)がメインのもの
Sparkなどを使った複雑なETL処理を行う場合
HBase
高速なランダムIO性能、リアルタイム性の非常に高い更新が必要なもの
リレーショナルDBが担ってきたOLTPシステム
リレーショナルDBとは異なる開発運用性で構わない場合(NoSQL)
Kudu
HBaseほどの高速なランダムIO性能は要求しないが、リアルタイム性の高いデータ更新と、大規模分析を行う用途
リレーショナルDBやデータウェアハウスが担ってきたOLAPシステム
SQLを使ってリレーショナルDBに近い開発運用性が欲しい場合
個別に監視ツールをインストールして性能監視、死活監視などをおこなう状態になりがちだが、Clouderaから提供される Cloudera Managerをつかうことによって、単なるCPU率やDiskI/Oといった基礎的なメトリックス以外の重要なサービスレベルの監視・管理が可能となる。
テーブルで利用されているデータの出処がわからない、データの意味がわからないと言った状態を整理するために、Cloudera Navigatorを利用して、データの出処を可視化して、どのデータがどこで利用されるのかを把握。また、テーブルやカラムと言ったオブジェクトにメタデータを付与し、より人間が理解しやすい記述をついかして、データのカタログの整理整頓をおこなう目的としても利用できる。
データサイエンティスト
・コンピュタサイエンスのスキル
・統計の知識
・ビジネスへの理解
・ With lift and shift model, you’re basically running the same on-prem workloads, but instead of using bare metal as hardware, you’re using cloud as infrastructure.
These clusters use local HDFS.
Everything you do on prem you would have to do in the cloud.
You would need to do upgrades.
We have enterprise class capes around management, security and disaster recovery
Cloud-native is for when you want to take advantage of object store and elastic compute in a cloud native scenario.
Use S3 which is infinitely scalable, five 9’s resilient and relatively inexpensive compared to other types of storage.
Elastic compute is more common for transient workloads like batch processing.
Lift and Shift:
Public cloud infrastructure
Local HDFS
Operational stack management
Multi-user, multi-service
Cloud-native:
Use object storage and elastic compute
Provision/terminate clusters
Single-user 開発者に対して、必要に応じて環境やデータを迅速に提供すると同時に、提供した環境が一定の基準を満たした設定になっていることや、開発したアプリケーションが本番環境で動くポータビリティを保持させることが重要。
Cloudera Directorでは、フルスタックのCDHを事前定義の設定テンプレートにもとづいて、各種IaaS上にデプロイするツール。IaaS上での展開となるため、管理者としてはOnPremiseと同等のデータ基盤管理情報を取得できる。
Cloudera Altusでは、Directorで提供している機能に加えてJobを実行する際のログ分析やワークロード解析機能もPaaSとして提供する。MpReduceやSparkを利用したバッ機械学習の学習フェーズやバッチジョブの開発、オフロード等で利用される。