Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017

2,038 views

Published on

Cloudera World Tokyo 2017 での Cloudera 川崎の公演資料です。
エンタープライズ環境でビッグデータ基盤を運用する場合、運用ツール、セキュリティ、データ管理が重要です。
本セッションでは、Cloudera が提供するエンタープライズ向けツールがどう役立つかについて紹介します。
また、最近アナウンスされた Shared Data Experience (SDX) とは何か、簡単に紹介します。

Published in: Technology
  • Be the first to comment

Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017

  1. 1. 1© Cloudera, Inc. All rights reserved. Cloudera が提供するエンタープライズ向け運 用、データ管理ツールの使い方 Cloudera 株式会社 川崎 達夫
  2. 2. 2© Cloudera, Inc. All rights reserved. • 創立 2008年 • 社員数 1600人以上 • 機械学習と分析プラットフォーム • シェアードデータエクスペリエンス • クラウドネイティブとクラウドの差別化 • オープンソースの革新性と効率性
  3. 3. 3© Cloudera, Inc. All rights reserved.
  4. 4. 4© Cloudera, Inc. All rights reserved. • 独自のプロプラのツールとインフラを必要とする多くのデータサイロ • オンプレとクラウドで、異なるベンダー、製品、サービス • 細分化されたアプローチは、難解で、高価で、リスクが高い データ管理における課題 SQL 分析データ ベース NoSQLと リアルタイム データベース データエンジ ニアリングと ETL環境 データウェアハ ウスと データマート
  5. 5. 5© Cloudera, Inc. All rights reserved. Hadoopの始まり…
  6. 6. 6© Cloudera, Inc. All rights reserved. そして、Enterprise Data Hub
  7. 7. 7© Cloudera, Inc. All rights reserved. 7 クラウドに最適化された機械学習と分析向けのモダンプラットフォーム 拡張サービス CORE SERVICES DATA ENGINEERING OPERATIONAL DATABASE ANALYTIC DATABASE データカタログ データ投入 & レプリケーション セキュリティ ガバナンス ワークロード管理 DATA SCIENCE NEW OFFERINGS Cloudera Enterprise Amazon S3 Microsoft ADLS HDFS KUDU STORAGE SERVICES
  8. 8. 8© Cloudera, Inc. All rights reserved. 運用ツール
  9. 9. 9© Cloudera, Inc. All rights reserved. 容易な管理を実現する • 各サービスを俯瞰的に見る • 自動化されたデプロイと設定 • カスタマイズ可能な監視とレポート マルチテナント管理と可視化 • ダイナミックリソースマネジメントやクラス タ利用レポート 迅速なトラブルシュート • ワークロードの監視と診断 • 複数のホストに渡ったログ検索、監査 • 診断データの送付、Clouderaサポートに よるクラスタの予測サポート Cloudera Manager
  10. 10. 10© Cloudera, Inc. All rights reserved. + 構築・設定 監視 ワークフロー イベント アラート ログ検索 診断 レポート アクティビティ 監視 Clouderaなしで管理する場合 Clouderaありで管理する場合 Cloudera Managerで全てのプロセスを管理可能
  11. 11. 11© Cloudera, Inc. All rights reserved. サービスとインスタンス
  12. 12. 12© Cloudera, Inc. All rights reserved. 設定の変更
  13. 13. 13© Cloudera, Inc. All rights reserved. ログ検索
  14. 14. 14© Cloudera, Inc. All rights reserved. マルチテナントの可視化
  15. 15. 15© Cloudera, Inc. All rights reserved. セキュリティ
  16. 16. 16© Cloudera, Inc. All rights reserved. セキュリティの要素 認証 Authentication 認可 Authorization 暗号化 Encryption 監査 Auditing
  17. 17. 17© Cloudera, Inc. All rights reserved. Hadoopクラスターのセキュア化 レベル0 • 一切セキュア化されていないクラスター レベル1 • 最低限のセキュア化 • 認証 (Kerberos)、認可 (Apache Sentry) 、監査 (Cloudera Navigator) レベル2 • データセキュリティとデータガバナンス (Cloudera Navigator) • リネージによる可視化(Cloudera Navigator)、メタデータ (Cloudera Navigator)、暗号化 (Cloudera Navigator Encrypt)と鍵管理 (Cloudera Navigator Key Trustee Server ) レベル3 • 完全にコンプライアンスに準拠した環境 • 例)PCI-DSS
  18. 18. 18© Cloudera, Inc. All rights reserved. セキュリティ事例: MasterCard 課題: 個人情報を扱う全てのアプリケーション、データベース、 ファイルシステムは完全なPCI認証の環境下に置かなけれ ばならない 解決策: MasterCard の Cloudera 環境は PCI-DSS V 2.0 セ キュリティ標準に完全準拠し、PCIデータセットを保存すること ができるだけでなく、他の社内システムとも連携できるように なった Clouderaは世界初のPCI認証取得Hadoop プラットフォームです 「データプライバシーと保護はMasterCardにとっ て最優先課題です。パートナーやベンダーの最 新技術を最大限に活用するためには、我々の定 める厳密なセキュリティ標準を満たさねばなりま せんでした。Clouderaが同一標準を満たしたこと により、我々はデータセンターを管理するための 新たな選択肢を手にすることができたのです」 Gary VonderHaar Chief Technology Officer, Architecture MasterCard
  19. 19. 19© Cloudera, Inc. All rights reserved. データ管理とガバナンス
  20. 20. 20© Cloudera, Inc. All rights reserved. Hadoop の利点 無制限のデータを一ヶ所に • あらゆるデータ・タイプ • 多様なデータ・ソース • より迅速な、より大規模なデータの取り込み 多様なデータアクセス • より多くのユーザーが • より多くのツールを用い • より頻繁に変更を加える
  21. 21. 21© Cloudera, Inc. All rights reserved. …はデータ管理を困難にする コンプライアンス データの追跡、理解、 アクセスの保護 監査の準備はしているか? 機密データにアクセスしているのは誰か ? 彼らはデータで何をしているか? 機密データは管理、保護されているか? スチュワードシップ Hadoopスケールのデータ資産を 管理、および編成 インジェストからパージまでのデータ のライフサイクルを効率的に管理する にはどうすれば良いか? 私のすべてのデータを効率的に整理し て分類するにはどうすれば良いか? エンドユーザーが効率的にデータを利 用できるようにするにはどうすれば良 いか? エンドユーザーの生産性 最も重要なデータを簡単に 見つけて信頼する 自分でデータセットを検索するにはどう すれば良いか? 見つけたデータは信頼できるか? 見つけたデータをどう使うか? 関連するデータセットを見つけて使用す るにはどうすれば良いか? 管理 ユーザーの生産性とクラスターの パフォーマンスを高める データは現在のアクセスパターンをサ ポートするように最適化されているか? 将来のワークロードのためにどのよう に最適化できるか? リスクなくワークロードをHadoopに移 行するにはどうすれば良いか? Hadoopのガバナンスの基盤
  22. 22. 22© Cloudera, Inc. All rights reserved. メタデータ管理こそビッグデータ基盤の急所 • 意味のわからないデータは無価値 • 例:以下のテーブルには何のデータが入っている? sales_tmp_1_new • スキーマレスは楽? • JSONならフィールドを追加するのが簡単! • しかし、分析する側は非常に大変 • フィールド foo がないレコードは、 • 欠損データなのか • バージョンが古いため存在していないだけなのか • 複数のシステムを統合すると、この複雑さはより顕著になる
  23. 23. 23© Cloudera, Inc. All rights reserved. Cloudera Navigator メタデータ管理ツール • S3を含む、ビッグデータ基盤の全 アクティビティの監査ログの収集、 閲覧 • データの出所がわかるリネージ機 能 • ファイルやテーブル、クエリのメタ データの管理、検索 • ポリシーによるメタデータの自動付 与 • データライフサイクル管理
  24. 24. 24© Cloudera, Inc. All rights reserved. テキスト検索可能なメタデータ 技術メタデータとビジネスメタ データの管理 • 分析したいデータはどこにあるの か? • 3年以上前に作成された、ユーザー training のファイルはどれか • 営業部門のデータだけを検索した い例)「空港*」に一致するファイル、 操作、メタ情報等を検索
  25. 25. 25© Cloudera, Inc. All rights reserved. 技術メタデータとビジネスメタデータ ビジネスメタデータ(明示的に付与できる) 技術メタデータ(自動で付与される)
  26. 26. 26© Cloudera, Inc. All rights reserved. 大規模データのライフサイクルを自動化 データ管理者向け 効率的なライフサクルポリ シーの管理 • ポリシーエンジンによるデータ管理 とキュレーションの自動化 • バックアップ&ディザスタリカバリ機 能によるビジネスの継続 • パートナーツールとの統合 例)7年以上前のファイルをアー カイブするポリシーを作成し、手 動、自動で適用する
  27. 27. 27© Cloudera, Inc. All rights reserved. データの探索と分析 ビジネスユーザー・データサイエンティスト向け 最も関連のある、信頼ある データを容易に探し出す • 統一されたメタデータリポジトリから 探索 • コンテキストと可視性をデータセット に付与 • 類似した関連データを簡単に見つ ける 自動、または明示的にビジネスメタ情報を 付与しておき、検索できる
  28. 28. 28© Cloudera, Inc. All rights reserved. コンプライアンス・レディなガバナンスと防御 コンプライアンス担当者向け 機密データへのアクセスを 追跡、防御 • 全エコシステムの監査情報の検索 • 直感的なリネージによりデータがど のように使われ変更されたかを調査 • 高性能な暗号化と鍵管理による データの保護 • パートナーツールと統合例)training ユーザーの 2016/11/12-2017/11/12の 監査情報を検索
  29. 29. 29© Cloudera, Inc. All rights reserved. Demo (1) Sqoopでmovieratingテーブルをインポートした時のリネージ 1) Sqoop (MapReduce) ジョブが実行され、 2) mysqlのmovieratingテーブルからデータを取り込み 3) HDFSの/user/hive/warehouse/movieratingに格納され 4) movieratingテーブルが作成された
  30. 30. 30© Cloudera, Inc. All rights reserved. Demo (2) S3のデータを検索
  31. 31. 31© Cloudera, Inc. All rights reserved. Demo (3) S3上のデータを使い生成したHiveテーブルに手動でメタデータを付与
  32. 32. 32© Cloudera, Inc. All rights reserved. Demo (4) Demo(3) で追加したビジネスメタデータを検索 ビジネスメタデータ、DepartmentがSalesのデータを検索
  33. 33. 33© Cloudera, Inc. All rights reserved. これらの領域が今日のデータ ガバナンスでの大きな課題 現在のビッグデータガバナンスの状態 混沌: 「データハブに 何があるのかわから ない」 基本コンプライアンス : 生ガバナンスデータ をキャプチャ セルフサービスのた めのビジネスメタデー タ: データのキュレーショ ンの自動化 情報ライフサイクル の自動化: データスチュワード シップとライフサイク ルの自動化 継続的改善: 継続的な最適化 1 2 3 4 5 初期 コンプライアンス 探索とコラボレー ション データスチュワー ドシップ 最適化とリファク タリング
  34. 34. 34© Cloudera, Inc. All rights reserved. Cloudera SDX
  35. 35. 35© Cloudera, Inc. All rights reserved. • 独自のプロプラのツールとインフラを必要とする多くのデータサイロ • オンプレとクラウドで、異なるベンダー、製品、サービス • 細分化されたアプローチは、難解で、高価で、リスクが高い データ管理における課題 SQL 分析データ ベース NoSQLと リアルタイム データベース データエンジ ニアリングと ETL環境 データウェアハ ウスと データマート
  36. 36. 36© Cloudera, Inc. All rights reserved. 従来のアプリケーション 36 • 1種類のデータ • 1つの分析機能 • 統合が困難 Data Exploration STORAGE SECURITY GOVERNANCE WORKLOAD MGMT INGEST & REPLICATION DATA CATALOG SQL & BI Analytics STORAGE SECURITY GOVERNANCE WORKLOAD MGMT INGEST & REPLICATION DATA CATALOG Operational Real-Time DB STORAGE SECURITY GOVERNANCE WORKLOAD MGMT INGEST & REPLICATION DATA CATALOG ETL & Data Processing STORAGE SECURITY GOVERNANCE WORKLOAD MGMT INGEST & REPLICATION DATA CATALOG Custom Functions STORAGE SECURITY GOVERNANCE WORKLOAD MGMT INGEST & REPLICATION DATA CATALOG
  37. 37. 37© Cloudera, Inc. All rights reserved. 多機能分析の サポート ワークロード追加 時間の最小化 エラスティックな ワークロードに対 応 セルフサービスの 有効化 データを共有する ためのスケーラブ ルなモデルを提 供 コスト削減 テナントの分離を 増やす セキュアな環境 現在のデータ管理チームに重要な設計目標
  38. 38. 38© Cloudera, Inc. All rights reserved. 共有ストレージ (HDFS, Kudu) 従来のオンプレミスのデプロイメントには良好 シェアードデータエクスペリエンス (Metadata, Security, Governance) 一つの物理クラスタが、複数のワークロード/テナントに シェアードデータエクスペリエンスを提供する … しかし、今後は十分ではない 強: マルチファンクション対応 強: シェアードデータエクスペリエンス 強: 情報セキュリティモデル 中: コスト管理 中: テナントの分離 中: ワークロードの弾力性 弱: セルフサービス 弱: デプロイにかかる時間
  39. 39. 39© Cloudera, Inc. All rights reserved. 従来のクラウドへのデプロイは、オンプレミスが弱いところでは強力 だが、ワークロードのサイロが生じるという対価を払う … しかし、今後は十分ではない 共有オブジェクトストレージ Cloud 中: マルチファンクション対応 弱: シェアードデータエクスペリエンス 弱: 情報セキュリティモデル 中: コスト管理 強: テナントの分離 強: ワークロードの弾力性 強: セルフサービス 強: デプロイにかかる時間
  40. 40. 40© Cloudera, Inc. All rights reserved. 現在: 単一プラットフォーム、複数ワークロード DATA ENGINEERING OPERATIONAL DATABASE ANALYTIC DATABASE DATA SCIENCE 無制限のデータを、迅速か つコスト効率よく 保存して処理する 「プログラムによる データ処理と機械学習」 すべてのデータを 探索、分析して 理解する 「高速かつ柔軟な、 オープンソースの 並列データベース」 データドリブンなアプリケー ションを構築し、リアルタイム の洞察を提供する 「オンラインアプリケーション、 Lambda/Kappa アーキテク チャー」
  41. 41. 41© Cloudera, Inc. All rights reserved. ワークロードとは? データ + データのコンテキスト + 計算 データのコンテキスト: • HMS: スキーマ定義 • Sentry: セキュリティ(認可) • Navigator: 監査ログ • Navigator: ビジネスグロッサリー • Navigator: ビジネスメタデータ • Navigator: リネージ
  42. 42. 42© Cloudera, Inc. All rights reserved. 複数のワークロードの場合は? Cluster Hive/HMS Sentry NavigatorSpark Keys HDFS, Kudu, S3, Private Cloud Storage
  43. 43. 43© Cloudera, Inc. All rights reserved. 複数のワークロードにおけるデータのコンテキスト 従来のHadoopクラスター 計算、データ、データの コンテキストを含む 一時的なHadoopクラスター 計算、データのコンテキストを 含むがデータは外部化される HDFS, Kudu, S3, Private Cloud Storage データと一緒で はなく、データ のコンテキスト が各クラスター に格納されてい るのはなぜか? ?
  44. 44. 44© Cloudera, Inc. All rights reserved. データのコンテキストの一貫性の問題 計算とデータはさらに分離されつつある • 計算はステートレス: クラウドベース/オンプレミス、一時的/長期間実行かのいずれか • データはステートフル: クラウドベース、またはオンプレのHDFS, Kudu, S3, ADLS, Isilon な ど データのコンテキストは? • スキーマ定義 (Hive Metastore) • 権限 (Apache Sentry) • 暗号鍵 (KMS) • ガバナンス (Cloudera Navigator) データのコンテキストはステートフルであるべきだが現在はステートレス • これにより、管理者とエンドユーザーの両方で同期とユーザビリティの課題が生じる
  45. 45. 45© Cloudera, Inc. All rights reserved. ソリューション: シェアードデータエクスペリエンス データコンテキストサービスを共有サービス として外部化する DATA ENGINEERING OPERATIONAL DATABASE ANALYTIC DATABASE DATA SCIENCE 利点 • すべてのワークロードにわたる共通スキーマ、アクセス 権限、分類、およびガバナンス • 所有コストの削減: 管理するハードウェア、ソフトウェアを削 減 • エンドユーザーの生産性向上: データは全クラスターで一貫 して表現される • より早い拡張: 管理者は新しいクラスターごとにデータコンテ キストサービスを作り直す必要がない KEYSHMS SENTRY NAVIGATOR KEYSHMS SENTRY NAVIGATOR HDFS, Kudu, S3, Private Cloud StorageHDFS, Kudu, S3, Private Cloud Storage
  46. 46. 46© Cloudera, Inc. All rights reserved. 46 クラウドに最適化された機械学習と分析向けのモダンプラットフォーム 拡張サービス CORE SERVICES DATA ENGINEERING OPERATIONAL DATABASE ANALYTIC DATABASE データカタログ データ投入 & レプリケーション セキュリティ ガバナンス ワークロード管理 DATA SCIENCE NEW OFFERINGS Cloudera Enterprise Amazon S3 Microsoft ADLS HDFS KUDU STORAGE SERVICES
  47. 47. 47© Cloudera, Inc. All rights reserved. 2つのデプロイオプション Cloudera SDX Cloudera SDX: Customer-managed • RDSを使用するHive Metastore • RDSを使用するApache Sentry • お客様が管理しているCloudera Navigator 次のような場合に理想的: • Directorで立ち上げたワークロード • CMが管理しているワークロード Cloudera Altus SDX: Cloudera- managed • サーバーレスHive Metastore • サーバーレスApache Sentry • サーバーレスCloudera Navigator 次のような場合に理想的: • Altus SDX ワークロード • ハイブリッドワークロード
  48. 48. 48© Cloudera, Inc. All rights reserved. SDXでのクラウドへのデプロイは全ての設計目標を最適化する シェアードデータエクスペリエンス (Metadata, Security, Governance) 一つの論理クラスターが、複数のワークロードとテナントにシェ アードデータエクスペリエンスを提供する SDXはオンプレの設計の強みをクラウドに移行できるようにする 共有オブジェクトストレージCloud 強: マルチファンクション対応 強: シェアードデータエクスペリエンス 強: 情報セキュリティモデル 強: コスト管理 強: テナントの分離 強: ワークロードの弾力性 強: セルフサービス 強: デプロイにかかる時間
  49. 49. 49© Cloudera, Inc. All rights reserved. Thank you kawasaki@cloudera.com

×