Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Azure Databricks 概要

1,411 views

Published on

2018/06/27 DLLAB Meetup

Published in: Data & Analytics
  • Be the first to comment

Azure Databricks 概要

  1. 1. 2009 年に UC バークレーの AMP Lab にて誕生
  2. 2. STEP1 STEP2 STEP1 STEP2 ディスクから データを読み込み 2 回目以降は キャッシュから
  3. 3. Cache Driver Cache Task Cache TaskTask
  4. 4. Spark アプリケーションを PaaS として利用できるサービス Azure Databricks
  5. 5. まずは、Azure Portal で Azure Databricks Workspace をプロビジョニング Azure Databricks を使ってみよう : https://blogs.msdn.microsoft.com/dataplatjp/2018/06/19/azure-databricks/
  6. 6. Databricks の操作・管理は Azure Databricks Workspace で実施
  7. 7. Spark クラスタの共有利用時の管理負荷を軽減 Standard Serverless Pool 言語 Python, Scala, Java, R, SQL Python, R, SQL Databricks Runtime Version (Spark, Scala) 選択可能 最新安定バージョンを自動選択 Spark コンフィグレーション設定 Yes No
  8. 8. ムダを減らして、コストを削減・シンプルにクラスターを管理
  9. 9. Jupyter Notebook の操作性 + Zeppelin のビジュアライゼーション + α スクリプト 結果表示 ビジュアライズの指定 実行クラスタ ジョブスケジュール
  10. 10. 複数言語を同一 Notebook 上で実行可能 • %python Python のコードが実行 • %sql SQL のコードが実行可能 • %r R のコードが実行可能 • %scala Scala のコードが実行可能 • %sh シェルのコマンドが実行可能 • %fs Databricks Utilities が利用可能( dbutils filesystem コマンド) • %run 別のノートブックの実行 • %md マークダウンの記述
  11. 11. Azure Databricks は Azure の 1st パーティサービス CONTROL EASE OF USE Azure Data Lake Analytics Azure Data Lake Store Azure Storage Any Hadoop technology, any distribution Workload optimized, managed clusters Data Engineering in a Job-as-a-service model Azure Marketplace HDP | CDH | MapR Azure Data Lake Analytics IaaS Clusters Managed Clusters Big Data as-a-service Azure HDInsight Frictionless & Optimized Spark clusters Azure Databricks BIGDATA STORAGE BIGDATA ANALYTICS ReducedAdministration
  12. 12. HDInsight with Spark Azure Databricks Azure Data Lake Analytics マネージドサービス Yes Yes Yes オートスケール No Yes Yes スケール時停止不要 No Yes Yes 開発言語 Python, Scala, Java, R, SQL Python, Scala, Java, R, SQL C# / U-SQL スケールアウト単位 クラスター クラスター ジョブ単位 数分以内のスケールアウト No Yes Yes インメモリ処理 Yes Yes No
  13. 13. Microsoft Azure
  14. 14. Azure ストレージサービスを Databricks に直接マウント センサーデータ (非構造化データ) IoT Hub 基幹系アプリ (構造化データ) Steaming Analytics Data Factory SQL Data Warehouse Blob Storage Azure Databricks Azure
  15. 15. Azure ストレージアカウントのアクセス(DBFS としてマウント) 指定項目 このサンプルでの値 コンテナ名 democontainer00 ストレージアカウント名 testadflabstaging マウントポイント /mnt/demofolder00
  16. 16. SQL Data Warehouse にダイレクトアクセス センサーデータ (非構造化データ) IoT Hub 基幹系アプリ (構造化データ) Steaming Analytics Data Factory SQL Data Warehouse Blob Storage Azure Databricks Azure
  17. 17. SQL Data Warehouse のアクセス(Polybase データロード) 指定項目 このサンプルでの値 SQLDW サーバー名 adventureworks098 指定項目 このサンプルでの値 ステージングコンテナ stagingcontainer
  18. 18. 多様な Azureサービス群との接続機能を提供 Data Factory Azure Databricks Blob Storage Cosmos DB SQL Database SQL Data Warehouse Data Lake Store Power BI Cosmos DB Connector JDBC connection DBFS mount DBFS mount Event Hubs Connector SQL DB Connector SQL DW Connector Event Hubs Kafka Streaming Data Factory Activity Kafka on HDInsight
  19. 19. AAD ユーザーをパーミッション設定で指定可能 クラスター ワークスペース ジョブ フォルダー ノートブック テーブル
  20. 20. © 2018 Microsoft Corporation. All rights reserved.Microsoft、Windows、および他の製品名は、米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です。 このドキュメントに記載されている情報は、情報の提供のみを目的としており、このドキュメントの発行時点におけるマイクロソフトの見解を反映したものです。マイクロソフトは市場の変化に対応する必要があるため、 このドキュメントの内容に関する責任をマイクロソフトは問われないものとします。また、発行日以降に発表される情報の正確性を保証できません。 明示、黙示または法律の規定にかかわらず、これらの情報についてマイクロソフトはいかなる責任も負わないものとします。

×