Advertisement

Apache Spark on Azure

BearingPoint
Oct. 23, 2021
Advertisement

More Related Content

Slideshows for you(19)

Similar to Apache Spark on Azure(20)

Advertisement

Apache Spark on Azure

  1. Apache Spark on Azure
  2. 松崎 剛  日本マイクロソフト株式会社 パートナー事業本部 クラウド ソリューション アーキテクト  ブログ https://tsmatz.wordpress.com/ GitHub https://github.com/tsmatz
  3. Apache Spark Data Sources (Azure Blob, ADLS Gen 2) Cluster Manager Node Node Node Cache Cache Cache Driver Program SparkContext https://github.com/tsmatz/ azure-databricks-exercise
  4. Adaptive Query Execution
  5. Apache Spark on Azure CONTROL EASE OF USE Install-based,fully customized infrastructure Frictionless & Optimized Spark clusters Azure Databricks IaaS Clusters Managed Clusters Azure Virtual Machine (VMSS, VNet, etc) Workload optimized, managed clusters Azure HDInsight STORAGE LAYER ANALYTICS LAYER Reduced Administration Azure Data Lake Store Azure Storage Azure Synapse Analytics
  6. Apache Spark on Azure (.NET for Apache Spark) CONTROL EASE OF USE Install-based,fully customized infrastructure Frictionless & Optimized Spark clusters Azure Databricks IaaS Clusters Managed Clusters Azure Virtual Machine (VMSS, VNet, etc) Workload optimized, managed clusters Azure HDInsight STORAGE LAYER ANALYTICS LAYER Reduced Administration Azure Data Lake Store Azure Storage Azure Synapse Analytics using Microsoft.Spark.Sql; using static Microsoft.Spark.Sql.Functions; // Create initial DataFrame string filePath = args[0]; DataFrame dataFrame = spark.Read().Text(filePath); //Count words DataFrame words = dataFrame .Select(Split(Col("value")," ").Alias("words")) .Select(Explode(Col("words")).Alias("word")) .GroupBy("word") .Count() .OrderBy(Col("count").Desc()); // Display results words.Show();
  7. Apache Spark on Azure (.NET for Apache Spark) CONTROL EASE OF USE Install-based,fully customized infrastructure Frictionless & Optimized Spark clusters Azure Databricks IaaS Clusters Managed Clusters Azure Virtual Machine (VMSS, VNet, etc) Workload optimized, managed clusters Azure HDInsight STORAGE LAYER ANALYTICS LAYER Reduced Administration Azure Data Lake Store Azure Storage Azure Synapse Analytics
  8. Azure Data Factory – Mapping Data Flows
  9. リファレンス アーキテクチャ Data Store Compute & Execution Azure Data Factory 様々な外部データソース (File, Media, Biz App, ...) Azure Synapse Pipeline Azure Blob Azure Data Lake Gen2 Azure Databricks Azure Synapse Spark プール 1 2 3 5 4 Azure Synapse 専用 SQL プール INGEST STORE PREP&ANALYZE SERVE&PRESENTATION
  10. イベント ストリーム入力 と処理 ストリーム 分析 データレイク バッチ分析 妥当性検証や インテリジェンス (時間差あり) データソース リアルタイムレポート やアラート プレゼンテーション INGEST STORE PREP&ANALYZE SERVE&PRESENTATION
  11. イベント ストリーム入力 と処理 ストリーム 分析 データレイク バッチ分析 妥当性検証や インテリジェンス (時間差あり) データソース リアルタイムレポート やアラート プレゼンテーション
  12. df = (spark.readStream.format("kafka"). option("kafka.bootstrap.servers", "..."). option("subscribe", "topic1, topic2"). option("startingOffsets", "latest"). load() df = (spark.read.format("csv"). option("header", "true"). option("nullValue", "NA"). option("inferSchema", True). load("/mnt/flight_weather.csv")) df = pipelinemodel.transform(df) df = pipelinemodel.transform(df) new_df = (df. withWatermark(df.ev_time,"10 minutes"). groupBy( df.device_id, window(df.ev_time,"5 minutes")). count()) new_df = (df. withWatermark(df.ev_time,"10 minutes"). groupBy( df.device_id, window(df.ev_time,"5 minutes")). count()) (df.write. mode("overwrite"). parquet("/mnt/test")) (df.writeStream. format(“com.databricks.spark.sqldw”). option("url", "..."). option("tempDir", "wasbs://... "). option("dbTable", "testTable"). option("checkpointLocation", "/tmp/chk"). start())
  13. Streaming OPTIMIZE Delta Lake によるバッチ / リアルタイムの Mixture
  14. Streaming OPTIMIZE Delta Lake によるバッチ / リアルタイムの Mixture
  15.  Batch Ingest と Streaming Ingest の 併用  単一のストレージで双 方のワークロードを最 適化  同一のプログラミング モデル Kappa アーキテクチャ
  16. Azure Synapse Link for Azure Cosmos DB アナリティカル ストア 分析クエリ―に最適化された 列ストア トランザクショナル ストア トランザクショナルな操作に 最適化された行ストア Azure Cosmos DB Azure Synapse Analytics コンテナ クラウド ネイティブ トランザクションと分析の ハイブリッド処理 (HTAP※) Azure Synapse Link SQL 自動同期 機械学習 ビッグデータ分析 BI ダッシュボード オペレーショナル データ ※ HTAP: Hybrid Transactional and Analytical Processing
  17. Azure Cosmos DB Change Feed 新しい イベント
  18. Cosmos DB と Synapse Analytics による Advanced Architecture イベント ストリーム入力 と処理 ストリーム 分析 データレイク バッチ分析 妥当性検証や インテリジェンス (時間差あり) データソース リアルタイムレポート やアラート プレゼンテーション Streaming (Azure Cosmos DB Change Feed) Analytical (Azure Synapse Link for Azure Cosmos DB) Transactional (Azure Cosmos DB)
  19. © Copyright Microsoft Corporation. All rights reserved.
Advertisement