Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Apache Spark on Azure
Report
Tusyoshi Matsuzaki
Follow
BearingPoint
Oct. 23, 2021
•
0 likes
0 likes
×
Be the first to like this
Show More
•
342 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Check these out next
Logic Apps/Flow Update Summary
Tomoyuki Obi
AzureADの認証で失敗した話
DevTakas
msal.js v2を触る
DevTakas
Azure Infrastructure as Code 体験入隊
Toru Makabe
Vs2013 multi device shosuz
Shotaro Suzuki
はじめよう Azure Functions
一希 大田
NET 開発者のための Azure Service Fabric と、 Azure Container Service - 何が違うねん? -
Daiyu Hatakeyama
Azure Service Fabric 概要
Daiyu Hatakeyama
1
of
19
Top clipped slide
Apache Spark on Azure
Oct. 23, 2021
•
0 likes
0 likes
×
Be the first to like this
Show More
•
342 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Technology
Slide in session on .NET Lab Oct 2021
Tusyoshi Matsuzaki
Follow
BearingPoint
Advertisement
Advertisement
Advertisement
Recommended
Interoperability of webassembly with javascript
Takao Tetsuro
214 views
•
45 slides
Building asp.net core blazor and elasticsearch elasticsearch using visual stu...
Shotaro Suzuki
340 views
•
63 slides
コマンド1発でAzureにDC/OS環境を作る方法
Toru Makabe
1.5K views
•
12 slides
ASP.NET Core WebAPIでODataを使おう
DevTakas
304 views
•
20 slides
[DO13] 楽天のクラウドストレージ使いこなし術 Azure と OSS で少しずつ進めるレガシー脱却
de:code 2017
1.2K views
•
93 slides
Azure Blueprints - 企業で期待される背景と特徴、活用方法
Toru Makabe
1.1K views
•
17 slides
More Related Content
Slideshows for you
(19)
Logic Apps/Flow Update Summary
Tomoyuki Obi
•
1.5K views
AzureADの認証で失敗した話
DevTakas
•
908 views
msal.js v2を触る
DevTakas
•
525 views
Azure Infrastructure as Code 体験入隊
Toru Makabe
•
22.2K views
Vs2013 multi device shosuz
Shotaro Suzuki
•
1.8K views
はじめよう Azure Functions
一希 大田
•
3.3K views
NET 開発者のための Azure Service Fabric と、 Azure Container Service - 何が違うねん? -
Daiyu Hatakeyama
•
641 views
Azure Service Fabric 概要
Daiyu Hatakeyama
•
3.8K views
Azure Functions&Logic Appではじめるサーバレスアプリケーション開発 - 入門編 -
Yoichi Kawasaki
•
1.8K views
Real World Azure RBAC
Toru Makabe
•
1.4K views
インフラ野郎AzureチームProX
Toru Makabe
•
2K views
Insight into Azure Active Directory - Azure AD Custom Role & Scope
Kazuki Takai
•
410 views
俺的 Ignite Update まとめ 2019
Yui Ashikaga
•
2K views
DatadogでAWS監視やってみた
tyamane
•
6.3K views
[Microsoft Tech Summit 2017] マイクロサービスだけじゃない! コンテナー オーケストレーターとしての「Azure Servic...
Naoki (Neo) SATO
•
1.5K views
Building simple-app-using-.net 6 asp.net core web api-blazor web assembly-ela...
Shotaro Suzuki
•
604 views
AKSを活用した社内向けイベント支援プラットフォームをリリースした話
Shingo Kawahara
•
1.4K views
Virtual WAN × Citrix SD-WAN の衝撃! ~演習用資料~
Takashi Ushigami
•
1.1K views
クラウドネイティブガバナンスの実現
Minoru Naito
•
570 views
Similar to Apache Spark on Azure
(20)
Spark Analytics - スケーラブルな分散処理
Tusyoshi Matsuzaki
•
323 views
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
Daiyu Hatakeyama
•
1.3K views
Microsoft Ignite November 2021 最新アップデート - Azure Synapse Analytics
Shohei Nagata
•
387 views
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
Daisuke Masubuchi
•
2.3K views
[Microsoft Tech Summit 2018] Azure Machine Learning サービスと Azure Databricks で実...
Naoki (Neo) SATO
•
1.7K views
Azure Monitor Logで実現するモダンな管理手法
Takeshi Fukuhara
•
3.4K views
15分でお届けする Elastic Stack on Azure 設計・構築ノウハウ
Yoichi Kawasaki
•
3.6K views
Azure DataLake 大全
Daiyu Hatakeyama
•
942 views
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
•
1.2K views
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
Daiyu Hatakeyama
•
1K views
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
日本マイクロソフト株式会社
•
301 views
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
•
2.4K views
Data Architecture
Daisuke Inoue
•
232 views
Azure Datalake 大全
Daiyu Hatakeyama
•
2.6K views
Azure Data Platform
Daiyu Hatakeyama
•
399 views
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~
Naoki (Neo) SATO
•
965 views
CloudStack Overview@OSC2012Fukuoka
Satoshi Shimazaki
•
1.7K views
VisualStudio2010ReadyDay Azureセッション資料
Shinichiro Isago
•
1.9K views
AWS Glueを使った Serverless ETL の実装パターン
seiichi arai
•
515 views
【de:code 2020】 Azure Cosmos DB - Build 2020 アップデート
日本マイクロソフト株式会社
•
687 views
Advertisement
Recently uploaded
(20)
AIEXPO_CDLE名古屋紹介
KotaMiyano
•
3 views
3Dプリンタって いいね
infinite_loop
•
22 views
20230523_IoTLT_vol99_kitazaki_v1.pdf
Ayachika Kitazaki
•
107 views
20230516 @Mix Leap Hirohiko_Suwa
Masashi Nakagawa
•
83 views
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
•
729 views
JSTQB_テストプロセスの概念モデル.pdf
akipii Oga
•
135 views
ネットワークパケットブローカー市場.pdf
HinaMiyazu
•
6 views
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
オラクルエンジニア通信
•
29 views
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
Deep Learning JP
•
6 views
UAV写真・レーザー測量test.pptx
ssuserb48d2b1
•
14 views
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
•
12 views
ヘッドレス化したbaserCMS5とその機能
Ryuji Egashira
•
10 views
初学者のためのプロンプトエンジニアリング実践.pptx
Akifumi Niida
•
376 views
Forguncy8 製品概要 202305.pptx
フォーガンシー
•
38 views
☀️【卡尔顿大学毕业证成绩单留学生首选】
15sad
•
2 views
JSONEncoderで詰まった話
とん とんぼ
•
22 views
Üslup ve tercüme.pdf
1Hmmtks
•
2 views
☀️【中央兰开夏大学毕业证成绩单留学生首选】
25mjhd12
•
4 views
統計学の攻略_推測統計学の考え方.pdf
akipii Oga
•
138 views
留信网认证可查【皇家霍洛威学院文凭证书毕业证购买】
32lkhng
•
2 views
Apache Spark on Azure
Apache Spark on
Azure
松崎 剛 日本マイクロソフト株式会社 パートナー事業本部 クラウド
ソリューション アーキテクト ブログ https://tsmatz.wordpress.com/ GitHub https://github.com/tsmatz
Apache Spark Data Sources
(Azure Blob, ADLS Gen 2) Cluster Manager Node Node Node Cache Cache Cache Driver Program SparkContext https://github.com/tsmatz/ azure-databricks-exercise
Adaptive Query Execution
Apache Spark on
Azure CONTROL EASE OF USE Install-based,fully customized infrastructure Frictionless & Optimized Spark clusters Azure Databricks IaaS Clusters Managed Clusters Azure Virtual Machine (VMSS, VNet, etc) Workload optimized, managed clusters Azure HDInsight STORAGE LAYER ANALYTICS LAYER Reduced Administration Azure Data Lake Store Azure Storage Azure Synapse Analytics
Apache Spark on
Azure (.NET for Apache Spark) CONTROL EASE OF USE Install-based,fully customized infrastructure Frictionless & Optimized Spark clusters Azure Databricks IaaS Clusters Managed Clusters Azure Virtual Machine (VMSS, VNet, etc) Workload optimized, managed clusters Azure HDInsight STORAGE LAYER ANALYTICS LAYER Reduced Administration Azure Data Lake Store Azure Storage Azure Synapse Analytics using Microsoft.Spark.Sql; using static Microsoft.Spark.Sql.Functions; // Create initial DataFrame string filePath = args[0]; DataFrame dataFrame = spark.Read().Text(filePath); //Count words DataFrame words = dataFrame .Select(Split(Col("value")," ").Alias("words")) .Select(Explode(Col("words")).Alias("word")) .GroupBy("word") .Count() .OrderBy(Col("count").Desc()); // Display results words.Show();
Apache Spark on
Azure (.NET for Apache Spark) CONTROL EASE OF USE Install-based,fully customized infrastructure Frictionless & Optimized Spark clusters Azure Databricks IaaS Clusters Managed Clusters Azure Virtual Machine (VMSS, VNet, etc) Workload optimized, managed clusters Azure HDInsight STORAGE LAYER ANALYTICS LAYER Reduced Administration Azure Data Lake Store Azure Storage Azure Synapse Analytics
Azure Data Factory
– Mapping Data Flows
リファレンス アーキテクチャ Data Store Compute & Execution Azure Data
Factory 様々な外部データソース (File, Media, Biz App, ...) Azure Synapse Pipeline Azure Blob Azure Data Lake Gen2 Azure Databricks Azure Synapse Spark プール 1 2 3 5 4 Azure Synapse 専用 SQL プール INGEST STORE PREP&ANALYZE SERVE&PRESENTATION
イベント ストリーム入力 と処理 ストリーム 分析 データレイク バッチ分析 妥当性検証や インテリジェンス (時間差あり) データソース リアルタイムレポート やアラート プレゼンテーション INGEST STORE PREP&ANALYZE SERVE&PRESENTATION
イベント ストリーム入力 と処理 ストリーム 分析 データレイク バッチ分析 妥当性検証や インテリジェンス (時間差あり) データソース リアルタイムレポート やアラート プレゼンテーション
df = (spark.readStream.format("kafka"). option("kafka.bootstrap.servers",
"..."). option("subscribe", "topic1, topic2"). option("startingOffsets", "latest"). load() df = (spark.read.format("csv"). option("header", "true"). option("nullValue", "NA"). option("inferSchema", True). load("/mnt/flight_weather.csv")) df = pipelinemodel.transform(df) df = pipelinemodel.transform(df) new_df = (df. withWatermark(df.ev_time,"10 minutes"). groupBy( df.device_id, window(df.ev_time,"5 minutes")). count()) new_df = (df. withWatermark(df.ev_time,"10 minutes"). groupBy( df.device_id, window(df.ev_time,"5 minutes")). count()) (df.write. mode("overwrite"). parquet("/mnt/test")) (df.writeStream. format(“com.databricks.spark.sqldw”). option("url", "..."). option("tempDir", "wasbs://... "). option("dbTable", "testTable"). option("checkpointLocation", "/tmp/chk"). start())
Streaming OPTIMIZE Delta Lake によるバッチ
/ リアルタイムの Mixture
Streaming OPTIMIZE Delta Lake によるバッチ
/ リアルタイムの Mixture
Batch Ingest
と Streaming Ingest の 併用 単一のストレージで双 方のワークロードを最 適化 同一のプログラミング モデル Kappa アーキテクチャ
Azure Synapse Link
for Azure Cosmos DB アナリティカル ストア 分析クエリ―に最適化された 列ストア トランザクショナル ストア トランザクショナルな操作に 最適化された行ストア Azure Cosmos DB Azure Synapse Analytics コンテナ クラウド ネイティブ トランザクションと分析の ハイブリッド処理 (HTAP※) Azure Synapse Link SQL 自動同期 機械学習 ビッグデータ分析 BI ダッシュボード オペレーショナル データ ※ HTAP: Hybrid Transactional and Analytical Processing
Azure Cosmos DB
Change Feed 新しい イベント
Cosmos DB と
Synapse Analytics による Advanced Architecture イベント ストリーム入力 と処理 ストリーム 分析 データレイク バッチ分析 妥当性検証や インテリジェンス (時間差あり) データソース リアルタイムレポート やアラート プレゼンテーション Streaming (Azure Cosmos DB Change Feed) Analytical (Azure Synapse Link for Azure Cosmos DB) Transactional (Azure Cosmos DB)
© Copyright Microsoft
Corporation. All rights reserved.
Advertisement