SQL Server 使いのための Azure Synapse Analytics - Spark 入門Daiyu Hatakeyama
Japan SQL Server Users Group - 第35回 SQL Server 2019勉強会 - Azure Synapese Analytics - SQL Pool 入門 のセッション資料です。
Spark の位置づけ。Synapse の中での入門編の使い方。そして、Synapse ならではの価値について触れてます。
SQL Server 使いのための Azure Synapse Analytics - Spark 入門Daiyu Hatakeyama
Japan SQL Server Users Group - 第35回 SQL Server 2019勉強会 - Azure Synapese Analytics - SQL Pool 入門 のセッション資料です。
Spark の位置づけ。Synapse の中での入門編の使い方。そして、Synapse ならではの価値について触れてます。
DB TechShowcase Tokyo - Intelligent Data PlatformDaiyu Hatakeyama
AI (Artificial Intelligence) が様々なアプリケーション/サービスに組み込まれ始めて、それをうみだす原動力ともいえるデータプラットフォームもその立ち位置を変えてきています。次期SQL Server 2017には、Machine Learning Servicesが同梱され、まさに次世代のデータプラットフォームの一つの形といえるでしょう。このセッションでは、System of Record から、System of Insight へとその価値を変えていく最新のData Platformの世界をご紹介します。
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lakede:code 2017
「既に起こったことをレポートする」ことから、「これから起こりそうなことを予測する」方向へ。この要件を満たすためにどのようなデータを収集すべきか、前もって決めるのは困難です。ならば、あらゆる種類のデータを貯めておいて、必要になった時に取り出せばいい。それがデータ レイクの基本的な発想です。Azure Data Lake は、あらゆる形式のデータを無尽蔵に貯めておけるストレージであり、アプリケーションの要件に合わせて柔軟にデータを取り出せる Query as a Service です。
本セッションでは、 Azure Data Lake を活用したアプリケーションの設計と開発について説明します。
関連リソース 1: Azure Data Lake Analytics (https://azure.microsoft.com/ja-jp/services/data-lake-analytics/)
関連リソース 2: Azure Data Lake Store (https://azure.microsoft.com/ja-jp/services/data-lake-store/)
関連リソース 3: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装 (https://www.microsoft.com/ja-jp/events/decode/2017/sessions.aspx#DI12)
製品/テクノロジ: Microsoft Azure/アーキテクチャ/クラウド/ビッグ データ
野村 一行
日本マイクロソフト株式会社
デベロッパー エバンジェリズム統括本部
エバンジェリスト
[Microsoft Cognitive Toolkit (CNTK) on Azure ハンズオン] Microsoft Azure の AI 関連サービスNaoki (Neo) SATO
Microsoft Cognitive Toolkit (CNTK) on Azure ハンズオン
https://satonaoki.wordpress.com/2017/08/06/cntk-hands-on/
Microsoft Cognitive Toolkit (CNTK) on Azure ハンズオン (2017/08/05)
https://jazug.connpass.com/event/61939/
Slides for the presentation at Elastic {ON} Tour Tokyo 2017
https://www.elastic.co/elasticon/tour/2017/tokyo
Session Video: https://www.elastic.co/jp/elasticon/tour/2017/tokyo/microsoft
DB TechShowcase Tokyo - Intelligent Data PlatformDaiyu Hatakeyama
AI (Artificial Intelligence) が様々なアプリケーション/サービスに組み込まれ始めて、それをうみだす原動力ともいえるデータプラットフォームもその立ち位置を変えてきています。次期SQL Server 2017には、Machine Learning Servicesが同梱され、まさに次世代のデータプラットフォームの一つの形といえるでしょう。このセッションでは、System of Record から、System of Insight へとその価値を変えていく最新のData Platformの世界をご紹介します。
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lakede:code 2017
「既に起こったことをレポートする」ことから、「これから起こりそうなことを予測する」方向へ。この要件を満たすためにどのようなデータを収集すべきか、前もって決めるのは困難です。ならば、あらゆる種類のデータを貯めておいて、必要になった時に取り出せばいい。それがデータ レイクの基本的な発想です。Azure Data Lake は、あらゆる形式のデータを無尽蔵に貯めておけるストレージであり、アプリケーションの要件に合わせて柔軟にデータを取り出せる Query as a Service です。
本セッションでは、 Azure Data Lake を活用したアプリケーションの設計と開発について説明します。
関連リソース 1: Azure Data Lake Analytics (https://azure.microsoft.com/ja-jp/services/data-lake-analytics/)
関連リソース 2: Azure Data Lake Store (https://azure.microsoft.com/ja-jp/services/data-lake-store/)
関連リソース 3: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装 (https://www.microsoft.com/ja-jp/events/decode/2017/sessions.aspx#DI12)
製品/テクノロジ: Microsoft Azure/アーキテクチャ/クラウド/ビッグ データ
野村 一行
日本マイクロソフト株式会社
デベロッパー エバンジェリズム統括本部
エバンジェリスト
[Microsoft Cognitive Toolkit (CNTK) on Azure ハンズオン] Microsoft Azure の AI 関連サービスNaoki (Neo) SATO
Microsoft Cognitive Toolkit (CNTK) on Azure ハンズオン
https://satonaoki.wordpress.com/2017/08/06/cntk-hands-on/
Microsoft Cognitive Toolkit (CNTK) on Azure ハンズオン (2017/08/05)
https://jazug.connpass.com/event/61939/
Slides for the presentation at Elastic {ON} Tour Tokyo 2017
https://www.elastic.co/elasticon/tour/2017/tokyo
Session Video: https://www.elastic.co/jp/elasticon/tour/2017/tokyo/microsoft
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...日本マイクロソフト株式会社
日本マイクロソフト株式会社
カスタマーサクセス事業本部 データ&クラウドAI アーキテクト統括本部 クラウドソリューションアーキテクト
武田 雅生
近年 DX が推進される中、企業の情報分析基盤に求められるビジネス期待値は高まっています。
どのお客様においても競合に負けじと情報分析基盤の導入・推進が進み、ビジネス状況の可視化から予測へと、「分析高度化」への投資が進んでいます。
しかし、企業内データ分析活動の高度化に伴い、複雑さは日々肥大化し、データがサイロ化するだけでなく、テクノロジーやスキルのサイロ化も進んでいます。
結果的に、データ横断分析の相乗効果を生み出せないという、分析高度化ならではの課題に直面されるお客様も多くいらっしゃいます。
本セッションでは、今のデータ分析・活用を担うエンジニア向けに、Azure Synapse の最新機能・デモをご紹介します。
分析高度化をスムーズに進めるための、ヒントが得られましたら幸いです。
【Microsoft Japan Digital Daysについて】
Microsoft Japan Digital Days は、お客様が競争力を高め、市場の変化に迅速に対応し、より多くのことを達成することを目的とした、日本マイクロソフトがお届けする最大級のデジタル イベントです。4 日間にわたる本イベントでは、一人一人の生産性や想像力を高め、クラウド時代の組織をデザインするモダンワークの最新事例や、変化の波をうまく乗り切り、企業の持続的な発展に必要なビジネスレジリエンス経営を支えるテクノロジの最新機能および、企業の競争優位性に欠かせないクラウド戦略のビジョンなどデジタル時代に必要な情報をお届けいたしました。(2021年10月11日~14日開催)
2. Big Data & AI における課題
Silo 化するテクノロジー
Great for Data, but not AI Great for AI, but not for data
Customer
Data
Emails /
Web Pages
Sensor
Data
(IoT)
Video/
Speech
Click
Streams
…
18. Unified Analytics Platform
Databricks Workspace
Collaborative Notebooks, Production Jobs
Databricks Runtime
Databricks Cloud Service
Transactions Indexing
ML Frameworks
Blob Storage
Data Lake Storage
AZURE
DATA SOURCES
Event Hub
IoT Hub
Synapse Analytics
Cosmos DB
Azure Data Factory
19. Unified Analytics Platform
Databricks Workspace
Collaborative Notebooks, Production Jobs
Databricks Runtime
Databricks Cloud Service
Transactions Indexing
ML Frameworks
Blob Storage
Data Lake Storage
AZURE
DATA SOURCES
Event Hub
IoT Hub
Synapse Analytics
Cosmos DB
Azure Data Factory
# Read Configuration
readConfig = {
"Endpoint": "https://doctorwho.documents.azure.com:443/",
"Masterkey": "YOUR-KEY-HERE",
"Database": "DepartureDelays",
"Collection": "flights_pcoll",
"query_custom": "SELECT c.date, c.delay, c.origin, c.destination FROM c WHERE c.origin
= 'SEA'" // Optional
}
# Connect via azure-cosmosdb-spark to create Spark DataFrame
flights = spark.read.format(
"com.microsoft.azure.cosmosdb.spark").options(**readConfig).load()
flights.count()
20. Unified Analytics Platform
Databricks Workspace
Collaborative Notebooks, Production Jobs
Databricks Runtime
Databricks Cloud Service
Transactions Indexing
ML Frameworks
Blob Storage
Data Lake Storage
AZURE
DATA SOURCES
Event Hub
IoT Hub
Synapse Analytics
Cosmos DB
Azure Data Factory
# Set up the Blob Storage account access key in the notebook session conf.
spark.conf.set(
"fs.azure.account.key.<your-storage-account-name>.blob.core.windows.net",
"<your-storage-account-access-key>")
# Load data from a Synapse Analytics query.
df = spark.read
.format("com.databricks.spark.sqldw")
.option("url", "jdbc:sqlserver://<the-rest-of-the-connection-string>")
.option("tempDir", "wasbs://<your-container-name>@<your-storage-account-
name>.blob.core.windows.net/<your-directory-name>")
.option("forwardSparkAzureStorageCredentials", "true")
.option("query", "select x, count(*) as cnt from my_table_in_dw group by x")
.load()
31. Delta Lake – Reliability
Streaming
● ACID トランザクション
● スキーマエンフォース
● 統合 Batch & Streaming
● Time Travel / スナップショット
主要機能
高品質で高信頼な
データ
いつでも分析に
活用可能
Batch
Updates/Deletes トランザクション
ログ
Parquet ファイル
SELECT count(*) FROM events
TIMESTAMP AS OF timestamp
SELECT count(*) FROM events
VERSION AS OF version
spark.read.format("delta").option("timestampAsOf",
timestamp_string).load("/events/")
INSERT INTO my_table
SELECT * FROM my_table TIMESTAMP AS OF
• date_sub(current_date(), 1)
過去のデータの再生成 誤った書き込み時のロールバック
37. Analytics & AI is the #1 investment for business
leaders, however they struggle to maximize ROI
80% 55%
From : “Understanding Why Analytics Strategies Fall Short for Some, but Not Others”
https://azure.microsoft.com/en-us/resources/why-analytics-strategies-fall-short-for-some-but-not-others/
38. Apache Spark を内包する製品やサービス
• Azure Synapse Analytics
• Azure Data Factory - Mapping Data Flow *
• Azure Data Factory - Wrangling Data Flow
• SQL Server 2019 Big Data Cluster
* : Azure Databricks を使用
39. Mapping Data Flow
• Resilient data
transformation Flows
• Transform at scale
• Code-free
• Operationalized with
Data Factory
40. Apache Spark を内包する製品やサービス
• Azure Cosmos DB
• Azure Synapse Analytics
• Azure Data Factory - Mapping Data Flow *
• Azure Data Factory - Wrangling Data Flow
• SQL Server 2019 Big Data Cluster
* : Azure Databricks を使用