SlideShare a Scribd company logo
1 of 47
Download to read offline
自己紹介
日本マイクロソフト株式会社
デジタルトランスフォーメーション事業本部
データ & クラウド AI アーキテクト技術部
クラウドソリューションアーキテクト
高木 英朗 (Takagi Hideo)
• Data Platform Tech Sales Team Blog
http://aka.ms/dpblog
本セッションのゴール
• Azure Data Lake Store / Analytics のアーキテクチャを理解する
• U-SQL の基本を理解する
• Azure Data Lake と他のサービスとの連携方法について理解する
Agenda
1. Azure Data Lake の概要
2. アーキテクチャの概要
3. U-SQL の基本
4. サービスの連携
1. Azure Data Lake の概要
Azure Data Lake とは
HDInsight
Spark, Hive,
Storm, Kafka
Data Lake
Analytics
Data Lake Store
WebHDFS
YARN
Azure
Databricks
ストレージ
Azure Data Lake Store (ADLS)
• どんなフォーマットのデータでも無制限に格納
できるストレージ
• 分散型で分析処理パフォーマンスが高い
• OSS との親和性
分析ツール
Azure Data Lake Analytics (ADLA)
• サーバレスの分析エンジン
• 親しみのある SQL に近い U-SQL 言語
• 柔軟なスケールで大量データ処理が得意
• ジョブ単位の課金
Azure Data Lake Store (ADLS) とは
HDInsight
Azure Data Lake Analytics
形式を問わず無制限に蓄積できる巨大なストレージ
様々なデータ分析処理に最適化
ADLS
業務アプリ
ソーシャル
デバイス
クリックストリーム
センサー
動画
Web
リレーショナル
Batch
MapReduce
Script
Pig
SQL
Hive
NoSQL
HBase
In-Memory
Spark
Predictive
R Server
Batch
U-SQL
利用する
保存する
Azure Data Lake Analytics (ADLA) とは
ADLA
Azure SQL DW Azure SQL DB
Azure
Storage Blobs
ADLS SQL Server
Azure VM
サーバ レスの分析クエリ サービス
きめ細かい分析処理を大量データに最適化
「U-SQL」クエリ言語を使用 @rows =
EXTRACT
name string,
id int
FROM “/data.csv”
USING Extractors.Csv( );
OUTPUT @rows
TO “/output.csv”
USING Outputters.Csv();
規定のストレージ (ADLS or Blob)
だけでなく、SQL DW、SQL
Server などにもクエリ実行が可能
料金の考え方
Azure Data Lake Analytics
(ADLA)
Azure Data Lake Store
(ADLS)
なし
¥ 224 / 時間
1 AU あたり
定常的にかかる費用 処理量に応じてかかる費用
¥ 4.37 / 1GB / 月
データ容量
書き込み: ¥ 5.60
読み取り: ¥ 0.45
10万トランザクションあたり
例:米国東部 2 リージョン (2018/03/08 時点)
ADLA: https://azure.microsoft.com/ja-jp/pricing/details/data-lake-analytics/
ADLS: https://azure.microsoft.com/ja-jp/pricing/details/data-lake-store/
Azure Data Lake の作成
[+New] -> [Data + Analytics] -> [Data Lake Analytics] から ADLS も同時に作成可能
ADLA 名
リソースグループ
リージョン
接続する ADLS
従量課金
or
コミットメント
ADLS 名
暗号化有無
従量課金
or
コミットメント
2. アーキテクチャの概要
ADLS のアーキテクチャ
分散ストレージ
• 書き込まれたファイルは最大 250MB のエクステントに
分割
• それぞれのエクステントは複数のデータノードに分散
• ファイルの読み書きは並列で実行されるので、
スループットが出やすい
耐障害性
• それぞれのエクステントは3つのレプリカを保持
• 参照はどのレプリカからも可能
• レプリカに障害があっても別のレプリカから復元
ファイル書き込み
1 2 3 4 5
レプリカ 1
書き込み
レプリカ 2 レプリカ 3
コミット
エクステント
ADLS のファイルとエクステント
サイズが大きいファイル
書き込み
エクステント
サイズが小さい複数ファイル
書き込み
1
エクステント
サイズが小さい 1 ファイル
書き込み
1
エクステント
エクステントの数が ADLA ジョブ実行時の並列度に影響する
同時に 1 つのタスクしか実行できない
同時に 2 つのタスク
1 つのタスクで 4 つのエクステントを処理
2 3 4 5 6 1 2 3 4 5 6
同時に 2 つのタスク
1 つのタスクで 4 つのエクステントを処理
ADLA のジョブと Vertex
✓ ジョブの中のタスク (Vertex)
✓ ステージ (SuperVertex) = 同時に実行できるタスクのグループ
ADLA から U-SQL
ジョブのサブミット
クエリや対象データをもとに実行計画を
作成。
分割されたエクステントの数に依存
同時に実行できるタスクのグループに
まとめられる。
下のグループは上のグループの処理に
依存する
タスク
(Vertex)
ステージ
(SuperVertex)
Analytics Unit (AU)
✓ AU = コンピュートリソースの単位 (2 CPU, 6 GB RAM *2018/3/8 現在)
✓ 1 AU は 1 タスク (Vertex) を担当する
✓ AU の数と実行時間でコストが決まる
前のステージでの必要なタ
スクの処理 (クリティカルパ
ス) が終ってから次のステー
ジが実行される
ジョブ (AU = 4)
完了
4 タスク (Vertex) ずつ
並列実行される
4 AU でも 2 タスク (Vertex) しか
並列実行できない
ジョブの処理の順番
ステージ (SuperVertex)
AU の割り当てと性能向上
並列で実行できる Vertex (タスク) 以上の AU を割り当てても性能向上しない
過剰な AU の割り当てをした場合
• AU を減らすことを検討
• 赤い線の分だけコストを支払うことになるが、試
用しているのは青い線の分のみ
AU が足りない場合
• AU を増やすことを検討
ジョブ実行時間ジョブ実行時間
割り当てた
AU
実行中に使用
している AU
10
0
5
AU 数
AU と時間とコスト
割り当てた AU ジョブにかかった時間 AU 時間
a-1 10 3 時間 30 AU 時間
a-2 20 1.5 時間 30 AU 時間
a. AU を増やしたほうが良いケース
割り当てた AU ジョブにかかった時間 AU 時間
b-1 10 5 時間 50 AU 時間
b-2 20 4 時間 80 AU 時間
b. AU を増やすか検討が必要なケース
同じ金額でジョブの時間
を半分に短縮できる
→増やす!
60 % のコスト増で 1 時
間のジョブ時間短縮
→増やす?
ADLA の料金 = [割り当てた AU の数] x [時間] (x [単価])
実行計画や必要な AU の確認
Azure 管理ポータルや Visual Studio で実行計画、状況、診断結果を確認可能
実行しているジョブが何個の Vertex で実
行されているかを確認することが可能
AU 検討材料
✓ いくつのジョブステージがあるか
✓ ジョブステージ内にいくつのタスクがあるか
✓ ジョブ実行時間
✓ 診断結果の警告
✓ etc
AU が過剰に割り当てられていることを
警告
3. U-SQL の基本
U-SQL という言語
U-SQL で分析処理を記述し、
ADLA にサブミット。
分散処理の実行プランを自動
的に生成。
実行プランに基づいて、ノード
が自動的に割り当てられ、処
理が実行される。
@rows =
EXTRACT
name string,
id int
FROM “/data.csv”
USING Extractors.Csv( );
OUTPUT @rows
TO “/output.csv”
USING Outputters.Csv();
✓ SQL ライクなシンプルなクエリ言語
✓ C#, R, Python, Cognitive Services 等での拡張
✓ スキーマ定義済み、未定義のどちらでもクエリ可能
SELECT … FROM …
WHERE
GROUP BY …
HAVING
JOIN
OVER
+
スキーマ オン リード
abe, 95, 46, 85, 85
itoh, 89, 72, 46, 76, 34
ueda, 95, 13, 57, 63, 87
emoto, 50, 68, 38, 85, 98
otsuka, 13, 16, 67, 100, 7
katase, 42, 61, 90, 11, 33
{"name" : "cat", "count" : 105}
{"name" : "dog", "count" : 81}
{"name" : "rabbit", "count" : 2030}
{"name" : "turtle", "count" : 1550}
{"name" : "tiger", "count" : 300}
{"name" : "lion", "count" : 533}
{"name" : "whale", "count" : 2934}
xxx.xxx.xxx.xxx - -
[27/Jan/2018:14:20:17 +0000]
"GET /item/giftcards/3720
HTTP/1.1" 200 70 "-" "Mozilla/5.0
(Windows NT 6.1; WOW64;
rv:10.0.1) Gecko/20100101
Firefox/10.0.1"
フォーマットを気にせ
ずデータをためていく
使うときにはじめて
データ構造を意識
@rows = EXTRACT ~~~ FROM ~~~ USING ~~~;
@rows = SELECT ~~~ FROM ~~~ WHERE ~~~;
データを集めてためておく
使うときにデータ構造を定義して処理する
シンプルな U-SQL の例 (概要編のおさらい)
@tweet =
EXTRACT date string,
time string,
author string,
tweet string,
FROM “/Input/TwitterHistory.csv”
USING Extractors.Csv();
@result =
SELECT author AS author,
COUNT(*) AS tweetcount
FROM @tweet
GROUP BY author;
OUTPUT @result
TO “/Output/TwitterAnalysis.csv”
ORDER BY tweetcount DESC
USING Outputters.Csv();
① 保存されているファイルのフォー
マットを読み取って、カラム名を
付与
② 付与したカラム名を使ってクエリ
を実行
③ 結果を CSV 形式で出力
C# 関数を利用した U-SQL (概要編のおさらい)
@attribute =
SELECT new SQL.ARRAY<string>(col1.Split(',')) AS y
FROM @csv;
@country =
SELECT new SQL.ARRAY<string>(y[3].Split('=')) AS z
FROM @attribute;
@output =
SELECT
Region.ToUpper() AS NewRegion
FROM @searchlog;
文字列を大文字に変換
[col1] の中をカンマで分割
U-SQL 内で C# 関数を使用することで柔軟な処理を実行することが可能
col1 col2
name=hideo,age=50,div=tech,country=jp Microsoft
name=toshio,age=60,div=sales,country=us Microsoft
こういう CSV ファイルがあったとして
“jp”や”us”を取り出したい
4番目の要素を = で分割
→”jp” や “us” が取り出せる
[ご参考] U-SQL のデータ型・集約関数・結合
ビルトインの集約関数
• AVG
• ARRAY_AGG
• COUNT
• FIRST
• LAST
• MAP_AGG
• MAX
• MIN
• STDEV
• SUM
• VAR
データ型
Numeric
byte, byte?
sbyte, sbyte?
int, int?
uint, unint?
long, long?
decimal, decimal?
short, short?
ushort, ushort?
ulong, unlong?
float, float?
double, double?
Text
char, char?
string
Complex
MAP<K>
ARRAY<K,T>
Temporal DateTime, DateTime?
Other
bool, bool?
Guid, Guid?
Byte[]
http://usql.io/
結合
• INNER JOIN
• LEFT or RIGHT or FULL OUTER JOIN
• CROSS JOIN
• SEMIJOIN
• Equivalent to IN subquery
• ANTISEMIJOIN
その他、パラメータの利用やウィンドウ関数等詳細情報やチュートリアルは左記 URL を参照
File Sets
@rs =
EXTRACT
user string,
id string,
suffix string
FROM
"/input/{suffix}"
USING Extractors.Csv();
/input
/2017-01.log
/2017-02.log
/2017-03.log
/2017-04.log
/2017-05.log
…
@rs =
EXTRACT
user string,
id string,
date string
FROM
"/input/{date:yyyy}/{date:MM}/{date:dd}/dat.txt"
USING Extractors.Csv();
複数のファイルをまとめて読み込んで処理する
/input/
/2017/01/01/dat.txt
/2017/02/01/dat.txt
/2017/03/01/dat.txt
/2017/04/01/dat.txt
/2017/05/01/dat.txt
…
suffix 列にファイル名
がそのまま入る
2017-01.log
2017-02.log
2017-03.log
2017-04.log
2017-05.log
…
date 列にフォルダ名
の年月日情報が入る
20170101
20170201
20170301
20170401
20170501
…
File Sets の応用
@rs =
EXTRACT
user string,
id string,
Market string
FROM
"/input/{Market}_{*}"
USING Extractors.Csv();
@us =
SELECT * FROM @rs
WHERE Market == “ja" ;
/input
/ja_data-01.log
/ja_data-02.log
/en_data-01.log
/en_data-02.log
/cn_data-01.log
…
ファイル名からデータを構築
フィルタ利用時に不要な I/O をかけずにスキャンが可能になり、性能が向上する
WHERE 句で指定した条件に基づき、”ja” に
マッチするファイルのみが読み込まれる。
パーティショニングに似たような動作が可能。
READ されるのは
この 2 ファイルだけ
U-SQL カタログ
➢ テーブル
データを構造化し、分散配置
をコントロールすることができる
RDBMS と同様のビュー機能
テーブルデータ型の値を返す
関数
CREATE VIEW V AS EXTRACT…
CREATE VIEW V AS SELECT …
CREATE TABLE T ( … )
INDEX I CLUSTERED ( … )
DISTRIBUTED BY …;
CREATE FUNCTION F (@arg string = “default”)
RETURNS @res [TABLE ( … )]
AS BEGIN … @res … EN;
➢ ビュー
➢ テーブル値関数 (TVFs)
スキーマを定義して、データの形式を分かるようにする
カタログを作成すると・・・
テーブルやビュー等によって RDBMS のようにデータを管理できる状態になる
テーブル
データベース
ビュー、プロ
シージャ等
テーブルのカラム情報
非構造化データと AI ~ Cognitive 拡張
Cognitive Services の学習済みモデルを使っ
た AI 拡張機能を U-SQL で実行
イメージング:
• 顔を検出する
• 感情を検出する
• 画像の内容を読み取ってタグ付けする
• OCR (文字認識)
テキスト:
• キー フレーズ抽出
• 感情分析
▼ビルトインの Cognitive 機能
例:画像の内容を読み取ってタグ付けする
REFERENCE ASSEMBLY ImageCommon;
REFERENCE ASSEMBLY FaceSdk;
REFERENCE ASSEMBLY ImageEmotion;
REFERENCE ASSEMBLY ImageTagging;
REFERENCE ASSEMBLY ImageOcr;
@imgs =
EXTRACT
FileName string,
ImgData byte[]
FROM @"/images/{FileName}.png"
USING new Cognition.Vision.ImageExtractor();
@tags =
PROCESS @imgs
PRODUCE FileName,
NumObjects int,
Tags SQL.MAP<string, float?>
READONLY FileName
USING new Cognition.Vision.ImageTagger();
@tags_serialized =
SELECT FileName,
NumObjects,
String.Join(";", Tags.Select(x => String.Format("{0}:{1}", x.Key,
x.Value))) AS TagsString
FROM @tags;
OUTPUT @tags_serialized
TO "/images/output/tags.csv"
USING Outputters.Csv(outputHeader:true);
対象の画像ファイル
例:画像の内容を読み取ってタグ付けする [結果]
例:OCR (文字認識)
REFERENCE ASSEMBLY ImageCommon;
REFERENCE ASSEMBLY FaceSdk;
REFERENCE ASSEMBLY ImageEmotion;
REFERENCE ASSEMBLY ImageTagging;
REFERENCE ASSEMBLY ImageOcr;
@imgs =
EXTRACT
FileName string,
ImgData byte[]
FROM @"/images/ocr/{FileName}"
USING new Cognition.Vision.ImageExtractor();
@ocrs =
PROCESS @imgs
PRODUCE FileName,
Text string
READONLY FileName
USING new Cognition.Vision.OcrExtractor();
OUTPUT @ocrs
TO "/images/output/ocr_result.csv"
ORDER BY FileName
USING Outputters.Csv(outputHeader:true);
対象の画像ファイル
例:OCR (文字認識) [結果]
4. サービスの連携
連携の概要
Azure Event Hubs
Azure Storage Blobs
カスタム プログラム
.NET SDK
Azure CLI
Azure Portal
Azure
PowerShell
Azure Data Factory
Azure SQL DB
Azure SQL DW
Azure tables
オンプレミス DB
ADLS
AdlCopy
Azure Data Factory
Hadoop DistCp
PolyBase
SSIS
Azure Stream
Analytics
ADLA
QueryFederated Query
Federated Queries
Data Lake
Analytics
Azure のデータストアにクエリを実行する
✓ データを移動させずに各データスト
アにクエリを実行
✓ データの移動にかかる時間やコスト
を抑える
✓ クエリをプッシュダウンしてリモート側
で実行することも可能
Azure SQL
DW
Azure SQL DB
SQL Server
Azure VM
Azure Data
Lake Store
Azure
Storage Blobs
Federated Query Example
https://github.com/Azure/usql/tree/master/Examples/AmbulanceD
emos/AmbulanceDemos/6-Ambulance-FederatedQuery
CREATE DATA SOURCE
https://msdn.microsoft.com/en-us/azure/data-lake-analytics/u-
sql/create-data-source-u-sql
Federated Query の利用
ADLA アカウント SQL Server
SQL DB/DW
AdvWorks
U-SQL DB
AdvWorks_ExtDB
クレデンシャル
AdvWorks_Creds
外部データソース
AdvWorks_DS
テーブル
Customers
外部テーブル
CustomersExt
スキーマ指定無し
でクエリする場合
スキーマ定義済み
の外部テーブルに
クエリする場合
外部データソース
(CREATE DATA SOURCE)
• クレデンシャルと接続情報をもとにデータ
ソースを定義
• スキーマ未定義のため EXTRACT を
使ってクエリが可能
外部テーブル
(CREATE EXTERNAL TABLE)
• 外部データソースの参照先データにス
キーマを定義
• スキーマ定義済みのため SELECT で直
接クエリ可能
各データベースのテーブルに対して
T-SQL をパススルーで実行すること
も可能
SQL DW との連携 (PolyBase)
SQL DW の PolyBase 機能を使用して ADLS と直接接続が可能
① Azure AD でアプリの登録を行い、ID と Key を得る
② SQL DW でクレデンシャルの定義を作成
③ SQL DW で接続先 ADLS, ファイルフォーマットを定義
④ SQL DW で外部テーブルを作成
接続設定の手順
外部テーブル
実データ
T-SQL
SQL DW
ADLS https://docs.microsoft.com/ja-jp/azure/sql-data-warehouse/sql-data-warehouse-load-from-azure-data-lake-store
Azure Data Factory での連携例
ADLS のデータ入出力や U-SQL ジョブの実行を自動化可能
パイプラインの例
元データを ADLS に
コピー
U-SQL でデータを変換 U-SQL でデータを結合
データを SQL DW に
インポート
Data Factory から U-SQL に
パラメータを渡すことも可能
固定のパラメータ設定 or 動的パラメータ
(実行時の日付情報等) を U-SQL に渡
すことが可能
Event Hub 連携
Event Hub ADLSStream
Data
✓ Event Hub の “Capture” 機能で ADLS
に直接データを保存することが可能。
✓ ADLS 保存時に日付等に合わせて動的
なフォルダ階層を作成することが可能。
センサー、Web 等のストリームデータを Event Hub
を経由して ADLS に蓄積
コマンドラインを使ったADLA の操作: Azure CLI
az dla job submit --account アカウント名 --job-name ジョブ名 --script U-SQL スクリプトファイル
ジョブのサブミット
az dla job show --account アカウント名 --job-identity ジョブ ID
ジョブの詳細表示
シンプルなコマンドで ADLA の操作が可能。Windows, macOS, Linux で利用可能。
az dla job list --account アカウント名
ジョブの一覧表示
https://docs.microsoft.com/ja-jp/azure/data-lake-analytics/data-lake-analytics-get-started-cli2
コマンドラインを使った ADLS の操作: Azure CLI
az dls fs upload --account アカウント名 --source-path 元ファイル名 --destination-path アップロード先
ファイルのアップロード
az dls fs list --account アカウント名 --path フォルダ名
ファイルとフォルダのリスト表示
シンプルなコマンドで ADLS の操作が可能。Windows, macOS, Linux で利用可能。
az dls fs preview --account アカウント名 --path ファイル名 --length 読み取るバイト数
ファイルのプレビュー表示
https://docs.microsoft.com/ja-jp/azure/data-lake-store/data-lake-store-get-started-cli-2.0
コマンドラインを使った ADLS の操作: AdlCopy
Azure Storage Blob から ADLS へのデータコピー、ADLS 同士のデータコピーが可能。
または
AdlCopy.exe /Source Blob の URL /Dest ADLS へのコピー先 /sourcekey Blob の アクセスキー
ADLA ジョブを利用した並列コピーも可能 (高速なコピーが可能)
AdlCopy.exe /Source *** /Dest *** /sourcekey *** /Account ADLA アカウント /Units AU 数
できる
できない
Blob ADLS ADLS ADLS
ADLS Blob
https://docs.microsoft.com/ja-jp/azure/data-lake-store/data-lake-store-copy-data-azure-storage-blob
まとめ
• Azure Data Lake Store / Analytics のアーキテクチャを理解する
✓ ADLS にデータを書き込むとデータが分割され、分散配置される
✓ AU の数でジョブの並列度を設定できる
✓ AU とジョブにかかった時間でコストが決まる
• U-SQL の基本を理解する
✓ U-SQL は SQL に似ているが拡張機能がある
✓ カタログ (テーブル、ビュー、テーブル値関数) で管理しやすくできる
✓ Cognitive 機能を使って画像やテキストの分析ができる
• Azure Data Lake と他のサービスとの連携方法について理解する
✓ Federated Query は Data Factory など豊富な連携方法がある
参考情報
ドキュメント・ブログ
• Azure Data Lake
https://azure.microsoft.com/ja-jp/solutions/data-lake/
• Azure Data Lake Blog
https://blogs.msdn.microsoft.com/azuredatalake/
• U-SQL
http://usql.io/
• Github
https://github.com/Azure/USQL
イベント セッション動画
• いざ無制限のデータの彼方へ! ~ Azure Data Lake 開発の知識とベスト プラクティス ~
https://channel9.msdn.com/Events/de-code/2016/DBP-020
• あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビック データ処理基盤のアーキテクチャと実装
https://channel9.msdn.com/Events/de-code/2017/DI12
• あらゆるデータに価値がある!アンチ断捨離ストのための Azure Data Lake
https://channel9.msdn.com/Events/de-code/2017/DI07
• AI 時代を生き抜くためのビッグデータ基盤 ~リコーの実案件で見えたAzure Data Lakeの勘所~
https://youtu.be/zfD7d0Kqk_s
https://aka.ms/W66jgk
On Demand URL
https://www.slideshare.net/hidwatanabe/ai-azure-data-lake
SlideShare
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]

More Related Content

What's hot

分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise GraphYuki Morishita
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京Koichiro Sasaki
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門Daiyu Hatakeyama
 
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkAzure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkRyoma Nagata
 
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺めるMicrosoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺めるDaiyu Hatakeyama
 
Data x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラData x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラDaiyu Hatakeyama
 
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまでやりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまでDaisuke Masubuchi
 
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...Daiyu Hatakeyama
 
SQL Server 2019 とともに知る Microsoft Data Platform
SQL Server 2019 とともに知る Microsoft Data PlatformSQL Server 2019 とともに知る Microsoft Data Platform
SQL Server 2019 とともに知る Microsoft Data PlatformDaiyu Hatakeyama
 
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...Naoki (Neo) SATO
 
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要 第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要 Daiyu Hatakeyama
 
Data platformdesign
Data platformdesignData platformdesign
Data platformdesignRyoma Nagata
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...Insight Technology, Inc.
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1000人規模で使う分析基盤構築  〜redshiftを活用したeuc1000人規模で使う分析基盤構築  〜redshiftを活用したeuc
1000人規模で使う分析基盤構築 〜redshiftを活用したeucKazuhiro Miyajima
 
[DI08] その情報うまく取り出せていますか? ~ 意外と簡単、Azure Search で短時間で検索精度と利便性を向上させるための方法
[DI08] その情報うまく取り出せていますか? ~ 意外と簡単、Azure Search で短時間で検索精度と利便性を向上させるための方法[DI08] その情報うまく取り出せていますか? ~ 意外と簡単、Azure Search で短時間で検索精度と利便性を向上させるための方法
[DI08] その情報うまく取り出せていますか? ~ 意外と簡単、Azure Search で短時間で検索精度と利便性を向上させるための方法de:code 2017
 
Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)CLOUDIAN KK
 
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するトレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するTakahiro Inoue
 
PHP開発者のためのNoSQL入門
PHP開発者のためのNoSQL入門PHP開発者のためのNoSQL入門
PHP開発者のためのNoSQL入門じゅん なかざ
 

What's hot (20)

分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
 
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkAzure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
 
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺めるMicrosoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
 
Data x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラData x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラ
 
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまでやりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
 
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analyt...
 
SQL Server 2019 とともに知る Microsoft Data Platform
SQL Server 2019 とともに知る Microsoft Data PlatformSQL Server 2019 とともに知る Microsoft Data Platform
SQL Server 2019 とともに知る Microsoft Data Platform
 
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
 
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要 第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
 
Data platformdesign
Data platformdesignData platformdesign
Data platformdesign
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1000人規模で使う分析基盤構築  〜redshiftを活用したeuc1000人規模で使う分析基盤構築  〜redshiftを活用したeuc
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
 
Azure Search 大全
Azure Search 大全Azure Search 大全
Azure Search 大全
 
[DI08] その情報うまく取り出せていますか? ~ 意外と簡単、Azure Search で短時間で検索精度と利便性を向上させるための方法
[DI08] その情報うまく取り出せていますか? ~ 意外と簡単、Azure Search で短時間で検索精度と利便性を向上させるための方法[DI08] その情報うまく取り出せていますか? ~ 意外と簡単、Azure Search で短時間で検索精度と利便性を向上させるための方法
[DI08] その情報うまく取り出せていますか? ~ 意外と簡単、Azure Search で短時間で検索精度と利便性を向上させるための方法
 
Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)
 
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するトレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
 
PHP開発者のためのNoSQL入門
PHP開発者のためのNoSQL入門PHP開発者のためのNoSQL入門
PHP開発者のためのNoSQL入門
 

Similar to 【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]

【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)日本マイクロソフト株式会社
 
Spark Analytics - スケーラブルな分散処理
Spark Analytics - スケーラブルな分散処理Spark Analytics - スケーラブルな分散処理
Spark Analytics - スケーラブルな分散処理Tusyoshi Matsuzaki
 
Dat004 開発者に捧ぐ「sql server_2016_
Dat004 開発者に捧ぐ「sql server_2016_Dat004 開発者に捧ぐ「sql server_2016_
Dat004 開発者に捧ぐ「sql server_2016_Tech Summit 2016
 
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure aiGpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure aiShotaro Suzuki
 
Elastic7.12 release-new-features-on-0428
Elastic7.12 release-new-features-on-0428Elastic7.12 release-new-features-on-0428
Elastic7.12 release-new-features-on-0428Shotaro Suzuki
 
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~Naoki (Neo) SATO
 
Data Factory V2 新機能徹底活用入門
Data Factory V2 新機能徹底活用入門Data Factory V2 新機能徹底活用入門
Data Factory V2 新機能徹底活用入門Keisuke Fujikawa
 
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)日本マイクロソフト株式会社
 
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方linzhixing
 
OSS-DB Gold技術解説セミナー@db tech showcase 東京 2014
OSS-DB Gold技術解説セミナー@db tech showcase 東京 2014OSS-DB Gold技術解説セミナー@db tech showcase 東京 2014
OSS-DB Gold技術解説セミナー@db tech showcase 東京 2014Shigeru Hanada
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビックTech Summit 2016
 
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)Yosuke Katsuki
 
簡単!AWRをEXCELピボットグラフで分析しよう♪
簡単!AWRをEXCELピボットグラフで分析しよう♪簡単!AWRをEXCELピボットグラフで分析しよう♪
簡単!AWRをEXCELピボットグラフで分析しよう♪Yohei Azekatsu
 
できる!サーバレスアーキテクチャ
できる!サーバレスアーキテクチャできる!サーバレスアーキテクチャ
できる!サーバレスアーキテクチャazuma satoshi
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビックTech Summit 2016
 
20170714_MySQLドキュメントストア JSONデータ型&JSON関数 by 日本オラクル株式会社 MySQL GBU 山﨑由章
20170714_MySQLドキュメントストア JSONデータ型&JSON関数 by 日本オラクル株式会社 MySQL GBU 山﨑由章20170714_MySQLドキュメントストア JSONデータ型&JSON関数 by 日本オラクル株式会社 MySQL GBU 山﨑由章
20170714_MySQLドキュメントストア JSONデータ型&JSON関数 by 日本オラクル株式会社 MySQL GBU 山﨑由章Insight Technology, Inc.
 
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」Yosuke Katsuki
 

Similar to 【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編] (20)

Azure DataLake 大全
Azure DataLake 大全Azure DataLake 大全
Azure DataLake 大全
 
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
 
[Japan Tech summit 2017] DAL 003
[Japan Tech summit 2017] DAL 003[Japan Tech summit 2017] DAL 003
[Japan Tech summit 2017] DAL 003
 
Spark Analytics - スケーラブルな分散処理
Spark Analytics - スケーラブルな分散処理Spark Analytics - スケーラブルな分散処理
Spark Analytics - スケーラブルな分散処理
 
PostgreSQL 12の話
PostgreSQL 12の話PostgreSQL 12の話
PostgreSQL 12の話
 
Dat004 開発者に捧ぐ「sql server_2016_
Dat004 開発者に捧ぐ「sql server_2016_Dat004 開発者に捧ぐ「sql server_2016_
Dat004 開発者に捧ぐ「sql server_2016_
 
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure aiGpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
 
Elastic7.12 release-new-features-on-0428
Elastic7.12 release-new-features-on-0428Elastic7.12 release-new-features-on-0428
Elastic7.12 release-new-features-on-0428
 
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~
 
Data Factory V2 新機能徹底活用入門
Data Factory V2 新機能徹底活用入門Data Factory V2 新機能徹底活用入門
Data Factory V2 新機能徹底活用入門
 
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
 
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
 
OSS-DB Gold技術解説セミナー@db tech showcase 東京 2014
OSS-DB Gold技術解説セミナー@db tech showcase 東京 2014OSS-DB Gold技術解説セミナー@db tech showcase 東京 2014
OSS-DB Gold技術解説セミナー@db tech showcase 東京 2014
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビック
 
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
 
簡単!AWRをEXCELピボットグラフで分析しよう♪
簡単!AWRをEXCELピボットグラフで分析しよう♪簡単!AWRをEXCELピボットグラフで分析しよう♪
簡単!AWRをEXCELピボットグラフで分析しよう♪
 
できる!サーバレスアーキテクチャ
できる!サーバレスアーキテクチャできる!サーバレスアーキテクチャ
できる!サーバレスアーキテクチャ
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビック
 
20170714_MySQLドキュメントストア JSONデータ型&JSON関数 by 日本オラクル株式会社 MySQL GBU 山﨑由章
20170714_MySQLドキュメントストア JSONデータ型&JSON関数 by 日本オラクル株式会社 MySQL GBU 山﨑由章20170714_MySQLドキュメントストア JSONデータ型&JSON関数 by 日本オラクル株式会社 MySQL GBU 山﨑由章
20170714_MySQLドキュメントストア JSONデータ型&JSON関数 by 日本オラクル株式会社 MySQL GBU 山﨑由章
 
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
 

Recently uploaded

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Recently uploaded (8)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]

  • 1.
  • 2. 自己紹介 日本マイクロソフト株式会社 デジタルトランスフォーメーション事業本部 データ & クラウド AI アーキテクト技術部 クラウドソリューションアーキテクト 高木 英朗 (Takagi Hideo) • Data Platform Tech Sales Team Blog http://aka.ms/dpblog
  • 3. 本セッションのゴール • Azure Data Lake Store / Analytics のアーキテクチャを理解する • U-SQL の基本を理解する • Azure Data Lake と他のサービスとの連携方法について理解する
  • 4. Agenda 1. Azure Data Lake の概要 2. アーキテクチャの概要 3. U-SQL の基本 4. サービスの連携
  • 5. 1. Azure Data Lake の概要
  • 6. Azure Data Lake とは HDInsight Spark, Hive, Storm, Kafka Data Lake Analytics Data Lake Store WebHDFS YARN Azure Databricks ストレージ Azure Data Lake Store (ADLS) • どんなフォーマットのデータでも無制限に格納 できるストレージ • 分散型で分析処理パフォーマンスが高い • OSS との親和性 分析ツール Azure Data Lake Analytics (ADLA) • サーバレスの分析エンジン • 親しみのある SQL に近い U-SQL 言語 • 柔軟なスケールで大量データ処理が得意 • ジョブ単位の課金
  • 7. Azure Data Lake Store (ADLS) とは HDInsight Azure Data Lake Analytics 形式を問わず無制限に蓄積できる巨大なストレージ 様々なデータ分析処理に最適化 ADLS 業務アプリ ソーシャル デバイス クリックストリーム センサー 動画 Web リレーショナル Batch MapReduce Script Pig SQL Hive NoSQL HBase In-Memory Spark Predictive R Server Batch U-SQL 利用する 保存する
  • 8. Azure Data Lake Analytics (ADLA) とは ADLA Azure SQL DW Azure SQL DB Azure Storage Blobs ADLS SQL Server Azure VM サーバ レスの分析クエリ サービス きめ細かい分析処理を大量データに最適化 「U-SQL」クエリ言語を使用 @rows = EXTRACT name string, id int FROM “/data.csv” USING Extractors.Csv( ); OUTPUT @rows TO “/output.csv” USING Outputters.Csv(); 規定のストレージ (ADLS or Blob) だけでなく、SQL DW、SQL Server などにもクエリ実行が可能
  • 9. 料金の考え方 Azure Data Lake Analytics (ADLA) Azure Data Lake Store (ADLS) なし ¥ 224 / 時間 1 AU あたり 定常的にかかる費用 処理量に応じてかかる費用 ¥ 4.37 / 1GB / 月 データ容量 書き込み: ¥ 5.60 読み取り: ¥ 0.45 10万トランザクションあたり 例:米国東部 2 リージョン (2018/03/08 時点) ADLA: https://azure.microsoft.com/ja-jp/pricing/details/data-lake-analytics/ ADLS: https://azure.microsoft.com/ja-jp/pricing/details/data-lake-store/
  • 10. Azure Data Lake の作成 [+New] -> [Data + Analytics] -> [Data Lake Analytics] から ADLS も同時に作成可能 ADLA 名 リソースグループ リージョン 接続する ADLS 従量課金 or コミットメント ADLS 名 暗号化有無 従量課金 or コミットメント
  • 12. ADLS のアーキテクチャ 分散ストレージ • 書き込まれたファイルは最大 250MB のエクステントに 分割 • それぞれのエクステントは複数のデータノードに分散 • ファイルの読み書きは並列で実行されるので、 スループットが出やすい 耐障害性 • それぞれのエクステントは3つのレプリカを保持 • 参照はどのレプリカからも可能 • レプリカに障害があっても別のレプリカから復元 ファイル書き込み 1 2 3 4 5 レプリカ 1 書き込み レプリカ 2 レプリカ 3 コミット エクステント
  • 13. ADLS のファイルとエクステント サイズが大きいファイル 書き込み エクステント サイズが小さい複数ファイル 書き込み 1 エクステント サイズが小さい 1 ファイル 書き込み 1 エクステント エクステントの数が ADLA ジョブ実行時の並列度に影響する 同時に 1 つのタスクしか実行できない 同時に 2 つのタスク 1 つのタスクで 4 つのエクステントを処理 2 3 4 5 6 1 2 3 4 5 6 同時に 2 つのタスク 1 つのタスクで 4 つのエクステントを処理
  • 14. ADLA のジョブと Vertex ✓ ジョブの中のタスク (Vertex) ✓ ステージ (SuperVertex) = 同時に実行できるタスクのグループ ADLA から U-SQL ジョブのサブミット クエリや対象データをもとに実行計画を 作成。 分割されたエクステントの数に依存 同時に実行できるタスクのグループに まとめられる。 下のグループは上のグループの処理に 依存する タスク (Vertex) ステージ (SuperVertex)
  • 15. Analytics Unit (AU) ✓ AU = コンピュートリソースの単位 (2 CPU, 6 GB RAM *2018/3/8 現在) ✓ 1 AU は 1 タスク (Vertex) を担当する ✓ AU の数と実行時間でコストが決まる 前のステージでの必要なタ スクの処理 (クリティカルパ ス) が終ってから次のステー ジが実行される ジョブ (AU = 4) 完了 4 タスク (Vertex) ずつ 並列実行される 4 AU でも 2 タスク (Vertex) しか 並列実行できない ジョブの処理の順番 ステージ (SuperVertex)
  • 16. AU の割り当てと性能向上 並列で実行できる Vertex (タスク) 以上の AU を割り当てても性能向上しない 過剰な AU の割り当てをした場合 • AU を減らすことを検討 • 赤い線の分だけコストを支払うことになるが、試 用しているのは青い線の分のみ AU が足りない場合 • AU を増やすことを検討 ジョブ実行時間ジョブ実行時間 割り当てた AU 実行中に使用 している AU 10 0 5 AU 数
  • 17. AU と時間とコスト 割り当てた AU ジョブにかかった時間 AU 時間 a-1 10 3 時間 30 AU 時間 a-2 20 1.5 時間 30 AU 時間 a. AU を増やしたほうが良いケース 割り当てた AU ジョブにかかった時間 AU 時間 b-1 10 5 時間 50 AU 時間 b-2 20 4 時間 80 AU 時間 b. AU を増やすか検討が必要なケース 同じ金額でジョブの時間 を半分に短縮できる →増やす! 60 % のコスト増で 1 時 間のジョブ時間短縮 →増やす? ADLA の料金 = [割り当てた AU の数] x [時間] (x [単価])
  • 18. 実行計画や必要な AU の確認 Azure 管理ポータルや Visual Studio で実行計画、状況、診断結果を確認可能 実行しているジョブが何個の Vertex で実 行されているかを確認することが可能 AU 検討材料 ✓ いくつのジョブステージがあるか ✓ ジョブステージ内にいくつのタスクがあるか ✓ ジョブ実行時間 ✓ 診断結果の警告 ✓ etc AU が過剰に割り当てられていることを 警告
  • 20. U-SQL という言語 U-SQL で分析処理を記述し、 ADLA にサブミット。 分散処理の実行プランを自動 的に生成。 実行プランに基づいて、ノード が自動的に割り当てられ、処 理が実行される。 @rows = EXTRACT name string, id int FROM “/data.csv” USING Extractors.Csv( ); OUTPUT @rows TO “/output.csv” USING Outputters.Csv(); ✓ SQL ライクなシンプルなクエリ言語 ✓ C#, R, Python, Cognitive Services 等での拡張 ✓ スキーマ定義済み、未定義のどちらでもクエリ可能 SELECT … FROM … WHERE GROUP BY … HAVING JOIN OVER +
  • 21. スキーマ オン リード abe, 95, 46, 85, 85 itoh, 89, 72, 46, 76, 34 ueda, 95, 13, 57, 63, 87 emoto, 50, 68, 38, 85, 98 otsuka, 13, 16, 67, 100, 7 katase, 42, 61, 90, 11, 33 {"name" : "cat", "count" : 105} {"name" : "dog", "count" : 81} {"name" : "rabbit", "count" : 2030} {"name" : "turtle", "count" : 1550} {"name" : "tiger", "count" : 300} {"name" : "lion", "count" : 533} {"name" : "whale", "count" : 2934} xxx.xxx.xxx.xxx - - [27/Jan/2018:14:20:17 +0000] "GET /item/giftcards/3720 HTTP/1.1" 200 70 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:10.0.1) Gecko/20100101 Firefox/10.0.1" フォーマットを気にせ ずデータをためていく 使うときにはじめて データ構造を意識 @rows = EXTRACT ~~~ FROM ~~~ USING ~~~; @rows = SELECT ~~~ FROM ~~~ WHERE ~~~; データを集めてためておく 使うときにデータ構造を定義して処理する
  • 22. シンプルな U-SQL の例 (概要編のおさらい) @tweet = EXTRACT date string, time string, author string, tweet string, FROM “/Input/TwitterHistory.csv” USING Extractors.Csv(); @result = SELECT author AS author, COUNT(*) AS tweetcount FROM @tweet GROUP BY author; OUTPUT @result TO “/Output/TwitterAnalysis.csv” ORDER BY tweetcount DESC USING Outputters.Csv(); ① 保存されているファイルのフォー マットを読み取って、カラム名を 付与 ② 付与したカラム名を使ってクエリ を実行 ③ 結果を CSV 形式で出力
  • 23. C# 関数を利用した U-SQL (概要編のおさらい) @attribute = SELECT new SQL.ARRAY<string>(col1.Split(',')) AS y FROM @csv; @country = SELECT new SQL.ARRAY<string>(y[3].Split('=')) AS z FROM @attribute; @output = SELECT Region.ToUpper() AS NewRegion FROM @searchlog; 文字列を大文字に変換 [col1] の中をカンマで分割 U-SQL 内で C# 関数を使用することで柔軟な処理を実行することが可能 col1 col2 name=hideo,age=50,div=tech,country=jp Microsoft name=toshio,age=60,div=sales,country=us Microsoft こういう CSV ファイルがあったとして “jp”や”us”を取り出したい 4番目の要素を = で分割 →”jp” や “us” が取り出せる
  • 24. [ご参考] U-SQL のデータ型・集約関数・結合 ビルトインの集約関数 • AVG • ARRAY_AGG • COUNT • FIRST • LAST • MAP_AGG • MAX • MIN • STDEV • SUM • VAR データ型 Numeric byte, byte? sbyte, sbyte? int, int? uint, unint? long, long? decimal, decimal? short, short? ushort, ushort? ulong, unlong? float, float? double, double? Text char, char? string Complex MAP<K> ARRAY<K,T> Temporal DateTime, DateTime? Other bool, bool? Guid, Guid? Byte[] http://usql.io/ 結合 • INNER JOIN • LEFT or RIGHT or FULL OUTER JOIN • CROSS JOIN • SEMIJOIN • Equivalent to IN subquery • ANTISEMIJOIN その他、パラメータの利用やウィンドウ関数等詳細情報やチュートリアルは左記 URL を参照
  • 25. File Sets @rs = EXTRACT user string, id string, suffix string FROM "/input/{suffix}" USING Extractors.Csv(); /input /2017-01.log /2017-02.log /2017-03.log /2017-04.log /2017-05.log … @rs = EXTRACT user string, id string, date string FROM "/input/{date:yyyy}/{date:MM}/{date:dd}/dat.txt" USING Extractors.Csv(); 複数のファイルをまとめて読み込んで処理する /input/ /2017/01/01/dat.txt /2017/02/01/dat.txt /2017/03/01/dat.txt /2017/04/01/dat.txt /2017/05/01/dat.txt … suffix 列にファイル名 がそのまま入る 2017-01.log 2017-02.log 2017-03.log 2017-04.log 2017-05.log … date 列にフォルダ名 の年月日情報が入る 20170101 20170201 20170301 20170401 20170501 …
  • 26. File Sets の応用 @rs = EXTRACT user string, id string, Market string FROM "/input/{Market}_{*}" USING Extractors.Csv(); @us = SELECT * FROM @rs WHERE Market == “ja" ; /input /ja_data-01.log /ja_data-02.log /en_data-01.log /en_data-02.log /cn_data-01.log … ファイル名からデータを構築 フィルタ利用時に不要な I/O をかけずにスキャンが可能になり、性能が向上する WHERE 句で指定した条件に基づき、”ja” に マッチするファイルのみが読み込まれる。 パーティショニングに似たような動作が可能。 READ されるのは この 2 ファイルだけ
  • 27. U-SQL カタログ ➢ テーブル データを構造化し、分散配置 をコントロールすることができる RDBMS と同様のビュー機能 テーブルデータ型の値を返す 関数 CREATE VIEW V AS EXTRACT… CREATE VIEW V AS SELECT … CREATE TABLE T ( … ) INDEX I CLUSTERED ( … ) DISTRIBUTED BY …; CREATE FUNCTION F (@arg string = “default”) RETURNS @res [TABLE ( … )] AS BEGIN … @res … EN; ➢ ビュー ➢ テーブル値関数 (TVFs) スキーマを定義して、データの形式を分かるようにする
  • 29. 非構造化データと AI ~ Cognitive 拡張 Cognitive Services の学習済みモデルを使っ た AI 拡張機能を U-SQL で実行 イメージング: • 顔を検出する • 感情を検出する • 画像の内容を読み取ってタグ付けする • OCR (文字認識) テキスト: • キー フレーズ抽出 • 感情分析 ▼ビルトインの Cognitive 機能
  • 30. 例:画像の内容を読み取ってタグ付けする REFERENCE ASSEMBLY ImageCommon; REFERENCE ASSEMBLY FaceSdk; REFERENCE ASSEMBLY ImageEmotion; REFERENCE ASSEMBLY ImageTagging; REFERENCE ASSEMBLY ImageOcr; @imgs = EXTRACT FileName string, ImgData byte[] FROM @"/images/{FileName}.png" USING new Cognition.Vision.ImageExtractor(); @tags = PROCESS @imgs PRODUCE FileName, NumObjects int, Tags SQL.MAP<string, float?> READONLY FileName USING new Cognition.Vision.ImageTagger(); @tags_serialized = SELECT FileName, NumObjects, String.Join(";", Tags.Select(x => String.Format("{0}:{1}", x.Key, x.Value))) AS TagsString FROM @tags; OUTPUT @tags_serialized TO "/images/output/tags.csv" USING Outputters.Csv(outputHeader:true); 対象の画像ファイル
  • 32. 例:OCR (文字認識) REFERENCE ASSEMBLY ImageCommon; REFERENCE ASSEMBLY FaceSdk; REFERENCE ASSEMBLY ImageEmotion; REFERENCE ASSEMBLY ImageTagging; REFERENCE ASSEMBLY ImageOcr; @imgs = EXTRACT FileName string, ImgData byte[] FROM @"/images/ocr/{FileName}" USING new Cognition.Vision.ImageExtractor(); @ocrs = PROCESS @imgs PRODUCE FileName, Text string READONLY FileName USING new Cognition.Vision.OcrExtractor(); OUTPUT @ocrs TO "/images/output/ocr_result.csv" ORDER BY FileName USING Outputters.Csv(outputHeader:true); 対象の画像ファイル
  • 35. 連携の概要 Azure Event Hubs Azure Storage Blobs カスタム プログラム .NET SDK Azure CLI Azure Portal Azure PowerShell Azure Data Factory Azure SQL DB Azure SQL DW Azure tables オンプレミス DB ADLS AdlCopy Azure Data Factory Hadoop DistCp PolyBase SSIS Azure Stream Analytics ADLA QueryFederated Query
  • 36. Federated Queries Data Lake Analytics Azure のデータストアにクエリを実行する ✓ データを移動させずに各データスト アにクエリを実行 ✓ データの移動にかかる時間やコスト を抑える ✓ クエリをプッシュダウンしてリモート側 で実行することも可能 Azure SQL DW Azure SQL DB SQL Server Azure VM Azure Data Lake Store Azure Storage Blobs Federated Query Example https://github.com/Azure/usql/tree/master/Examples/AmbulanceD emos/AmbulanceDemos/6-Ambulance-FederatedQuery CREATE DATA SOURCE https://msdn.microsoft.com/en-us/azure/data-lake-analytics/u- sql/create-data-source-u-sql
  • 37. Federated Query の利用 ADLA アカウント SQL Server SQL DB/DW AdvWorks U-SQL DB AdvWorks_ExtDB クレデンシャル AdvWorks_Creds 外部データソース AdvWorks_DS テーブル Customers 外部テーブル CustomersExt スキーマ指定無し でクエリする場合 スキーマ定義済み の外部テーブルに クエリする場合 外部データソース (CREATE DATA SOURCE) • クレデンシャルと接続情報をもとにデータ ソースを定義 • スキーマ未定義のため EXTRACT を 使ってクエリが可能 外部テーブル (CREATE EXTERNAL TABLE) • 外部データソースの参照先データにス キーマを定義 • スキーマ定義済みのため SELECT で直 接クエリ可能 各データベースのテーブルに対して T-SQL をパススルーで実行すること も可能
  • 38. SQL DW との連携 (PolyBase) SQL DW の PolyBase 機能を使用して ADLS と直接接続が可能 ① Azure AD でアプリの登録を行い、ID と Key を得る ② SQL DW でクレデンシャルの定義を作成 ③ SQL DW で接続先 ADLS, ファイルフォーマットを定義 ④ SQL DW で外部テーブルを作成 接続設定の手順 外部テーブル 実データ T-SQL SQL DW ADLS https://docs.microsoft.com/ja-jp/azure/sql-data-warehouse/sql-data-warehouse-load-from-azure-data-lake-store
  • 39. Azure Data Factory での連携例 ADLS のデータ入出力や U-SQL ジョブの実行を自動化可能 パイプラインの例 元データを ADLS に コピー U-SQL でデータを変換 U-SQL でデータを結合 データを SQL DW に インポート Data Factory から U-SQL に パラメータを渡すことも可能 固定のパラメータ設定 or 動的パラメータ (実行時の日付情報等) を U-SQL に渡 すことが可能
  • 40. Event Hub 連携 Event Hub ADLSStream Data ✓ Event Hub の “Capture” 機能で ADLS に直接データを保存することが可能。 ✓ ADLS 保存時に日付等に合わせて動的 なフォルダ階層を作成することが可能。 センサー、Web 等のストリームデータを Event Hub を経由して ADLS に蓄積
  • 41. コマンドラインを使ったADLA の操作: Azure CLI az dla job submit --account アカウント名 --job-name ジョブ名 --script U-SQL スクリプトファイル ジョブのサブミット az dla job show --account アカウント名 --job-identity ジョブ ID ジョブの詳細表示 シンプルなコマンドで ADLA の操作が可能。Windows, macOS, Linux で利用可能。 az dla job list --account アカウント名 ジョブの一覧表示 https://docs.microsoft.com/ja-jp/azure/data-lake-analytics/data-lake-analytics-get-started-cli2
  • 42. コマンドラインを使った ADLS の操作: Azure CLI az dls fs upload --account アカウント名 --source-path 元ファイル名 --destination-path アップロード先 ファイルのアップロード az dls fs list --account アカウント名 --path フォルダ名 ファイルとフォルダのリスト表示 シンプルなコマンドで ADLS の操作が可能。Windows, macOS, Linux で利用可能。 az dls fs preview --account アカウント名 --path ファイル名 --length 読み取るバイト数 ファイルのプレビュー表示 https://docs.microsoft.com/ja-jp/azure/data-lake-store/data-lake-store-get-started-cli-2.0
  • 43. コマンドラインを使った ADLS の操作: AdlCopy Azure Storage Blob から ADLS へのデータコピー、ADLS 同士のデータコピーが可能。 または AdlCopy.exe /Source Blob の URL /Dest ADLS へのコピー先 /sourcekey Blob の アクセスキー ADLA ジョブを利用した並列コピーも可能 (高速なコピーが可能) AdlCopy.exe /Source *** /Dest *** /sourcekey *** /Account ADLA アカウント /Units AU 数 できる できない Blob ADLS ADLS ADLS ADLS Blob https://docs.microsoft.com/ja-jp/azure/data-lake-store/data-lake-store-copy-data-azure-storage-blob
  • 44. まとめ • Azure Data Lake Store / Analytics のアーキテクチャを理解する ✓ ADLS にデータを書き込むとデータが分割され、分散配置される ✓ AU の数でジョブの並列度を設定できる ✓ AU とジョブにかかった時間でコストが決まる • U-SQL の基本を理解する ✓ U-SQL は SQL に似ているが拡張機能がある ✓ カタログ (テーブル、ビュー、テーブル値関数) で管理しやすくできる ✓ Cognitive 機能を使って画像やテキストの分析ができる • Azure Data Lake と他のサービスとの連携方法について理解する ✓ Federated Query は Data Factory など豊富な連携方法がある
  • 45. 参考情報 ドキュメント・ブログ • Azure Data Lake https://azure.microsoft.com/ja-jp/solutions/data-lake/ • Azure Data Lake Blog https://blogs.msdn.microsoft.com/azuredatalake/ • U-SQL http://usql.io/ • Github https://github.com/Azure/USQL イベント セッション動画 • いざ無制限のデータの彼方へ! ~ Azure Data Lake 開発の知識とベスト プラクティス ~ https://channel9.msdn.com/Events/de-code/2016/DBP-020 • あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビック データ処理基盤のアーキテクチャと実装 https://channel9.msdn.com/Events/de-code/2017/DI12 • あらゆるデータに価値がある!アンチ断捨離ストのための Azure Data Lake https://channel9.msdn.com/Events/de-code/2017/DI07 • AI 時代を生き抜くためのビッグデータ基盤 ~リコーの実案件で見えたAzure Data Lakeの勘所~ https://youtu.be/zfD7d0Kqk_s