[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake

* Gartner, Big Data (Stamford, CT.: Gartner, 2016), URL: http://www.gartner.com/it-glossary/big-data/

コスト
カルチャー
データの特徴
従来ビッグデータ
リレーショナル
(高度にモデル化された
スキーマ)
あらゆる
データ
(スキーマアジリティ)
高価
(ストレージと
コンピュート容量)
コモディティ
(ストレージと
コンピュート容量)
過去のレポーティン
グ
(リレーショナル代数学の利用)
インテリジェントな
アクション
(リレーショナル代数学に加え、機械
学習、グラフ、ストリーミング、イ
メージ処理を利用)

より多くの実験を行うため、データや分析を一層
活用する必要性
作成したソリューション
• 関係者全員のデータが置けるデータレイク
• 開発者が使えるツール
• 大規模な実験モデル間で協調するための機械学習ツール
結果
• Office, Xbox Live, Azure, Windows, Bing, Skype などチーム
を越えて社内で利用
• 1万人以上の開発者が様々なワークロードやシナリオを
実行
• エクサバイト級のデータを管理
2010 2011 2012 2013 2014 2015 2016
保存データ
Windows
SMSG
Live
Bing
CRM/Dynamics
Xbox Live
Office365
Malware Protection Microsoft Stores
Commerce Risk
Skype
LCA
Exchange
Yammer

ETL パイプライン
専用の ETL ツール (SSIS、など)
定義されたスキーマ
クエリ
分析結果
リレーショナル
業務アプリ
1. 目的とするレポートと分析を明らかにするためにエンドユーザー
の要求から始める
2. 対応するデータベースのスキーマとクエリを定義する
3. 必要なデータソースを特定する
4. 抽出-変換-読み込み（ETL）パイプラインを作成し、必要なデータ
を抽出し（キュレーション）、ターゲットとなるスキーマに変換
する（schema-on-write）
5. レポートを作成し、データを分析する
All data not immediately required is discarded or archived

• 全てのデータに潜在的な価値
• データの蓄積
• 定義されたスキーマなし—ネイティブフォーマットで保持
• クエリ時にスキーマが適用され、変換 (schema-on-read)
• アプリとユーザーがデータを見るときに適合
無制限に保持分析結果を確認
全てのソースから
データを収集
反復

観測
パターン
理論
仮説
何が起こる
のか？
どのように
実現できるのか？
予測分析
規範的分析
何が起こっ
たのか？
何故起きたのか？
記述的分析
診断分析
VALUE
トップダウン
(演繹的)
確認
理論
仮説
観測

データウェアハウスの構築
物理設計
ETL 開発
レポートと分析
の開発
インストールと
チューニング
レポートと分析設計
ディメンションの
モデリング
ETL 設計
インフラのセットアッ
プ
企業の戦略
を理解
データソース
ETL
BI と分析
データウェアハウス
要求の収集
ビジネス要求
技術要求

全てのデータの
取り込み
要求に関わらず
全てのデータ
の保持
スキーマ定義なしに
ネイティブフォーマットで
分析の実施
Hadoopのような
分析エンジンを使用
インタラクティブクエリ
バッチクエリ
機械学習
データウェアハウス
リアルタイム分析
Devices

• 特にアーカイブ目的のため、安価で、無制限の量のデータを任意の形式で格納する場所
• 後で使うかどうかわからないデータのコレクションを「もしもの場合に備えて」許可
• データのクエリを実行するまで、スキーマおよびデータの要件を定義せず、大規模なデータの
プールを記述する方法ー「ジャストインタイム」または「schema on read」
• EDW を補完し、EDWのデータソースとして扱うことができるーすべてのデータをキャプチャ
するが、EDW に関連するデータのみを渡す
• 特にデータ絞り込みのために高価な EDW リソース (ストレージと処理) を使用することから解放
• EDW のチームがデータをモデリングしロードする (クイックユーザーアクセス) のを待つことなく
データ探索の実行を許す
• 簡単にスケール

セキュア不正アクセスを防止するために非常にセキュアである (特に全てのデータが一ヶ所にある場合)。
ネイティブ
フォーマット
データの出所と系統を追跡するため、ネイティブフォーマットで格納されるデータを許可する必要あり。
複数の分析フレームワーク（バッチ、リアルタイム、ストリーミング、MLなど）をサポートする。
1 つの分析フレームワークでは、全てのデータと分析の全ての種類の作業はできない。
複数の分析
フレームワーク
詳細さすべての詳細データを格納可能。集計すると、詳細が失われる可能性があり。
スループット Hadoop、 Spark などのフレームワークを介して大規模な並列処理のために高いスループットを出す。
高信頼性非常に高い可用性と信頼性がある (永続的なデータの消失なし)。
スケーラブル
非常にスケーラブルである。すべてのデータを無期限に保存するときに、データボリュームを素早く追
加できる
全てのソース様々なソース（LOB/ERP、ログ、デバイス、ソーシャルネットワークなど）からデータを取り込める。

Azure Data Lake store
HDInsight & Azure Data Lake Analytics
Azure Data Lake
Service
無限にデータをストア・管理
生データを保存
高スループット、低いレイテンシの分析ジョブ
セキュリティ、アクセスコントロール

ネイティブフォーマットであらゆるデータを
保管
クラウド上の HADOOP FILE SYSTEM (HDFS)
エンタープライズ級
スケールに制限なし
分析ワークロードにパフォーマンスを最適化
Azure Data Lake
Store
ビッグデータ分析ワークロード
用のハイパースケールな
リポジトリ

クエリごとに支払い・スケール
Azure データソースにまたがる連合クエリ
エンタープライズ級
C# の表現力と SQL を統一する言語、U-SQL
スケールに制限なし
ADL STORE との連携に最適化
Azure Data Lake
Analytics
あらゆる規模のデータを処理
する、Apache YARN 上に構築
された伸縮自在な
分析サービス

何百万もの SQL と .NET 開発者にとって使い慣れた構文
命令型の C# と宣言型の SQL を統合
構造化、半構造化、非構造化データを統合
全てのデータに対して分散クエリをサポート
U-SQL
ビッグデータのための新しい
言語

U-SQL
ジョブ
ストレージ
ADL
Analytics
サービス
1
Azure
ポータルへ
ログイン
ADL Analytics ア
カウントを作成2
3
U-SQL
スクリプトを書き、
ADL Analytics ア
カウントへ
サブミット
4
U-SQL ジョブが
データセットを
読み書き
• ADL Store
• Azure Storage Blob
• …

U-SQL スクリプトの記述
U-SQL ジョブのサブミット
実行中のジョブのキャンセル
ジョブをサブミットするユーザーの作成
実行の統計を可視化 (コンピュート時間)
ジョブ管理チャートを可視化
Data Lake Analytics アカウントの作成

1. ジョブ管理:
成功・失敗・キャンセルした
ジョブに加えて、サブミット
した全てのジョブの数
2. 稼働状況:
ジョブごとにかかった
コンピュート時間

•ADL Store のデ
フォルトアカウ
ントを新規作成
する。または、
•既存の ADL store
アカウントに関
連づける (適切な
権限で)

ユーザーはADL
Analytics アカウント
および関連する ADL
Store アカウントの
両方に対して明示的に
プロビジョニングする
必要あり

ユーザーは、Data
Lake アカウントに対
する read、write、
または execute の
アクセス許可を明示
的に付与する必要
あり
（新規作成された
Data Lake アカウント
には自動的に設定）

キュー内のジョブの優先
順位：数値が低いほど優
先順位が高くなる
一度に実行できるコンピュー
ティングプロセスの最大数を
指定可能：並列処理の度合い
が高いとパフォーマンスが向
上するが、コストは高くなるジョブのコード
(U-SQL) を直接記
述可能

ジョブは
最初
“Queued”
の状態に
なり、実
行を待つ
ジョブ
の実行
がスケ
ジュー
ルされ
た後に、
ジョブ
ステー
タスは
“Runnin
g”にな
る
Queued Jobs can be cancelled

ジョブが完了
したら、最終
ステータスと
して
“Succeeded”
となる
入力・出
力 (結
果) が表
示される

 入力・出力ファイルは、
ダウンロードせずに直接
ポータル上でプレビュー参照が
可能
 最初の数行を表示
 カラム番号は自動で採番
 CSV とTSV 形式に対応

さまざまなソースから Azure Data Lake Store にデータを取り込み可能
Azure Event Hubs
Azure Storage Blobs
Custom programs
.NET SDK
CLI
Azure Portal
Azure PowerShell
Azure Data Factory
Azure SQL DB
Azure SQL DW
Azure tables
Table Storage
On-premises databases
SQL
ADL Store
ADL ビルトインコピーサービス
Azure Stream
Analytics
Azure Data Factory
Hadoop DistCp

Azure Data Lake Store から多数のターゲット/シンクに出力可能
Azure SQL DB
SQL
Azure SQL DW
Azure Tables
Table Storage
On-premises databases
Azure Data Factory
Apache Sqoop
Azure Storage Blobs
Custom programs
.NET SDK
CLI
Azure Portal
Azure PowerShell
Azure Data Factory
ADL Store
Hadoop DistCp

Azure Data Lake Store Azure BLOB ストレージ
目的
ビッグデータ分析ワークロードに
最適化されたストレージ
さまざまなストレージシナリオに対応する
汎用オブジェクトストア
ユースケース
バッチ、対話型、ストリーミング分析、
および機械学習データ
(ログファイル、IoT データ、
クリックストリーム、大規模なデータセット等)
あらゆる種類のテキストデータまたは
バイナリデータ
(アプリケーションバックエンド、
バックアップデータ、ストリーミング用
メディアストレージ、汎用データなど)
Structure 階層型ファイルシステムフラットな名前空間を使用するオブジェクトストア
サーバー側 API WebHDFS 互換の REST API Azure BLOB ストレージ REST API
データ操作 - 承認
POSIX アクセス制御リスト (ACL)。
Azure Active Directory ID に基づく ACL ：
ファイルおよびフォルダーレベルで設定可能。
アカウントレベルの承認：アカウントアクセスキー
アカウント、コンテナー、BLOB の承認：Shared
Access Signature キー
データ操作 - 認証 Azure Active Directory ID
共有シークレット (アカウントアクセスキーと
Shared Access Signature キー)
サイズ制限
アカウントサイズ、ファイルサイズ、
ファイル数に制限なし
あり
（https://docs.microsoft.com/ja-jp/azure/azure-
subscription-service-limits#storage-limits）

使用量価格/月
最初の 100 TB ¥3.98/GB
次の 100 TB ～ 1,000 TB ¥3.88/GB
次の 1,000 TB ～ 5,000 TB ¥3.78/GB
5,000 TB 超お問い合わせ
使用量料金
書き込み操作 (10,000 単位) ¥5.10
読み取り操作 (10,000 単位) ¥0.41
操作を削除無料
トランザクションサイズの制限無制限
使用量料金
分析単位 ¥204/時間

ADL .NET SDKs
Azure and ADL REST APIs
ADL
PowerShell
ADL XPlat CLI
ADL Node.js
SDK
ADL Java SDK
アプリケーション
ADL Python SDK

ジョブの進捗の
表示や再実行
クエリ
パフォーマンスの
チューニング
U-SQL クエリの
実行プランの表示
メタデータ
カタログの
参照
U-SQL スクリプト
(C# コード)の
作成
メタデータ
オブジェクトの
作成
U-SQL ジョブの
サブミットと
キャンセル
U-SQL と
C# コードの
デバッグ

Visual Studio は U-SQL
スクリプトの記述を完全
にサポート
編集機能として：
 IntelliSense
 シンタクスによる色付け
 シンタクスのチェック
 …
コンテキスト
メニュー

U-SQL に拡張されたC#のコードは、U-SQL Studioで直接コーディング・
実行が可能
カスタム
プロセッサー

Azureにログインし、Azure Data Lakeアカウントを指定

 U-SQL Studio で
クエリの論理
設計が可能
スキーマ
Join の状態
Filter プラン
Sort プラン

 行セットの観点でも
可視化され、変更が
適用

• ADL Analytics はメタデータ・オブジェクトを作成し、メタデータサービスに
よって維持されるカタログに保存
• DDL ステートメントによって作成されるテーブルや TVF (CREATE TABLE …)
• メタデータオブジェクトは Server Explorer で直接作成可能
Azure Data Lake Analytics アカウント
• データベース
– テーブル
– Table valued functions
– ジョブ
– スキーマ
• Linked storage

ADLA Account/Catalog
Database
Schema
[1,n]
[1,n]
[0,n]
tables views TVFs
Clustered
Index
partitions
C# Assemblies
C# Extractors
Data Source
C# Reducers
C# Processors
C# Combiners
C# Outputters
Ext. tables Procedures
Credentials
C# Applier
Table Types
Statistics
C# Fns C# UDAggC# UDTs

Visual Studio の Server
Explorer でメタデータ
カタログが閲覧可能
Server Explorer で可能：
1. テーブル、スキーマ、データ
ベースの作成
2. アセンブリの登録

Azure Data Lake Analytics Unit (ADLAU)
N の並行度 = N ADLAUs
1 ADLAU ≈ １つの VM、2 コアと 6 GB メモリ
対象アカウントの ADLAU 数

20
ADL Store アカウント (既定)ADL Analytics アカウント
ADL Store へのリンク
ジョブキュー
Azure Blob Store へのリンク
U-SQL カタログ
メタデータ
U-SQL カタログ
データ
ジョブストア

ジョブのフロントエンド
REST API
ジョブスケジューラ
コンパイラ
サービス
ジョブキュー
ジョブマネージャ
U-SQL カタログ
YARN
ジョブのサブミット
ジョブの実行
U-SQL ランタイム
Vertex の実行

C#
C++
Algebra
他のファイル
(システムファイル、デプロイリソース)
managed dll
Unmanaged dll
コンパイル出力 (ジョブフォルダ内部)
コンパイラ &
オプティマイザ
U-SQL メタデータ
サービス
Vertexへデプロイ

• ジョブはいくつかの
Vertexに分割される
• Vertexはそれぞれ実行する
必要がある
Input
Output
Output
6 ステージ
8 Vertexes
• Vertexはステージに展開される
– 各ステージにおけるVertexは、
同じデータに同じ処理をする
– あるステージのVertexは、前段階
のステージのVertexに依存する
• ステージ自体はacyclic graph
（非循環グラフ）によって展開される

Preparing
Queued
Running
Finalizing
Ended
(Succeeded, Failed,
Cancelled)
New
Compiling
Queued
Scheduling
Starting
Running
Ended
画面ジョブの状態
コンパイルサービスによりスクリプトを
コンパイル
ジョブがキューに入る
ジョブを開始するために十分な ADLAU
があるか？
YES ならジョブに ADLAU を割り当て
U-SQL ランタイムが1 以上の ADLAU で
コードを実行、あるいは出力を
ファイナライズ
ジョブが完了

画面上で指定して、
ノードの詳細を参照
可能

• パフォーマンス
チューニングや
ボトルネックの
特定やデバックの
ために、ジョブ
実行グラフを
再実行可能

• パフォーマンス
チューニングや
ボトルネックの
特定やデバック
のために、ジョブ
実行グラフを
再実行可能

• デバッグと
パフォーマンスの
問題を助けるため、
診断情報を表示

ジョブスケ
ジューラと
キュー
フロントエンド
サービス
オプティマイザ
Vertex
スケジューリング
コンパイラ
ランタイム
Visual Studio
ポータル / API

各四角形 = “Vertex”
全体の一部を表す
各SuperVertex (別名 “Stage”)
におけるVertexは同じデータ
の異なる部分に対し同様の
操作を行う
ジョブグラフとして
可視化

並列度の要求= 1
(1度に1つの vertex を動かす)
並列度の要求 = 4
(1度に4つの vertex を動かす)
次のステー
ジは、前の
ステージが
完了する前
に開始可能ステージ中にすべ
ての予約された処
理を並列して行う
のは不可

252 個の処理
Vertex の平均
実行時間
43 億行
データの読み込みと
書き込み
失敗した vertex … し
かし自動的にリトラ
イ
ステージ全体が成功
で完了

下の vertex が上の vertex
の出力に依存
クリティカルパス:
ジョブを最後まで実行し
続けるVertexの依存関係
チェーン。

どの Vertex を表示す
るか
全ての Vertex
クリティカルパス

Azure Data Lake Store は
Azure Active Directory (AAD) と統合
 保持されているデータ量
 保持されているデータの期間
 ファイルの数
 各ファイルのサイズ
 取り込みのスループット
数KBから数PBまで
シームレスに
スケール

 ADL Store の各ファイルはブロックに分割
 ブロックはバックエンドのストレージシステ
ム内の複数のデータノードに分散配置
 バックエンドのストレージデータノードの数
が十分にある場合、任意のサイズのファイル
が保存可能
 Azureでは、事実上無制限のリソースを持つ
バックエンドストレージを実行
 メタデータは、各ファイルについて保持
メタデータは無制限
Azure Data Lake Store file
…Block 1 Block 2 Block 2
Backend Storage
Data node Data node Data node Data node Data nodeData node
Block Block Block Block Block Block

 並列処理により、ADL Storeは高いスルー
プットを実現
 ADL Store上のファイルの読み込み処理は、
バックエンドの複数ノードに分散したスト
レージに対して並列に実行
読み込み操作
Azure Data Lake Store ファイル
…Block 1 Block 2 Block 2
バックエンドのストレージ
Data node Data node Data node Data node Data nodeData node
Block Block Block Block Block Block

 リージョン毎に各データオブジェクトのコ
ピーを３つ保持（３つの障害ドメイン、アッ
プグレードドメインをまたいで保持）
 作成や追加の操作は、他の２つのレプリカへ
も反映
 書き込みの操作は、全てのレプリカへの反映
が成功した時のみコミット
 読み込み処理は、レプリカのいずれかに対し
て実行
障害時でさえデータは消失しない
Replica 1
Replica 2 Replica 3
Fault/upgrade
domains
Write Commit

宣言型と拡張性の両方が備わっている言語
以下を統一することで開発を易しく：
ビッグデータにおける従来の SQL：
+ 宣言型
– 拡張が大変
ビッグデータにおける従来の
プログラミング言語：
+ 拡張可能
– 多くのコーディングが必要/
スケーラビリティ・パフォーマンス
の知識

SCOPE – マイクロソフト社内の
ビッグデータ言語
• SQL と C# の統合モデル
• 最適化とスケーリングモデル
• 1日に数十万ジョブを実行
Hive
• 複雑なデータ型 (Map, Array)
• テキストファイルのためData format alignment for text files
T-SQL/ANSI SQL
• 多くの SQL 機能をカバー (ウィンドウ関数、メタデータモデ
ル、など)

メリット
• ストア間で大容量のデータをネットワーク
経由で移動しない
• 物理的な場所に関係ない、データの単一
ビュー
• 全てのデータに単一のクエリ
• 各データストアは独立
• SQL 式をリモートの SQL ソースにプッシュ
• 射影
• フィルタ
• ジョイン
U-SQL
クエリ
クエリ
Azure
Storage Blobs
VM 内のAzure SQL
Azure
SQL DB
Azure Data
Lake Analytics
Azure
SQL Data Warehouse
Azure
Data Lake Storage

Interactive
Batch
Streaming
Machine Learning

処理読み込み保存
INSERT
OUTPUT
OUTPUT
SELECT…
FROM…
WHERE…
EXTRACT
EXTRACT
SELECT
SELECT
Azure
Data
Lake
Azure
Data
Lake
Azure
SQL
DB
Azure
Storage
Blobs
Azure
Storage
Blobs
行セット行セット

REFERENCE ASSEMBLY WebLogExtASM;
@rs =
EXTRACT
UserID string,
Start DateTime,
End DateTime,
Region string,
SitesVisited string,
PagesVisited string
FROM "swebhdfs://Logs/WebLogRecords.csv"
USING WebLogExtractor ();
@result = SELECT UserID,
(End.Subtract(Start)).TotalSeconds AS Duration
FROM @rs ORDER BY Duration DESC FETCH 10;
OUTPUT @result TO "swebhdfs://Logs/Results/top10.txt"
USING Outputter.Tsv();
• 型定義は C# の型定義と同じ
• データをファイルから抽出・読み込み
するときに、スキーマを定義
(schema-on-read)
Data Lake Store のファイル
独自形式を解析するカスタム関数
C# の関数
行セット:
（中間テーブル
の概念に近い。
ステートメント間
でデータの受け渡
し。）
TSV形式で読み取る関数

数値
byte, byte?
sbyte, sbyte?
int, int?
uint, unint?
long, long?
decimal, decimal?
short, short?
ushort, ushort?
ulong, unlong?
float, float?
double, double?
テキスト
char, char?
string
複合
MAP<K>
ARRAY<K,T>
時間 DateTime, DateTime?
その他
bool, bool?
Guid, Guid?
Byte[]
カテゴリ型

• 単純な場合は View
• パラメータつきの場合
は TVF
ビュー
CREATE VIEW V AS EXTRACT…
CREATE VIEW V AS SELECT …
• ユーザー定義オブジェクトは含められない (UDF、UDO)
• インライン化
Table-Valued Functions (TVF)
CREATE FUNCTION F (@arg string = "default")
RETURNS @res [TABLE ( … )]
AS BEGIN … @res = … END;
• パラメータつき
• 1つ以上の結果
• 複数のステートメントを含められる
• ユーザーコードを含められる (アセンブリ参照が必要)
• 常にインライン
• 指定した戻りスキーマに対するスキーマまたはチェックを推論

WebLogRecords.txt
INSERT INTO LogRecordsTable
SELECT UserId, Start, End ,
Region
FROM @rs;
テーブルのポピュレーション
要求されたフィールドのみ
@result =
SELECT UserID, (End.Subtract(Start)).TotalSeconds AS
Duration
FROM LogRecordsTable ORDER BY Duration DESC FETCH 10;
OUTPUT @result TO “swebhdfs://Logs/Results/Top10.Tsv”
USING Outputters.Tsv();
Top10.Tsv
テーブルに対し
直接クエリを実行
CREATE TABLE LogRecordsTable(UserId int, Start DateTime, End Datetime, Region string
INDEX idx CLUSTERED (Region ASC) PARTITIONED BY HASH (Region));
Azure Data Lake

• 認証管理
• データソース
• 接続文字列
• クエリ実行
• クエリ実行のための、
スキーマ連動
ADLA Account
youradlaaccount
SQL Server
yoursqlserver
SQL DB/DW
AdventureW
orksLT
U-SQL DB
AdventureWorksLT_External
DB
Credential
AdventureWorksLT_Creds
External DataSource
AdventureWorksLT_Creds
Table
Customers
External Table
CustomersExternal 外部テーブルに
スキーマ定義済み
のクエリ実行
スキーマ指定せず
にクエリ実行

ビルトインの
演算子、関数、
集合関数
C# 式 (SELECT 文の中)
ユーザー定義の集合関数 (UDAGG)
ユーザー定義の関数 (UDF)
ユーザー定義の演算子 (UDO)

• 演算子のカスタム拡張
• U-SQL によって
スケールアウト
• ユーザー定義の Extractor
• ユーザー定義の Outputter
• ユーザー定義の Processor
• 1行読み込み、１行作成
• パススルー vs. 変換
• ユーザー定義の Applier
• １行読み込み、０行以上を生成
• OUTER/CROSS APPLY とともに使用
• ユーザー定義の Combiner
• 行セットの結合 (ユーザー定義のジョインのように)
• ユーザー定義の Reducer
• n 行読み込み、 m 行生成 (通常は m<n)
• UDO インスタンスを使う明示的な U-SQL シンタクス
でスケールアウト (実行の一部として作成)：
• EXTRACT
• OUTPUT
• PROCESS
• COMBINE
• REDUCE

顔の解析
画像へのタグ付け
感情分析
OCR
テキストからの重要語句の抽出
テキストの感情分析
Azure Data Lake における Cognitive 機能

REFERENCE ASSEMBLY ImageCommon;
REFERENCE ASSEMBLY FaceSdk;
REFERENCE ASSEMBLY ImageEmotion;
REFERENCE ASSEMBLY ImageTagging;
REFERENCE ASSEMBLY ImageOcr;
@imgs =
EXTRACT FileName string, ImgData byte[]
FROM @"/images/{FileName:*}.jpg"
USING new Cognition.Vision.ImageExtractor();
// Extract the number of objects on each image and tag them
@objects =
PROCESS @imgs
PRODUCE FileName,
NumObjects int,
Tags string
READONLY FileName
USING new Cognition.Vision.ImageTagger();
OUTPUT @objects
TO "/objects.tsv"

REFERENCE ASSEMBLY [TextCommon];
REFERENCE ASSEMBLY [TextSentiment];
REFERENCE ASSEMBLY [TextKeyPhrase];
@WarAndPeace =
EXTRACT No int,
Year string,
Book string, Chapter string,
Text string
FROM @"/usqlext/samples/cognition/war_and_peace.csv"
USING Extractors.Csv();
@sentiment =
PROCESS @WarAndPeace
PRODUCE No,
Year,
Book, Chapter,
Text,
Sentiment string,
Conf double
USING new Cognition.Text.SentimentAnalyzer(true);
OUTPUT @sentinment
TO "/sentiment.tsv"

http://aka.ms/AzureDataLake
http://blogs.msdn.microsoft.com/azuredatalake/
https://channel9.msdn.com/Search?term=%22Data%20Lake%22#pubDate=year&ch9Search
https://channel9.msdn.com/Search?term=U-SQL#ch9Search
https://docs.microsoft.com/ja-jp/azure/data-lake-analytics/
https://docs.microsoft.com/ja-jp/azure/data-lake-store/
https://docs.microsoft.com/ja-jp/azure/data-lake-analytics/data-lake-analytics-u-sql-programmability-guide
https://msdn.microsoft.com/ja-jp/magazine/mt790200.aspx
https://msdn.microsoft.com/ja-jp/magazine/mt614251
https://docs.com/dahatake/7731/azure-data-lake-u-sql
http://aka.ms/adlfeedback
https://social.msdn.microsoft.com/Forums/azure/en-US/home?forum=AzureDataLake

• Data Lake の概念と役割
• 必要とされるまで、ネイティブフォーマットのまま大量の生データを
保持し続けるリポジトリ
• Azure Data Lake の構成
• Data Lake Store：ビッグデータの分析ワークロード用のハイパースケールな
リポジトリ
• Data Lake Analystics：あらゆる規模のデータを処理する、
伸縮自在な分析サービス
• Azure Data Lake の利用方法
• U-SQL：宣言型の SQL と命令型の C# とのハイブリッド言語
• 外部データソースへの分散クエリ、Cognitive Services との連携も可能
ビッグデータ分析も as a Service へ

[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake

Similar to [DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake (20)

More from de:code 2017

More from de:code 2017 (20)

Recently uploaded

Recently uploaded (7)

[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake