マイクロソフトは より効率的、かつ大量のデータを使ったデータ分析のための基盤を急ピッチで拡充しています。
分析自体やデータ準備の前処理における手段の1つとして使って頂くことを想定している各種製品・サービスについて説明します。
具体的には、R の並列実行環境である Microsoft R Server、Power BI、並列処理基盤である Azure Data Lake Analytics、Azure Machine Learning を取り上げます。
15. Hadoopのアーキテクチャ概要
HadoopのDataNode
Data
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
DFS Block1
DFS Block1
DFS Block1
DFS Block2
DFS Block2
DFS Block2
DFS Block3
DFS Block3
DFS Block3
Map
Map
Map
Reduce
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
15
Result
41. Google File Systemのアーキテクチャ
Application
GFS クライアント
GFS chunkserver
Linux file system
GFS chunkserver
Linux file system
GFS master
chunk 2ef0
/foo/bar
File namespace
chunk data
chunk handle, byte range
file name, chunk index
chunk handle, chunk locations
Instructions to chunkserver
Chunkserver state
Control messages
Data messages
41
42. Google File System構成
GFS Master Chunk Server Chunk Server Chunk Server Chunk Server Chunk Server
Chunk 1
クライアントクライアント
Chunk 2 Chunk 3 Chunk 1 Chunk 2
Chunk 1 Chunk 2 Chunk 3 Chunk 1 Chunk 2
Chunk 1 Chunk 2 Chunk 3 Chunk Chunk 2
Chunk Server
Chunk 3
Chunk 3
Chunk 3
ファイル
42