DBP-011_Apache Spark for Azure HDInsight ～新世代の Big Data 処理基盤～

すぐに使えるクラウド上の Hadoop / Spark です
 日本では東西両方のリージョンで利用可能
 豊富なクラスタータイプ
 Hadoop
 2.6.0 / 2.7.0 / 2.7.1
 HBase
 0.98.4 / 1.1.2
 Storm
 0.9.3 / 0.10.0
 Spark (プレビュー)
 1.5.2 / 1.6.0
 R Server on Spark (プレビュー)
 1.6.0
※ Premium プラン専用

サイズコア数メモリ容量 (GB)
ローカル SSD
容量 (GB)
データディスク
最大接続数
データディスク
最大 IOPS
D1 v2 1 3.5 50 2 2 x 500
D2 v2 2 7 100 4 4 x 500
D3 v2 4 14 200 8 8 x 500
D4 v2 8 28 400 16 16 x 500
D5 v2 16 56 800 32 16 x 500
D11 v2 2 14 100 4 4 x 500
D12 v2 4 28 200 8 8 x 500
D13 v2 8 56 400 16 16 x 500
D14 v2 16 112 800 32 32 x 500
D15 v2 20 140 1000 40 40 x 500
 DV2はDシリーズの進化型です。
 Xeon E5-2673 v3 (Haswell) 2.4GHz を搭載。
Turbo Boost Technology により最大3.2GHzで駆動されます。
 日本では今のところ東日本リージョンに配備。

IDEA で HDInsight 向けの Spark アプリを書けます
そのままジョブ投入も OK

Lightning-fast cluster computing

もともと Hadoop は Apache Nutch という
Web クローラーのプロジェクトから独立したもの
手分けしよう！
ディスク上の大量ファイルに対する分散並列処理に特化
クローラが
集めてきた
ファイル群
インデックス
生成大変…
一人じゃムリ

スループット: 高い
レイテンシも: 大きい

Our goal was to design a programming model that supports
a much wider class of applications than MapReduce, while
maintaining its automatic fault tolerance.
我々の目的は、 MapReduce が持つ耐障害性を維持しつつ、
より多様なアプリケーションをサポートする
プログラミングモデルを設計することでした。
http://spark.apache.org/research.html

In particular, MapReduce is inefficient for multi-pass
applications that require low-latency data sharing across
multiple parallel operations.
特に、MapReduce は複数の並列処理間で低遅延の
データ共有を行う多段アプリケーションでは非効率です。

• Iterative algorithms, including many machine learning algorithms
and graph algorithms like PageRank.
• Interactive data mining, where a user would like to load data into
RAM across a cluster and query it repeatedly.
• Streaming applications that maintain aggregate state over time.
• PageRank のようなグラフ処理や、多くの機械学習アルゴリズムを
含む、繰り返しのアルゴリズム。
• クラスタの複数ノード間に渡ってロードされたデータに対し、
繰り返しクエリを発行するような対話的データマイニング。
• ストリーミングアプリケーション。

https://www.cs.berkeley.edu/~matei/papers/2010/hotcloud_spark.pdf

Reduce
処理
Map
処理
Map
処理

ヘッドノード
ワーカー
ノード
Task
Tracker
ワーカー
ノード
Task
Tracker
ワーカー
ノード
Task
Tracker
 単一の JobTracker が
クラスタ全体のジョブを管理
（大規模クラスタでは
ここがネックになり得る）
 MapReduce 以外の処理を
動かすことは想定外。

Y A R N
ヘッドノード
ワーカーノードワーカーノード

HDInsight データノード
WASB
アプリケーションから
は HDFS に見える。
しかし、リモート
ストレージであり
性能特性は HDFS と
異なることに注意。
NativeAzure
FileSystem
001.log
002.log
003.log
004.log
005.log
NativeAzure
FileSystem
NativeAzure
FileSystem

コンテナ名 + BLOB 名
• Azure VM の「1ディスク60MB/s,500IOPS」はここから。
http://azure.microsoft.com/en-us/documentation/articles/storage-scalability-targets/

BLOB ストレージ
細かいファイルを多数
同時に読み書きする方
が、BLOB ストレージ
の性能を効果的に
引き出せます。

https://azure.microsoft.com/ja-jp/documentation/articles/storage-scalability-targets/
リージョン操作
スループット (Gbps)
IOPS
GRS / ZRS LRS
US
Read 20 30
20,000
Write 10 20
US以外
Read 10 15
Write 5 10
 GRS: 地理冗長 = 2リージョンにまたがる 6 多重複製。
 ZRS: ゾーン冗長 = 1リージョン内の複数DCにまたがる3 多重複製。
 LRS: ローカル冗長 = 1リージョン内での 3 多重複製。

ヘッドノードに
SSH でログイン
Livy による
REST API を
呼び出す
使いやすい
Jupyter Notebook
でお手軽に

https://azure.microsoft.com/ja-jp/documentation/articles/hdinsight-apache-spark-use-bi-tools/#tableau

https://azure.microsoft.com/ja-jp/documentation/articles/hdinsight-apache-spark-machine-learning-mllib-ipython/

ROOM I
Ask the Speaker のご案内
●本セッションの詳細は、EXPO 会場内
『Ask the Speaker』コーナー
Room I カウンタにてご説明させて
いただきます。是非、お立ち寄りください。
Ask the Speaker
EXPO会場MAP

【 Session ID 】
DBP-011
アンケートにご協力ください。
 上記 Session ID のブレイクアウトセッションに
チェックを入れて下さい。
 アンケートはお帰りの際に、受付でご提出ください。
マイクロソフトスペシャルグッズと引換えさせていただきます。

DBP-011_Apache Spark for Azure HDInsight ～新世代の Big Data 処理基盤～

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to DBP-011_Apache Spark for Azure HDInsight ～新世代の Big Data 処理基盤～

Similar to DBP-011_Apache Spark for Azure HDInsight ～新世代の Big Data 処理基盤～ (20)

More from decode2016

More from decode2016 (20)

Recently uploaded

Recently uploaded (8)

DBP-011_Apache Spark for Azure HDInsight ～新世代の Big Data 処理基盤～