Yifeng spark-final-public

Apache Spark の現在
Apache Spark – Present
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Yifeng Jiang
Solutions Engineer, Hortonworks Japan
2015/10/14

2 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
アジェンダ
• Apache Sparkとは何か?
– Introduction
– MLlib
– Spark SQL
– Spark Streaming
• Spark と Hadoop – HDP 2.3
• Hortonworks はSparkにフォーカス

Apache Sparkとは
分散型のコンピューティングエンジン
迅速かつ表現が多様なデータ処理に対応
反復的、インメモリ向けの設計
コンピューティングとインタラクティブ
データマイニング
Apacheオープンソースプロジェクト
表現が多様な多⾔語API
Java、Scala、Python、Rに対応
強⼒な抽象
データワーカーがデータに対して迅速に
反復可能：
•  ETL、機械学習、SQL、ストリーム処理、グラフ処理

Scala
Java
Python
API
Sparkコアエンジン Sparkコアエンジン
GraphX
Spark
SQL
Spark
Streaming
MLlib

基本的抽象：RDD（Resilient Distributed Datasets）
RDD
プリミティブとして分散コレクション
と連携
RDDの特性
•  クラスター全体に分散したオブジェクトの普
遍コレクション
•  並列変換（map、ﬁlterなど）によって構築
•  障害発⽣時に⾃動的に再構築
•  制御可能な持続性（例：RAMでのキャッシ
ング）
複数⾔語
開発者、パートナー、顧客の広範な連携
RDD
パーティション1
RDD
パーティション2
RDD
パーティション3ワーカーノード
ワーカーノード
ワーカーノード
RDD
論理 Spark
ドライバ

sc = new SparkContext
rDD =sc.textfile(“hdfs://…”)
rDD.filter(…)
rDD.Cache
rDD.Count
rDD.map
…
開発者
物理
書き込み
RDD
RDDは、クラスタ内に分散し、RAMまたはディスクに
キャッシュされるオブジェクトの集合である。これらは並列
変換によって作成され、障害発⽣時には⾃動的に再構築され、
不変である（変換のたびに新しいRDDが作成される）。

RDDを利⽤して開発者が実⾏できること
RDDオペレーション
変換
•  例：map、ﬁlter、groupBy、join
•  別のRDDからRDDを構築する簡単なオペ
レーション
アクション
•  例：count、collect、save
•  結果を返す、またはストレージに書き込む
その他のプリミティブ
•  アキュムレーター
•  ブロードキャスト変数
開発者
書き込み
RDD
オペレーション
書き込み
アキュムレーター

アクション
ブロードキャ
スト変数
変換

MLlib
機械学習ライブラリ
YARN
HDFS

Scala 
Java 
Python 
API
GraphX
Spark
SQL
Spark
Streaming
MLlib

機械学習とは
機械学習とは、データからコンセプト
を学習するアルゴリズムの研究。
データから学習し、明⽰的なプログラ
ムがなくても作動するコンピュータを
実現させる科学

機械学習例: ⾃然グループの検出
ビジネスのユースケース
•  顧客セグメンテーション
•  ニュース記事の分類
クラスタ番号
ID Total$ Age City
101 $200 25 SF 2
102 $350 35 LA 2
103 $25 15 LA 1
… … … … 1
1
2
2
2

機械学習例：商品のレコメンデーション
嗜好の予測：似通った“好み”の⼈間を特定
•  この商品を買っている人はこんな商品も買っています

機械学習の実装
機械学習の実装が複雑
•  ⾼度なアルゴリズム
•  ⼤量の繰返し計算が必要：Spark
のインメモリ処理と相性がいい
•  分散環境でスケール
•  パフォーマンスk-means clustering algorithm

機械学習のプリミティブ
Unsupervised Learning
Clustering (K-means)
Recommendation
Collaborative Filtering
-  alternating least squares
Dimensionality Reductions
- Principal component analysis (PCA) and singular
value decomposition (SVD)
Supervised Learning
Classification
- Naïve Bayes, Decision Tree, Random Forest,
Gradient Boosted Trees
Regression
- linear, logistic and Support Vector Machines
(SVMs)

MLlibによるレコメンデーション
MLlibを使ったレコメンデー
ション
•  ライブラリを利⽤
•  MLlibがSpark上に分散実⾏
•  よいパフォーマンス

SQL
SQLアクセスとデータフレーム
YARN
HDFS

Scala
Java
Python
API
GraphX
Spark
Streaming
MLlib
Spark
SQL

YARN
HDFS
Spark SQL
テーブル構造
テーブルおよび⾏との連携のために統合
SparkによるHiveクエリー
Spark SQL ContextはHiveに接続してHiveをクエ
リー可能
バインド
Python、Scala、Java、Rが対象
DataFrame
SQL処理を合理化 / 迅速化する新しい抽象
Sparkコアエンジン

Spark SQL
データフレームDSL Spark SQL
データフレームAPI
データソースAPI

ストレージ
DataFrameとは
データフレームは、RDD内のデータをテーブルとして
表現する
RDDは低レベルの抽象である
– RDDはバイトコード、DataFrameはJavaコード
として考える
データフレームのプロパティ
– データフレームはRDDにスキーマを追加する
– ユーザーによる積極的なクエリー最適化を可能に
する
– SQLのパワーをRDDに提供する
部門名前年齢
Bio H Smith 48
CS A Turing 54
Bio B Jones 43
Phys E
Witten
61
タプル
リレーショナル
ビュー
カラム指向ストレージ
ORCFile Parquet
非構造化データ
JSON CSV
テキスト Avro
カスタム
ブログ

データフレームは直感的
RDDの例
同等データフレームの例
部門名前年齢
Bio H Smith 48
CS A Turing 54
Bio B Jones 43
Phys E
Witten
61
部門別の平均年齢を求める

Sparkデータフレームは⾼速

Streaming
リアルタイムストリーム処理
YARN
HDFS

Scala
Java
Python
API
GraphX
Spark
SQL
MLlib
Spark
Streaming

Spark Streaming
ストリーミングへの対応
ライブマイクロバッチの⾼スループット、
フォールトトレラントな処理
複数の取り込みソース
Kafka、Flume、Twitter、ZeroMQ、Kinesis、
TCPソケット
Spark APIの再利⽤
マップ、削減、結合、ウィンドウなどの⾼レベ
ル機能による複雑なアルゴリズムの処理
データの持続性
ファイルシステム、データベース、ライブダッ
シュボードへの処理済みデータのプッシュ

Hortonworks Data Platform
& Hadoop
完璧な組み合わせ

HDP 2.3内のApache Spark 1.4.1
リソース管理
マルチテナントワークロードと予測可能なSLA
運⽤管理
デプロイや運⽤管理はAmbariを使⽤
SparkR*
RデータサイエンティストはSpark機械学習を活
⽤可能
場所を選ばない導⼊
LinuxまたはWindows、オンプレミスまたはクラ
ウド
クラウドでのセルフサービス
Microsoft Azure、Amazon Web Services、
Google Cloud Platform、OpenStack、Docker
への導⼊にはCloudbreakとAmbariを使⽤
アプリケーション
ガバナンスと統合
セキュリティ
オペレーション
YARN
HDFS

Scala
Java
Python
API
Spark
SQL
Spark
Streaming
MLlib GraphX

Sparkセキュリティ
Spark on YARNだけが Kerberos をサポート
Kerberos 認証を活⽤
Spark は HDFS and ORC からデータを読込み
HDFS ファイルパーミッション (またはRanger連携) は Spark ジョブにも適⽤
Spark がジョブを YARN キューに投⼊
YARN キュー ACL (またはRanger連携) が Spark ジョブにも適⽤
転送中のデータの暗号化
Spark は⼀定のカバーがあるが、すべてのチャンネルではない
LDAP 認証
Spark UIでの直接サポートはまだない, LDAPに接続するフィルターを使⽤

Ambariによるインストール
Select
Spark
Assign
nodes for
Spark
History
Server &
Spark Client
Add
Servic
e
Go to a
node with
Spark Client
Submit
spark
jobs
Hadoop
Admin
Spark
is
Ready
Spark
User

Spark on YARN
Spark が YARN をクラスタマネージャー
として利⽤
２つのモード: YARN-client か YARN-
cluster
YARN-client
•  ドライバがクライアントノードに
•  開発、デバッギングに有効
YARN-cluster
•  ドライバが YARN application master
(left)に
•  バッチや⾃動化したジョブに有効
Spark in HDP
Task Task
CacheExecutor
Spark Content
Driver Program
App Master
Monitoring UI
YARN RM
Worker Nodes
Task Task
CacheExecutor

ORCサポート
ORC
•  Hadoopワークロード向けの最⼩、最速のカラ
ム指向ストレージ
ORC in Spark
•  SparkからORCデータの読み書き
•  パーティション、フィルタプッシュダウンなど
の最適化もサポート
•  DataFrame サポートYARN：データオペレーティングシステム
HDFS

Sparkコア

Scala
Java
Python
ライブラリ

MLlib 
（機械学習）

Spark
SQL*

Spark
Streaming*

Hive

HBase

レファレンスアーキテクチャ
バッチソース
ストリーミング
ソース
レファレンス
データ
ストリーミング処理
Storm/Spark-Streaming
データパイプライ
ン
Hive/Pig/Spark
長期保存データ
ウェアハウス
Hive + ORC
データ
ディスカバリー
レポーティング
ビジネス
インテリジェンス
(BI)
アドホック／オン
デマンドソース
データサイエンス
Spark-ML, Spark-SQL
高度な分析
データソースデータ処理、保存や分析データアクセス

Hortonworksが 
重点を置く
Spark & Hadoopの完璧な組み合わせ
YARN
HDFS
Scala
Java
Python
API
SparkコアエンジンSparkコアエンジン
Spark
SQL
Spark
Streaming
MLlib GraphX
未来

Yifeng spark-final-public

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Yifeng spark-final-public

Similar to Yifeng spark-final-public (20)

More from Yifeng Jiang

More from Yifeng Jiang (16)

Recently uploaded

Recently uploaded (6)

Yifeng spark-final-public