(LT)Spark and Cassandra

©2015 DataStax Conﬁdential. Do not distribute without consent.
1
DataStax

原沢滋

Apache
Sparkがリアルタイム分析で

NOSQLのApache
Cassandraに出会った。(ウルルン風)
Hadoop
/
Spark
Conference
Japan
2016

Data
Science
at
Scale

2009

x
Apache Cassandraとは
分散オペレーショナル・データベース
Apache
Cassandra
とは

Amazon
Dynamo
の分散ハッシュ
テーブル（DHT）と、Google
BigTable

のKVSの２つの特徴を併せ持つビッ
グデータ用分散データベース

•  Amazon
DynamoとGoogle
Bigtableの良い点を持つ

•  高速パフォーマンスとリニアな拡張

•  SPOF（Single
Point
of
Failure）がない、簡単に24時間
x
365
日ダウンさせないで運用が可能

•  完全な分散

•  柔軟なNoSQLデータモデル(スキーマーレス！）

•  シンプルな運用管理

•  SQL
ライクな言語CQLをサポートしている

•  様々な無償ツールとドライバ/コネクタを持つ

•  様々な整合性を選ぶ事が可能(CAP定理,
BASE)

+

OLTP

(RDBMS)

DWH

(RDBMS)

Cassandra

(NOSQL)

OLTP

(RDBMS)

DWH

(RDBMS)

Hadoop/

Spark

分析・データベース

オペレーショナル

データベース

既存システム(RDB)
新システムへの要求

＊データ量

＊パフォマンス

＊柔軟性

＊可用性

＊値段
分析・データベース


データベース

既存システム(RDB)
新システム(NoSQL)
今までRDB
では不可能、又は実現するのに

コストが膨大にかかった領域
Cassandra(NOSQL)とHadoop/Sparkの位置付け

Spark
Streaming

Near
Real-‐Zme

SparkSQL

Structured
Data

MLLib

Machine
Learning

GraphX

Graph
Analysis

Sparkは大量データをスキャンするのが得意

CREATE TABLE raw_weather_data (!
wsid text, !
year int, !
month int, !
day int, !
hour int, !
temperature double, !
dewpoint double, !
pressure double, !
wind_direction int, !
wind_speed double, !
sky_condition int, !
sky_condition_text text, !
one_hour_precip double, !
six_hour_precip double, !
PRIMARY KEY ((wsid), year, month, day, hour)!
) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC, hour DESC);!
Cassandra
は大量データを集めるのが得意です

Spark
Streaming

Near
Real-‐Zme

SparkSQL

Structured
Data

MLLib

Machine
Learning

GraphX

Graph
Analysis

Cassandra は大量データを集めるのが得意です
Sparkは大量データをスキャンするのが得意

Spark
Streaming

Near
Real-‐Zme

SparkSQL

Structured
Data

MLLib

Machine
Learning

GraphX

Graph
Analysis

wsid text, !
year int, !
month int, !
day int, !
hour int, !
dewpoint double, !
pressure double, !
Spark Connector!
Cassandra と Sparkが出会った

Spark
Streaming

Near
Real-‐Zme

SparkSQL

Structured
Data

MLLib

Machine
Learning

GraphX

Graph
Analysis

wsid text, !
year int, !
month int, !
day int, !
hour int, !
dewpoint double, !
pressure double, !
Spark Connector!
リアルタイム

分析

データ
分析結果
検索結果
分析結果
分析結果
オペレーショナルデータ
Apache
Spark
と Apache
Cassandra

Store
a
ton
of
data
Analyze
a
ton
of
data

Apache
Spark
と
Apache
Cassandra

大量データをスキャンして

高速に集約、分析するのが得意
大量データをスキャンして

集約、分析するのが苦手
高速に、安全に大量のデータを

集めてくるのが得意
大量データを集めてくるのは

基本はバッチ処理
得意分野x得意分野
不得意分野を補う

Cassandraで分散された各ノードでSparkも動く

分散データを各
ノードで分析する 
パラレル処理
を行う事が可能
各ノードにCassandraとSpark

Apache
Spark
と
Apache
Cassandra

ETL不要！！（オペレーションと分析の分離）

オペレーション


環境
分析環境
双方向レプリケーション
Apache
Spark
と
Apache
Cassandra

SPARK
Cassandra
Connector
h[ps://github.com/datastax/spark-‐cassandra-‐connector

(LT)Spark and Cassandra

More Related Content

What's hot

Viewers also liked

Similar to (LT)Spark and Cassandra

More from datastaxjp

Recently uploaded

(LT)Spark and Cassandra