初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜

初めてのSparkStreaming
~Kafka+SparkStreamingの紹介~
2015.09.09
R&D Team: tanaka.yuichi

自己紹介とか
金融系・組み込み系・コミュニティサービス・ゲーム・広告等の各システムを経てDMMへ。
DMM.comラボにおいて、検索システムの刷新、レコメンドエンジンの新規開発など、基
盤技術の開発を担当しております。
サーバーサイド、フロントエンド、ミドルウェア、インフラと領域問わず、提案から構築・実
装まで幅広くやらせてもらっています。その他OSSのcontributor等もやっております。
株式会社 DMM.comラボ
CTO室

こんなのやったりしてます
リアルタイムなトレンドToアイテムのレコメンド

メニュー
• SparkStreamingの概要
• Kafkaの概要
• DMMでの構成サンプル
• ちょっとだけコード
• パフォーマンスの話と困りごと・ハマりどころ
今日話そうと思ってる事

SparkCoreについての説明
Cluster Manager
Yarn
Mesos
Data Source
Stream
HDFS
Cassandra

SparkDStreamの説明
RDDsのまとまりをDStreamとして扱います
RDDと似た関数を持っていて、下記のようなStreamデータを
n秒で分けてバッチ処理をする仕組み

SparkStreamingのInputについて
Basic Source
SocketTextStream(Tcp)
FileStream(HDFS,S3)
Advanced Source
Twitter
Kafka
Kinesis
Flume
今日はKafka+Streamingの話

Kafkaの簡単な紹介
Apache Kafka
Pull型のキューイングシステム
• 高速
• スケーラブル
• 耐久性
• 分散システム

Group2
Kafkaの簡単な紹介
TopicA#partition0
TopicA#partition1
TopicA#partition2
msg
Consumer1#group1
Consumer2#group1
Consumer3#group2
Group1
Brokers
Consumers

DMMで何をやってるのか

余談・蛇足・閑話休題
DMM × 行動解析
Σ( ꒪⌓꒪)え“！！
人にされて嫌な事を人にしたらダメってばっちゃが言ってた

DMMのSparkStreaming周辺の図
概要

ちょっとだけコード(KafkaのStream作成部分）
object ActivitySummary{
def main(args: Array[String]){
val conf = new SparkConf().setAppName("ActivitySummary")
val ssc = new StreamingContext(conf,Seconds(5))
val kafkaParams = Map[String,String](“metadata.broker.list” -> “172.27.xxx.xx:9092,・・・")
val kafkaStream =
KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParams,Se
t("raw_tracking"))

ちょっとだけコード(集計処理の抜粋）
//中間データからPVを数えるよ！
val pv = middle_data
.filter(_._1.contains("_pv_"))
.map(x => x._1.substring(0,x._1.lastIndexOf("_")))
.countByValue()
//pvの移動平均用
val window_pv = middle_data
.filter(_._1.contains("_pv_"))
.map(x => "window_" + x._1.substring(0,x._1.lastIndexOf("_")))
.countByValueAndWindow(Seconds(60),Seconds(5))
//中間データからuuの重複排除
var uu = middle_data
.filter(_._1.contains("_uu_"))
.map(x => x._1)
.transform(rdd => rdd.distinct())
.map(x => x.substring(0,x.lastIndexOf("_")))
.countByValue()

ちょっとだけコード(Streamingからの書き出し抜粋）
class KafkaProducer private(brokerList:String){
val props:Properties = new Properties()
props.put("metadata.broker.list",brokerList)
props.put("serializer.class", "kafka.serializer.StringEncoder")
props.put("request.required.acks", "1")
val config:ProducerConfig = new ProducerConfig(props)
val producer:Producer[String,String] = new Producer[String,String](config)
def send(topicName:String,msg:String){
val data:KeyedMessage[String,String] = new KeyedMessage[String,String](topicName,msg)
producer.send(data)
}
def close(){}
}
object KafkaProducer{
private val kProducer = new KafkaProducer(“172.27.100.14:9092,・・・ ")
def getInstance():KafkaProducer ={ kProducer }
def apply():KafkaProducer ={ getInstance }
}

パフォーマンスの話
そもそもSparkStreamingのパフォーマンスってどう見るの？

困った話
Spark1.3でkafkaのdirectStream使うとReceiverStatisticsが出ない（1.4で直ってる？）
MaxRatePerPartitionの設定がし辛い

Kafka+Streamingのパフォーマンスで詰まった話
spark-submitコマンドでStreamingのjarを投げる際、２つのexecutorが作成されます。
Driver
Executor
Executor
Kafka#partition0
Kafka#partition1
Kafka#partition2
Kafka#partition3
Kafka#partition4
--executor-cores 1 #各Executorに割り当てるCore数
--num-executors 2 #Executor自体の数

対応例
Driver
Executor
Executor
Kafka#partition0
Kafka#partition1
Kafka#partition2
Kafka#partition3
Kafka#partition4
--executor-cores 1 #各Executorに割り当てるCore数
--num-executors 5 #Executor自体の数
Executor
Executor
Executor

そもそもパフォーマンスを見ようと思って困った話
CDHのYARNアプリケーション画面
SparkStreaming
のアプリ
Sparkのアプリ

そもそもパフォーマンスを見ようと思って困った話
CDHのYARNアプリケーション画面（チャート）
色々なチャート
が見れる
1つのjobにどれだけ時
間がかかったか？
Streamingアプリ
通常のSparkアプリ

以上
2015.09.09
R&D Team: tanaka.yuichi

初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜

More Related Content

What's hot

Viewers also liked

初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜

Editor's Notes