Submit Search
Upload
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
•
16 likes
•
5,059 views
S
sugiyama koki
Follow
Spark Streamingを使用して、ウィンドウ集計をやってみました。
Read less
Read more
Technology
Report
Share
Report
Share
1 of 36
Recommended
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
Junichi Noda
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Junichi Noda
Spark streamingを使用したtwitter解析によるレコメンドサービス例
Spark streamingを使用したtwitter解析によるレコメンドサービス例
Junichi Noda
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Junichi Noda
Spark GraphX で始めるグラフ解析
Spark GraphX で始めるグラフ解析
Yosuke Mizutani
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
Recommended
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
Junichi Noda
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Junichi Noda
Spark streamingを使用したtwitter解析によるレコメンドサービス例
Spark streamingを使用したtwitter解析によるレコメンドサービス例
Junichi Noda
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Junichi Noda
Spark GraphX で始めるグラフ解析
Spark GraphX で始めるグラフ解析
Yosuke Mizutani
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
Sparkストリーミング検証
Sparkストリーミング検証
BrainPad Inc.
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
DB Tech showcase Tokyo 2015 Works Applications
DB Tech showcase Tokyo 2015 Works Applications
2t3
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境
yuichi_komatsu
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Kazutaka Tomita
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
chibochibo
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
Spark shark
Spark shark
Tsuyoshi OZAWA
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
鉄平 土佐
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
Nagato Kasaki
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Kazuki Taniguchi
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
Watson summit 2016_j2_5
Watson summit 2016_j2_5
Tanaka Yuichi
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析
Tanaka Yuichi
本当にあったApache Spark障害の話
本当にあったApache Spark障害の話
x1 ichi
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
Amazon Web Services Japan
サーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalk
Hirokazu Ouchi
Gis tools for hadoopを用いたビッグデータ処理の検証
Gis tools for hadoopを用いたビッグデータ処理の検証
Kazutaka ishizaki
More Related Content
What's hot
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
Sparkストリーミング検証
Sparkストリーミング検証
BrainPad Inc.
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
DB Tech showcase Tokyo 2015 Works Applications
DB Tech showcase Tokyo 2015 Works Applications
2t3
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境
yuichi_komatsu
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Kazutaka Tomita
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
chibochibo
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
Spark shark
Spark shark
Tsuyoshi OZAWA
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
鉄平 土佐
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
Nagato Kasaki
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Kazuki Taniguchi
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
Watson summit 2016_j2_5
Watson summit 2016_j2_5
Tanaka Yuichi
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析
Tanaka Yuichi
本当にあったApache Spark障害の話
本当にあったApache Spark障害の話
x1 ichi
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
Amazon Web Services Japan
What's hot
(20)
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkストリーミング検証
Sparkストリーミング検証
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
DB Tech showcase Tokyo 2015 Works Applications
DB Tech showcase Tokyo 2015 Works Applications
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Spark shark
Spark shark
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
Watson summit 2016_j2_5
Watson summit 2016_j2_5
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析
本当にあったApache Spark障害の話
本当にあったApache Spark障害の話
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
Viewers also liked
サーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalk
Hirokazu Ouchi
Gis tools for hadoopを用いたビッグデータ処理の検証
Gis tools for hadoopを用いたビッグデータ処理の検証
Kazutaka ishizaki
Hadoopによる空間ビッグデータ処理の試み
Hadoopによる空間ビッグデータ処理の試み
Kazutaka ishizaki
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
Sotaro Kimura
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
Viewers also liked
(6)
サーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalk
Gis tools for hadoopを用いたビッグデータ処理の検証
Gis tools for hadoopを用いたビッグデータ処理の検証
Hadoopによる空間ビッグデータ処理の試み
Hadoopによる空間ビッグデータ処理の試み
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Similar to Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
Mitsutoshi Kiuchi
Spark meetup 2015_agenda
Spark meetup 2015_agenda
Cloudera Japan
Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題
Takeshi Yamamuro
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
LXDのすすめ
LXDのすすめ
智之 大野
【JAWS UG 山形】ランサーズでのAWS活用事例
【JAWS UG 山形】ランサーズでのAWS活用事例
Yuki Kanazawa
Apache spark 2.3 and beyond
Apache spark 2.3 and beyond
NTT DATA Technology & Innovation
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
Yahoo!デベロッパーネットワーク
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
yuichi_komatsu
Spark SQL - The internal -
Spark SQL - The internal -
NTT DATA OSS Professional Services
20170111 macnica networks-nohara_rancher_usecase
20170111 macnica networks-nohara_rancher_usecase
Minehiko Nohara
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
NTT DATA Technology & Innovation
Apache Sparkについて
Apache Sparkについて
BrainPad Inc.
勉強会20140319 rspec_capybara
勉強会20140319 rspec_capybara
Shugo Numano
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
ソーシャルアプリを分析してみた
ソーシャルアプリを分析してみた
Drecom Co., Ltd.
第2回名古屋SoftLayer会勉強会 Racemiによるクラウド移行
第2回名古屋SoftLayer会勉強会 Racemiによるクラウド移行
Kazumasa Sasazawa
Spark Streaming + Amazon Kinesis
Spark Streaming + Amazon Kinesis
Yuta Imai
MariaDB 10.3から利用できるSpider関連の性能向上機能・便利機能ほか
MariaDB 10.3から利用できるSpider関連の性能向上機能・便利機能ほか
Kentoku
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Ryuji Tamagawa
Similar to Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
(20)
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
Spark meetup 2015_agenda
Spark meetup 2015_agenda
Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LXDのすすめ
LXDのすすめ
【JAWS UG 山形】ランサーズでのAWS活用事例
【JAWS UG 山形】ランサーズでのAWS活用事例
Apache spark 2.3 and beyond
Apache spark 2.3 and beyond
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Spark SQL - The internal -
Spark SQL - The internal -
20170111 macnica networks-nohara_rancher_usecase
20170111 macnica networks-nohara_rancher_usecase
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
Apache Sparkについて
Apache Sparkについて
勉強会20140319 rspec_capybara
勉強会20140319 rspec_capybara
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
ソーシャルアプリを分析してみた
ソーシャルアプリを分析してみた
第2回名古屋SoftLayer会勉強会 Racemiによるクラウド移行
第2回名古屋SoftLayer会勉強会 Racemiによるクラウド移行
Spark Streaming + Amazon Kinesis
Spark Streaming + Amazon Kinesis
MariaDB 10.3から利用できるSpider関連の性能向上機能・便利機能ほか
MariaDB 10.3から利用できるSpider関連の性能向上機能・便利機能ほか
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Recently uploaded
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
Recently uploaded
(8)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
1.
Spark Streaming を使ってみた Ver 1.0 twitterリアルタイムトレンドランキング 2016年5月30日 Copyright
© Skywill inc. All Rights Reserved.
2.
Copyright © Skywill
inc. All Rights Reserved. メンバー紹介 2 杉山項紀 金ヨル ・職業 SE ・役職 リーダ ・java歴10年 ・mac歴1年 ・バナナきらい ・職業 SE ・役職 メンバー ・java歴5年 ・日本歴4年 ・金曜日の夜は僕の日
3.
Copyright © Skywill
inc. All Rights Reserved. 目的 3 Spark Streamingを使用して、 ウィンドウ集計をやってみる。
4.
Copyright © Skywill
inc. All Rights Reserved. アジェンダ 4 1. Sparkって何? 2. Spark Streamingとは? 3. 実践 4. 実践のまとめ
5.
Copyright © Skywill
inc. All Rights Reserved. アジェンダ 5 1. Sparkって何? 2. Spark Streamingとは? 3. 実践 4. 実践のまとめ
6.
Copyright © Skywill
inc. All Rights Reserved. 6 Sparkって何? ・大規模データの分散処理をオンメモリで実現する クラスターコンピューティングプラットフォーム。 ・「今後はHadoopのMapReduceよりも Sparkが使われるようになる」と言われている。 Apache Spark 概要 出典:Apache Spark (https://ja.wikipedia.org/wiki/Apache_Spark) Apache Spark™ is a fast and general engine for large-scale data processing. 出典:Apache Spark (http://spark.apache.org)
7.
7 Sparkって何? 標準ライブラリ ・SQLクエリ処理 「Spark SQL」 ・ストリーム処理
「Spark Streaming」 ・機械学習処理 「MLib」 ・グラフ処理 「Graph X」 SparkとHadoopのロジスティック回帰処理速度比較 計算結果をメモリにキャッシュする。 そのため、従来のMapReduceと比べて 繰り返し計算が高速! 処理速度 Copyright © Skywill inc. All Rights Reserved. 出典:The Apache Software Foundation (http://spark.apache.org )
8.
8 Sparkって何? 言語サポート ・Java ・Scala ・Python ・R インストール ・ダウンロード元: https://spark.apache.org/downloads.html ・macにApache Sparkをインストール –
Qiita http://qiita.com/kanuma1984/items/51c283ba2dd0f02c6aaa などを参考にインストール! Copyright © Skywill inc. All Rights Reserved.
9.
9 の特徴 1.RDD (Resilient Distributed
Dataset) 繰り返し利用するデータをキャッシュ上に保持しするため、 処理が非常に早い。 2.On-memoryの高速処理 メモリ上でRDDの再利用ができる。 3.DSL Mapper・Reducerの変わりにScalaのDSLを記述できるため、 より汎用的な言語で利用できる。 4.維持保守が容易 ソースコードを簡潔に書ける。 Sparkって何? Copyright © Skywill inc. All Rights Reserved.
10.
10 Sparkって何? データ 取り出し RDD データ整形 データ整形 データ整形 データ整形 データ整形 RDD 書込 書込 書込 Map処理 出力処理 <?xml version=“1.0”> <title>XXX
APIYYY取得結果</title> <location>35.5,139.0</location> ... </xml> { “text”:”XXX APIYYY取得結果”, “longtitude”:”35.5, “latitude”:”139.0”, ... } { “title”:”XXX APIYYY取得結果”, “location”:”35.5, 139.0” ... } JSON変換入力データ データ整形後 Copyright © Skywill inc. All Rights Reserved.
11.
Copyright © Skywill
inc. All Rights Reserved. 11 の特徴 Sparkって何? 1.分散処理フレームワーク Mapper・Reducerのスクリプトで分散処理が実装可能。 2.拡張性 安価なサーバをノードとして増やすことで簡単にスケールできる。 3.耐障害性 処理中に一部のノードが故障してもすぐに別ノードへ処理を 振り分けられる。 おまけ
12.
12 SparkとHadoopの違い Sparkって何? ○ バッチ処理(1つの大きなサイズファイル処理) × リアルタイム処理(複数の小さなサイズのファイルを処理) ・データの持ち方
ファイル(サイズの小さいファイル) 大量データを処理が可能。 読み書きのオーバヘッドがあり、リアルタイム処理には向かない。 ○ リアルタイム処理(複数の小さなサイズのファイルを処理) × バッチ処理(1つの大きなサイズのファイルを処理) ・データの持ち方 メモリ メモリにデータを持つため、データアクセスが早い。 逆に大量データは扱いにくい。 Copyright © Skywill inc. All Rights Reserved.
13.
13 Sparkって何? ワードカウント を行う サンプルソース MapReduce Spark 出典:Clouderaエンジニアブログ(http://blog.cloudera.com/) Map処理 Reduce処理 Map処理 Reduce処理6行! 36行! Copyright © Skywill
inc. All Rights Reserved.
14.
14 Sparkって何? リアルタイム集計 オンメモリ 高速 分散処理 Hadoopと連携 Dstream RDD 機械学習 データサイエンス 統計分析 Scala R Python Java GraphX Spark SQL ストリーミング処理 Sparkとは メモリ上でリアルタイムレベルの高速処理ができる 汎用的分散処理プラットフォーム Copyright ©
Skywill inc. All Rights Reserved.
15.
Copyright © Skywill
inc. All Rights Reserved. アジェンダ 15 1. Sparkって何? 2. Spark Streamingとは? 3. 実践 4. 実践のまとめ
16.
Copyright © Skywill
inc. All Rights Reserved. Spark Streamingとは? 16 ・Sparkの標準ライブラリの一つ ・リアルタイムに流れている ストリームソースを短い間隔で繰り返し、 バッチ処理する。 ・読み:スパーク ストリーミング 出典:The Apache Software Foundation (http://spark.apache.org )
17.
Copyright © Skywill
inc. All Rights Reserved. Spark Streamingとは? 17 ・Spark Streaming用のRDDを 連続して並べたもの データのやり取りはDstreamの 受け渡しで行う 用語 ・reduceByKeyAndWindowを利用し、 直近一定時間の集計を可能にする (毎秒、毎分ごとに、直近1時間の集計を するなど) ・データ要素を別の型のRDDに 変換する ・直近のデータを取得・集計する ・キー/値のペアのRDDに変換する DStream ウィンドウ集計 関数:flatMap 関数:mapToPair 関数:reduceByKeyAndWindow
18.
Copyright © Skywill
inc. All Rights Reserved. アジェンダ 18 1. Sparkって何? 2. Spark Streamingとは? 3. 実践 4. 実践のまとめ
19.
Copyright © Skywill
inc. All Rights Reserved. 実践 19 こんなんつくってみる。 Twitterのハッシュタグから Spark Streamingを使用した リアルタイムトレンドランキングチャート Twitter API Spark Streaming Web画面 直近60秒毎のトレンド表示
20.
Copyright © Skywill
inc. All Rights Reserved. システム構成 20 データの流れ Twitter API Spark Streaming MySQL ①Twitterストリームからのメタデータ取得 ②データを解析し集計 ・ハッシュタグ ・解析済みワード ・カウント ① ②
21.
システム構成(ハッシュタグ+ワードカウント) ⑤リクエスト ⑦レスポンス ④データ格納 テキストマイニング ②データ解析 次の2種類をkeyにreduce ・ハッシュタグ+解析済みワード ・ハッシュタグのみ ③データ集計 クライアント Twitter Twitterリアルタイム トレンドランキングチャート アプリ ①メタデータ取得 Copyright
© Skywill inc. All Rights Reserved. 21 Map Reduce ツイートデータ ⑥データ取得 格納データ ・ハッシュタグ ・解析済みワード ・カウント
22.
Copyright © Skywill
inc. All Rights Reserved. 実践 22 Twitterデータ取得部分 その1 Twitter4jを使用して、 twitterからstreamデータを DStreamへ 1ツイートごとに twitter本文を解析する 名詞に分ける 日本語形態素解析 ライブラリ 使用関数:map ①メタデータ取得 ②データ解析 ②データ解析 ※○内の番号はP20参照
23.
Copyright © Skywill
inc. All Rights Reserved. 実践 23 Twitterデータ取得部分 その2 名詞に分ける 名詞ごとにmapにして DStreamへデータを詰める 上記のDStreamから キーが同じものをペアにし DStreamへデータを詰める 使用関数:flatMap 使用関数:mapToPair ③データ集計 ③データ集計
24.
Copyright © Skywill
inc. All Rights Reserved. 実践 24 Twitterデータ取得部分 その3 DStreamから キーが同じものをペアにし DStreamへデータを詰める 直近10秒毎に、1分集計で キーをカウントする。 Mysqlに結果をdelete insert これらの処理を ・ハッシュタグ ・ワード ・ハッシュタグワード それぞれ行う。 使用関数: reduceByKeyAndWindow 使用関数:mapToPair ④データ格納 ③データ集計
25.
Copyright © Skywill
inc. All Rights Reserved. 実践 25 画面表示部分 SQLでデータ取得 ・ハッシュタグ・ワード ・ハッシュタグワード ごとに画面表示 ⑦レスポンス ⑤リクエスト ⑥データ取得 60秒毎にデータ取得リクエスト
26.
Copyright © Skywill
inc. All Rights Reserved. 実践 26 結果
27.
Copyright © Skywill
inc. All Rights Reserved. アジェンダ 27 1. Sparkって何? 2. Spark streamingとは? 3. 実践 4. 実践のまとめ
28.
Copyright © Skywill
inc. All Rights Reserved. 実践のまとめ 28 今回、実践としてSpark Streamingを利用して、 Twitterのハッシュタグ、ワードを 直近10秒ごと1分でウィンドウ集計をすることができた。 Spark Streamingを利用して、 ウィンドウ集計をおこなうことができる。
29.
Copyright © Skywill
inc. All Rights Reserved. ふろく(エンジニア注目度からみたSpark) 29 急上昇中 http://redmonk.com/dberkholz/2015/03/13/the-emergence-of-spark/
30.
Copyright © Skywill
inc. All Rights Reserved. ふろく(Hacker情報からみたSpark) 30 急上昇中 http://redmonk.com/dberkholz/2015/03/13/the-emergence-of-spark/
31.
Copyright © Skywill
inc. All Rights Reserved. ふろく(GoogleトレンドからみたSpark) 31 急上昇中 http://redmonk.com/dberkholz/2015/03/13/the-emergence-of-spark/
32.
Copyright © Skywill
inc. All Rights Reserved. ふろく(Hadoop vs Spark:Googleトレンド) 32 win
33.
Copyright © Skywill
inc. All Rights Reserved. ふろく(In Gartner Magic Quadrant for Operational DBMS) 33 Sparkの推移
34.
Copyright © Skywill
inc. All Rights Reserved. ふろく(In Gartner Magic Quadrant for Operational DBMS) 34 Sparkベース
35.
Copyright © Skywill
inc. All Rights Reserved. ふろく(In Gartner Magic Quadrant for Operational DBMS) 35 Sparkベース
36.
Copyright © Skywill
inc. All Rights Reserved. ふろく(In Gartner Magic Quadrant for Operational DBMS) 36