Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Junichi Noda
PPTX, PDF
2,584 views
Spark streamingを使用したtwitter解析によるレコメンドサービス例
2015年8月1日 ビックデータオールスターズで発表したSparkStreaming x Twitter によるリコメンドサービスの話です。
Engineering
◦
Read more
12
Save
Share
Embed
Embed presentation
Download
Downloaded 23 times
1
/ 46
2
/ 46
3
/ 46
4
/ 46
5
/ 46
6
/ 46
7
/ 46
8
/ 46
9
/ 46
10
/ 46
11
/ 46
12
/ 46
13
/ 46
14
/ 46
15
/ 46
16
/ 46
17
/ 46
18
/ 46
19
/ 46
20
/ 46
21
/ 46
22
/ 46
23
/ 46
24
/ 46
25
/ 46
26
/ 46
27
/ 46
28
/ 46
29
/ 46
30
/ 46
31
/ 46
32
/ 46
33
/ 46
34
/ 46
35
/ 46
36
/ 46
37
/ 46
38
/ 46
39
/ 46
40
/ 46
41
/ 46
42
/ 46
43
/ 46
44
/ 46
45
/ 46
46
/ 46
More Related Content
PPTX
Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築
by
Junichi Noda
PPTX
Apache sparkでつぶやきビッグデータ クローンをつくってみた
by
Junichi Noda
PDF
2015 10 24_spark_osc15tk
by
Junichi Noda
PDF
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
by
Junichi Noda
PDF
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
by
Junichi Noda
PDF
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
by
Junichi Noda
PDF
GEEK ACADEMY REAL Vol.2. 「最先端のデータ解析/Apache Sparkを利用したレコメンドエンジン開発」
by
Junichi Noda
PDF
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
by
鉄平 土佐
Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築
by
Junichi Noda
Apache sparkでつぶやきビッグデータ クローンをつくってみた
by
Junichi Noda
2015 10 24_spark_osc15tk
by
Junichi Noda
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
by
Junichi Noda
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
by
Junichi Noda
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
by
Junichi Noda
GEEK ACADEMY REAL Vol.2. 「最先端のデータ解析/Apache Sparkを利用したレコメンドエンジン開発」
by
Junichi Noda
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
by
鉄平 土佐
What's hot
PPTX
Apache NiFiと他プロダクトのつなぎ方
by
Sotaro Kimura
PDF
本当にあったApache Spark障害の話
by
x1 ichi
PPTX
Norikra + Fluentd+ Elasticsearch + Kibana リアルタイムストリーミング処理ログ集計による異常検知
by
daisuke-a-matsui
PPTX
Kafkaを活用するためのストリーム処理の基本
by
Sotaro Kimura
PDF
楽天のSplunk as a service
by
Rakuten Group, Inc.
PDF
MariaDBとMroongaで作る全言語対応超高速全文検索システム
by
Kouhei Sutou
PDF
Awsでつくるapache kafkaといろんな悩み
by
Keigo Suda
PPTX
Spark GraphX で始めるグラフ解析
by
Yosuke Mizutani
PDF
PHPでPostgreSQLとPGroongaを使って高速日本語全文検索!
by
Kouhei Sutou
PDF
2015/04/25 Azure JavaScript API App つくったよ (LT) / Global Azure Boot Camp
by
Yuki KAN
PDF
スキーマつきストリーム データ処理基盤、 Confluent Platformとは?
by
Sotaro Kimura
PDF
Spark Streaming on AWS -S3からKinesisへ-
by
chibochibo
PPTX
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
by
sugiyama koki
PDF
Gearpump, akka based Distributed Reactive Realtime Engine
by
Sotaro Kimura
PDF
ビッグじゃなくても使えるSpark Streaming
by
chibochibo
PPTX
Big datauniversity
by
Tanaka Yuichi
PPTX
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
by
Tanaka Yuichi
PPTX
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
by
Tanaka Yuichi
PDF
2015/04/25 妖怪は見た!実録Azure事件簿アプリケーション編 / Global Azure Boot Camp
by
Yuki KAN
PDF
Spark in small or middle scale data processing with Elasticsearch
by
chibochibo
Apache NiFiと他プロダクトのつなぎ方
by
Sotaro Kimura
本当にあったApache Spark障害の話
by
x1 ichi
Norikra + Fluentd+ Elasticsearch + Kibana リアルタイムストリーミング処理ログ集計による異常検知
by
daisuke-a-matsui
Kafkaを活用するためのストリーム処理の基本
by
Sotaro Kimura
楽天のSplunk as a service
by
Rakuten Group, Inc.
MariaDBとMroongaで作る全言語対応超高速全文検索システム
by
Kouhei Sutou
Awsでつくるapache kafkaといろんな悩み
by
Keigo Suda
Spark GraphX で始めるグラフ解析
by
Yosuke Mizutani
PHPでPostgreSQLとPGroongaを使って高速日本語全文検索!
by
Kouhei Sutou
2015/04/25 Azure JavaScript API App つくったよ (LT) / Global Azure Boot Camp
by
Yuki KAN
スキーマつきストリーム データ処理基盤、 Confluent Platformとは?
by
Sotaro Kimura
Spark Streaming on AWS -S3からKinesisへ-
by
chibochibo
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
by
sugiyama koki
Gearpump, akka based Distributed Reactive Realtime Engine
by
Sotaro Kimura
ビッグじゃなくても使えるSpark Streaming
by
chibochibo
Big datauniversity
by
Tanaka Yuichi
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
by
Tanaka Yuichi
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
by
Tanaka Yuichi
2015/04/25 妖怪は見た!実録Azure事件簿アプリケーション編 / Global Azure Boot Camp
by
Yuki KAN
Spark in small or middle scale data processing with Elasticsearch
by
chibochibo
Viewers also liked
PDF
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
by
Hadoop / Spark Conference Japan
PDF
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
by
Yuya Unno
PDF
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
by
leverages_event
PPTX
JVM and OS Tuning for accelerating Spark application
by
Tatsuhiro Chiba
PDF
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
by
Amazon Web Services Japan
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
by
NTT DATA OSS Professional Services
PDF
dashDB データロード方法ガイド
by
IBM Analytics Japan
PDF
elasticsearch-hadoopをつかってごにょごにょしてみる
by
Katsushi Yamashita
PDF
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
by
Hadoop / Spark Conference Japan
PDF
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
by
Hadoop / Spark Conference Japan
PDF
SparkやBigQueryなどを用いたモバイルゲーム分析環境
by
yuichi_komatsu
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
by
Future Of Data Japan
PDF
Is spark streaming based on reactive streams?
by
chibochibo
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
PDF
What's Amazon Athena? - re:Growth 2016 Osaka
by
Ganota Ichida
PDF
Hadoop Conference Japan 2013 Winter: "見える"Twitter全量リアルタイム解析 ~Hadoop/RabbitMQ処...
by
Kenji Hara
PDF
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
by
オラクルエンジニア通信
PDF
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
by
Hadoop / Spark Conference Japan
PDF
Html5nagoya20130910
by
陽平 山口
PDF
Hadoop概要説明
by
Satoshi Noto
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
by
Hadoop / Spark Conference Japan
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
by
Yuya Unno
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
by
leverages_event
JVM and OS Tuning for accelerating Spark application
by
Tatsuhiro Chiba
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
by
Amazon Web Services Japan
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
by
NTT DATA OSS Professional Services
dashDB データロード方法ガイド
by
IBM Analytics Japan
elasticsearch-hadoopをつかってごにょごにょしてみる
by
Katsushi Yamashita
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
by
Hadoop / Spark Conference Japan
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
by
Hadoop / Spark Conference Japan
SparkやBigQueryなどを用いたモバイルゲーム分析環境
by
yuichi_komatsu
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
by
Future Of Data Japan
Is spark streaming based on reactive streams?
by
chibochibo
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
What's Amazon Athena? - re:Growth 2016 Osaka
by
Ganota Ichida
Hadoop Conference Japan 2013 Winter: "見える"Twitter全量リアルタイム解析 ~Hadoop/RabbitMQ処...
by
Kenji Hara
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
by
オラクルエンジニア通信
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
by
Hadoop / Spark Conference Japan
Html5nagoya20130910
by
陽平 山口
Hadoop概要説明
by
Satoshi Noto
More from Junichi Noda
PPTX
日本のアニメ産業を爆速させるアニメAPIの開発と活用事例 (ニコニコ超会議2016 大和証券ステージ)
by
Junichi Noda
PPTX
[Anitech] ITでアニメを考える、「ShangriLa Meetup5」
by
Junichi Noda
PPTX
ITを使った今時の聖地巡礼ユーザー分析 in 沼津
by
Junichi Noda
PPTX
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
by
Junichi Noda
PPTX
ShangriLa Anime APIを利用してアニメ関連のビッグデータ解析を最速で行う
by
Junichi Noda
PPTX
アニメ聖地巡礼についてのアイデアソンテンプレート
by
Junichi Noda
PPTX
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜
by
Junichi Noda
PPTX
ラブライブ✕沼津 アニメタイアップについて
by
Junichi Noda
PPTX
ラブライブ!サンシャイン!!入門書 (A4 縦向き)
by
Junichi Noda
PPTX
アイデアスケッチ テンプレート
by
Junichi Noda
PPTX
秋葉原IT戦略研究所のご紹介(2016/05/04)
by
Junichi Noda
PDF
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML
by
Junichi Noda
PPTX
Word2Vec Neologdで作るアニメ人工知能
by
Junichi Noda
PPTX
とらのあなエンジニア採用イベント 2017年2月9日
by
Junichi Noda
PPTX
秋葉原IT戦略研究所のご紹介
by
Junichi Noda
PPTX
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステムver 1.1
by
Junichi Noda
PDF
アカリクVol7 「アドテク」gmoアドパートナーズ株式会社
by
Junichi Noda
PPTX
秋葉原IT戦略研究所のREAL~コミュニティ立ち上げから半年間の成果~
by
Junichi Noda
PPTX
法規制後でも個人で楽しむドローン入門 2016・秋
by
Junichi Noda
PPTX
アニメ聖地デザインパターン
by
Junichi Noda
日本のアニメ産業を爆速させるアニメAPIの開発と活用事例 (ニコニコ超会議2016 大和証券ステージ)
by
Junichi Noda
[Anitech] ITでアニメを考える、「ShangriLa Meetup5」
by
Junichi Noda
ITを使った今時の聖地巡礼ユーザー分析 in 沼津
by
Junichi Noda
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
by
Junichi Noda
ShangriLa Anime APIを利用してアニメ関連のビッグデータ解析を最速で行う
by
Junichi Noda
アニメ聖地巡礼についてのアイデアソンテンプレート
by
Junichi Noda
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜
by
Junichi Noda
ラブライブ✕沼津 アニメタイアップについて
by
Junichi Noda
ラブライブ!サンシャイン!!入門書 (A4 縦向き)
by
Junichi Noda
アイデアスケッチ テンプレート
by
Junichi Noda
秋葉原IT戦略研究所のご紹介(2016/05/04)
by
Junichi Noda
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML
by
Junichi Noda
Word2Vec Neologdで作るアニメ人工知能
by
Junichi Noda
とらのあなエンジニア採用イベント 2017年2月9日
by
Junichi Noda
秋葉原IT戦略研究所のご紹介
by
Junichi Noda
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステムver 1.1
by
Junichi Noda
アカリクVol7 「アドテク」gmoアドパートナーズ株式会社
by
Junichi Noda
秋葉原IT戦略研究所のREAL~コミュニティ立ち上げから半年間の成果~
by
Junichi Noda
法規制後でも個人で楽しむドローン入門 2016・秋
by
Junichi Noda
アニメ聖地デザインパターン
by
Junichi Noda
Recently uploaded
PPTX
【ASW22-01】STAMP:STPAロスシナリオの発想・整理支援ツールの開発 ~astah* System Safetyによる構造化・階層化機能の実装...
by
csgy24013
PDF
サーバーサイド Kotlin を社内で普及させてみた - Server-Side Kotlin Night 2025
by
Hirotaka Kawata
PDF
Kubernetes Release Team Release Signal Role について ~Kubernetes Meetup Tokyo #72~
by
Keisuke Ishigami
PDF
0.0001秒の攻防!?快適な運転を支えるリアルタイム制御と組み込みエンジニアの実践知【DENSO Tech Night 第四夜】
by
dots.
PPTX
「グローバルワン全員経営」の実践を通じて進化し続けるファーストリテイリングのアーキテクチャ
by
Fast Retailing Co., Ltd.
PDF
Nanami Doikawa_寄り道の誘発を目的とした旅行写真からのスポット印象語彙の推定に関する基礎検討_EC2025
by
Matsushita Laboratory
PDF
Rin Ukai_即興旅行の誘発を目的とした口コミ情報に基づく雰囲気キーワード_EC2025.pdf
by
Matsushita Laboratory
【ASW22-01】STAMP:STPAロスシナリオの発想・整理支援ツールの開発 ~astah* System Safetyによる構造化・階層化機能の実装...
by
csgy24013
サーバーサイド Kotlin を社内で普及させてみた - Server-Side Kotlin Night 2025
by
Hirotaka Kawata
Kubernetes Release Team Release Signal Role について ~Kubernetes Meetup Tokyo #72~
by
Keisuke Ishigami
0.0001秒の攻防!?快適な運転を支えるリアルタイム制御と組み込みエンジニアの実践知【DENSO Tech Night 第四夜】
by
dots.
「グローバルワン全員経営」の実践を通じて進化し続けるファーストリテイリングのアーキテクチャ
by
Fast Retailing Co., Ltd.
Nanami Doikawa_寄り道の誘発を目的とした旅行写真からのスポット印象語彙の推定に関する基礎検討_EC2025
by
Matsushita Laboratory
Rin Ukai_即興旅行の誘発を目的とした口コミ情報に基づく雰囲気キーワード_EC2025.pdf
by
Matsushita Laboratory
Spark streamingを使用したtwitter解析によるレコメンドサービス例
1.
1 GMOインターネット株式会社 次世代システム研究室 野田純一 2015.8.1 Spark Streamingを使用した Twitter解析による レコメンドサービス例
2.
1.自己紹介 2.研究目的 3.検証サービス説明 4.Spark Streamingを使用したオンラインTwitter解析によるレコメンドシステム 「Mikasa」-三笠 5.Sparkについて 6.Spark Streamingについて 7.参考文献紹介 8.まとめ 2
3.
1. 自己紹介 野田純一 3 ■結構前 Java2EEによる業務オペレーションシステム ■ちょっと前 Perl/Rubyでソーシャルゲーム
フレームワー ク開発 ■最近 Hadoopでアドテク Github: https://github.com/AKB428 Twitter: @n428dev Qiita: http://qiita.com/AKB428 Hatena: http://akb428.hatenablog.com/ 本部: http://akibalab.info/ Junichi Noda Larry Wall
4.
2. 研究目的と背景 弊社、GMOインターネット次世代システム研究 室では1クウォーター(3ヶ月)に一度、2週間の 研究期間が取得できます(希望制+抽選)。 2015年2期の研究テーマに 「Spark Streaming
and GraphX」を選択し社内 で研究発表を行いました。(45分) 今回はSpark Streamingの内容に絞って紹介しま す。 4
5.
2. 研究目的 • ストリーミング処理でTwitterオンライン解析がしたい ▶Spark
Streaming • SparkをScalaで書いてScalaの知見をためる。 • Sparkを利用したサービスの事例が少ないため実際に 検証用のマイクロ サービスを設計、実装、運用を行い リファレンス的なサービスを作って業界に還元する。 5
6.
3. 検証サービス説明 6
7.
7
8.
4. Spark Streamingを使用したオンライン Twitter解析によるレコメンドシステム
「 Mikasa」-三笠 https://github.com/AKB428/mikasa_ol https://github.com/AKB428/mikasa_rs 8
9.
9
10.
動画デモ http://youtu.be/o6xq_RdNv6s これがこのプレゼンを聞くと作れるようになります 。 10
11.
11
12.
12
13.
• Twitterストリームからデータを取得する。 • Twitter
Streaming APIを使う。 • 400の検索キーワードが指定可能。 • Spark Streamingでリアルタイム集計を行う。 13
14.
14 • 日本語文章を単語にわけて分解して集計 • 日本語を分解するため形態素解析ライブラリ kuromojiを使う。 •
アニメ作品など標準辞書にない単語はユーザー辞 書(CSV)を用意。
15.
形態素解析ライブラリの必要性について 15
16.
ユーザー辞書の必要性について 16
17.
Spark Streamingによるウィンドウ集計の活用 Mikasaは直近5分、直近60分のデータ集計を毎 分行っている。(合計60*2=120回) 少ないソースコードで、ウィンドウ集計が可能 。 17
18.
ソースコード • https://github.com/AKB428/mikasa_ol/blob/maste r/src/main/scala/mikasa.scala ユーザー辞書例 • https://github.com/AKB428/mikasa_ol/blob/maste r/dictionary/anime_2015_3Q.txt 18
19.
19
20.
画面デモ(直近5分を毎分集計) (F1)2015年3期 TVアニメ http://tv-anime.xyz/5/ (F1)ラブライブ
http://tv-anime.biz/5/ (F2)ラブライブ http://lovelive-net.com/5/ (F2)秋葉原 http://akiba-net.com/5/ (F2)関東TV番組 http://telev.net/5/ F1=ユーザー辞書に登録してある単語のみ集計 F2=ユーザー辞書外の単語も集計 20
21.
21 画面デモ(直近60分を毎分集計) (F1)2015年3期 TVアニメ http://tv-anime.xyz/60/ (F1)ラブライブ
http://tv-anime.biz/60/ (F2)ラブライブ http://lovelive-net.com/60/ (F2)秋葉原 http://akiba-net.com/60/ (F2)関東TV番組 http://telev.net/60/ F1=ユーザー辞書に登録してある単語のみ集計 F2=ユーザー辞書外の単語も集計
22.
画面デモ 過去の履歴キャプチャ 22
23.
https://akiba-souken.com/article/24303/ 23
24.
過去のキャプチャ2 今期(2015/夏期)のアニメ 24
25.
過去のキャプチャ3 2015年7月22日 7月22日 ラブライブ
矢澤にこ 誕生日 25
26.
デモ:リコメンドTwitterボット https://twitter.com/Akihabaara_itso https://twitter.com/AuctionMadoka 26
27.
実際の売上 27
28.
サーバーデモ 動作中のサーバーのコンソールを公開 28
29.
ユーザー体験デモ(直近5分集計)携帯でアクセス! (F1)2015年2期 TVアニメ http://tv-anime.xyz/5/ (F1)ラブライブ
http://tv-anime.biz/5/ (F2)ラブライブ http://lovelive-net.com/5/ (F2)秋葉原 http://akiba-net.com/5/ (F2)関東TV番組 http://telev.net/5/ F1=ユーザー辞書に登録してある単語のみ集計 F2=ユーザー辞書外の単語も集計 29
30.
30 ユーザー体験デモ(直近60分集計)携帯でアクセス! (F1)2015年2期 TVアニメ http://tv-anime.xyz/60/ (F1)ラブライブ
http://tv-anime.biz/60/ (F2)ラブライブ http://lovelive-net.com/60/ (F2)秋葉原 http://akiba-net.com/60/ (F2)関東TV番組 http://telev.net/60/ F1=ユーザー辞書に登録してある単語のみ集計 F2=ユーザー辞書外の単語も集計
31.
• Mikasa Twitter
のデータ収集解析の2つのアプロ ーチについて • ①Twitter Filter + ユーザー辞書のみの単語で絞る • 1のメリット▶集計しやすい、後続の処理も設計しや すい。 • 1のデメリット▶未知の単語を拾えない、ユーザー辞 書にひもづく別のワードを拾えない • 結論:ある程度、解析対象のドメインが固定されて いるものにはこのアプローチは有効 31
32.
• ② Twitter
Filter + ユーザー辞書を使いつつ全ての単語を集計 • メリット▶ 未知のワードが拾える、リアルなネットワーク解 析ができる。 • デメリット▶ ジャンクワードが多く出現するのでデータクレ ンジングの作業にコストがかかる。 • 結論:解析対象が不明なドメインの場合、まずこのアプローチ で回す。計測対象のネットワークが変動しやすいドメインの場 合はこのアプローチが有効。ある程度アプローチ2で回してア プローチ1に切り替える、もしくはアプローチ1を追加した二 段のサービスに設計する。 32
33.
Mikasaは新生ConoHa(パブリッククラウド)と お名前.comのドメインで動いています。 http://www.onamae.com/ https://www.conoha.jp/ 33
34.
4. Spark Streaming
〜ソースコード補足 • TwitterUtilは実体はJavaのTwitterライブラリで あるtwitter4j • Twitter解析にはTwitterAPI特有のAPIレートリ ミット、単一IPによる高負荷時のアクセス制 限があるので注意 • Twitter開発者アカウントには電話番号が必須 になったので気軽に開発はできなくなりつつ ある。 34
35.
5. Sparkについて • HadoopのMapReduceとは別アプローチ(DAG)での並列分散集計処理を行う •
インメモリー処理 • Hadoopエコシステムの一部として扱われるがHadoopと直接的な関係はない • 2015年6月11日に 1.4.0 がリリース。https://spark.apache.org/releases/spark-release-1-4-0.html • 1.4.0でSparkRが追加(R言語でSparkを利用できる) • APIを利用できる言語はScala, Java, Python 35 SparkR
36.
5. Sparkについて 〜Spark処理でのDAG 36
37.
5. Sparkについて〜最近の情勢 • 2015年6月15日
IBMが開発者と研究者を3500人Spark関連プロ ジェクトに投入 http://japan.zdnet.com/article/35065964/ • 2015年 6月15〜17日 Spark summit 2015 開催 (サンフランシスコ) • NTTデータ社が定期的に勉強会を実施 • 国内のサービス実例は少ない • 2大Hadoopディストリビューション CDHとHDPにはSparkが搭 載 • Spark1.4からはUIでモニタリングも行えるようになった。 http://qiita.com/AKB428/items/71900eecdf2350e1e45f 37
38.
6. Spark Streaming
について • Sparkサブシステムの一つでファイルからでなくリアルタイ ムに流れてくるストリームソースに対しての集計を対象とし ている。 • 直近1時間のツイート数を毎分集計する、直近3時間でアク セスが多いIPを集計する・・などのウィンドウ集計が可能。 38
39.
6. Spark Streaming
〜データソースについて その他、ssc.socketTextStream(" localhost", 7777) とするとローカルポートをソースにできるのでサーバーのログを流 し込んでリアルタイムにエラー、クラックIPの集計などが可能。 39
40.
Mikasaインストールについて インストールマニュアル https://gist.github.com/AKB428/c30bc6a979e05fa3a022 • TwitterAPIとAmazonAPIのアカウントがあれば1時間でセット アップ完了。 • AmazonAPIアカウントはリコメンドしない場合は不要。 •
TwitterAPIのアカウント取得も10分程度で可能。 Mikasa OL https://github.com/AKB428/mikasa_ol Mikasa RS https://github.com/AKB428/mikasa_rs 40
41.
7. 参考文献紹介-1 「Scala逆引きレシピ」 • 他言語経験者でScalaが初心者の方にお奨め、情 報も新しく、PlayフレームワークやSBTの説明も 豊富。 41
42.
7. 参考文献紹介-2 「Learning Spark」 •
Sparkのコーディングはこれを読めば理解可能。 • 英語初心者でもかなり読みやすい本なのでお奨 め。今年日本語化されるらしい。 42
43.
8. まとめ • Twitterストリームのリアルタイムな集計にSpark Streamingは最適だった。(SQLだとデータを一度DB に格納し日付系の長いSQLを打つ必要がある。) •
日本語データを解析するためには形態素解析ライブラ リの使い方の把握、ユーザー辞書のチューニング、デ ータクレンジングが重要で、ある程度は時間がかかる 。 43
44.
GMOインターネット 次世代システム研究室では Hadoopエンジニアを募集しています。 http://recruit.gmo.jp/engineer/jisedai/ 44
45.
45 現在業務で使用している技術
46.
ご清聴ありがとうございました 46
Download