SlideShare a Scribd company logo
Submit Search
Upload
Login
Signup
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
Report
Junichi Noda
Follow
Software Developer at 秋葉原IT戦略研究所
Jul. 1, 2015
•
0 likes
•
3,164 views
1
of
55
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
Jul. 1, 2015
•
0 likes
•
3,164 views
Download Now
Download to read offline
Report
Engineering
研究発表で検証用に開発したSpark Streaming+Spark GraphXによるレコメンドシステムの発表資料です。ソースコードの詳細は資料のgithubのリンクを参照ください。
Junichi Noda
Follow
Software Developer at 秋葉原IT戦略研究所
Recommended
大規模データ時代に求められる自然言語処理
Preferred Networks
27.3K views
•
33 slides
「知識」のDeep Learning
Yuya Unno
24.6K views
•
59 slides
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
Tokoroten Nakayama
121.5K views
•
99 slides
楽天のデータサイエンス/AIによるビッグデータ活用
Rakuten Group, Inc.
4.8K views
•
26 slides
マッチングサービスにおけるKPIの話
cyberagent
70.2K views
•
28 slides
Kubernetesによる機械学習基盤への挑戦
Preferred Networks
14.5K views
•
18 slides
More Related Content
What's hot
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Yahoo!デベロッパーネットワーク
6.2K views
•
29 slides
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
Tokoroten Nakayama
164.6K views
•
67 slides
先端技術とメディア表現1 #FTMA15
Yoichi Ochiai
870.3K views
•
75 slides
「速」を落とさないコードレビュー
Takafumi ONAKA
55.4K views
•
62 slides
xrmtg20210317
takehitoyoshiki
420 views
•
15 slides
ストリーム処理を支えるキューイングシステムの選び方
Yoshiyasu SAEKI
40K views
•
42 slides
What's hot
(20)
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Yahoo!デベロッパーネットワーク
•
6.2K views
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
Tokoroten Nakayama
•
164.6K views
先端技術とメディア表現1 #FTMA15
Yoichi Ochiai
•
870.3K views
「速」を落とさないコードレビュー
Takafumi ONAKA
•
55.4K views
xrmtg20210317
takehitoyoshiki
•
420 views
ストリーム処理を支えるキューイングシステムの選び方
Yoshiyasu SAEKI
•
40K views
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
•
103.9K views
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
•
47.3K views
子供の言語獲得と機械の言語獲得
Yuya Unno
•
35.6K views
研究室における研究・実装ノウハウの共有
Naoaki Okazaki
•
11.2K views
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
•
9K views
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
•
2.2K views
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
Tokoroten Nakayama
•
160.8K views
『ラブライブ!スクールアイドルフェスティバル ALL STARS』を支えるビルドパイプライン 〜より安定したサービス提供を目指して〜
KLab Inc. / Tech
•
251 views
なぜコンピュータを学ばなければならないのか 21世紀の君主論
Tokoroten Nakayama
•
91.9K views
Spark MLlibではじめるスケーラブルな機械学習
NTT DATA OSS Professional Services
•
37.2K views
DXの推進において企業内に求められる人材やデジタル人材の育て方
Hironori Washizaki
•
1.6K views
ナレッジグラフ入門
KnowledgeGraph
•
6.2K views
フロー効率性とリソース効率性について #xpjug
Itsuki Kuroda
•
104.6K views
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
•
52.8K views
Viewers also liked
Spark GraphX で始めるグラフ解析
Yosuke Mizutani
3K views
•
17 slides
Spark streamingを使用したtwitter解析によるレコメンドサービス例
Junichi Noda
2.6K views
•
46 slides
Sparkで始めるお手軽グラフデータ分析
Nagato Kasaki
4.7K views
•
33 slides
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
sugiyama koki
5K views
•
36 slides
Sparkストリーミング検証
BrainPad Inc.
2.7K views
•
20 slides
Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築
Junichi Noda
3.6K views
•
48 slides
Viewers also liked
(20)
Spark GraphX で始めるグラフ解析
Yosuke Mizutani
•
3K views
Spark streamingを使用したtwitter解析によるレコメンドサービス例
Junichi Noda
•
2.6K views
Sparkで始めるお手軽グラフデータ分析
Nagato Kasaki
•
4.7K views
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
sugiyama koki
•
5K views
Sparkストリーミング検証
BrainPad Inc.
•
2.7K views
Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築
Junichi Noda
•
3.6K views
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
Atsushi Kurumada
•
6.4K views
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
•
20.8K views
Dynamic Resource Allocation in Apache Spark
Yuta Imai
•
3K views
GraphX によるグラフ分析処理の実例と入門
鉄平 土佐
•
1.4K views
Tokyo nlp #8 label propagation
Yo Ehara
•
3.2K views
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
鉄平 土佐
•
3.2K views
OSC2014 Tokyo/Spring Hadoop
Shinichi YAMASHITA
•
1.7K views
Lightning-Talk: Ramen->Graph->Database, neo4j_fdw
Toshi Harada
•
1.6K views
dashDB データロード方法ガイド
IBM Analytics Japan
•
1.6K views
GraphX Advent Calendar Day15
鉄平 土佐
•
1.7K views
GraphX Advent Calendar Day 14
鉄平 土佐
•
1.3K views
Ibm クラウドデータベースの使いどころ
japan_db2
•
826 views
SXSWedu 2016 報告会 〜EdTech JAPAN 世界への挑戦 セッション紹介(山邉分)
Tetsuo Yamabe
•
1.8K views
Osc2013 spring OpenStackで実現する分散ストレージ「Swift」とプライベートクラウド
Seiichiro Ishida
•
5.3K views
Similar to Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
2015 10 24_spark_osc15tk
Junichi Noda
985 views
•
47 slides
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Junichi Noda
1.9K views
•
37 slides
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Junichi Noda
2K views
•
28 slides
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
1.3K views
•
35 slides
Watson summit 2016_j2_5
Tanaka Yuichi
759 views
•
35 slides
Spark SQL - The internal -
NTT DATA OSS Professional Services
4.8K views
•
63 slides
Similar to Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
(20)
2015 10 24_spark_osc15tk
Junichi Noda
•
985 views
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Junichi Noda
•
1.9K views
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Junichi Noda
•
2K views
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
•
1.3K views
Watson summit 2016_j2_5
Tanaka Yuichi
•
759 views
Spark SQL - The internal -
NTT DATA OSS Professional Services
•
4.8K views
SparkTokyo2019NovIshizaki
Kazuaki Ishizaki
•
1.5K views
PythonによるWebスクレイピング入門
Hironori Sekine
•
105.5K views
Spark Streaming on AWS -S3からKinesisへ-
chibochibo
•
1.1K views
PySpark Intro Part.2 with SQL Graph
Oshitari_kochi
•
263 views
さくらのナレッジの運営から見えるもの
法林浩之
•
751 views
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
•
10.8K views
2015/04/25 Azure JavaScript API App つくったよ (LT) / Global Azure Boot Camp
Yuki KAN
•
1.2K views
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Sotaro Kimura
•
1.2K views
Spark Summit 2015 参加報告
Katsunori Kanda
•
3.3K views
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
•
5.8K views
Databricks の始め方
Ryoma Nagata
•
369 views
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
Yahoo!デベロッパーネットワーク
•
407 views
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
•
7.8K views
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
NTT DATA Technology & Innovation
•
968 views
More from Junichi Noda
とらのあなエンジニア採用イベント 2017年2月9日
Junichi Noda
1.8K views
•
16 slides
[Anitech] ITでアニメを考える、「ShangriLa Meetup5」
Junichi Noda
918 views
•
51 slides
アニメ聖地デザインパターン
Junichi Noda
3.1K views
•
23 slides
アニメ聖地巡礼についてのアイデアソンテンプレート
Junichi Noda
3.4K views
•
22 slides
アイデアスケッチ テンプレート
Junichi Noda
709 views
•
1 slide
ITを使った今時の聖地巡礼ユーザー分析 in 沼津
Junichi Noda
778 views
•
8 slides
More from Junichi Noda
(20)
とらのあなエンジニア採用イベント 2017年2月9日
Junichi Noda
•
1.8K views
[Anitech] ITでアニメを考える、「ShangriLa Meetup5」
Junichi Noda
•
918 views
アニメ聖地デザインパターン
Junichi Noda
•
3.1K views
アニメ聖地巡礼についてのアイデアソンテンプレート
Junichi Noda
•
3.4K views
アイデアスケッチ テンプレート
Junichi Noda
•
709 views
ITを使った今時の聖地巡礼ユーザー分析 in 沼津
Junichi Noda
•
778 views
ラブライブ!サンシャイン!!入門書 (A4 縦向き)
Junichi Noda
•
3.6K views
法規制後でも個人で楽しむドローン入門 2016・秋
Junichi Noda
•
526 views
ラブライブ✕沼津 アニメタイアップについて
Junichi Noda
•
8.6K views
Word2Vec Neologdで作るアニメ人工知能
Junichi Noda
•
3.8K views
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜
Junichi Noda
•
9.4K views
秋葉原IT戦略研究所のご紹介(2016/05/04)
Junichi Noda
•
3.5K views
日本のアニメ産業を爆速させるアニメAPIの開発と活用事例 (ニコニコ超会議2016 大和証券ステージ)
Junichi Noda
•
4.2K views
ShangriLa Anime APIを利用してアニメ関連のビッグデータ解析を最速で行う
Junichi Noda
•
4.4K views
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステムver 1.1
Junichi Noda
•
1.3K views
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
Junichi Noda
•
11.2K views
秋葉原IT戦略研究所のご紹介
Junichi Noda
•
1.4K views
秋葉原IT戦略研究所のREAL~コミュニティ立ち上げから半年間の成果~
Junichi Noda
•
368 views
GEEK ACADEMY REAL Vol.2. 「最先端のデータ解析/Apache Sparkを利用したレコメンドエンジン開発」
Junichi Noda
•
1.3K views
アカリクVol7 「アドテク」gmoアドパートナーズ株式会社
Junichi Noda
•
5.6K views
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
1.
‹#› ! Spark Streaming &
Spark GraphX を使用したTwitter解析による レコメンドサービス例 GMOインターネット株式会社 次世代システム研究室 野田純一 2015.6.25
2.
‹#› Overview 1.自己紹介 2.研究目的 3.検証サービス説明 4.Spark Streamingを使用したオンラインTwitter解析によるレコメンドシステム 「Mikasa」-三 笠 5.Sparkについて 6.Spark
Streamingについて 7.Spark Streaming + Spark GraphXを使用したTwitter解析とレコメンドシステム 「Ikazuchi」- 雷 8.Spark GraphXについて 9.参考文献紹介 10.まとめ
3.
‹#› 1. 自己紹介 野田純一 ■結構前 Java2EEによる業務オペレーションシステム ■ちょっと前 Perl/Rubyでソーシャルゲーム
フレームワー ク開発 ■最近 Hadoopでアドテク ! Github: https://github.com/AKB428 Twitter: @n428dev Qiita: http://qiita.com/AKB428 Hatena: http://akb428.hatenablog.com/ 本部: http://akibalab.info/ Junichi Noda Larry Wall
4.
‹#›
5.
‹#› 2. 研究目的 • ストリーミング処理でTwitterオンライン解析がしたい ▶Spark
Streaming • Twitterのソーシャル・ネットワークグラフを解析した い▶Spark GraphX • SparkをScalaで書いてScalaの知見をためる。 • Sparkを利用したサービスの事例が少ないため実際に 検証用のマイクロ サービスを設計、実装、運用を行い リファレンス的なサービスを作って業界に還元する。
6.
‹#› 3. 検証サービス説明
7.
‹#›
8.
‹#› 4. Spark Streamingを使用したオンライン Twitter解析によるレコメンドシステム 「Mikasa」-三笠 ! ! https://github.com/AKB428/mikasa_ol https://github.com/AKB428/mikasa_rs !
9.
‹#›
10.
‹#› 動画デモ ! ! ! ! ! ! ! ! http://youtu.be/o6xq_RdNv6s これがこのプレゼンを聞くと作れるようになります。
11.
‹#›
12.
‹#›
13.
‹#› • Twitterストリームからデータを取得する。 • Twitter
Streaming APIを使う。 • 400の検索キーワードが指定可能。 • Spark Stremingでリアルタイム集計を行う。
14.
‹#› ! • 日本語文章を単語にわけて分解して集計 • 日本語を分解するため形態素解析ライブラリ kuromojiを使う。 •
アニメ作品など標準辞書にない単語はユーザー辞 書(CSV)を用意。
15.
‹#› 形態素解析ライブラリの必要性について
16.
‹#› ユーザー辞書の必要性について
17.
‹#› Spark Streamingによるウィンドウ集計の活用 Mikasaは直近5分、直近60分のデータ集計を毎 分行っている。(合計60*2=120回) 少ないソースコードで、ウィンドウ集計が可能。
18.
‹#› • ソースコード • https://github.com/AKB428/mikasa_ol/blob/ master/src/main/scala/mikasa.scala
19.
‹#›
20.
‹#› 画面デモ(直近5分を毎分集計) (F1)2015年2期 TVアニメ http://tv-anime.xyz/5/ (F1)ラブライブ
http://tv-anime.biz/5/ (F2)ラブライブ http://lovelive-net.com/5/ (F2)秋葉原 http://akiba-net.com/5/ (F2)関東TV番組 http://telev.net/5/ F1=ユーザー辞書に登録してある単語のみ集計 F2=ユーザー辞書外の単語も集計
21.
‹#› 画面デモ(直近60分を毎分集計) (F1)2015年2期 TVアニメ http://tv-anime.xyz/60/ (F1)ラブライブ
http://tv-anime.biz/60/ (F2)ラブライブ http://lovelive-net.com/60/ (F2)秋葉原 http://akiba-net.com/60/ (F2)関東TV番組 http://telev.net/60/ F1=ユーザー辞書に登録してある単語のみ集計 F2=ユーザー辞書外の単語も集計
22.
‹#› 画面デモ 過去の履歴キャプチャ
23.
‹#› デモ:リコメンドTwitterボット https://twitter.com/Akihabaara_itso https://twitter.com/AuctionMadoka !
24.
‹#› サーバーデモ 動作中のサーバーのコンソールを公開
25.
‹#› ユーザー体験デモ(直近5分集計)携帯でアクセス! (F1)2015年2期 TVアニメ http://tv-anime.xyz/5/ (F1)ラブライブ
http://tv-anime.biz/5/ (F2)ラブライブ http://lovelive-net.com/5/ (F2)秋葉原 http://akiba-net.com/5/ (F2)関東TV番組 http://telev.net/5/ F1=ユーザー辞書に登録してある単語のみ集計 F2=ユーザー辞書外の単語も集計
26.
‹#› ユーザー体験デモ(直近60分集計)携帯でアクセス (F1)2015年2期 TVアニメ http://tv-anime.xyz/60/ (F1)ラブライブ
http://tv-anime.biz/60/ (F2)ラブライブ http://lovelive-net.com/60/ (F2)秋葉原 http://akiba-net.com/60/ (F2)関東TV番組 http://telev.net/60/ F1=ユーザー辞書に登録してある単語のみ集計 F2=ユーザー辞書外の単語も集計
27.
‹#› • Mikasa Twitter
のデータ収集解析の2つのアプ ローチについて • ①Twitter Filter + ユーザー辞書のみの単語で絞る • 1のメリット▶集計しやすい、後続の処理も設計し やすい。 • 1のデメリット▶未知の単語を拾えない、ユーザー 辞書にひもづく別のワードを拾えない • 結論:ある程度、解析対象のドメインが固定されて いるものにはこのアプローチは有効
28.
‹#› • ② Twitter
Filter + ユーザー辞書を使いつつ全ての単語を集計 • メリット▶ 未知のワードが拾える、リアルなネットワーク 解析ができる。 • デメリット▶ ジャンクワードが多く出現するのでデータクレ ンジングの作業にコストがかかる。 • 結論:解析対象が不明なドメインの場合、まずこのアプロー チで回す。計測対象のネットワークが変動しやすいドメインの 場合はこのアプローチが有効。ある程度アプローチ2で回し てアプローチ1に切り替える、もしくはアプローチ1を追加 した二段のサービスに設計する。
29.
‹#› Mikasaは申請ConoHaと お名前.comのドメインで動いています。
30.
‹#› 4. Spark Streaming
∼ソースコード補足 • TwitterUtilは実体はJavaのTwitterライブラリで あるtwitter4j • Twitter解析にはTwitterAPI特有のAPIレートリ ミット、単一IPによる高負荷時のアクセス制 限があるので注意 • Twitter開発者アカウントには電話番号が必須 になったので気軽に開発はできなくなりつつ ある。
31.
‹#› 5. Sparkについて ! ! ! ! ! • HadoopのMapReduceとは別アプローチ(DAG)での並列分散集計処理を行う •
インメモリー処理 • Hadoopエコシステムの一部として扱われるがHadoopと直接的な関係はない • 2015年6月11日に 1.4.0 がリリース。https://spark.apache.org/releases/spark-release-1-4-0.html • 1.4.0でSparkRが追加(R言語でSparkを利用できる) • APIを利用できる言語はScala, Java, Python SparkR
32.
‹#› 5. Sparkについて ∼Spark処理でのDAG
33.
‹#› 5. Sparkについて∼最近の情勢 • 2015年6月15日
IBMが開発者と研究者を3500人Spark関連プロ ジェクトに投入 http://japan.zdnet.com/article/35065964/ • 2015年 6月15∼17日 Spark summit 2015 開催 (サンフランシスコ) • NTTデータが定期的に勉強会を実施 • 国内のサービス実例は少ない • 2大Hadoopディストリビューション CDHとHDPにはSparkが搭 載 • Spark1.4からはUIでモニタリングも行えるようになった。 http://qiita.com/AKB428/items/71900eecdf2350e1e45f
34.
‹#› 6. Spark Streaming
について ! ! ! ! ! • Sparkサブシステムの一つでファイルからでなくリアルタイ ムに流れてくるストリームソースに対しての集計を対象とし ている。 • 直近1時間のツイート数を毎分集計する、直近3時間でアクセ スが多いIPを集計する・・などのウィンドウ集計が可能。
35.
‹#› 6. Spark Streaming
∼データソースについて ! ! ! ! ! ! その他、ssc.socketTextStream(" localhost", 7777) とするとローカルポートをソースにできるのでサーバーのログを流 し込んでリアルタイムにエラー、クラックIPの集計などが可能。
36.
‹#› Mikasaインストールについて インストールマニュアル https://gist.github.com/AKB428/c30bc6a979e05fa3a022 • TwitterAPIとAmazonAPIのアカウントがあれば1時間でセット アップ完了。 • AmazonAPIはリコメンドしない場合は不要。 •
TwitterAPIのアカウント取得も10分程度で可能。 Mikasa OL https://github.com/AKB428/mikasa_ol Mikasa RS https://github.com/AKB428/mikasa_rs
37.
‹#› 8. Spark Streaming
+ Spark GraphXを使 用したTwitter解析とレコメンドシステム 「Ikazuchi」-雷 ! https://github.com/AKB428/ikazuchi_ol https://github.com/AKB428/ikazuchi_rs
38.
‹#›
39.
‹#›
40.
‹#› ロジックを単純化するため ACOOUNT:単語を”:”で連結したものをカウントしていく。 @akb428:ラブライブ,@akb428:アイマス,@odaken:俺物語
41.
‹#›
42.
‹#› • Kafkaをソースとして受け取りストリーム処理 • 受け取ったものを順次GraphXに渡していく
43.
‹#› 関連商品の2階層目までを取得
44.
‹#› グラフ解析の適用範囲について • 元々はTwitterのソーシャルグラフを解析する想定 でした。 • しかしTwitterのソーシャルグラフをAPIで取得す るのは困難と判明。 •
あるアカウントのフォロワーを取得するAPIは1 callにつき5000人まで取得可能だが、そのAPIは 15分に15回しか実行できない。 • 今回は商品グラフデータをダミーで用意して実施。
45.
‹#› 8.Ikazuchi 実行中コンソール デモ
46.
‹#› Ikazuchi セットアップ https://github.com/AKB428/ikazuchi_ol ! https://github.com/AKB428/ikazuchi_rs ! • 必要なサーバー、ソフトウェアはMikasaと同じ •
商品グラフデータはAmazonAPIなどオープン系 のプロダクトAPIを使い「あなたにお勧め」商品 を紐付けるか、自社のユーザー購買履歴から構築。
47.
‹#› 8. Spark GraphXについて •
Sparkでグラフデータを解析するサブシステム • グラフデータを解析できるがコードは直感的ではない • またあまり開発も盛り上がっておらず、Spark1.4では唯 一更新がないサブシステム https://spark.apache.org/releases/spark-release-1-4-0.html • Spark Packageにアドオンが唯一ない http://spark-packages.org/ ・オライリーの「Lerning Spark」にもサブシステムで唯 一解説がない。
48.
‹#› 8. Spark GraphXについて グラフを自前で処理するコードは直感的ではないが実装 されているアルゴリズム(例えばページランクアルゴリ ズム)は使用しやすく数行で利用できる。 http://qiita.com/AKB428/items/bf1cd05d6cf3e23986d9
49.
‹#› val graph: Graph[Int,
Int] = GraphLoader.edgeListFile(sc, args(0)).cache() val ranks = graph.pageRank(0.0001).vertices val users = sc.textFile(args(1)).map { line => val fields = line.split(",") (fields(0).toLong, fields(1)) } val ranksByUsername = users.join(ranks).map { case (id, (username, rank)) => (username, rank) } println(ranksByUsername.collect().mkString("n"))
50.
‹#› 8. Spark GraphXについて GpaphXが需要がない理由は以下が考えられる •
RDBからグラフデータ処理への頭の変換のコスト • そもそもグラフデータを持っている企業が少ない • グラフデータをオープンで公開してる企業が少ない • 現実の問題に適用しにくい、RDB・表概念で事たりて いる。 • GraphXが活性化するにはページランクアルゴリズム並 に簡単に使えるライブラリの充実が不可欠。 !
51.
‹#› • 9. 参考文献紹介-1 ! ! ! ! 「Scala逆引きレシピ」 •
他言語経験者でScalaが初心者の方にお奨め、情 報も新しく、PlayフレームワークやSBTの説明も 豊富。
52.
‹#› • 9. 参考文献紹介-2 ! ! ! ! 「Learning
Spark」 • Sparkのコーディングはこれを読めば理解可能。 • 英語初心者でもかなり読みやすい本なのでお奨 め。今年日本語化されるらしい。
53.
‹#› • 10. まとめ •
Twitterストリームのリアルタイムな集計にSpark Streamingは最適だった。(SQLだとデータを一度DB に格納し日付系の長いSQLを打つ必要がある。) • 日本語データを解析するためには形態素解析ライブラ リの使い方の把握、ユーザー辞書のチューニング、デー タクレンジングが重要で、ある程度は時間がかかる。 • Spark GpaphXは対象となるグラフデータを持ってい ないとグラフデータの構築から準備するコストが発生。
54.
‹#› 研究に2週間の時間を頂きました。 チームの皆様、ご協力本当に ありがとうございました。 素晴らしい試みなので続けていき たいと思います。
55.
‹#› ご清聴ありがとうございました