Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
Uploaded by
Yosuke Mizutani
PPTX, PDF
2,996 views
Spark GraphX で始めるグラフ解析
Ichigaya Geek Night Lightning Talk (2016-12-21)
Technology
◦
Read more
5
Save
Share
Embed
Embed presentation
Download
Download to read offline
1
/ 17
2
/ 17
3
/ 17
4
/ 17
5
/ 17
6
/ 17
7
/ 17
8
/ 17
9
/ 17
10
/ 17
11
/ 17
12
/ 17
13
/ 17
14
/ 17
15
/ 17
16
/ 17
17
/ 17
More Related Content
PPTX
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
by
Tanaka Yuichi
PDF
Sparkを用いたビッグデータ解析 〜 前編 〜
by
x1 ichi
PDF
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
by
Junichi Noda
PPTX
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
by
sugiyama koki
PDF
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
by
Kazuki Taniguchi
PDF
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
by
Junichi Noda
PPTX
Bluemixを使ったTwitter分析
by
Tanaka Yuichi
PPTX
Big datauniversity
by
Tanaka Yuichi
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
by
Tanaka Yuichi
Sparkを用いたビッグデータ解析 〜 前編 〜
by
x1 ichi
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
by
Junichi Noda
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
by
sugiyama koki
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
by
Kazuki Taniguchi
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
by
Junichi Noda
Bluemixを使ったTwitter分析
by
Tanaka Yuichi
Big datauniversity
by
Tanaka Yuichi
What's hot
PDF
20160127三木会 RDB経験者のためのspark
by
Ryuji Tamagawa
PPTX
PythonでDeepLearningを始めるよ
by
Tanaka Yuichi
PPTX
Apache Sparkを使った感情極性分析
by
Tanaka Yuichi
PPSX
HBaseとSparkでセンサーデータを有効活用 #hbasejp
by
FwardNetwork
PPTX
Watson summit 2016_j2_5
by
Tanaka Yuichi
PDF
本当にあったApache Spark障害の話
by
x1 ichi
PPTX
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
by
Tanaka Yuichi
PDF
20151205 Japan.R SparkRとParquet
by
Ryuji Tamagawa
PPTX
Pythonで入門するApache Spark at PyCon2016
by
Tatsuya Atsumi
PPTX
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
by
Tanaka Yuichi
PDF
Apache Sparkの紹介
by
Ryuji Tamagawa
PDF
Spark Summit 2015 参加報告
by
Katsunori Kanda
PPTX
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
by
Tanaka Yuichi
PDF
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
by
The Japan DataScientist Society
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
by
NTT DATA OSS Professional Services
PDF
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
by
LINE Corp.
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
by
Future Of Data Japan
PDF
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
by
LINE Corp.
PPTX
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
by
Tanaka Yuichi
PDF
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
by
Hadoop / Spark Conference Japan
20160127三木会 RDB経験者のためのspark
by
Ryuji Tamagawa
PythonでDeepLearningを始めるよ
by
Tanaka Yuichi
Apache Sparkを使った感情極性分析
by
Tanaka Yuichi
HBaseとSparkでセンサーデータを有効活用 #hbasejp
by
FwardNetwork
Watson summit 2016_j2_5
by
Tanaka Yuichi
本当にあったApache Spark障害の話
by
x1 ichi
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
by
Tanaka Yuichi
20151205 Japan.R SparkRとParquet
by
Ryuji Tamagawa
Pythonで入門するApache Spark at PyCon2016
by
Tatsuya Atsumi
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
by
Tanaka Yuichi
Apache Sparkの紹介
by
Ryuji Tamagawa
Spark Summit 2015 参加報告
by
Katsunori Kanda
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
by
Tanaka Yuichi
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
by
The Japan DataScientist Society
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
by
NTT DATA OSS Professional Services
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
by
LINE Corp.
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
by
Future Of Data Japan
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
by
LINE Corp.
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
by
Tanaka Yuichi
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
by
Hadoop / Spark Conference Japan
Similar to Spark GraphX で始めるグラフ解析
PDF
Spark GraphXについて @Spark Meetup 2014/9/8
by
鉄平 土佐
PDF
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
by
鉄平 土佐
PDF
NetworkXによる語彙ネットワークの可視化
by
Shintaro Takemura
PDF
Sparkで始めるお手軽グラフデータ分析
by
Nagato Kasaki
PDF
GraphX によるグラフ分析処理の実例と入門
by
鉄平 土佐
PDF
Pythonで簡単ネットワーク分析
by
antibayesian 俺がS式だ
PPTX
フレームワークを求めるな。ECMAScriptを使へ。
by
Sachirou Inoue
PPTX
グラフデータからの分析アプローチ
by
Yuki Tagami
PDF
Spark GraphFrames のススメ
by
Nagato Kasaki
PDF
グラフデータ分析 入門編
by
順也 山口
PPTX
Introduction of network analysis with Google Colaboratory -- Example of Netwo...
by
tm1966
PPTX
Network analysis and visualization by Google Colaboratory
by
tm1966
Spark GraphXについて @Spark Meetup 2014/9/8
by
鉄平 土佐
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
by
鉄平 土佐
NetworkXによる語彙ネットワークの可視化
by
Shintaro Takemura
Sparkで始めるお手軽グラフデータ分析
by
Nagato Kasaki
GraphX によるグラフ分析処理の実例と入門
by
鉄平 土佐
Pythonで簡単ネットワーク分析
by
antibayesian 俺がS式だ
フレームワークを求めるな。ECMAScriptを使へ。
by
Sachirou Inoue
グラフデータからの分析アプローチ
by
Yuki Tagami
Spark GraphFrames のススメ
by
Nagato Kasaki
グラフデータ分析 入門編
by
順也 山口
Introduction of network analysis with Google Colaboratory -- Example of Netwo...
by
tm1966
Network analysis and visualization by Google Colaboratory
by
tm1966
More from Yosuke Mizutani
PDF
Introduction to Graph Theory
by
Yosuke Mizutani
PDF
フロントエンド初心者の大学生が Scala.js で Web アプリを作ってみた話
by
Yosuke Mizutani
PDF
はじめての CircleCI
by
Yosuke Mizutani
PDF
Adtech x Scala x Performance tuning
by
Yosuke Mizutani
PDF
ScalaにまつわるNewsな話
by
Yosuke Mizutani
PDF
アドテク×Scala×パフォーマンスチューニング
by
Yosuke Mizutani
Introduction to Graph Theory
by
Yosuke Mizutani
フロントエンド初心者の大学生が Scala.js で Web アプリを作ってみた話
by
Yosuke Mizutani
はじめての CircleCI
by
Yosuke Mizutani
Adtech x Scala x Performance tuning
by
Yosuke Mizutani
ScalaにまつわるNewsな話
by
Yosuke Mizutani
アドテク×Scala×パフォーマンスチューニング
by
Yosuke Mizutani
Spark GraphX で始めるグラフ解析
1.
Spark GraphX で始めるグラフ解析 市ヶ谷Geek★Night#11 Lightning
Talk 2016-12-21 @mogproject
2.
About me http://mogproject.com
3.
Spark GraphX Apache Spark
GraphX とは ▸Spark に標準で組み込まれているグラフ処理 API ▸Spark クラスタ = データストア / 計算資源 ▸大規模グラフを扱いやすい
4.
Spark GraphX 今回お話しする「グラフ」は・・・
5.
Why GraphX? 実用例 ▸大規模グラフの分析プロジェクト (論文の共著者関係分析) ▸ノード数:
500万〜 エッジ数: 9000万〜 ▸最初は Python製 の NetworkX を使っていた ▸グラフが大きくなるにつれ、メモリ不足が発生 ▸Scala / Spark に慣れているなら手軽に利用可能
6.
Why GraphX? 実用例: (無向)グラフの中心性計算 ▸次数中心性 ▸次数
= 各ノードに接続しているエッジの数 ▸直接的なつながりの多いノードを発見できる ▸媒介中心性 ▸全てのノードの組に対して最短経路を求める ▸より多くの組の最短経路上に位置するノードを計算
7.
コード例 build.sbt ▸"spark-graphx" への依存を追加 ▸Scala 2.12
には未対応 scalaVersion := "2.11.8" libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "2.0.2", "org.apache.spark" %% "spark-graphx" % "2.0.2" ) build.sbt
8.
コード例 グラフデータの読み込み ▸エッジリストからグラフを生成する例 0 1 0 2 1
2 1 3 3 4 4 5 4 6 5 6 edge_list_1.txt
9.
コード例 グラフデータの読み込み ▸GraphLoader のメソッドを利用する import org.apache.spark._ import
org.apache.spark.graphx._ val conf = new SparkConf().setMaster(s"local[2]") val sc = new SparkContext(conf) val g: Graph[Int, Int] = GraphLoader.edgeListFile(sc, "path/to/edge_list.txt") Main.scala
10.
コード例 次数中心性の計算 ▸Graph#degrees を呼び出すだけ g.degrees.sortByKey().collect().foreach {
case (n, v) => println(s"Node: ${n} -> Degree: ${v}") } Node: 0 -> Degree: 2 Node: 1 -> Degree: 3 Node: 2 -> Degree: 2 Node: 3 -> Degree: 2 Node: 4 -> Degree: 3 Node: 5 -> Degree: 2 Node: 6 -> Degree: 2 Main.scala 出力例
11.
コード例 次数中心性の計算 3 2 3 2 2 2 2
12.
コード例 媒介中心性の計算 ▸なかなか大変 (説明省略)
13.
コード例 媒介中心性の計算 ▸実行結果 Node: 0 ->
Betweenness: 0.0 Node: 1 -> Betweenness: 8.0 Node: 2 -> Betweenness: 0.0 Node: 3 -> Betweenness: 9.0 Node: 4 -> Betweenness: 8.0 Node: 5 -> Betweenness: 0.0 Node: 6 -> Betweenness: 0.0 出力例
14.
コード例 媒介中心性の計算 8 0 8 0 9 0 0
15.
後日談 性能面の課題 ▸グラフ操作の種類 (アルゴリズム) によって得手不得手があ る ▸Spark
ノード間の通信コスト ▸Spark の UI でモニタリングしつつチューニングを繰り返す
16.
後日談 C++ で実装し直した ▸とある処理の所要時間: 854日
(GraphX) -> 15日 (C++) 60 倍 高速化!
17.
Thanks! ご清聴ありがとうございました ▸コード例はこちら ▸https://github.com/mogproject/example-graphx クリスマスに働く人のイラスト ©︎いらすとや
Editor's Notes
#3
昨年まで市ヶ谷で Scala エンジニア 今年からアメリカに留学、人生ニューゲーム、スーパーマリオラン
#5
点と線で表現されるデータ構造 関係性の分析に適している 点をノード、線をエッジと呼ぶ
#9
ダンベル型のグラフ
#15
3番のノードは、次数は低いのものの、媒介中心性が高い
Download