Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
© 2016 IBM Corporation
Bluemixを使ったTwitterの分析処理
Tanaka Y.P
2016-09-03
© 2016 IBM Corporation2
自己紹介
田中裕一(yuichi tanaka)
主にアーキテクチャとサーバーサイドプログラムを担当
することが多い。Hadoop/Spark周りをよく触ります。
Node.js、Python、最...
© 2016 IBM Corporation3
アジェンダ
 Sparkの概要
 今日利用するものの紹介
 Cloudant
 Spark
 Node-RED
 本日のサンプル(分類器)
 Notebook
© 2016 IBM Corporation4
Sparkの概要
© 2016 IBM Corporation5
DataFrames
Sparkのテクノロジースタック
Spark Core
SparkSQL
Spark
Streaming
GraphX MLlib
HDFS Cassandra HBase ...
© 2016 IBM Corporation8
• Java, Scala, Pythonを利用してETLを実行可能
• RDD(Reslient Distributed Datasets)はScalaのコレクションの
Seqのようなもので、デ...
© 2016 IBM Corporation9
• SQLを利用したデータ操作が可
能
• トランザクションなし
• Parquet 、Json、Hive だけで
なくJDBCやODBCもサポート
• Thrift JDBC/ODBCによる外部...
© 2016 IBM Corporation13
• Sparkによるミニ(マイクロ)バッチの実行
• DStreamと呼ばれるRDDを操作
• 指定間隔ごとにまとめられたRDDを処理(Windows処
理も可能)
• 通常のSparkプログラ...
© 2016 IBM Corporation14
• MLlibとRが利用可能
MLlibはScalaで、SparkRはRで
記述可能
• アルゴリズム(MLlib)
• SVM、ロジスティック回帰、決定木、K-
means、ALSなど
• I...
© 2016 IBM Corporation15
• グラフデータを並列分散環境で処理するための
フレームワーク
• グラフ構造データを用いた解析を行う
• 「点」と「辺」からなるデータ
• SNSでのつながり、データ間の関連性
など
• 表構...
© 2016 IBM Corporation18
Cloudant
 Cloudantはfull-managedのNoSQL。CouchDBと互換。
 GUIを使ったDataBaseの作成や権限管理、Indexの管理などAdmin系を提供
...
© 2016 IBM Corporation19
Spark
 Apache Sparkは分散並列処理フレームワーク。ScalaやPythonを用いて分析処理
などを効率よく行う。jupyterでの実行かbatch実行が行える。
 現在Bl...
© 2016 IBM Corporation20
Node-RED
 OpenSourceのデバイスやAPIをGUI上で接続する為のツール。Bluemix上のNode-
REDにはディフォルトで各種Bluemixとの連携モジュールが導入されて...
© 2016 IBM Corporation21
SparkSQLと他コンポーネントの組み合わせ
Cloud上でSparkSQL,SparkCore,JavaModuleを組み合わせたサンプルを構築
1. Twitterから記事情報を取得
2....
© 2016 IBM Corporation22
本日のサンプル(分類器の作成)
• Sparkを使ったTweetの分類を行います。(自動タグリング)
• SNS分析などで利用される分析
• 例えば評判の取得や調査の為の関連tweetの抽出など...
© 2016 IBM Corporation23
Twitter 本文抽出
tag抽出 カテゴリ作成
カテゴリ付与
Cloudant
データ圧縮分類
本日のサンプル(分類器の作成)
• Sparkを使ったTweetの分類を行います。(自動タグリ...
© 2016 IBM Corporation24
本日のサンプルの反省
1. もうちょっと学習用データのtagを考えれば良かった・・・
• 学習用のデータ収集
• #economy,#経済
• #seiji,#政治
• #sports,#スポー...
© 2016 IBM Corporation25
参考
• http://db-event.jpn.org/deim2011/proceedings/pdf/a1-6.pdf
• http://dbsj.org/wp-content/uploa...
Upcoming SlideShare
Loading in …5
×

Bluemixを使ったTwitter分析

7,889 views

Published on

BluemixのCloudant,Node-RED,Sparkを利用したTwitterのタグリングです。

Published in: Technology
  • Be the first to comment

Bluemixを使ったTwitter分析

  1. 1. © 2016 IBM Corporation Bluemixを使ったTwitterの分析処理 Tanaka Y.P 2016-09-03
  2. 2. © 2016 IBM Corporation2 自己紹介 田中裕一(yuichi tanaka) 主にアーキテクチャとサーバーサイドプログラムを担当 することが多い。Hadoop/Spark周りをよく触ります。 Node.js、Python、最近はSpark周りの仕事でScalaを書く ことが多い気がします。 休日はOSS周りで遊んだり。 詳解 Apache Spark
  3. 3. © 2016 IBM Corporation3 アジェンダ  Sparkの概要  今日利用するものの紹介  Cloudant  Spark  Node-RED  本日のサンプル(分類器)  Notebook
  4. 4. © 2016 IBM Corporation4 Sparkの概要
  5. 5. © 2016 IBM Corporation5 DataFrames Sparkのテクノロジースタック Spark Core SparkSQL Spark Streaming GraphX MLlib HDFS Cassandra HBase ・・・ Packages
  6. 6. © 2016 IBM Corporation8 • Java, Scala, Pythonを利用してETLを実行可能 • RDD(Reslient Distributed Datasets)はScalaのコレクションの Seqのようなもので、データを順番に保持 • RDDの内部はパーティションに分かれている。パーティション 毎にデータを保持(HDFSブロック数に依存) • 分散処理する際にはパーティション毎に並列に処理 • mapやfilter等の基本的な操作の場合、データの順序は変わ らない。 val csv = spark.textFile("tokyo.csv") val pairs = csv.map(line => (line.split(","))) .map(x => (x(0).take(8), (x(4).toFloat, 1))) .reduceByKey( (x,y) => (x._1 + y._1, x._2 + y._2) ) .map(x => (x._1, x._2._1/x._2._2) ) .sortByKey()  Spark CoreはSparkのエンジン Spark Core 20150614 22:00:00,0,1,8,20.9,8,3.0,8,南南西,8,85,8 20150614 23:00:00,0,1,8,20.9,8,2.6,8,南南西,8,86,8 20150615 00:00:00,0,1,8,20.5,8,1.0,8,南,8,86,8 20150615 1:00:00,0,1,8,20.4,8,0.7,8,南,8,88,8 (2015/6/14,22.565218) (2015/6/15,24.550001) (2015/6/16,23.358332) (2015/6/17,21.583334) 例:平均気温の計算
  7. 7. © 2016 IBM Corporation9 • SQLを利用したデータ操作が可 能 • トランザクションなし • Parquet 、Json、Hive だけで なくJDBCやODBCもサポート • Thrift JDBC/ODBCによる外部 からの接続 • 後述のDataFrameをラップする 形で実装 {"name":"貝嶋", "address":{"city":"川崎", "state":"神奈川"}} {"name":"土屋", "address":{"city":"豊洲", "state":"東京"}} {“name”:“山田", "address":{"city":"横浜", "state":"神奈川"}} {"name":"岸代", "address":{"city":"後楽園", "state":"東京"}} val people = sqlContext.jsonFile("test.json") people.registerTempTable("people") val nameAndAddress = sqlContext.sql("SELECT name, address.city, address.state FROM people WHERE address.state="神奈川"") nameAndAddress.collect.foreach(println) {"name":"貝嶋", "address":{"city":"川崎", "state":"神奈川"}} {“name”:“山田", "address":{"city":"横浜", "state":"神奈川"}} 例:住所データ(json)からの特定データの抽出 • SparkSQLによるデータ操作 Spark SQL
  8. 8. © 2016 IBM Corporation13 • Sparkによるミニ(マイクロ)バッチの実行 • DStreamと呼ばれるRDDを操作 • 指定間隔ごとにまとめられたRDDを処理(Windows処 理も可能) • 通常のSparkプログラミングとほぼ同様 たとえば、定期的に流入するデータの「移動平均値」の連続計 算 val tstream = ssc.socketTextStream(hostname, port) var mdtxt = tstream.map(x => x.split(",")) .map(x => ( x(0), (x(0), x(1), x(2).toInt) ) ) .updateStateByKey(updateFunc _) mdtxt.print() センサーデータ: (Dev1, 201501010000, 0) (Dev2, 201501010000, 0) (Dev1, 201501010001, 1) Alert: Dev1 Status changed : 1  Sparkでストリーム処理 Spark Streaming 例:センサーデータの出力値変更時にアラート DStream RDD data data RDD data data RDD data data
  9. 9. © 2016 IBM Corporation14 • MLlibとRが利用可能 MLlibはScalaで、SparkRはRで 記述可能 • アルゴリズム(MLlib) • SVM、ロジスティック回帰、決定木、K- means、ALSなど • IBMはSystemMLをSparkに提供 val data = spark.textFile("kdata.txt") val parsedData = data.map(x => Vectors.dense(x.split(',').map(_.toDouble))).cache() val numClusters = 3 val numIterations = 10 val clusters = KMeans.train(parsedData, numClusters, numIterations)  Sparkで機械学習 SparkR, Mllib データ: ( 直近購買月[n日前], 期間内購買回数 ) (5,1),(4,2),(5,3),(1,2),(2,4),(2,5),(2,6),(1,4),(1,5),(1,2),(1,5),(5,5) クラスタ結果: ([中心], 人数) ([1.0, 2.0], 2), ([1.5, 4.833333333333333], 6), ([4.666666666666666, 2.0], 3), ([5.0, 5.0], 1) 例:顧客のクラスタ分け 0 2 4 6 0 2 4 6
  10. 10. © 2016 IBM Corporation15 • グラフデータを並列分散環境で処理するための フレームワーク • グラフ構造データを用いた解析を行う • 「点」と「辺」からなるデータ • SNSでのつながり、データ間の関連性 など • 表構造では扱うことが難しい関係を見つけ出す • データ間のつながりの抽出 • 輪の抽出 • 距離の計測 • 影響の計測 • グラフDBとの兼ね合い(これから) val graphWithDistance = Pregel( graph.mapVertices((id:VertexId, attr:Int) => List((id, 0))), List[(VertexId, Int)](), Int.MaxValue,EdgeDirection.Out)((id, attr, msg) => mergeVertexRoute(attr, msg.map(a=> (a._1, a._2 + 1))),edge => { val isCyclic = edge.srcAttr.filter(_._1 == edge.dstId).nonEmpty if(isCyclic) Iterator.empty else Iterator((edge.dstId, edge.srcAttr)) },(m1, m2) => m1 ++ m2 )  Sparkでグラフ処理を Spark GraphX つながりの検索 例: つながりと距離を見つけ出す 1,((1,0), (6,1), (9,1), (7,1), (4,2)) 1 2 3 4 5 6 7 89
  11. 11. © 2016 IBM Corporation18 Cloudant  Cloudantはfull-managedのNoSQL。CouchDBと互換。  GUIを使ったDataBaseの作成や権限管理、Indexの管理などAdmin系を提供  今回はTwitterのTweetを格納します。
  12. 12. © 2016 IBM Corporation19 Spark  Apache Sparkは分散並列処理フレームワーク。ScalaやPythonを用いて分析処理 などを効率よく行う。jupyterでの実行かbatch実行が行える。  現在Bluemixで利用可能なSparkのversionはv1.6  Notebookの共有機能や他のBluemixコンポーネントからの簡単な接続を提供  今回は下記を行います  Cloudantに格納したデータの取得  前処理  分類器の作成  分類処理
  13. 13. © 2016 IBM Corporation20 Node-RED  OpenSourceのデバイスやAPIをGUI上で接続する為のツール。Bluemix上のNode- REDにはディフォルトで各種Bluemixとの連携モジュールが導入されている  Micro-ServiceをGUIで簡単に作成可能なため、開発効率が良い  Bluemix上にはWatsonのモジュールもあり、簡単にCognitiveソリューションの利 用が可能  今回はTwitterモジュールとCloudantモジュールを利用してTwitterのデータを Cloudantに溜める部分で利用
  14. 14. © 2016 IBM Corporation21 SparkSQLと他コンポーネントの組み合わせ Cloud上でSparkSQL,SparkCore,JavaModuleを組み合わせたサンプルを構築 1. Twitterから記事情報を取得 2. Tweet本文のみをCloudant(CouchDB)へ 3. SparkCoreを利用してCloudantのデータを前処理 4. 分類器作成 5. Tweetのタグ付け 変 換
  15. 15. © 2016 IBM Corporation22 本日のサンプル(分類器の作成) • Sparkを使ったTweetの分類を行います。(自動タグリング) • SNS分析などで利用される分析 • 例えば評判の取得や調査の為の関連tweetの抽出などで利用可能 • 短文(tweetなど)の課題 • kuromojiを使って形態素解析を行う • 新語・略語・間違いなどに弱い(というか辞書にないのはできない) • kMeansを用いた分類 • 辞書の精度に依存してしまう • 日本語以外の形態素解析が難しい • データ圧縮による分類 • 似たような短文を複数集め、それぞれデータ圧縮し分類器を作る • 判定したい短文と複数集めた短文をデータ圧縮する • どの程度圧縮されたか圧縮比を計算し、圧縮比の高いものと同じ分類とする ー> 新語や略語に強い 言語を問わない・画像や映像もいける
  16. 16. © 2016 IBM Corporation23 Twitter 本文抽出 tag抽出 カテゴリ作成 カテゴリ付与 Cloudant データ圧縮分類 本日のサンプル(分類器の作成) • Sparkを使ったTweetの分類を行います。(自動タグリング) • Tweetを取得し、Cloudant(CouchDB)に格納 • Sparkでtagを抽出し、tag毎のtweet_listを作成 • 今回タグ付けを行いたいカテゴリとtagのマッピングを作成 • カテゴリ毎のtweetデータをデータ圧縮分類 • 分類に基づいてカテゴリ付与
  17. 17. © 2016 IBM Corporation24 本日のサンプルの反省 1. もうちょっと学習用データのtagを考えれば良かった・・・ • 学習用のデータ収集 • #economy,#経済 • #seiji,#政治 • #sports,#スポーツ • #anime,#アニメ • #IT,#エンジニア • #science,#科学 ー> これらのタグは各分野の「ニュース」が大量に含まれてしまい、ワードが似通ってしまった。 経済のタグは実はFX関連が多いなど、タグだけで機械的に学習データを集めると分類結果が・・・ 2. Sparkでの実装 1. SparkSQLや前処理部分での恩恵は大きい(ハズ) 2. 肝心の圧縮部分が分散処理されていない 3. 今日のサンプルの応用 1. Twetterなどの短文、新語や略語が多く含まれる分類には有効 2. 同様にブログ記事など同じ性質を持つものにも有効そう 3. EC系の説明分などを使った自動タグリングにも応用が利きそう
  18. 18. © 2016 IBM Corporation25 参考 • http://db-event.jpn.org/deim2011/proceedings/pdf/a1-6.pdf • http://dbsj.org/wp-content/uploads/journal/vol10/no1/dbsj-journal-10-01-001.pdf

×