More Related Content
Similar to Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Similar to Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会 (20)
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
- 8. システム概要図
8
Twitter NHK 朝⽇日新聞JCC (TV)
震災に関係する情報のみフィルタリ
ング
地域情報の抽出
要望トピックの抽出
情報フィルタリングエンジン + UI
地域情報は地名や駅名、
路路線名、ランドマーク名
から市町村レベルで推定
関連情報の抽出
トピックは本⽂文から推定
「避難, インフラ, ⾼高齢者,
医療療 」など 21トピック
URLや内容のクラスタリ
ングにより、関連情報を
抽出
⽂文書分類器を震災関連
ハッシュタグを正解例例
にして学習し、分類
- 29. ⼤大規模データ分析のリアルタイム化
l ⼤大規模データ分析のリアルタイム化に対するニーズは
急増中
l Hadoop Summitにおいても、多くのセッションで“リアルタ
イム”がテーマとなっている
l Google Dremel, Google BigQueryが発表され、
Apache Drill, Cloudera Impala等が注⽬目を集めている
l リアルタイム分析に必要とされる技術の複雑さは様々
l Jubatusによるリアルタイム機械学習
l ImpalaなどSQLベース、DWHの⼤大規模化
l 検索索技術をベースにしたアドホック分析
→ Splunk、Solr Cloudなどを利利⽤用
29
- 43. 機械学習の世界の分類
l 問題設定に基づく分類
l 教師有学習 / 教師無学習 / 半教師有学習 / 強化学習 など ..
l 戦うドメインの違い
l 特徴設計屋(各ドメイン毎に, NLP, Image, Bio, Music)
l 学習アルゴリズム屋(SVM, xx Bayes, CW, …)
l 理理論論屋(統計的学習理理論論、経験過程、Regret最⼩小化)
l 最適化実装屋
l 好みの違い
l Bayesian / Frequentist / Connectionist
l [Non-|Semi-]Parametric
43
この⼆二つの問題設定だけは
知っておいてほしいので説明
- 44. 教師有り学習
l ⼊入⼒力力 x に対して期待される出⼒力力 y を教える
l 分析時には未知の x に対応する y を予測する
l y がカテゴリの場合を分類問題、実数値の場合を回帰問
題と呼ぶ
l 分類
l スパム判定、記事分類、属性推定、etc.
l 回帰
l 電⼒力力消費予測、年年収予測、株価予測、etc.
44
- 45. 教師無し学習
l ⼊入⼒力力 x をたくさん与えると何かしらの結果を返す
l クラスタリング
l 与えられたデータをまとめあげる
l 異異常検知
l ⼊入⼒力力データが異異常かどうかを判定する
45
- 48. l NTT SIC*とPreferred Infrastructureによる共同開発
l 2011年年10⽉月よりOSSで公開 http://jubat.us/
Jubatus
48
リアルタイム
ストリーム 分散並列列 深い解析
* NTT研究所 サイバーコミュニケーション研究所
ソフトウェアイノベーションセンタ
- 75. 接尾辞配列列 Suffix Arrays (SA)
l 全接尾辞を辞書式順序でソートした結果
l ⻑⾧長所 漏漏れがない、どんなクエリでも⾼高速
l 短所 索索引が⼤大きい、構築に時間がかかる
abracadabra$
11 $
10 a$
7 abra$
0 abracadabra$
3 acadabra$
5 adabra$
8 bra$
1 bracadabra$
4 cadabra$
6 dabra$
0 abracadabra$
1 bracadabra$
2 racadabra$
3 acadabra$
4 cadabra$
5 adabra$
6 dabra$
7 abra$
・・・
dabra = dabra$
辞書式
順序
ソート
出現位置(先頭位置からのオフセット)
例:dabraを検索する
1. 配列 SA の大きさは 11 なので配列インデックス
の中心値 5 から検索
2. SA[5] = 8 、この 8 は “abracadabra” の “bra”
の
出現位置を指している
3. 検索クエリの "dabra" と "bra" を比較すると
"dabra" の方が辞書式順で大きい
4. よって検索範囲は SA[5] から SA[11] の間に絞
り込まれる
5. SA[5] と SA[11] の間 → SA[8] = 6
6. SA[8] = 6 の 6 は “abracadabra” の dabra
に
一致。よって dabra の出現位置は 6 と判明