Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Twitter分析のためのリアルタイム分析基盤株式会社Preferred Infrastructure海野  裕也 (@unnonouno)2013年5月18日第4回Twitter研究会
⾃自⼰己紹介l  海野  裕也 (@unnonouno)l  プリファードインフラストラクチャーl  情報検索索、レコメンドl  機械学習・データ解析研究開発l  Jubatusl  分散オンライン機械学習フレームワークl  専⾨...
本⽇日の概要l  Twitterのデータのリアルタイム処理理の紹介l  その裏裏で使われる、⼤大量量データのリアルタイム分析技術を紹介します※半分弊社の製品紹介になりますがご容赦ください3
l  イントロ  Project 311l  リアルタイム分析を⽀支える技術l  リアルタイム検索索技術l  リアルタイム機械学習技術4
東⽇日本⼤大震災ビッグデータワークショップProject 311l  東⽇日本⼤大震災発⽣生後1週間のデータを元に、どのようなサービスを開発できるかl  https://sites.google.com/site/prj311/l  情報...
災害時に利利⽤用可能なサービスを提供するl  災害時には様々なメディアからの情報が錯綜したl  Twitterなどを介してリアルタイムかつ⾝身近な情報が多く発信されたが、必要な情報のみを集める⽅方法ができなかったl  実家がいわき市にある...
提案サービスl  時間/話題/地域/キーワード毎に情報をフィルタリングl  個⼈人・組織が必要な情報を集められるようなサービスを作るl  twitter、新聞、TV、レスキューの情報を横断フィルタリングl  テキスト情報から必要な情報は...
システム概要図8	Twitter NHK 朝⽇日新聞JCC (TV)震災に関係する情報のみフィルタリング地域情報の抽出要望トピックの抽出情報フィルタリングエンジン + UI地域情報は地名や駅名、路路線名、ランドマーク名から市町村レベルで推定関連...
デモ9
Twitterとその他のメディアの⽐比較Twitter (CGM) 既存メディア情報の鮮度度 直近 遅れる情報の信頼度度 デマも拡散する 精査されている情報の粒粒度度 局所的な情報 ⼤大域的な情報情報の密度度 不不要な情報が殆ど 精査されている...
Twitterの良良さを活かすには?l  最新の情報を届けるl  リアルタイムに情報にアクセスできるようにするl  個別の情報を整理理するl  つぶやきに含まれる情報を抽出するl  細かく情報を整理理するl  有⽤用な情報だけをフィ...
⼤大量量のデータで溺溺れないl  太平洋で砂⾦金金を探しているようなものl  本当に欲しい情報は1%もないと思って良良いl  闇雲に探してもダメ、強⼒力力な武器が必要12
想像しているほど有⽤用なことはつぶやかれていないl  いかにTwitterが⼤大量量でも、欲しい情報があるとは限らない13	ウチの製品の評判を調べたいんだよね!御社の名前は⽉月に1回程度度しかつぶやかれていませんが・・・・・・・・・
必要な情報を⾒見見つけ出すにはどうすれば良良いか?l  ⼤大量量の情報を効率率率的に精査する必要があるl  ユーザーの欲しい情報だけに絞り込むl  事前に出来るだけ整理理しておくl  必要な情報は予め抜き出しておくl  しかも、⼤大量...
⼤大量量データから欲しい情報を得るための2つの技術l  能動的な情報の取得l  ユーザーが興味のある情報を発⾒見見しにいくà 情報検索索技術l  受動的な情報の整理理l  ユーザーの興味がありそうな情報を提⽰示するà 機械学習技術1...
Googleにみる2つの情報アクセス16	フリーワードによる検索索機能勝⼿手に画像やプロフィールを提⽰示
Amazonにみる2つの情報アクセス17	勝⼿手におすすめ商品を提⽰示欲しい商品を検索索
何故2つのアクセス⽅方式が必要なのか?l  能動型アクセスl  ユーザー固有の要求を提⽰示できるl  必ずしもユーザーがニーズを理理解していないl  想像の範囲外の要求を出せないl  受動型アクセスl  ユーザーは何もしなくても情報...
先ほどのデモを⾒見見なおしてみる19	Twitter NHK 朝⽇日新聞JCC (TV)震災に関係する情報のみフィルタリング地域情報の抽出要望トピックの抽出情報フィルタリングエンジン + UI関連情報の抽出事前に情報を自動整理	アドホックな情報...
残りのスライドで2種類の技術について解説しますl  能動的に情報を発⾒見見するための情報検索索技術l  受動的に情報を整理理するための機械学習技術20
情報検索索技術21
情報検索索技術とはl  広義には、テキスト検索索や⽂文字列列検索索に限らないl  ただし、テキストはユーザーが検索索要求を出しやすいため、⾮非常に扱いやすい22	情報検索(じょうほうけんさく)とは、コンピュータを用いて大量のデータ群から目的...
情報検索索の全体像l  効率率率的な検索索をサポートするためのインデクシングl  能率率率を上げるためのインターフェースl  ⼤大規模データを扱うための分散技術l  情報を回収するためのクローリング23
情報検索索のコアの仕組みl  事前に検索索効率率率をあげるための情報を整理理しておくl  本の索索引を作るイメージl  この整理理のおかげで効率率率的に検索索できるようになる24	元データインデックス
テキスト全⽂文検索索におけるインデックス⽅方式の違い転置ファイル N-gram Suffix Array辞書の必要 必要 不不要 不不要漏漏れのない検索索 × ○ ○検索索速度度 ○ △ ○インデックス構築速度度○ ○ △インデックスサイズ ○...
SSDがストレージ・プロセッサ・ネットワークのトレードオフを⼤大きく変えたSSD  (Crucial  m4  256GB)HDD  (Seagate  ST2000DL003)Read 415MB/s 140MB/sWrite 260MB/s...
余談:インデックスを⽤用いないとどうなるか?l  事前に整理理しないで、⾼高性能マシンや超⼤大量量マシンで愚直に全部探す⽅方法もあるl  Hadoopなどはこうしたアプローチの⼀一種l  効率率率が悪く、数万倍のコストがかかることも27	...
Twitter検索索と従来の記事検索索のどこが違うか?l  流流量量が膨⼤大l  秒間数千〜~万というオーダーで⽂文書が増え続けるl  ⽌止まることなく流流れ続けるl  常にデータを追加し続ける必要があるl  特にデータの鮮度度が重要...
⼤大規模データ分析のリアルタイム化l  ⼤大規模データ分析のリアルタイム化に対するニーズは急増中l  Hadoop  Summitにおいても、多くのセッションで“リアルタイム”がテーマとなっているl  Google  Dremel,  G...
技術的な克服l  メモリとSSDのハイブリッドl  オンメモリのサーバーと、SSDサーバーの併⽤用で、直近のデータはオンメモリですぐさま検索索結果に反映できるl  ⾼高頻度度の書き換えに弱いSSDを守る意味でも重要l  追記に特化l ...
Twitterの分析にはまず検索索をl  実際にTwitterのデータを解析するには、まず検索索l  分析対したい事柄に対して検索索で当たりをつけるl  この時点でデータが少なすぎたら要検討l  たとえ秒間数千件でも⽉月に1回しかつぶや...
クエリの⼯工夫での限界を知るl  途中で検索索クエリの限界に到達l  表記揺れなどで検索索漏漏れがあるl  多義語のフィルタリングができない(例例:PFI)l  検索索クエリではそもそも絞り込めない(例例:男性だけ探す)l  データを...
機械学習技術33
機械学習とはl  経験(データ)によって賢くなるアルゴリズムの研究l  データから知識識・ルールを⾃自動獲得するl  データの適切切な表現⽅方法も獲得するl  ⼈人⼯工知能の中で、⼈人が知識識やルールを明⽰示的に与える⽅方法の限界から⽣...
様々な分野に適⽤用可能l  データから有⽤用な規則、ルール、知識識、判断基準を抽出l  データがあるところならば、どこでも使えるl  様々な分野の問題に利利⽤用可能35レコメンデーションクラスタリング分類、識識別 市場予測 評判分析情報抽...
例例1:スパム判定l  メールがスパムが否かを⾃自動判定するl  スパムキーワードの事前登録だとイタチごっこl  GoogleのGmailでもスパム判定は機械学習が使われている36	スパム	通常	新着メール
例例2:商品推薦l  過去の購買履履歴から類似ユーザーを探して、未購⼊入の商品を推薦する37	購買履履歴
例例3:コンピュータ将棋・囲碁・チェス38	http://blog.livedoor.jp/yss_fpga/archives/53897129.html詳細は鶴岡慶雅先生のチュートリアル 「自然言語処理とAI」	l  ゲームごとに機械学習の...
機械学習の⻑⾧長所 (1/4)データがあればすぐ試せるl  分類ルールを学習したい場合、正解事例例がいくつかあれば学習可能l  質問:データがどれくらいあったらうまくいくのか?l  答え:正解事例例が1つしかなくても動く、多ければ精度度は...
機械学習の⻑⾧長所 (2/4)メンテナンスフリーl  学習の元となるデータを与え続ければ最適化されるl  ルールベースの場合、ルールをメンテナンスしなければならないl  時間経過とともに運⽤用コストが⼤大きくなり、例例外も次々と発⽣生l...
機械学習の⻑⾧長所 (3/4)問題に対してスケールするl  問題のデータサイズを増やしたり、分類対象数を増やしたり、他の似た問題にも展開可能l  ある部署でうまくいっていた⼿手法を他の部署や会社でも展開可能l  例例:ニュース記事の5カテ...
機械学習の⻑⾧長所 (4/4)⼈人や⼈人⼯工システムを凌凌駕する性能を出すl  速度度、網羅羅性、可⽤用性といった部分ではコンピュータが凌凌駕するl  ⼈人はルールや評価関数をうまく表現できない場合も多いl  ⾔言語処理理・ゲーム・画像認...
機械学習の世界の分類l  問題設定に基づく分類l  教師有学習  / 教師無学習  / 半教師有学習 / 強化学習  など ..l  戦うドメインの違いl  特徴設計屋(各ドメイン毎に, NLP, Image, Bio, Music)l...
教師有り学習l  ⼊入⼒力力  x に対して期待される出⼒力力  y を教えるl  分析時には未知の  x に対応する  y を予測するl  y がカテゴリの場合を分類問題、実数値の場合を回帰問題と呼ぶl  分類l  スパム判定、記事...
教師無し学習l  ⼊入⼒力力  x をたくさん与えると何かしらの結果を返すl  クラスタリングl  与えられたデータをまとめあげるl  異異常検知l  ⼊入⼒力力データが異異常かどうかを判定する45
安易易に教師なし学習に⾶飛びつかない!l  どのような分類基準になるか予測できないl  分類結果の意味を解釈するのが難しい場合が有るl  できたクラスタに意味を割り当てるのは困難46	問:下の図形を2つのクラスタに分けなさい
Twitter分析に求められる機械学習は?l  ⼤大量量データ処理理l  秒間数千件のデータを捌くことができるl  データの増⼤大に耐えられるスケーラビリティーl  リアルタイム性l  データが来たらすぐさま処理理できる47	これから...
l  NTT  SIC*とPreferred  Infrastructureによる共同開発l  2011年年10⽉月よりOSSで公開  http://jubat.us/Jubatus48リアルタイム  ストリーム 分散並列列 深い解析*  ...
機械学習はスケーラブルかつリアルタイムにl  Jubatusは2つの流流れを融合している49	WEKA	    	  	  1993-­‐SPSS	  	  	  	  	  	  	  1988-­‐	  Mahout	  	  	  	 ...
バッチ学習l  解析対象のデータが全てある状態で解析を⾏行行うl  速度度が遅いl  データ全体の保持が必要l  実装は⼀一般的に煩雑l  データを1つずつ受け取るたびに解析を⾏行行うl  速度度が速いl  データを保持する必要が...
宿題をためてからやる  vs  すぐやる51
「緩いモデル共有」による分散の仕組みl  みんな個別に⾃自学⾃自習l  たまに勉強会で情報交換l  ⼀一⼈人で勉強するより効率率率がいいはず!52	学習器
Jubatusの機能概要l  Jubatusでは様々な分析⼿手法をサポートl  多値分類・回帰l  統計l  近傍探索索l  グラフ解析l  外れ値検出l  これらを組合せることにより、多くの課題を解決が可能l  スパムフィルタ...
情報検索索と機械学習を統合したリアルタイム分析基盤l  ⼤大量量データを2つの側⾯面から整理理するl  リアルタイムで⼤大量量の情報を検索索可能にする情報検索索エンジンl  リアルタイムに⼤大量量の情報を整理理する機械学習エンジンl  ...
最初のデモもこの応⽤用です55	フリーワードによる検索索機能⾃自動整理理されたタグ情報
まとめl  情報源としてのTwitterの可能性l  リアルタイムで粒粒度度の細かい情報源としての活⽤用ができるl  ⼤大量量のデータから必要な情報を抜き出す技術が必要l  情報検索索技術l  ユーザーの欲しい情報を⾒見見つけ出す技術...
Twitterデータのフィルター・分析・検索索サービスの紹介l  NTTデータがTwitterの全量量データ(Firehose)のフィルター・分析・検索索サービスを提供l  https://nazuki-oto.com/twitter/l...
ご清聴ありがとうございました58
デモ予備⽤用スライド59
全体図60	TV画⾯面の番組表をイメージ各フィルタリング条件は選べる
フィルタリング詳細結果東京都・帰宅宅困難・3/12 4:00〜~5:0061
フィルタリング条件指定62	フィルタリング条件はキーワード、場所、トピック、メディアから設定可能
結果例例:福島県いわき市・ガソリンスタンド・3/1663
結果例例:東京都渋⾕谷区・被災者⽀支援・3/12 4:00〜~6:0064
今後の予定l  デモサービスをベースに実⽤用化・提供を⽬目指すl  (再掲)災害時にいざ使おうとするとうまくいかない。平常時からも使ってもらえるようなサービスを考えるl  被災者や関係当局の話を聞き、何が必要であるかを絞るl  システム...
その他統計情報の考察66
0"500"1000"1500"2000"2500"3000"2011031109:00:00"2011031111:00:00"2011031113:00:00"2011031115:00:00"2011031117:00:00"201103...
68	0"500"1000"1500"2000"2500"3000"2011031109:00:00"2011031111:00:00"2011031113:00:00"2011031115:00:00"2011031117:00:00"201...
69	津波の被害が⼤大きかった地域については、津波報道があった直後および、その後も継続して話題は多くあった0"500"1000"1500"2000"2500"3000" 2011031109:00:00"2011031111:00:00"201...
70	津波0"5000"10000"15000"20000"25000"30000"35000"40000"45000"50000"2011(03(11(09:00:00"2011(03(11(11:00:00"2011(03(11(13:00...
0"5000"10000"15000"20000"25000"30000"35000"40000"45000"50000" 2011(03(11(09:00:00"2011(03(11(11:00:00"2011(03(11(13:00:00"...
全⽂文検索索技術の⽐比較72
転置ファイルInverted File Indexingl  各単語毎に、どの⽂文書に出現したかを記録l  ⻑⾧長所    シンプル、速い、分散処理理しやすいl  短所    検索索漏漏れが⽣生じる  フレーズ検索索が苦⼿手東京	 10 ...
l  ⻑⾧長さN(=2,3)の部分⽂文字列列を単語とみなし転置ファイルを構築l  ⻑⾧長所  漏漏れがない、シンプルl  短所  索索引が⼤大きい  ⾮非常に遅くなる場合もある  東京都庁に今日…東京都	京都庁	都庁に	庁に今	01231...
接尾辞配列列    Suffix Arrays (SA)l  全接尾辞を辞書式順序でソートした結果l  ⻑⾧長所  漏漏れがない、どんなクエリでも⾼高速l  短所  索索引が⼤大きい、構築に時間がかかるabracadabra$ 11 $1...
圧縮接尾辞配列列(CSA)l  接尾辞配列列の機能はそのままに、コンパクトに保存(テキストサイズと同程度度)l  接尾辞配列列をさらに変換し圧縮l  検索索対象テキスト⾃自⾝身の情報も同時に保持l  スニペットも索索引から復復元できるl...
Upcoming SlideShare
Loading in …5
×

Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会

4,082 views

Published on

  • Be the first to comment

Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会

  1. 1. Twitter分析のためのリアルタイム分析基盤株式会社Preferred Infrastructure海野  裕也 (@unnonouno)2013年5月18日第4回Twitter研究会
  2. 2. ⾃自⼰己紹介l  海野  裕也 (@unnonouno)l  プリファードインフラストラクチャーl  情報検索索、レコメンドl  機械学習・データ解析研究開発l  Jubatusl  分散オンライン機械学習フレームワークl  専⾨門l  ⾃自然⾔言語処理理l  テキストマイニング2
  3. 3. 本⽇日の概要l  Twitterのデータのリアルタイム処理理の紹介l  その裏裏で使われる、⼤大量量データのリアルタイム分析技術を紹介します※半分弊社の製品紹介になりますがご容赦ください3
  4. 4. l  イントロ  Project 311l  リアルタイム分析を⽀支える技術l  リアルタイム検索索技術l  リアルタイム機械学習技術4
  5. 5. 東⽇日本⼤大震災ビッグデータワークショップProject 311l  東⽇日本⼤大震災発⽣生後1週間のデータを元に、どのようなサービスを開発できるかl  https://sites.google.com/site/prj311/l  情報源は、Twitter、Google Trends、朝⽇日新聞記事など5
  6. 6. 災害時に利利⽤用可能なサービスを提供するl  災害時には様々なメディアからの情報が錯綜したl  Twitterなどを介してリアルタイムかつ⾝身近な情報が多く発信されたが、必要な情報のみを集める⽅方法ができなかったl  実家がいわき市にある岡野原の個⼈人的な体験l  TVやラジオ経由の情報は原発や県・市単位の情報のみl  原発の情報は⼤大事だが今⽇日のご飯・移動⼿手段を困っている⼈人も多いl  ガソリンや⾷食料料はいつ/どこで配布するのか、避難できるのかl  各⼈人・各⽴立立場の⼈人にとって必要な情報が調べられるサービスl  キーワード検索索では不不⼗十分l  災害時だけではなく、平常時から利利⽤用可能なサービスl  ユーザーに慣れてもらう、サービスも常時改善される6
  7. 7. 提案サービスl  時間/話題/地域/キーワード毎に情報をフィルタリングl  個⼈人・組織が必要な情報を集められるようなサービスを作るl  twitter、新聞、TV、レスキューの情報を横断フィルタリングl  テキスト情報から必要な情報は抽出7 時間軸地域(全国都道府県市町村レベル)トピック(避難・⽣生活インフラなど)時間・トピック・地域キーワードを指定してフィルタリング•  例•  3/11  15:00  –  16:00•  福島県いわき市平地区•  生活インフラ
  8. 8. システム概要図8 Twitter NHK 朝⽇日新聞JCC (TV)震災に関係する情報のみフィルタリング地域情報の抽出要望トピックの抽出情報フィルタリングエンジン + UI地域情報は地名や駅名、路路線名、ランドマーク名から市町村レベルで推定関連情報の抽出トピックは本⽂文から推定「避難, インフラ, ⾼高齢者,医療療  」など 21トピックURLや内容のクラスタリングにより、関連情報を抽出⽂文書分類器を震災関連ハッシュタグを正解例例にして学習し、分類
  9. 9. デモ9
  10. 10. Twitterとその他のメディアの⽐比較Twitter (CGM) 既存メディア情報の鮮度度 直近 遅れる情報の信頼度度 デマも拡散する 精査されている情報の粒粒度度 局所的な情報 ⼤大域的な情報情報の密度度 不不要な情報が殆ど 精査されている10
  11. 11. Twitterの良良さを活かすには?l  最新の情報を届けるl  リアルタイムに情報にアクセスできるようにするl  個別の情報を整理理するl  つぶやきに含まれる情報を抽出するl  細かく情報を整理理するl  有⽤用な情報だけをフィルタリングするl  情報の価値を判定するl  デマに惑わされないl  情報の信頼度度の評価l  情報の⾃自動整理理11
  12. 12. ⼤大量量のデータで溺溺れないl  太平洋で砂⾦金金を探しているようなものl  本当に欲しい情報は1%もないと思って良良いl  闇雲に探してもダメ、強⼒力力な武器が必要12
  13. 13. 想像しているほど有⽤用なことはつぶやかれていないl  いかにTwitterが⼤大量量でも、欲しい情報があるとは限らない13 ウチの製品の評判を調べたいんだよね!御社の名前は⽉月に1回程度度しかつぶやかれていませんが・・・・・・・・・
  14. 14. 必要な情報を⾒見見つけ出すにはどうすれば良良いか?l  ⼤大量量の情報を効率率率的に精査する必要があるl  ユーザーの欲しい情報だけに絞り込むl  事前に出来るだけ整理理しておくl  必要な情報は予め抜き出しておくl  しかも、⼤大量量のデータを、リアルタイムに14
  15. 15. ⼤大量量データから欲しい情報を得るための2つの技術l  能動的な情報の取得l  ユーザーが興味のある情報を発⾒見見しにいくà 情報検索索技術l  受動的な情報の整理理l  ユーザーの興味がありそうな情報を提⽰示するà 機械学習技術15 データ
  16. 16. Googleにみる2つの情報アクセス16 フリーワードによる検索索機能勝⼿手に画像やプロフィールを提⽰示
  17. 17. Amazonにみる2つの情報アクセス17 勝⼿手におすすめ商品を提⽰示欲しい商品を検索索
  18. 18. 何故2つのアクセス⽅方式が必要なのか?l  能動型アクセスl  ユーザー固有の要求を提⽰示できるl  必ずしもユーザーがニーズを理理解していないl  想像の範囲外の要求を出せないl  受動型アクセスl  ユーザーは何もしなくても情報が⼊入ってくるl  想定外の情報も⼊入ってくるl  ユーザーのきめ細かい要求を反映しづらい18 両者には相補的な関係になっている
  19. 19. 先ほどのデモを⾒見見なおしてみる19 Twitter NHK 朝⽇日新聞JCC (TV)震災に関係する情報のみフィルタリング地域情報の抽出要望トピックの抽出情報フィルタリングエンジン + UI関連情報の抽出事前に情報を自動整理 アドホックな情報検索
  20. 20. 残りのスライドで2種類の技術について解説しますl  能動的に情報を発⾒見見するための情報検索索技術l  受動的に情報を整理理するための機械学習技術20
  21. 21. 情報検索索技術21
  22. 22. 情報検索索技術とはl  広義には、テキスト検索索や⽂文字列列検索索に限らないl  ただし、テキストはユーザーが検索索要求を出しやすいため、⾮非常に扱いやすい22 情報検索(じょうほうけんさく)とは、コンピュータを用いて大量のデータ群から目的に合致したものを取り出すこと。検索の対象となるデータには文書や画像、音声、映像、その他さまざまなメディアやその組み合わせとして記録されたデータなどが含まれる。
  23. 23. 情報検索索の全体像l  効率率率的な検索索をサポートするためのインデクシングl  能率率率を上げるためのインターフェースl  ⼤大規模データを扱うための分散技術l  情報を回収するためのクローリング23
  24. 24. 情報検索索のコアの仕組みl  事前に検索索効率率率をあげるための情報を整理理しておくl  本の索索引を作るイメージl  この整理理のおかげで効率率率的に検索索できるようになる24 元データインデックス
  25. 25. テキスト全⽂文検索索におけるインデックス⽅方式の違い転置ファイル N-gram Suffix Array辞書の必要 必要 不不要 不不要漏漏れのない検索索 × ○ ○検索索速度度 ○ △ ○インデックス構築速度度○ ○ △インデックスサイズ ○ × ×HDD搭載 ○ △ ×SSD搭載 ○ ○ ◎25 SSD利利⽤用時に最⼤大限の⼒力力を発揮
  26. 26. SSDがストレージ・プロセッサ・ネットワークのトレードオフを⼤大きく変えたSSD  (Crucial  m4  256GB)HDD  (Seagate  ST2000DL003)Read 415MB/s 140MB/sWrite 260MB/s 140MB/s4K  Read  IOPS 40000 1504K  Write  IOPS 50000 40026 SSDの特性を活かすことでスケーラブル・⾼高性能・低コストな検索索基盤を実現x100 FAST!!
  27. 27. 余談:インデックスを⽤用いないとどうなるか?l  事前に整理理しないで、⾼高性能マシンや超⼤大量量マシンで愚直に全部探す⽅方法もあるl  Hadoopなどはこうしたアプローチの⼀一種l  効率率率が悪く、数万倍のコストがかかることも27 元データ
  28. 28. Twitter検索索と従来の記事検索索のどこが違うか?l  流流量量が膨⼤大l  秒間数千〜~万というオーダーで⽂文書が増え続けるl  ⽌止まることなく流流れ続けるl  常にデータを追加し続ける必要があるl  特にデータの鮮度度が重要で、直近のデータを探せる必要があるl  原則追記だけで削除や更更新がほとんどない28
  29. 29. ⼤大規模データ分析のリアルタイム化l  ⼤大規模データ分析のリアルタイム化に対するニーズは急増中l  Hadoop  Summitにおいても、多くのセッションで“リアルタイム”がテーマとなっているl  Google  Dremel,  Google  BigQueryが発表され、Apache  Drill,  Cloudera  Impala等が注⽬目を集めているl  リアルタイム分析に必要とされる技術の複雑さは様々l  Jubatusによるリアルタイム機械学習l  ImpalaなどSQLベース、DWHの⼤大規模化l  検索索技術をベースにしたアドホック分析→  Splunk、Solr  Cloudなどを利利⽤用29
  30. 30. 技術的な克服l  メモリとSSDのハイブリッドl  オンメモリのサーバーと、SSDサーバーの併⽤用で、直近のデータはオンメモリですぐさま検索索結果に反映できるl  ⾼高頻度度の書き換えに弱いSSDを守る意味でも重要l  追記に特化l  オンメモリサーバーにどんどん追記、古くなったらSSDに回すl  あふれたら古いデータから順番に消していって、最新の重要なデータだけを保持できるように30
  31. 31. Twitterの分析にはまず検索索をl  実際にTwitterのデータを解析するには、まず検索索l  分析対したい事柄に対して検索索で当たりをつけるl  この時点でデータが少なすぎたら要検討l  たとえ秒間数千件でも⽉月に1回しかつぶやかれないような内容もあるl  特にB2Cのサービス・製品、メディア、スポーツ、芸能系は⾔言及が多いが、B2Bのサービスや製品は少ない31
  32. 32. クエリの⼯工夫での限界を知るl  途中で検索索クエリの限界に到達l  表記揺れなどで検索索漏漏れがあるl  多義語のフィルタリングができない(例例:PFI)l  検索索クエリではそもそも絞り込めない(例例:男性だけ探す)l  データを細かく整理理するには機械の助けが必要32 機械学習の登場
  33. 33. 機械学習技術33
  34. 34. 機械学習とはl  経験(データ)によって賢くなるアルゴリズムの研究l  データから知識識・ルールを⾃自動獲得するl  データの適切切な表現⽅方法も獲得するl  ⼈人⼯工知能の中で、⼈人が知識識やルールを明⽰示的に与える⽅方法の限界から⽣生まれてきた34学習データ分類モデル
  35. 35. 様々な分野に適⽤用可能l  データから有⽤用な規則、ルール、知識識、判断基準を抽出l  データがあるところならば、どこでも使えるl  様々な分野の問題に利利⽤用可能35レコメンデーションクラスタリング分類、識識別 市場予測 評判分析情報抽出 ⽂文字認識識 ロボット 画像解析遺伝⼦子分析検索索ランキング⾦金金融 医療療診断適用分野
  36. 36. 例例1:スパム判定l  メールがスパムが否かを⾃自動判定するl  スパムキーワードの事前登録だとイタチごっこl  GoogleのGmailでもスパム判定は機械学習が使われている36 スパム 通常 新着メール
  37. 37. 例例2:商品推薦l  過去の購買履履歴から類似ユーザーを探して、未購⼊入の商品を推薦する37 購買履履歴
  38. 38. 例例3:コンピュータ将棋・囲碁・チェス38 http://blog.livedoor.jp/yss_fpga/archives/53897129.html詳細は鶴岡慶雅先生のチュートリアル 「自然言語処理とAI」 l  ゲームごとに機械学習の応⽤用⼿手法が次々に進歩l  チェス・将棋、囲碁、ポーカー、etc.l  機械の性能改善以上に⼿手法の改善が⽬目覚ましい
  39. 39. 機械学習の⻑⾧長所 (1/4)データがあればすぐ試せるl  分類ルールを学習したい場合、正解事例例がいくつかあれば学習可能l  質問:データがどれくらいあったらうまくいくのか?l  答え:正解事例例が1つしかなくても動く、多ければ精度度は⾼高くなるl  以下のファクターで正解事例例はより多く必要とするl  問題の複雑さl  正解事例例に含まれるノイズ量量l  学習モデルの複雑さl  実際は数⼗十から数百、⼈人⼿手で作れる規模が殆どl  すぐ試せる 39
  40. 40. 機械学習の⻑⾧長所 (2/4)メンテナンスフリーl  学習の元となるデータを与え続ければ最適化されるl  ルールベースの場合、ルールをメンテナンスしなければならないl  時間経過とともに運⽤用コストが⼤大きくなり、例例外も次々と発⽣生l  ⼈人の引き継ぎや、システム統合が発⽣生した場合、メンテナンスは⾮非常に困難になるl  機械学習の場合は、ルールではなく、データをメンテナンスする必要があるl  ⾃自由度度はルールベースより⾼高く、スケールする40
  41. 41. 機械学習の⻑⾧長所 (3/4)問題に対してスケールするl  問題のデータサイズを増やしたり、分類対象数を増やしたり、他の似た問題にも展開可能l  ある部署でうまくいっていた⼿手法を他の部署や会社でも展開可能l  例例:ニュース記事の5カテゴリへの分類を次のように変更更可能l  カテゴリ数を5から100に増やすl  分類対象をニュース以外にもブログやメールにも増やす41
  42. 42. 機械学習の⻑⾧長所 (4/4)⼈人や⼈人⼯工システムを凌凌駕する性能を出すl  速度度、網羅羅性、可⽤用性といった部分ではコンピュータが凌凌駕するl  ⼈人はルールや評価関数をうまく表現できない場合も多いl  ⾔言語処理理・ゲーム・画像認識識・⾳音声認識識などは知識識表現が⼤大変l  ⼈人⼯工知能の研究分野では、知識識・ルール・評価関数を⼈人が明⽰示的に与えることに限界があり、データからの獲得に⼒力力を⼊入れたl  箱庭的な問題だと精度度⾯面でも⼈人を凌凌駕するl  関係する特徴数が多い場合l  医療療診断、広告最適化、スパム分類l  評価関数が分からない場合:l  コンピュータ将棋/囲碁/チェス、機械翻訳、⾳音声認識識42
  43. 43. 機械学習の世界の分類l  問題設定に基づく分類l  教師有学習  / 教師無学習  / 半教師有学習 / 強化学習  など ..l  戦うドメインの違いl  特徴設計屋(各ドメイン毎に, NLP, Image, Bio, Music)l  学習アルゴリズム屋(SVM, xx Bayes, CW, …)l  理理論論屋(統計的学習理理論論、経験過程、Regret最⼩小化)l  最適化実装屋l  好みの違いl  Bayesian / Frequentist / Connectionistl  [Non-|Semi-]Parametric43 この⼆二つの問題設定だけは知っておいてほしいので説明
  44. 44. 教師有り学習l  ⼊入⼒力力  x に対して期待される出⼒力力  y を教えるl  分析時には未知の  x に対応する  y を予測するl  y がカテゴリの場合を分類問題、実数値の場合を回帰問題と呼ぶl  分類l  スパム判定、記事分類、属性推定、etc.l  回帰l  電⼒力力消費予測、年年収予測、株価予測、etc.44
  45. 45. 教師無し学習l  ⼊入⼒力力  x をたくさん与えると何かしらの結果を返すl  クラスタリングl  与えられたデータをまとめあげるl  異異常検知l  ⼊入⼒力力データが異異常かどうかを判定する45
  46. 46. 安易易に教師なし学習に⾶飛びつかない!l  どのような分類基準になるか予測できないl  分類結果の意味を解釈するのが難しい場合が有るl  できたクラスタに意味を割り当てるのは困難46 問:下の図形を2つのクラスタに分けなさい
  47. 47. Twitter分析に求められる機械学習は?l  ⼤大量量データ処理理l  秒間数千件のデータを捌くことができるl  データの増⼤大に耐えられるスケーラビリティーl  リアルタイム性l  データが来たらすぐさま処理理できる47 これからのビッグデータ解析に求められる特徴
  48. 48. l  NTT  SIC*とPreferred  Infrastructureによる共同開発l  2011年年10⽉月よりOSSで公開  http://jubat.us/Jubatus48リアルタイム  ストリーム 分散並列列 深い解析*  NTT研究所  サイバーコミュニケーション研究所  ソフトウェアイノベーションセンタ
  49. 49. 機械学習はスケーラブルかつリアルタイムにl  Jubatusは2つの流流れを融合している49 WEKA        1993-­‐SPSS              1988-­‐  Mahout            2006-­‐  Online  ML  alg.  Structured  Perceptron  2001  PA  2003,  CW  2008  リアルタイム  オンラインBatch  小規模  単体  大規模  分散並列  Jubatus    2011-­‐  
  50. 50. バッチ学習l  解析対象のデータが全てある状態で解析を⾏行行うl  速度度が遅いl  データ全体の保持が必要l  実装は⼀一般的に煩雑l  データを1つずつ受け取るたびに解析を⾏行行うl  速度度が速いl  データを保持する必要がないl  実装は⼀一般的に単純l  近年年急速に研究が進んでいる50 オンライン学習近年年の多くの場⾯面でオンライン学習を採⽤用
  51. 51. 宿題をためてからやる  vs  すぐやる51
  52. 52. 「緩いモデル共有」による分散の仕組みl  みんな個別に⾃自学⾃自習l  たまに勉強会で情報交換l  ⼀一⼈人で勉強するより効率率率がいいはず!52 学習器
  53. 53. Jubatusの機能概要l  Jubatusでは様々な分析⼿手法をサポートl  多値分類・回帰l  統計l  近傍探索索l  グラフ解析l  外れ値検出l  これらを組合せることにより、多くの課題を解決が可能l  スパムフィルタ(メール分類)l  電⼒力力消費量量予測(回帰)l  ユーザー属性推定(レコメンデーション)l  ログからの異異常検知(外れ値検出)l  攻撃の標的になりやすいハブノードの発⾒見見(グラフの中⼼心性)53
  54. 54. 情報検索索と機械学習を統合したリアルタイム分析基盤l  ⼤大量量データを2つの側⾯面から整理理するl  リアルタイムで⼤大量量の情報を検索索可能にする情報検索索エンジンl  リアルタイムに⼤大量量の情報を整理理する機械学習エンジンl  整理理されたデータの分析を⽀支える可視化機能54 Sedue for BigData
  55. 55. 最初のデモもこの応⽤用です55 フリーワードによる検索索機能⾃自動整理理されたタグ情報
  56. 56. まとめl  情報源としてのTwitterの可能性l  リアルタイムで粒粒度度の細かい情報源としての活⽤用ができるl  ⼤大量量のデータから必要な情報を抜き出す技術が必要l  情報検索索技術l  ユーザーの欲しい情報を⾒見見つけ出す技術l  事前にどこまで情報を整理理できるかが肝l  機械学習技術l  データの分類・整理理を⾃自動的に⾏行行う技術l  急速にリアルタイム処理理、⼤大量量処理理の技術開発が進んでいる56
  57. 57. Twitterデータのフィルター・分析・検索索サービスの紹介l  NTTデータがTwitterの全量量データ(Firehose)のフィルター・分析・検索索サービスを提供l  https://nazuki-oto.com/twitter/l  検索索と分析のエンジンとして弊社の技術を利利⽤用57
  58. 58. ご清聴ありがとうございました58
  59. 59. デモ予備⽤用スライド59
  60. 60. 全体図60 TV画⾯面の番組表をイメージ各フィルタリング条件は選べる
  61. 61. フィルタリング詳細結果東京都・帰宅宅困難・3/12 4:00〜~5:0061
  62. 62. フィルタリング条件指定62 フィルタリング条件はキーワード、場所、トピック、メディアから設定可能
  63. 63. 結果例例:福島県いわき市・ガソリンスタンド・3/1663
  64. 64. 結果例例:東京都渋⾕谷区・被災者⽀支援・3/12 4:00〜~6:0064
  65. 65. 今後の予定l  デモサービスをベースに実⽤用化・提供を⽬目指すl  (再掲)災害時にいざ使おうとするとうまくいかない。平常時からも使ってもらえるようなサービスを考えるl  被災者や関係当局の話を聞き、何が必要であるかを絞るl  システム側の技術的課題l  全メディア情報をリアルタイムに分析して安定して提供できる基盤l  秒間1万tweet、秒間数百万〜~数千万の位置情報を処理理l  サンプリング/サマリではなく、細かい粒粒度度のまま提供可能l  名寄せ・地域情報の推定(⾔言及位置、ユーザーの位置)65
  66. 66. その他統計情報の考察66
  67. 67. 0"500"1000"1500"2000"2500"3000"2011031109:00:00"2011031111:00:00"2011031113:00:00"2011031115:00:00"2011031117:00:00"2011031119:00:00"2011031121:00:00"2011031123:00:00"2011031201:00:00"2011031203:00:00"2011031205:00:00"2011031207:00:00"2011031209:00:00"2011031211:00:00"2011031213:00:00"2011031215:00:00"2011031217:00:00"2011031219:00:00"2011031221:00:00"2011031223:00:00"2011031301:00:00"2011031303:00:00"2011031305:00:00"2011031307:00:00"2011031309:00:00"2011031311:00:00"2011031313:00:00"2011031315:00:00"2011031317:00:00"2011031319:00:00"2011031321:00:00"2011031323:00:00"2011031401:00:00"2011031403:00:00"2011031405:00:00"2011031407:00:00"2011031409:00:00"2011031411:00:00"2011031413:00:00"2011031415:00:00"2011031417:00:00"2011031419:00:00"2011031421:00:00"2011031423:00:00"2011031501:00:00"2011031503:00:00"2011031505:00:00"2011031507:00:00"2011031509:00:00"2011031511:00:00"2011031513:00:00"2011031515:00:00"2011031517:00:00"2011031519:00:00"2011031521:00:00"2011031523:00:00"2011031601:00:00"2011031603:00:00"2011031605:00:00"2011031607:00:00"2011031609:00:00"2011031611:00:00"2011031613:00:00"2011031615:00:00"2011031617:00:00"2011031619:00:00"2011031621:00:00"2011031623:00:00"2011031701:00:00"2011031703:00:00"2011031705:00:00"2011031707:00:00"2011031709:00:00"2011031711:00:00"2011031713:00:00"2011031715:00:00"2011031717:00:00"2011031719:00:00"2011031721:00:00"2011031723:00:00"2011031801:00:00"2011031803:00:00"2011031805:00:00"2011031807:00:00"!都市圏に関する⾔言及は、殆どの発⾔言が帰宅宅困難者が発⽣生した3/11 15:00〜~25:00に集中    67 都市圏に関しての⾔言及数(渋⾕谷区、新宿区、台東区)
  68. 68. 68 0"500"1000"1500"2000"2500"3000"2011031109:00:00"2011031111:00:00"2011031113:00:00"2011031115:00:00"2011031117:00:00"2011031119:00:00"2011031121:00:00"2011031123:00:00"2011031201:00:00"2011031203:00:00"2011031205:00:00"2011031207:00:00"2011031209:00:00"2011031211:00:00"2011031213:00:00"2011031215:00:00"2011031217:00:00"2011031219:00:00"2011031221:00:00"2011031223:00:00"2011031301:00:00"2011031303:00:00"2011031305:00:00"2011031307:00:00"2011031309:00:00"2011031311:00:00"2011031313:00:00"2011031315:00:00"2011031317:00:00"2011031319:00:00"2011031321:00:00"2011031323:00:00"2011031401:00:00"2011031403:00:00"2011031405:00:00"2011031407:00:00"2011031409:00:00"2011031411:00:00"2011031413:00:00"2011031415:00:00"2011031417:00:00"2011031419:00:00"2011031421:00:00"2011031423:00:00"2011031501:00:00"2011031503:00:00"2011031505:00:00"2011031507:00:00"2011031509:00:00"2011031511:00:00"2011031513:00:00"2011031515:00:00"2011031517:00:00"2011031519:00:00"2011031521:00:00"2011031523:00:00"2011031601:00:00"2011031603:00:00"2011031605:00:00"2011031607:00:00"2011031609:00:00"2011031611:00:00"2011031613:00:00"2011031615:00:00"2011031617:00:00"2011031619:00:00"2011031621:00:00"2011031623:00:00"2011031701:00:00"2011031703:00:00"2011031705:00:00"2011031707:00:00"2011031709:00:00"2011031711:00:00"2011031713:00:00"2011031715:00:00"2011031717:00:00"2011031719:00:00"2011031721:00:00"2011031723:00:00"2011031801:00:00"2011031803:00:00"2011031805:00:00"2011031807:00:00"津波の被害が⼤大きかった地域は、津波報道があった直後や、その後も継続して⾔言及は多くみられた津波の被害が⼤大きな地域についての⾔言及数(⽯石巻市、⼤大船渡市、気仙沼市、多賀城市、南相⾺馬市、相⾺馬市)
  69. 69. 69 津波の被害が⼤大きかった地域については、津波報道があった直後および、その後も継続して話題は多くあった0"500"1000"1500"2000"2500"3000" 2011031109:00:00"2011031111:00:00"2011031113:00:00"2011031115:00:00"2011031117:00:00"2011031119:00:00"2011031121:00:00"2011031123:00:00"2011031201:00:00"2011031203:00:00"2011031205:00:00"2011031207:00:00"2011031209:00:00"2011031211:00:00"2011031213:00:00"2011031215:00:00"2011031217:00:00"2011031219:00:00"2011031221:00:00"2011031223:00:00"2011031301:00:00"2011031303:00:00"2011031305:00:00"2011031307:00:00"2011031309:00:00"2011031311:00:00"2011031313:00:00"2011031315:00:00"2011031317:00:00"2011031319:00:00"2011031321:00:00"2011031323:00:00"2011031401:00:00"2011031403:00:00"2011031405:00:00"2011031407:00:00"2011031409:00:00"2011031411:00:00"2011031413:00:00"2011031415:00:00"2011031417:00:00"2011031419:00:00"2011031421:00:00"2011031423:00:00"2011031501:00:00"2011031503:00:00"2011031505:00:00"2011031507:00:00"2011031509:00:00"2011031511:00:00"2011031513:00:00"2011031515:00:00"2011031517:00:00"2011031519:00:00"2011031521:00:00"2011031523:00:00"2011031601:00:00"2011031603:00:00"2011031605:00:00"2011031607:00:00"2011031609:00:00"2011031611:00:00"2011031613:00:00"2011031615:00:00"2011031617:00:00"2011031619:00:00"2011031621:00:00"2011031623:00:00"2011031701:00:00"2011031703:00:00"2011031705:00:00"2011031707:00:00"2011031709:00:00"2011031711:00:00"2011031713:00:00"2011031715:00:00"2011031717:00:00"2011031719:00:00"2011031721:00:00"2011031723:00:00"2011031801:00:00"2011031803:00:00"2011031805:00:00"2011031807:00:00"原発に近い地域の話題数は⽇日々⼤大きくなっていった福島原発に近い地域についての⾔言及数(いわき市、南相⾺馬市、相⾺馬市)
  70. 70. 70 津波0"5000"10000"15000"20000"25000"30000"35000"40000"45000"50000"2011(03(11(09:00:00"2011(03(11(11:00:00"2011(03(11(13:00:00"2011(03(11(15:00:00"2011(03(11(17:00:00"2011(03(11(19:00:00"2011(03(11(21:00:00"2011(03(11(23:00:00"2011(03(12(01:00:00"2011(03(12(03:00:00"2011(03(12(05:00:00"2011(03(12(07:00:00"2011(03(12(09:00:00"2011(03(12(11:00:00"2011(03(12(13:00:00"2011(03(12(15:00:00"2011(03(12(17:00:00"2011(03(12(19:00:00"2011(03(12(21:00:00"2011(03(12(23:00:00"2011(03(13(01:00:00"2011(03(13(03:00:00"2011(03(13(05:00:00"2011(03(13(07:00:00"2011(03(13(09:00:00"2011(03(13(11:00:00"2011(03(13(13:00:00"2011(03(13(15:00:00"2011(03(13(17:00:00"2011(03(13(19:00:00"2011(03(13(21:00:00"2011(03(13(23:00:00"2011(03(14(01:00:00"2011(03(14(03:00:00"2011(03(14(05:00:00"2011(03(14(07:00:00"2011(03(14(09:00:00"2011(03(14(11:00:00"2011(03(14(13:00:00"2011(03(14(15:00:00"2011(03(14(17:00:00"2011(03(14(19:00:00"2011(03(14(21:00:00"2011(03(14(23:00:00"2011(03(15(01:00:00"2011(03(15(03:00:00"2011(03(15(05:00:00"2011(03(15(07:00:00"2011(03(15(09:00:00"2011(03(15(11:00:00"2011(03(15(13:00:00"2011(03(15(15:00:00"2011(03(15(17:00:00"2011(03(15(19:00:00"2011(03(15(21:00:00"2011(03(15(23:00:00"2011(03(16(01:00:00"2011(03(16(03:00:00"2011(03(16(05:00:00"2011(03(16(07:00:00"2011(03(16(09:00:00"2011(03(16(11:00:00"2011(03(16(13:00:00"2011(03(16(15:00:00"2011(03(16(17:00:00"2011(03(16(19:00:00"2011(03(16(21:00:00"2011(03(16(23:00:00"2011(03(17(01:00:00"2011(03(17(03:00:00"2011(03(17(05:00:00"2011(03(17(07:00:00"2011(03(17(09:00:00"2011(03(17(11:00:00"2011(03(17(13:00:00"2011(03(17(15:00:00"2011(03(17(17:00:00"2011(03(17(19:00:00"2011(03(17(21:00:00"2011(03(17(23:00:00"2011(03(18(01:00:00"2011(03(18(03:00:00"2011(03(18(05:00:00"2011(03(18(07:00:00"トピック毎の⾔言及数初期は津波と⽣生命維持についての話題3/12 以降は、⽣生命維持、放射能、⽣生活インフラの話題が多くみられた
  71. 71. 0"5000"10000"15000"20000"25000"30000"35000"40000"45000"50000" 2011(03(11(09:00:00"2011(03(11(11:00:00"2011(03(11(13:00:00"2011(03(11(15:00:00"2011(03(11(17:00:00"2011(03(11(19:00:00"2011(03(11(21:00:00"2011(03(11(23:00:00"2011(03(12(01:00:00"2011(03(12(03:00:00"2011(03(12(05:00:00"2011(03(12(07:00:00"2011(03(12(09:00:00"2011(03(12(11:00:00"2011(03(12(13:00:00"2011(03(12(15:00:00"2011(03(12(17:00:00"2011(03(12(19:00:00"2011(03(12(21:00:00"2011(03(12(23:00:00"2011(03(13(01:00:00"2011(03(13(03:00:00"2011(03(13(05:00:00"2011(03(13(07:00:00"2011(03(13(09:00:00"2011(03(13(11:00:00"2011(03(13(13:00:00"2011(03(13(15:00:00"2011(03(13(17:00:00"2011(03(13(19:00:00"2011(03(13(21:00:00"2011(03(13(23:00:00"2011(03(14(01:00:00"2011(03(14(03:00:00"2011(03(14(05:00:00"2011(03(14(07:00:00"2011(03(14(09:00:00"2011(03(14(11:00:00"2011(03(14(13:00:00"2011(03(14(15:00:00"2011(03(14(17:00:00"2011(03(14(19:00:00"2011(03(14(21:00:00"2011(03(14(23:00:00"2011(03(15(01:00:00"2011(03(15(03:00:00"2011(03(15(05:00:00"2011(03(15(07:00:00"2011(03(15(09:00:00"2011(03(15(11:00:00"2011(03(15(13:00:00"2011(03(15(15:00:00"2011(03(15(17:00:00"2011(03(15(19:00:00"2011(03(15(21:00:00"2011(03(15(23:00:00"2011(03(16(01:00:00"2011(03(16(03:00:00"2011(03(16(05:00:00"2011(03(16(07:00:00"2011(03(16(09:00:00"2011(03(16(11:00:00"2011(03(16(13:00:00"2011(03(16(15:00:00"2011(03(16(17:00:00"2011(03(16(19:00:00"2011(03(16(21:00:00"2011(03(16(23:00:00"2011(03(17(01:00:00"2011(03(17(03:00:00"2011(03(17(05:00:00"2011(03(17(07:00:00"2011(03(17(09:00:00"2011(03(17(11:00:00"2011(03(17(13:00:00"2011(03(17(15:00:00"2011(03(17(17:00:00"2011(03(17(19:00:00"2011(03(17(21:00:00"2011(03(17(23:00:00"2011(03(18(01:00:00"2011(03(18(03:00:00"2011(03(18(05:00:00"2011(03(18(07:00:00"71 全てのトピック毎の⾔言及数プライバシー/乳幼児/医療療/安否確認/放射能/気象情報/津波/⽣生命維持/⽣生活インフラ/⽣生活・くらし/衛⽣生/被災者⽀支援/⾷食⽣生活/⾼高齢者/障害者
  72. 72. 全⽂文検索索技術の⽐比較72
  73. 73. 転置ファイルInverted File Indexingl  各単語毎に、どの⽂文書に出現したかを記録l  ⻑⾧長所    シンプル、速い、分散処理理しやすいl  短所    検索索漏漏れが⽣生じる  フレーズ検索索が苦⼿手東京 10 15 16 20 21 22東寺 10 15….文書番号を記録
  74. 74. l  ⻑⾧長さN(=2,3)の部分⽂文字列列を単語とみなし転置ファイルを構築l  ⻑⾧長所  漏漏れがない、シンプルl  短所  索索引が⼤大きい  ⾮非常に遅くなる場合もある  東京都庁に今日…東京都 京都庁 都庁に 庁に今 0123102150出現位置を記録 N-gram⽅方式
  75. 75. 接尾辞配列列    Suffix Arrays (SA)l  全接尾辞を辞書式順序でソートした結果l  ⻑⾧長所  漏漏れがない、どんなクエリでも⾼高速l  短所  索索引が⼤大きい、構築に時間がかかるabracadabra$ 11 $10 a$7 abra$0 abracadabra$3 acadabra$5 adabra$8 bra$1 bracadabra$4 cadabra$6 dabra$0 abracadabra$1 bracadabra$2 racadabra$3 acadabra$4 cadabra$5 adabra$6 dabra$7 abra$・・・dabra = dabra$ 辞書式
順序
ソート 出現位置(先頭位置からのオフセット) 例:dabraを検索する1.  配列 SA の大きさは 11 なので配列インデックスの中心値 5 から検索2.  SA[5] = 8 、この 8 は “abracadabra” の “bra”の
出現位置を指している3.  検索クエリの "dabra" と "bra" を比較すると"dabra" の方が辞書式順で大きい4.  よって検索範囲は SA[5] から SA[11] の間に絞り込まれる5.  SA[5] と SA[11] の間 → SA[8] = 66.  SA[8] = 6 の 6 は “abracadabra” の dabraに
一致。よって dabra の出現位置は 6 と判明
  76. 76. 圧縮接尾辞配列列(CSA)l  接尾辞配列列の機能はそのままに、コンパクトに保存(テキストサイズと同程度度)l  接尾辞配列列をさらに変換し圧縮l  検索索対象テキスト⾃自⾝身の情報も同時に保持l  スニペットも索索引から復復元できるl  実装は難しいl  Sedueは圧縮接尾辞配列列を搭載した初の商⽤用検索索エンジン

×