SlideShare a Scribd company logo
1 of 76
Download to read offline
Twitter分析のための
リアルタイム分析基盤
株式会社Preferred Infrastructure
海野  裕也 (@unnonouno)
2013年5月18日
第4回Twitter研究会
⾃自⼰己紹介
l  海野  裕也 (@unnonouno)
l  プリファードインフラストラクチャー
l  情報検索索、レコメンド
l  機械学習・データ解析研究開発
l  Jubatus
l  分散オンライン機械学習フレームワーク
l  専⾨門
l  ⾃自然⾔言語処理理
l  テキストマイニング
2
本⽇日の概要
l  Twitterのデータのリアルタイム処理理の紹介
l  その裏裏で使われる、⼤大量量データのリアルタイム分析技術
を紹介します
※半分弊社の製品紹介になりますがご容赦ください
3
l  イントロ  Project 311
l  リアルタイム分析を⽀支える技術
l  リアルタイム検索索技術
l  リアルタイム機械学習技術
4
東⽇日本⼤大震災ビッグデータワークショップ
Project 311
l  東⽇日本⼤大震災発⽣生後1週間のデータを元に、どのような
サービスを開発できるか
l  https://sites.google.com/site/prj311/
l  情報源は、Twitter、Google Trends、朝⽇日新聞記事など
5
災害時に利利⽤用可能なサービスを提供する
l  災害時には様々なメディアからの情報が錯綜した
l  Twitterなどを介してリアルタイムかつ⾝身近な情報が多く発信されたが、
必要な情報のみを集める⽅方法ができなかった
l  実家がいわき市にある岡野原の個⼈人的な体験
l  TVやラジオ経由の情報は原発や県・市単位の情報のみ
l  原発の情報は⼤大事だが今⽇日のご飯・移動⼿手段を困っている⼈人も多い
l  ガソリンや⾷食料料はいつ/どこで配布するのか、避難できるのか
l  各⼈人・各⽴立立場の⼈人にとって必要な情報が調べられるサービス
l  キーワード検索索では不不⼗十分
l  災害時だけではなく、平常時から利利⽤用可能なサービス
l  ユーザーに慣れてもらう、サービスも常時改善される
6
提案サービス
l  時間/話題/地域/キーワード毎に情報をフィルタリング
l  個⼈人・組織が必要な情報を集められるようなサービスを作る
l  twitter、新聞、TV、レスキューの情報を横断フィルタリング
l  テキスト情報から必要な情報は抽出
7	
時間
軸
地域(全国都道府県市町村レベル)
トピック
(避難・⽣生活イ
ンフラなど)
時間・トピック・地域
キーワードを指定して
フィルタリング
•  例
•  3/11  15:00  –  16:00
•  福島県いわき市平地区
•  生活インフラ
システム概要図
8	
Twitter NHK 朝⽇日新聞JCC (TV)
震災に関係する情報のみフィルタリ
ング
地域情報の抽出
要望トピックの抽出
情報フィルタリングエンジン + UI
地域情報は地名や駅名、
路路線名、ランドマーク名
から市町村レベルで推定
関連情報の抽出
トピックは本⽂文から推定
「避難, インフラ, ⾼高齢者,
医療療  」など 21トピック
URLや内容のクラスタリ
ングにより、関連情報を
抽出
⽂文書分類器を震災関連
ハッシュタグを正解例例
にして学習し、分類
デモ
9
Twitterとその他のメディアの⽐比較
Twitter (CGM) 既存メディア
情報の鮮度度 直近 遅れる
情報の信頼度度 デマも拡散する 精査されている
情報の粒粒度度 局所的な情報 ⼤大域的な情報
情報の密度度 不不要な情報が殆ど 精査されている
10
Twitterの良良さを活かすには?
l  最新の情報を届ける
l  リアルタイムに情報にアクセスできるようにする
l  個別の情報を整理理する
l  つぶやきに含まれる情報を抽出する
l  細かく情報を整理理する
l  有⽤用な情報だけをフィルタリングする
l  情報の価値を判定する
l  デマに惑わされない
l  情報の信頼度度の評価
l  情報の⾃自動整理理
11
⼤大量量のデータで溺溺れない
l  太平洋で砂⾦金金を探しているようなもの
l  本当に欲しい情報は1%もないと思って良良い
l  闇雲に探してもダメ、強⼒力力な武器が必要
12
想像しているほど有⽤用なことはつぶやかれていない
l  いかにTwitterが⼤大量量でも、欲しい情報があるとは限らな
い
13	
ウチの製品の評判を調べたいんだよね!
御社の名前は⽉月に1回程度度しかつぶ
やかれていませんが・・・
・・・
・・・
必要な情報を⾒見見つけ出すにはどうすれば良良いか?
l  ⼤大量量の情報を効率率率的に精査する必要がある
l  ユーザーの欲しい情報だけに絞り込む
l  事前に出来るだけ整理理しておく
l  必要な情報は予め抜き出しておく
l  しかも、⼤大量量のデータを、リアルタイムに
14
⼤大量量データから欲しい情報を得るための2つの技術
l  能動的な情報の取得
l  ユーザーが興味のある情報を発⾒見見しにいく
à 情報検索索技術
l  受動的な情報の整理理
l  ユーザーの興味がありそうな情報を提⽰示する
à 機械学習技術
15	
データ
Googleにみる2つの情報アクセス
16	
フリーワードによる検索索機能
勝⼿手に画像やプロフィールを提⽰示
Amazonにみる2つの情報アクセス
17	
勝⼿手におすすめ商品を提⽰示
欲しい商品を検索索
何故2つのアクセス⽅方式が必要なのか?
l  能動型アクセス
l  ユーザー固有の要求を提⽰示できる
l  必ずしもユーザーがニーズを理理解していない
l  想像の範囲外の要求を出せない
l  受動型アクセス
l  ユーザーは何もしなくても情報が⼊入ってくる
l  想定外の情報も⼊入ってくる
l  ユーザーのきめ細かい要求を反映しづらい
18	
両者には相補的な関係になっている
先ほどのデモを⾒見見なおしてみる
19	
Twitter NHK 朝⽇日新聞JCC (TV)
震災に関係する情報のみフィルタリ
ング
地域情報の抽出
要望トピックの抽出
情報フィルタリングエンジン + UI
関連情報の抽出
事前に情報
を自動整理	
アドホックな
情報検索
残りのスライドで2種類の技術について解説します
l  能動的に情報を発⾒見見するための情報検索索技術
l  受動的に情報を整理理するための機械学習技術
20
情報検索索技術
21
情報検索索技術とは
l  広義には、テキスト検索索や⽂文字列列検索索に限らない
l  ただし、テキストはユーザーが検索索要求を出しやすいた
め、⾮非常に扱いやすい
22	
情報検索(じょうほうけんさく)とは、コンピュータを
用いて大量のデータ群から目的に合致したものを取り出
すこと。検索の対象となるデータには文書や画像、音声、
映像、その他さまざまなメディアやその組み合わせとして
記録されたデータなどが含まれる。
情報検索索の全体像
l  効率率率的な検索索をサポートするためのインデクシング
l  能率率率を上げるためのインターフェース
l  ⼤大規模データを扱うための分散技術
l  情報を回収するためのクローリング
23
情報検索索のコアの仕組み
l  事前に検索索効率率率をあげるための情報を整理理しておく
l  本の索索引を作るイメージ
l  この整理理のおかげで効率率率的に検索索できるようになる
24	
元データ
インデックス
テキスト全⽂文検索索におけるインデックス⽅方式の違い
転置ファイル N-gram Suffix Array
辞書の必要 必要 不不要 不不要
漏漏れのない検索索 × ○ ○
検索索速度度 ○ △ ○
インデックス構築速
度度
○ ○ △
インデックスサイズ ○ × ×
HDD搭載 ○ △ ×
SSD搭載 ○ ○ ◎
25	
SSD利利⽤用時に最⼤大限の⼒力力を発揮
SSDがストレージ・プロセッサ・ネットワークのト
レードオフを⼤大きく変えた
SSD  (Crucial  
m4  256GB)
HDD  (Seagate  
ST2000DL003)
Read 415MB/s 140MB/s
Write 260MB/s 140MB/s
4K  Read  IOPS 40000 150
4K  Write  IOPS 50000 400
26	
SSDの特性を活かすことで
スケーラブル・⾼高性能・低
コストな検索索基盤を実現
x100 FAST!!
余談:インデックスを⽤用いないとどうなるか?
l  事前に整理理しないで、⾼高性能マシンや超⼤大量量マシンで愚
直に全部探す⽅方法もある
l  Hadoopなどはこうしたアプローチの⼀一種
l  効率率率が悪く、数万倍のコストがかかることも
27	
元データ
Twitter検索索と従来の記事検索索のどこが違うか?
l  流流量量が膨⼤大
l  秒間数千〜~万というオーダーで⽂文書が増え続ける
l  ⽌止まることなく流流れ続ける
l  常にデータを追加し続ける必要がある
l  特にデータの鮮度度が重要で、直近のデータを探せる
必要がある
l  原則追記だけで削除や更更新がほとんどない
28
⼤大規模データ分析のリアルタイム化
l  ⼤大規模データ分析のリアルタイム化に対するニーズは
急増中
l  Hadoop  Summitにおいても、多くのセッションで“リアルタ
イム”がテーマとなっている
l  Google  Dremel,  Google  BigQueryが発表され、
Apache  Drill,  Cloudera  Impala等が注⽬目を集めている
l  リアルタイム分析に必要とされる技術の複雑さは様々
l  Jubatusによるリアルタイム機械学習
l  ImpalaなどSQLベース、DWHの⼤大規模化
l  検索索技術をベースにしたアドホック分析
→  Splunk、Solr  Cloudなどを利利⽤用
29
技術的な克服
l  メモリとSSDのハイブリッド
l  オンメモリのサーバーと、SSDサーバーの併⽤用で、直近のデー
タはオンメモリですぐさま検索索結果に反映できる
l  ⾼高頻度度の書き換えに弱いSSDを守る意味でも重要
l  追記に特化
l  オンメモリサーバーにどんどん追記、古くなったらSSDに回す
l  あふれたら古いデータから順番に消していって、最新の重要な
データだけを保持できるように
30
Twitterの分析にはまず検索索を
l  実際にTwitterのデータを解析するには、まず検索索
l  分析対したい事柄に対して検索索で当たりをつける
l  この時点でデータが少なすぎたら要検討
l  たとえ秒間数千件でも⽉月に1回しかつぶやかれないような内容も
ある
l  特にB2Cのサービス・製品、メディア、スポーツ、芸能系は⾔言
及が多いが、B2Bのサービスや製品は少ない
31
クエリの⼯工夫での限界を知る
l  途中で検索索クエリの限界に到達
l  表記揺れなどで検索索漏漏れがある
l  多義語のフィルタリングができない(例例:PFI)
l  検索索クエリではそもそも絞り込めない(例例:男性だけ探す)
l  データを細かく整理理するには機械の助けが必要
32	
機械学習の登場
機械学習技術
33
機械学習とは
l  経験(データ)によって賢くなるアルゴリズムの研究
l  データから知識識・ルールを⾃自動獲得する
l  データの適切切な表現⽅方法も獲得する
l  ⼈人⼯工知能の中で、⼈人が知識識やルールを
明⽰示的に与える⽅方法の限界から⽣生まれてきた
34
学習データ
分類モデル
様々な分野に適⽤用可能
l  データから有⽤用な規則、ルール、知識識、判断基準を抽出
l  データがあるところならば、どこでも使える
l  様々な分野の問題に利利⽤用可能
35
レコメンデー
ションクラス
タリング
分類、識識別 市場予測 評判分析
情報抽出 ⽂文字認識識 ロボット 画像解析
遺伝⼦子分析
検索索ランキン
グ
⾦金金融 医療療診断
適用分野
例例1:スパム判定
l  メールがスパムが否かを⾃自動判定する
l  スパムキーワードの事前登録だとイタチごっこ
l  GoogleのGmailでもスパム判定は機械学習が使われている
36	
スパム	
通常	
新着メール
例例2:商品推薦
l  過去の購買履履歴から類似ユーザーを探して、未購⼊入の商
品を推薦する
37	
購買履履歴
例例3:コンピュータ将棋・囲碁・チェス
38	
http://blog.livedoor.jp/yss_fpga/archives/53897129.html
詳細は鶴岡慶雅先生のチュートリアル 「自然言語処理とAI」	
l  ゲームごとに機械学習の応⽤用⼿手法が次々に進歩
l  チェス・将棋、囲碁、ポーカー、etc.
l  機械の性能改善以上に⼿手法の改善が⽬目覚ましい
機械学習の⻑⾧長所 (1/4)
データがあればすぐ試せる
l  分類ルールを学習したい場合、正解事例例がいくつかあれ
ば学習可能
l  質問:データがどれくらいあったらうまくいくのか?
l  答え:正解事例例が1つしかなくても動く、多ければ精度度
は⾼高くなる
l  以下のファクターで正解事例例はより多く必要とする
l  問題の複雑さ
l  正解事例例に含まれるノイズ量量
l  学習モデルの複雑さ
l  実際は数⼗十から数百、⼈人⼿手で作れる規模が殆ど
l  すぐ試せる 39
機械学習の⻑⾧長所 (2/4)
メンテナンスフリー
l  学習の元となるデータを与え続ければ最適化される
l  ルールベースの場合、ルールをメンテナンスしなければ
ならない
l  時間経過とともに運⽤用コストが⼤大きくなり、例例外も次々と発⽣生
l  ⼈人の引き継ぎや、システム統合が発⽣生した場合、メンテナンス
は⾮非常に困難になる
l  機械学習の場合は、ルールではなく、データをメンテナ
ンスする必要がある
l  ⾃自由度度はルールベースより⾼高く、スケールする
40
機械学習の⻑⾧長所 (3/4)
問題に対してスケールする
l  問題のデータサイズを増やしたり、分類対象数を増やし
たり、他の似た問題にも展開可能
l  ある部署でうまくいっていた⼿手法を他の部署や会社でも展開可
能
l  例例:ニュース記事の5カテゴリへの分類を次のように変
更更可能
l  カテゴリ数を5から100に増やす
l  分類対象をニュース以外にもブログやメールにも増やす
41
機械学習の⻑⾧長所 (4/4)
⼈人や⼈人⼯工システムを凌凌駕する性能を出す
l  速度度、網羅羅性、可⽤用性といった部分ではコンピュータが
凌凌駕する
l  ⼈人はルールや評価関数をうまく表現できない場合も多い
l  ⾔言語処理理・ゲーム・画像認識識・⾳音声認識識などは知識識表現が⼤大変
l  ⼈人⼯工知能の研究分野では、知識識・ルール・評価関数を⼈人が明⽰示
的に与えることに限界があり、データからの獲得に⼒力力を⼊入れた
l  箱庭的な問題だと精度度⾯面でも⼈人を凌凌駕する
l  関係する特徴数が多い場合
l  医療療診断、広告最適化、スパム分類
l  評価関数が分からない場合:
l  コンピュータ将棋/囲碁/チェス、機械翻訳、⾳音声認識識42
機械学習の世界の分類
l  問題設定に基づく分類
l  教師有学習  / 教師無学習  / 半教師有学習 / 強化学習  など ..
l  戦うドメインの違い
l  特徴設計屋(各ドメイン毎に, NLP, Image, Bio, Music)
l  学習アルゴリズム屋(SVM, xx Bayes, CW, …)
l  理理論論屋(統計的学習理理論論、経験過程、Regret最⼩小化)
l  最適化実装屋
l  好みの違い
l  Bayesian / Frequentist / Connectionist
l  [Non-|Semi-]Parametric
43	
この⼆二つの問題設定だけは
知っておいてほしいので説明
教師有り学習
l  ⼊入⼒力力  x に対して期待される出⼒力力  y を教える
l  分析時には未知の  x に対応する  y を予測する
l  y がカテゴリの場合を分類問題、実数値の場合を回帰問
題と呼ぶ
l  分類
l  スパム判定、記事分類、属性推定、etc.
l  回帰
l  電⼒力力消費予測、年年収予測、株価予測、etc.
44
教師無し学習
l  ⼊入⼒力力  x をたくさん与えると何かしらの結果を返す
l  クラスタリング
l  与えられたデータをまとめあげる
l  異異常検知
l  ⼊入⼒力力データが異異常かどうかを判定する
45
安易易に教師なし学習に⾶飛びつかない!
l  どのような分類基準になるか予測できない
l  分類結果の意味を解釈するのが難しい場合が有る
l  できたクラスタに意味を割り当てるのは困難
46	
問:下の図形を2つのクラスタに分けなさい
Twitter分析に求められる機械学習は?
l  ⼤大量量データ処理理
l  秒間数千件のデータを捌くことができる
l  データの増⼤大に耐えられるスケーラビリティー
l  リアルタイム性
l  データが来たらすぐさま処理理できる
47	
これからのビッグデータ解析に求められる特徴
l  NTT  SIC*とPreferred  Infrastructureによる共同開発
l  2011年年10⽉月よりOSSで公開  http://jubat.us/
Jubatus
48
リアルタイム  
ストリーム 分散並列列 深い解析
*  NTT研究所  サイバーコミュニケーション研究所
  ソフトウェアイノベーションセンタ
機械学習はスケーラブルかつリアルタイムに
l  Jubatusは2つの流流れを融合している
49	
WEKA	
  
  	
  	
  1993-­‐
SPSS	
  
	
  	
  	
  	
  	
  	
  1988-­‐	
  
Mahout	
  
	
  	
  	
  	
  	
  2006-­‐	
  
Online	
  ML	
  alg.	
  
Structured	
  
Perceptron	
  2001	
  
PA	
  2003,	
  CW	
  2008	
  
リアルタイム	
  
オンライン
Batch	
  
小規模	
  
単体	
  
大規模	
  
分散並列	
  
Jubatus	
  	
  2011-­‐	
  
バッチ学習
l  解析対象のデータが全てある
状態で解析を⾏行行う
l  速度度が遅い
l  データ全体の保持が必要
l  実装は⼀一般的に煩雑
l  データを1つずつ受け取るた
びに解析を⾏行行う
l  速度度が速い
l  データを保持する必要がない
l  実装は⼀一般的に単純
l  近年年急速に研究が進んでいる
50	
オンライン学習
近年年の多くの場⾯面でオンライン学習を採⽤用
宿題をためてからやる  vs  すぐやる
51
「緩いモデル共有」による分散の仕組み
l  みんな個別に⾃自学⾃自習
l  たまに勉強会で情報交換
l  ⼀一⼈人で勉強するより効率率率がいいはず!
52	
学習器
Jubatusの機能概要
l  Jubatusでは様々な分析⼿手法をサポート
l  多値分類・回帰
l  統計
l  近傍探索索
l  グラフ解析
l  外れ値検出
l  これらを組合せることにより、多くの課題を解決が可能
l  スパムフィルタ(メール分類)
l  電⼒力力消費量量予測(回帰)
l  ユーザー属性推定(レコメンデーション)
l  ログからの異異常検知(外れ値検出)
l  攻撃の標的になりやすいハブノードの発⾒見見(グラフの中⼼心性)
53
情報検索索と機械学習を統合したリアルタイム分析基
盤
l  ⼤大量量データを2つの側⾯面から整理理する
l  リアルタイムで⼤大量量の情報を検索索可能にする情報検索索エンジン
l  リアルタイムに⼤大量量の情報を整理理する機械学習エンジン
l  整理理されたデータの分析を⽀支える可視化機能
54	
Sedue for BigData
最初のデモもこの応⽤用です
55	
フリーワードによる検索索機能
⾃自動整理理されたタグ情報
まとめ
l  情報源としてのTwitterの可能性
l  リアルタイムで粒粒度度の細かい情報源としての活⽤用ができる
l  ⼤大量量のデータから必要な情報を抜き出す技術が必要
l  情報検索索技術
l  ユーザーの欲しい情報を⾒見見つけ出す技術
l  事前にどこまで情報を整理理できるかが肝
l  機械学習技術
l  データの分類・整理理を⾃自動的に⾏行行う技術
l  急速にリアルタイム処理理、⼤大量量処理理の技術開発が進んでいる
56
Twitterデータのフィルター・分析・検索索サービスの
紹介
l  NTTデータがTwitterの全量量データ(Firehose)のフィル
ター・分析・検索索サービスを提供
l  https://nazuki-oto.com/twitter/
l  検索索と分析のエンジンとして弊社の技術を利利⽤用
57
ご清聴ありがとうございました
58
デモ予備⽤用スライド
59
全体図
60	
TV画⾯面の番組表をイメージ
各フィルタリング条件は選べる
フィルタリング詳細結果
東京都・帰宅宅困難・3/12 4:00〜~5:00
61
フィルタリング条件指定
62	
フィルタリング条件はキーワード、場所、トピック、メディア
から設定可能
結果例例:
福島県いわき市・ガソリンスタンド・3/16
63
結果例例:
東京都渋⾕谷区・被災者⽀支援・3/12 4:00〜~6:00
64
今後の予定
l  デモサービスをベースに実⽤用化・提供を⽬目指す
l  (再掲)災害時にいざ使おうとするとうまくいかない。
平常時からも使ってもらえるようなサービスを考える
l  被災者や関係当局の話を聞き、何が必要であるかを絞る
l  システム側の技術的課題
l  全メディア情報をリアルタイムに分析して安定して提供できる
基盤
l  秒間1万tweet、秒間数百万〜~数千万の位置情報を処理理
l  サンプリング/サマリではなく、細かい粒粒度度のまま提供可能
l  名寄せ・地域情報の推定(⾔言及位置、ユーザーの位置)
65
その他
統計情報の考察
66
0"
500"
1000"
1500"
2000"
2500"
3000"
2011'03'11'09:00:00"
2011'03'11'11:00:00"
2011'03'11'13:00:00"
2011'03'11'15:00:00"
2011'03'11'17:00:00"
2011'03'11'19:00:00"
2011'03'11'21:00:00"
2011'03'11'23:00:00"
2011'03'12'01:00:00"
2011'03'12'03:00:00"
2011'03'12'05:00:00"
2011'03'12'07:00:00"
2011'03'12'09:00:00"
2011'03'12'11:00:00"
2011'03'12'13:00:00"
2011'03'12'15:00:00"
2011'03'12'17:00:00"
2011'03'12'19:00:00"
2011'03'12'21:00:00"
2011'03'12'23:00:00"
2011'03'13'01:00:00"
2011'03'13'03:00:00"
2011'03'13'05:00:00"
2011'03'13'07:00:00"
2011'03'13'09:00:00"
2011'03'13'11:00:00"
2011'03'13'13:00:00"
2011'03'13'15:00:00"
2011'03'13'17:00:00"
2011'03'13'19:00:00"
2011'03'13'21:00:00"
2011'03'13'23:00:00"
2011'03'14'01:00:00"
2011'03'14'03:00:00"
2011'03'14'05:00:00"
2011'03'14'07:00:00"
2011'03'14'09:00:00"
2011'03'14'11:00:00"
2011'03'14'13:00:00"
2011'03'14'15:00:00"
2011'03'14'17:00:00"
2011'03'14'19:00:00"
2011'03'14'21:00:00"
2011'03'14'23:00:00"
2011'03'15'01:00:00"
2011'03'15'03:00:00"
2011'03'15'05:00:00"
2011'03'15'07:00:00"
2011'03'15'09:00:00"
2011'03'15'11:00:00"
2011'03'15'13:00:00"
2011'03'15'15:00:00"
2011'03'15'17:00:00"
2011'03'15'19:00:00"
2011'03'15'21:00:00"
2011'03'15'23:00:00"
2011'03'16'01:00:00"
2011'03'16'03:00:00"
2011'03'16'05:00:00"
2011'03'16'07:00:00"
2011'03'16'09:00:00"
2011'03'16'11:00:00"
2011'03'16'13:00:00"
2011'03'16'15:00:00"
2011'03'16'17:00:00"
2011'03'16'19:00:00"
2011'03'16'21:00:00"
2011'03'16'23:00:00"
2011'03'17'01:00:00"
2011'03'17'03:00:00"
2011'03'17'05:00:00"
2011'03'17'07:00:00"
2011'03'17'09:00:00"
2011'03'17'11:00:00"
2011'03'17'13:00:00"
2011'03'17'15:00:00"
2011'03'17'17:00:00"
2011'03'17'19:00:00"
2011'03'17'21:00:00"
2011'03'17'23:00:00"
2011'03'18'01:00:00"
2011'03'18'03:00:00"
2011'03'18'05:00:00"
2011'03'18'07:00:00"
!
都市圏に関する⾔言及は、殆どの発⾔言が帰宅宅困難者が発⽣生し
た3/11 15:00〜~25:00に集中    
67	
都市圏に関しての⾔言及数
(渋⾕谷区、新宿区、台東区)
68	
0"
500"
1000"
1500"
2000"
2500"
3000"
2011'03'11'09:00:00"
2011'03'11'11:00:00"
2011'03'11'13:00:00"
2011'03'11'15:00:00"
2011'03'11'17:00:00"
2011'03'11'19:00:00"
2011'03'11'21:00:00"
2011'03'11'23:00:00"
2011'03'12'01:00:00"
2011'03'12'03:00:00"
2011'03'12'05:00:00"
2011'03'12'07:00:00"
2011'03'12'09:00:00"
2011'03'12'11:00:00"
2011'03'12'13:00:00"
2011'03'12'15:00:00"
2011'03'12'17:00:00"
2011'03'12'19:00:00"
2011'03'12'21:00:00"
2011'03'12'23:00:00"
2011'03'13'01:00:00"
2011'03'13'03:00:00"
2011'03'13'05:00:00"
2011'03'13'07:00:00"
2011'03'13'09:00:00"
2011'03'13'11:00:00"
2011'03'13'13:00:00"
2011'03'13'15:00:00"
2011'03'13'17:00:00"
2011'03'13'19:00:00"
2011'03'13'21:00:00"
2011'03'13'23:00:00"
2011'03'14'01:00:00"
2011'03'14'03:00:00"
2011'03'14'05:00:00"
2011'03'14'07:00:00"
2011'03'14'09:00:00"
2011'03'14'11:00:00"
2011'03'14'13:00:00"
2011'03'14'15:00:00"
2011'03'14'17:00:00"
2011'03'14'19:00:00"
2011'03'14'21:00:00"
2011'03'14'23:00:00"
2011'03'15'01:00:00"
2011'03'15'03:00:00"
2011'03'15'05:00:00"
2011'03'15'07:00:00"
2011'03'15'09:00:00"
2011'03'15'11:00:00"
2011'03'15'13:00:00"
2011'03'15'15:00:00"
2011'03'15'17:00:00"
2011'03'15'19:00:00"
2011'03'15'21:00:00"
2011'03'15'23:00:00"
2011'03'16'01:00:00"
2011'03'16'03:00:00"
2011'03'16'05:00:00"
2011'03'16'07:00:00"
2011'03'16'09:00:00"
2011'03'16'11:00:00"
2011'03'16'13:00:00"
2011'03'16'15:00:00"
2011'03'16'17:00:00"
2011'03'16'19:00:00"
2011'03'16'21:00:00"
2011'03'16'23:00:00"
2011'03'17'01:00:00"
2011'03'17'03:00:00"
2011'03'17'05:00:00"
2011'03'17'07:00:00"
2011'03'17'09:00:00"
2011'03'17'11:00:00"
2011'03'17'13:00:00"
2011'03'17'15:00:00"
2011'03'17'17:00:00"
2011'03'17'19:00:00"
2011'03'17'21:00:00"
2011'03'17'23:00:00"
2011'03'18'01:00:00"
2011'03'18'03:00:00"
2011'03'18'05:00:00"
2011'03'18'07:00:00"
津波の被害が⼤大きかった地域は、
津波報道があった直後や、その後
も継続して⾔言及は多くみられた
津波の被害が⼤大きな地域についての⾔言及数
(⽯石巻市、⼤大船渡市、気仙沼市、多賀城市、
南相⾺馬市、相⾺馬市)
69	
津波の被害が⼤大きかった地域については、津波報道があっ
た直後および、その後も継続して話題は多くあった
0"
500"
1000"
1500"
2000"
2500"
3000" 2011'03'11'09:00:00"
2011'03'11'11:00:00"
2011'03'11'13:00:00"
2011'03'11'15:00:00"
2011'03'11'17:00:00"
2011'03'11'19:00:00"
2011'03'11'21:00:00"
2011'03'11'23:00:00"
2011'03'12'01:00:00"
2011'03'12'03:00:00"
2011'03'12'05:00:00"
2011'03'12'07:00:00"
2011'03'12'09:00:00"
2011'03'12'11:00:00"
2011'03'12'13:00:00"
2011'03'12'15:00:00"
2011'03'12'17:00:00"
2011'03'12'19:00:00"
2011'03'12'21:00:00"
2011'03'12'23:00:00"
2011'03'13'01:00:00"
2011'03'13'03:00:00"
2011'03'13'05:00:00"
2011'03'13'07:00:00"
2011'03'13'09:00:00"
2011'03'13'11:00:00"
2011'03'13'13:00:00"
2011'03'13'15:00:00"
2011'03'13'17:00:00"
2011'03'13'19:00:00"
2011'03'13'21:00:00"
2011'03'13'23:00:00"
2011'03'14'01:00:00"
2011'03'14'03:00:00"
2011'03'14'05:00:00"
2011'03'14'07:00:00"
2011'03'14'09:00:00"
2011'03'14'11:00:00"
2011'03'14'13:00:00"
2011'03'14'15:00:00"
2011'03'14'17:00:00"
2011'03'14'19:00:00"
2011'03'14'21:00:00"
2011'03'14'23:00:00"
2011'03'15'01:00:00"
2011'03'15'03:00:00"
2011'03'15'05:00:00"
2011'03'15'07:00:00"
2011'03'15'09:00:00"
2011'03'15'11:00:00"
2011'03'15'13:00:00"
2011'03'15'15:00:00"
2011'03'15'17:00:00"
2011'03'15'19:00:00"
2011'03'15'21:00:00"
2011'03'15'23:00:00"
2011'03'16'01:00:00"
2011'03'16'03:00:00"
2011'03'16'05:00:00"
2011'03'16'07:00:00"
2011'03'16'09:00:00"
2011'03'16'11:00:00"
2011'03'16'13:00:00"
2011'03'16'15:00:00"
2011'03'16'17:00:00"
2011'03'16'19:00:00"
2011'03'16'21:00:00"
2011'03'16'23:00:00"
2011'03'17'01:00:00"
2011'03'17'03:00:00"
2011'03'17'05:00:00"
2011'03'17'07:00:00"
2011'03'17'09:00:00"
2011'03'17'11:00:00"
2011'03'17'13:00:00"
2011'03'17'15:00:00"
2011'03'17'17:00:00"
2011'03'17'19:00:00"
2011'03'17'21:00:00"
2011'03'17'23:00:00"
2011'03'18'01:00:00"
2011'03'18'03:00:00"
2011'03'18'05:00:00"
2011'03'18'07:00:00"
原発に近い地域の話題数は⽇日々⼤大きくなっていった
福島原発に近い地域についての⾔言及数
(いわき市、南相⾺馬市、相⾺馬市)
70	
津波
0"
5000"
10000"
15000"
20000"
25000"
30000"
35000"
40000"
45000"
50000"
2011(03(11(09:00:00"
2011(03(11(11:00:00"
2011(03(11(13:00:00"
2011(03(11(15:00:00"
2011(03(11(17:00:00"
2011(03(11(19:00:00"
2011(03(11(21:00:00"
2011(03(11(23:00:00"
2011(03(12(01:00:00"
2011(03(12(03:00:00"
2011(03(12(05:00:00"
2011(03(12(07:00:00"
2011(03(12(09:00:00"
2011(03(12(11:00:00"
2011(03(12(13:00:00"
2011(03(12(15:00:00"
2011(03(12(17:00:00"
2011(03(12(19:00:00"
2011(03(12(21:00:00"
2011(03(12(23:00:00"
2011(03(13(01:00:00"
2011(03(13(03:00:00"
2011(03(13(05:00:00"
2011(03(13(07:00:00"
2011(03(13(09:00:00"
2011(03(13(11:00:00"
2011(03(13(13:00:00"
2011(03(13(15:00:00"
2011(03(13(17:00:00"
2011(03(13(19:00:00"
2011(03(13(21:00:00"
2011(03(13(23:00:00"
2011(03(14(01:00:00"
2011(03(14(03:00:00"
2011(03(14(05:00:00"
2011(03(14(07:00:00"
2011(03(14(09:00:00"
2011(03(14(11:00:00"
2011(03(14(13:00:00"
2011(03(14(15:00:00"
2011(03(14(17:00:00"
2011(03(14(19:00:00"
2011(03(14(21:00:00"
2011(03(14(23:00:00"
2011(03(15(01:00:00"
2011(03(15(03:00:00"
2011(03(15(05:00:00"
2011(03(15(07:00:00"
2011(03(15(09:00:00"
2011(03(15(11:00:00"
2011(03(15(13:00:00"
2011(03(15(15:00:00"
2011(03(15(17:00:00"
2011(03(15(19:00:00"
2011(03(15(21:00:00"
2011(03(15(23:00:00"
2011(03(16(01:00:00"
2011(03(16(03:00:00"
2011(03(16(05:00:00"
2011(03(16(07:00:00"
2011(03(16(09:00:00"
2011(03(16(11:00:00"
2011(03(16(13:00:00"
2011(03(16(15:00:00"
2011(03(16(17:00:00"
2011(03(16(19:00:00"
2011(03(16(21:00:00"
2011(03(16(23:00:00"
2011(03(17(01:00:00"
2011(03(17(03:00:00"
2011(03(17(05:00:00"
2011(03(17(07:00:00"
2011(03(17(09:00:00"
2011(03(17(11:00:00"
2011(03(17(13:00:00"
2011(03(17(15:00:00"
2011(03(17(17:00:00"
2011(03(17(19:00:00"
2011(03(17(21:00:00"
2011(03(17(23:00:00"
2011(03(18(01:00:00"
2011(03(18(03:00:00"
2011(03(18(05:00:00"
2011(03(18(07:00:00"
トピック毎の⾔言及数
初期は津波と⽣生命維持についての話題
3/12 以降は、⽣生命維持、放射能、⽣生活インフラの話題
が多くみられた
0"
5000"
10000"
15000"
20000"
25000"
30000"
35000"
40000"
45000"
50000" 2011(03(11(09:00:00"
2011(03(11(11:00:00"
2011(03(11(13:00:00"
2011(03(11(15:00:00"
2011(03(11(17:00:00"
2011(03(11(19:00:00"
2011(03(11(21:00:00"
2011(03(11(23:00:00"
2011(03(12(01:00:00"
2011(03(12(03:00:00"
2011(03(12(05:00:00"
2011(03(12(07:00:00"
2011(03(12(09:00:00"
2011(03(12(11:00:00"
2011(03(12(13:00:00"
2011(03(12(15:00:00"
2011(03(12(17:00:00"
2011(03(12(19:00:00"
2011(03(12(21:00:00"
2011(03(12(23:00:00"
2011(03(13(01:00:00"
2011(03(13(03:00:00"
2011(03(13(05:00:00"
2011(03(13(07:00:00"
2011(03(13(09:00:00"
2011(03(13(11:00:00"
2011(03(13(13:00:00"
2011(03(13(15:00:00"
2011(03(13(17:00:00"
2011(03(13(19:00:00"
2011(03(13(21:00:00"
2011(03(13(23:00:00"
2011(03(14(01:00:00"
2011(03(14(03:00:00"
2011(03(14(05:00:00"
2011(03(14(07:00:00"
2011(03(14(09:00:00"
2011(03(14(11:00:00"
2011(03(14(13:00:00"
2011(03(14(15:00:00"
2011(03(14(17:00:00"
2011(03(14(19:00:00"
2011(03(14(21:00:00"
2011(03(14(23:00:00"
2011(03(15(01:00:00"
2011(03(15(03:00:00"
2011(03(15(05:00:00"
2011(03(15(07:00:00"
2011(03(15(09:00:00"
2011(03(15(11:00:00"
2011(03(15(13:00:00"
2011(03(15(15:00:00"
2011(03(15(17:00:00"
2011(03(15(19:00:00"
2011(03(15(21:00:00"
2011(03(15(23:00:00"
2011(03(16(01:00:00"
2011(03(16(03:00:00"
2011(03(16(05:00:00"
2011(03(16(07:00:00"
2011(03(16(09:00:00"
2011(03(16(11:00:00"
2011(03(16(13:00:00"
2011(03(16(15:00:00"
2011(03(16(17:00:00"
2011(03(16(19:00:00"
2011(03(16(21:00:00"
2011(03(16(23:00:00"
2011(03(17(01:00:00"
2011(03(17(03:00:00"
2011(03(17(05:00:00"
2011(03(17(07:00:00"
2011(03(17(09:00:00"
2011(03(17(11:00:00"
2011(03(17(13:00:00"
2011(03(17(15:00:00"
2011(03(17(17:00:00"
2011(03(17(19:00:00"
2011(03(17(21:00:00"
2011(03(17(23:00:00"
2011(03(18(01:00:00"
2011(03(18(03:00:00"
2011(03(18(05:00:00"
2011(03(18(07:00:00"
71	
全てのトピック毎の⾔言及数
プライバシー/乳幼児/医療療/安否確認/放射能/気象情報/
津波/⽣生命維持/⽣生活インフラ/⽣生活・くらし/衛⽣生/被災者
⽀支援/⾷食⽣生活/⾼高齢者/障害者
全⽂文検索索技術の⽐比較
72
転置ファイル
Inverted File Indexing
l  各単語毎に、どの⽂文書に出現したかを記録
l  ⻑⾧長所    シンプル、速い、分散処理理しやすい
l  短所    検索索漏漏れが⽣生じる  フレーズ検索索が苦⼿手
東京	
 10
 15
 16
 20
 21
 22
東寺	
 10
 15
….
文書番号を記録
l  ⻑⾧長さN(=2,3)の部分⽂文字列列を単語とみなし転置ファイ
ルを構築
l  ⻑⾧長所  漏漏れがない、シンプル
l  短所  索索引が⼤大きい  ⾮非常に遅くなる場合もあ
る  
東京都庁に今日…
東京都	
京都庁	
都庁に	
庁に今	
0
1
2
3
102
150
出現位置を記録	
N-gram⽅方式
接尾辞配列列    Suffix Arrays (SA)
l  全接尾辞を辞書式順序でソートした結果
l  ⻑⾧長所  漏漏れがない、どんなクエリでも⾼高速
l  短所  索索引が⼤大きい、構築に時間がかかる
abracadabra$
 11 $
10 a$
7 abra$
0 abracadabra$
3 acadabra$
5 adabra$
8 bra$
1 bracadabra$
4 cadabra$
6 dabra$
0 abracadabra$
1 bracadabra$
2 racadabra$
3 acadabra$
4 cadabra$
5 adabra$
6 dabra$
7 abra$

・・・
dabra = dabra$ 
辞書式

順序

ソート	
出現位置(先頭位置からのオフセット)	
例:dabraを検索する
1.  配列 SA の大きさは 11 なので配列インデックス
の中心値 5 から検索
2.  SA[5] = 8 、この 8 は “abracadabra” の “bra”
の

出現位置を指している
3.  検索クエリの "dabra" と "bra" を比較すると
"dabra" の方が辞書式順で大きい
4.  よって検索範囲は SA[5] から SA[11] の間に絞
り込まれる
5.  SA[5] と SA[11] の間 → SA[8] = 6
6.  SA[8] = 6 の 6 は “abracadabra” の dabra
に

一致。よって dabra の出現位置は 6 と判明
圧縮接尾辞配列列(CSA)
l  接尾辞配列列の機能はそのままに、コンパクトに保存
(テキストサイズと同程度度)
l  接尾辞配列列をさらに変換し圧縮
l  検索索対象テキスト⾃自⾝身の情報も同時に保持
l  スニペットも索索引から復復元できる
l  実装は難しい
l  Sedueは圧縮接尾辞配列列を搭載した初の商⽤用検索索エンジン

More Related Content

What's hot

Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームPreferred Networks
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 
Jubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCTJubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCTYuya Unno
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜Yuya Unno
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた株式会社メタップスホールディングス
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LTAkifumi Eguchi
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Shohei Hido
 
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言ICML2013読み会 開会宣言
ICML2013読み会 開会宣言Shohei Hido
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得Yuya Unno
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門Yuya Unno
 
協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with MahoutKatsuhiro Takata
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Yuya Unno
 
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Hisao Soyama
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Yuya Unno
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場Yuya Unno
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理Yuya Unno
 

What's hot (20)

Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
 
rcast_20140411
rcast_20140411rcast_20140411
rcast_20140411
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 
自然言語処理紹介(就職編)
自然言語処理紹介(就職編)自然言語処理紹介(就職編)
自然言語処理紹介(就職編)
 
Jubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCTJubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCT
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤
 
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言ICML2013読み会 開会宣言
ICML2013読み会 開会宣言
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門
 
協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with Mahout
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 

Similar to Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会

いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーションいじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーションcyberagent
 
量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記Satoyuki Tsukano
 
Completely understand smart_speaker
Completely understand smart_speakerCompletely understand smart_speaker
Completely understand smart_speakerToshiaki Endo
 
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~Kentaro Imai
 
密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知- Core Concept Technologies
 
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知Core Concept Technologies
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
LLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみたLLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみたKunihiroSugiyama1
 
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPythonKimikazu Kato
 
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~Preferred Networks
 
Uec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみたUec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみたAtsushi Hayakawa
 
マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例nlab_utokyo
 
中国のAI産業状況、スタートアップ情報リサーチ
中国のAI産業状況、スタートアップ情報リサーチ中国のAI産業状況、スタートアップ情報リサーチ
中国のAI産業状況、スタートアップ情報リサーチYangnuoLiu
 

Similar to Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会 (20)

20181120 ldp ai
20181120 ldp ai20181120 ldp ai
20181120 ldp ai
 
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーションいじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
 
量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記
 
Py conkyushu2018
Py conkyushu2018Py conkyushu2018
Py conkyushu2018
 
Completely understand smart_speaker
Completely understand smart_speakerCompletely understand smart_speaker
Completely understand smart_speaker
 
20181030 fun
20181030 fun20181030 fun
20181030 fun
 
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
 
Lt 新竹涼太
Lt 新竹涼太Lt 新竹涼太
Lt 新竹涼太
 
密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知
 
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
LLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみたLLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみた
 
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 
35thwebmining_lt
35thwebmining_lt35thwebmining_lt
35thwebmining_lt
 
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
 
Seclt dist 20200112
Seclt dist 20200112Seclt dist 20200112
Seclt dist 20200112
 
Uec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみたUec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみた
 
マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例
 
中国のAI産業状況、スタートアップ情報リサーチ
中国のAI産業状況、スタートアップ情報リサーチ中国のAI産業状況、スタートアップ情報リサーチ
中国のAI産業状況、スタートアップ情報リサーチ
 

More from Yuya Unno

深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来Yuya Unno
 
深層学習時代の 自然言語処理ビジネス
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネスYuya Unno
 
ベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするYuya Unno
 
PFNにおける セミナー活動
PFNにおけるセミナー活動PFNにおけるセミナー活動
PFNにおける セミナー活動Yuya Unno
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化Yuya Unno
 
進化するChainer
進化するChainer進化するChainer
進化するChainerYuya Unno
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアルYuya Unno
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーションYuya Unno
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...Yuya Unno
 
Chainer, Cupy入門
Chainer, Cupy入門Chainer, Cupy入門
Chainer, Cupy入門Yuya Unno
 
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」Yuya Unno
 
Chainer入門と最近の機能
Chainer入門と最近の機能Chainer入門と最近の機能
Chainer入門と最近の機能Yuya Unno
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用Yuya Unno
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 
企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端Yuya Unno
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep LearningYuya Unno
 
自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭Yuya Unno
 
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-Yuya Unno
 
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...Yuya Unno
 
表現学習時代の生成語彙論ことはじめ
表現学習時代の生成語彙論ことはじめ表現学習時代の生成語彙論ことはじめ
表現学習時代の生成語彙論ことはじめYuya Unno
 

More from Yuya Unno (20)

深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来
 
深層学習時代の 自然言語処理ビジネス
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネス
 
ベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をする
 
PFNにおける セミナー活動
PFNにおけるセミナー活動PFNにおけるセミナー活動
PFNにおける セミナー活動
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化
 
進化するChainer
進化するChainer進化するChainer
進化するChainer
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
 
Chainer, Cupy入門
Chainer, Cupy入門Chainer, Cupy入門
Chainer, Cupy入門
 
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
 
Chainer入門と最近の機能
Chainer入門と最近の機能Chainer入門と最近の機能
Chainer入門と最近の機能
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep Learning
 
自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭
 
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
 
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
 
表現学習時代の生成語彙論ことはじめ
表現学習時代の生成語彙論ことはじめ表現学習時代の生成語彙論ことはじめ
表現学習時代の生成語彙論ことはじめ
 

Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会