Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

jubatus pressrelease

34,751 views

Published on

jubatus pressrelease

  1. 1. 2011年年  10⽉月  26  ⽇日株式会社Preferred Infrastructure 代表取締役社長 西川 徹NTT情報流通プラットフォーム研究所 所長 桑名 栄二
  2. 2. 1,000,000,000,000,000,000,000,000 YB,  ZB,    EB,    PB,    TB,  GB,  MB,    KB,      B   Big Data センサーデータ 顧客データ ログデータ 業務データ 2020年年には 35ZBにまで増⼤大 年年率率率45%成⻑⾧長 (現在の約40倍) 2010 IDC Digital Universe 2009年年 例例えば、 0.8ZB   Twitter:2000ツイート/秒 (ピーク時) http://www.atmarkit.co.jp/news/201004/19/twitter.html インターネット SNS 画像・映像 2
  3. 3. }  Hadoop ◦  Big Dataを効率よく低コストで処理する基盤 ◦  GoogleのBig Data処理基盤のOSSクローン}  Big Dataブームの立役者 ◦  利用ユーザ、開発コミュニティの拡大 ◦  Big Data for everyone Cloudra  presentation  @  Hadoop  World  Conference  2010 3
  4. 4. }  といっても、Hadoopだけでは足りないものが リアルタイム処理理 ⾼高度度な分析 バッチ処理理 単純な集計 ⼤大規模データ 4
  5. 5. バッチ系アプリケーション リアルタイム系アプリケーション 単純な分析(集計など) ⾼高度度な分析(分類、推定、予測)BigData リアルタイム(逐次) バッチ(⼀一旦蓄積) Jubatus 5
  6. 6. ⼤大量量のTwitter等のソーシャルメディアをリアルタイムに⾃自動分析(つぶやきやユーザの分類) 6
  7. 7. ・⼤大量量のTwitter等のソーシャルメディアをリアルタイムに⾃自動分析・これまでのバッチ処理理では関連記事が固定化されているが、Jubatusでは、ニュースや不不祥事など  急激な話題(キーワード)の変化にも追従可能 クライアント SNS (Twitter等) 分析結果 Jubatusによるリアルタイム記事分析 キーワード関連記事の⾃自動抽出など (例例:NTTというキーワードを含んで なくてもNTTに関連度度が⾼高い 記事を⾃自動的に分析し抽出) 7
  8. 8. 複数のサーバの消費電⼒力力をリアルタイムに推定・従来:全てのサーバに電⼒力力測定モジュールなどを⼊入れる必要があった・Jubatus:  ・⼀一部のサーバの消費電⼒力力とネットワークパケットのパターンをJubatusで学習  ・その他のサーバの消費電⼒力力は、パケットを監視/分析することにより、リアルタイムに推定可能 データセンタ/オフィス 推定 電力計無し 電力計 TAP (パケットデータ) 空調制御に反映、PUEの向上 8
  9. 9. ECサイト/オンデマンドTVなどで、ユーザに商品などをリアルタイムに推薦  ・従来のバッチ処理理:⼀一定期間、推薦商品が固定化  ・Jubatus:購⼊入トレンドの急激な変化にも追従可能ユーザ 推薦 精度度 有名⼈人の死亡で 急に売上が上がった TVに紹介され 購⼊入履履歴 購買傾向が変わった 実際の動き Jubatus バッチ処理理 Jubatusによる推薦商品のリアルタイム分析 時間 他のユーザの購⼊入履履歴・動向などを参 考に、推奨商品をリアルタイムに分析 9
  10. 10. ネットワークの異異常トラヒック検知やトレンド分析などを⾏行行う  ・従来のバッチ処理理:⼀一定期間データを蓄積して分析する必要があり、⼤大量量のストレージなどが必要  ・Jubatus:逐次分析が可能なため、データを保持しておく必要がなくなる ネットワーク ネットワーク トラヒック トラヒック バッチ処理理によるトラヒック分析 Jubatusによるトラヒック分析 ⼤大量量データを⼀一旦蓄積して分析 ⼤大量量データを逐次的に分析 = = ⼤大量量のストレージが必要 ⼤大量量のストレージは不不要 10
  11. 11. }  Big Dataのトレンド ❸深い分析 ◦  ❶大規模化 ◦  ❷リアルタイム化 ◦  ❸深い分析}  Jubatus ◦  従来:RDBMS/DHW –  ->大規模化:Hadoop –  -> リアルタイム化:CEP ◦  両者の両立だけでなく、 分析の高度化を目指す ❷リアル ❶⼤大規模化 タイム化 11
  12. 12. }  「機械学習」×「大規模分散処理」◦  機械学習は、データから、有用な規則・知識表現・判断基準 などを自動的に抽出する◦  「ルール」を明示的に記述するのではなく、データを与えるだ けで学習する –  スパムフィルタリング –  広告最適化 並列化・大規模化は 自明ではない! 12
  13. 13. CEP/Streaming Jubatus HPC/Super  Computer ×  単純な分析 ○  ⾼高度度な分析 ○  ⾼高度度な分析 (集計) (機械学習) (科学計算) ×  スケールしない ○  速い ○  速い (⾼高価な専⽤用HW) 「Aを買った⼈人」は 「Aを買った⼈人」は 「BかCを買う」 「CかDを買う」 「Aを買った⼈人」 は「BやDよりも同期なし 「Aを買った⼈人」は Cを買う」 疎な同期 密な同期 「Cを買う」 「Aを買った⼈人」 は「Cを買う」BigData 13
  14. 14. 機械学習などの複雑な分析に対する、効率のよい大規模分散処理基盤を確立する 14
  15. 15. ・約10万QPS(Query/sec)・特徴を実現  (⽇日本語処理理の場合特徴量量が2000次元程度度のため、50QPS学習(1000QPS推定))・サーバ台数を増加させるとほぼ線形に性能向上    ケース:Twitter   全世界のつぶやき:2000TPS(Tweet/sec)、⽇日本語のみ:400TPS   PC8台(=400/50)で⽇日本語全てを分析(全て学習対象であっても)     ※ Pascal Large Scale Learning Challenge (http://largescale.ml.tu-berlin.de )のwebspamデータセットによる実験結果 15
  16. 16. ⼀一般的に多くのデータを学習すればするほど精度度が向上することが知られている。Jubatusでは、穏やかなモデル同期による並列列分散処理理を⾏行行うことにより、より短時間で⾼高い精度度の学習を実現 学習した時間に対する精度度 ※ Pascal Large Scale Learning Challenge (http://largescale.ml.tu-berlin.de )のwebspamデータセットによる実験結果 16
  17. 17. }  Jubatus OSS サイト ◦ http://jubat.us 17
  18. 18. }  ご清聴ありがとうございました。}  Jubatusに関する問い合わせ先 –  PFI –  Jubatus担当 –  TEL: 03-6662-8675 –  E-mail:info@preferred.jp –  NTT –  NTT情報流通基盤総合研究所 –  企画部 広報担当 –  TEL: 0422-59-3663 –  E-mail: islg-koho@lab.ntt.co.jp 18

×