2011年年  10⽉月  26  ⽇日




株式会社Preferred Infrastructure
     代表取締役社長 西川 徹

NTT情報流通プラットフォーム研究所
          所長 桑名 栄二
1,000,000,000,000,000,000,000,000
     YB,  ZB,    EB,    PB,    TB,  GB,  MB,    KB,      B  
                  Big Data	


                        センサーデータ	
              顧客データ	
    ログデータ	
業務データ	
                                                2020年年には
                                                35ZBにまで増⼤大
                        年年率率率45%成⻑⾧長            (現在の約40倍)                       2010 IDC Digital Universe	




  2009年年                                       例例えば、
  0.8ZB                                        Twitter:2000ツイート/秒
                                               (ピーク時)
                                                 http://www.atmarkit.co.jp/news/201004/19/twitter.html	

                  インターネット SNS          画像・映像


                                                                                                              2
}    Hadoop
      ◦  Big Dataを効率よく低コストで処理する基盤
      ◦  GoogleのBig Data処理基盤のOSSクローン

}    Big Dataブームの立役者
      ◦  利用ユーザ、開発コミュニティの拡大
      ◦  Big Data for everyone




                                   Cloudra  presentation  @  Hadoop  World  Conference  2010


                                                                                               3
}    といっても、Hadoopだけでは足りないものが	



リアルタイム処理理                    ⾼高度度な分析




      バッチ処理理                 単純な集計


                 ⼤大規模データ


                                       4
バッチ系アプリケーション    リアルタイム系アプリケーション



       単純な分析(集計など)    ⾼高度度な分析(分類、推定、予測)




Big
Data




                               リアルタイム(逐次)
       バッチ(⼀一旦蓄積)




                            Jubatus	
                                            5
⼤大量量のTwitter等のソーシャルメディアをリアルタイムに⾃自動分析(つぶやきやユーザの分類)




                                                    6
・⼤大量量のTwitter等のソーシャルメディアをリアルタイムに⾃自動分析
・これまでのバッチ処理理では関連記事が固定化されているが、Jubatusでは、ニュースや不不祥事など
  急激な話題(キーワード)の変化にも追従可能


                                  クライアント



 SNS
 (Twitter等)            分析結果




        Jubatusによるリアルタイム記事分析


         キーワード関連記事の⾃自動抽出など
        (例例:NTTというキーワードを含んで
           なくてもNTTに関連度度が⾼高い
           記事を⾃自動的に分析し抽出)

                                                     7
複数のサーバの消費電⼒力力をリアルタイムに推定
・従来:全てのサーバに電⼒力力測定モジュールなどを⼊入れる必要があった
・Jubatus:
  ・⼀一部のサーバの消費電⼒力力とネットワークパケットのパターンをJubatusで学習
  ・その他のサーバの消費電⼒力力は、パケットを監視/分析することにより、リアルタイムに推定可能


       データセンタ/オフィス	

           推定	


 電力計無し	
                  電力計	
   TAP
                          (パケットデータ)	
                          	




   空調制御に反映、PUEの向上

                                                   8
ECサイト/オンデマンドTVなどで、ユーザに商品などをリアルタイムに推薦
  ・従来のバッチ処理理:⼀一定期間、推薦商品が固定化
  ・Jubatus:購⼊入トレンドの急激な変化にも追従可能


ユーザ                             推薦
                                精度度               有名⼈人の死亡で
                                                  急に売上が上がった

                                      TVに紹介され
                       購⼊入履履歴         購買傾向が変わった

                                                              実際の動き



                                                              Jubatus



                                                              バッチ処理理



      Jubatusによる推薦商品のリアルタイム分析                             時間




        他のユーザの購⼊入履履歴・動向などを参
        考に、推奨商品をリアルタイムに分析
                                                                        9
ネットワークの異異常トラヒック検知やトレンド分析などを⾏行行う
  ・従来のバッチ処理理:⼀一定期間データを蓄積して分析する必要があり、⼤大量量のストレージなどが必要
  ・Jubatus:逐次分析が可能なため、データを保持しておく必要がなくなる




 ネットワーク                         ネットワーク
 トラヒック                          トラヒック




       バッチ処理理によるトラヒック分析          Jubatusによるトラヒック分析

       ⼤大量量データを⼀一旦蓄積して分析          ⼤大量量データを逐次的に分析
                 =                        =
          ⼤大量量のストレージが必要            ⼤大量量のストレージは不不要


                                                      10
}    Big Dataのトレンド                ❸深い分析
      ◦  ❶大規模化
      ◦  ❷リアルタイム化
      ◦  ❸深い分析


}    Jubatus
      ◦  従来:RDBMS/DHW
       –  ->大規模化:Hadoop
       –  -> リアルタイム化:CEP
      ◦  両者の両立だけでなく、
         分析の高度化を目指す         ❷リアル
                                           ❶⼤大規模化
                            タイム化



                                               11
}  「機械学習」×「大規模分散処理」

◦  機械学習は、データから、有用な規則・知識表現・判断基準
   などを自動的に抽出する

◦  「ルール」を明示的に記述するのではなく、データを与えるだ
   けで学習する
 –  スパムフィルタリング
 –  広告最適化

              並列化・大規模化は
              自明ではない!	
                                  12
CEP/Streaming              Jubatus             HPC/Super  Computer


       ×  単純な分析                 ○  ⾼高度度な分析                ○  ⾼高度度な分析
          (集計)                  (機械学習)                    (科学計算)
                                                     ×  スケールしない
          ○  速い                   ○  速い
                                                     (⾼高価な専⽤用HW)

                   「Aを買った⼈人」は                「Aを買った⼈人」は
                    「BかCを買う」                  「CかDを買う」


                                「Aを買った⼈人」
                                は「BやDよりも
同期なし              「Aを買った⼈人」は      Cを買う」      疎な同期                     密な同期
                    「Cを買う」
                                             「Aを買った⼈人」
                                              は「Cを買う」




Big
Data

                                                                            13
機械学習などの複雑な分析に対する、
効率のよい大規模分散処理基盤を確
立する	




                    14
・約10万QPS(Query/sec)・特徴を実現
  (⽇日本語処理理の場合特徴量量が2000次元程度度のため、50QPS学習(1000QPS推定))
・サーバ台数を増加させるとほぼ線形に性能向上
    ケース:Twitter
      全世界のつぶやき:2000TPS(Tweet/sec)、⽇日本語のみ:400TPS
      PC8台(=400/50)で⽇日本語全てを分析(全て学習対象であっても)    




                             ※ Pascal Large Scale Learning Challenge
                             (http://largescale.ml.tu-berlin.de )のwebspamデータセットによる実験結果	

                                                                                    15
⼀一般的に多くのデータを学習すればするほど精度度が向上することが知られている。
Jubatusでは、穏やかなモデル同期による並列列分散処理理を⾏行行うことにより、より短時間で⾼高い
精度度の学習を実現




                 学習した時間に対する精度度
                            ※ Pascal Large Scale Learning Challenge
                            (http://largescale.ml.tu-berlin.de )のwebspamデータセットによる実験結果	

                                                                                   16
}    Jubatus OSS サイト
      ◦ http://jubat.us




                          17
}  ご清聴ありがとうございました。

}    Jubatusに関する問い合わせ先
       –  PFI
          –  Jubatus担当	
          –  TEL: 03-6662-8675
          –  E-mail:info@preferred.jp

       –  NTT
          –    NTT情報流通基盤総合研究所	
          –    企画部 広報担当	
          –    TEL: 0422-59-3663
          –    E-mail: islg-koho@lab.ntt.co.jp




                                                  18

jubatus pressrelease