Successfully reported this slideshow.
PFIオープンセミナー2012先進ビッグデータ応⽤用を⽀支える 機械学習に求められる新技術  株式会社Preferred Infrastructure リサーチャー&Jubatusチームリーダー          ⽐比⼾戸  将平
⾃自⼰己紹介l    ⽐比⼾戸将平(HIDO Shohei)l    専⾨門:データマイニング、機械学習l    経歴:      l    -2006: 京都⼤大学⼤大学院情報学研究科システム科学専攻      l    2006-...
概要l  ビッグデータ分析はより深い知⾒見見を得られるビッグデータ解析へl  鍵となる機械学習技術のビッグデータとの繋がりは道半ばl  さらに将来を⾒見見据えると重要になる2つの技術    l  トレーサビリティ&リアルタイム     ...
⽬目次l    ビッグデータ分析は深い解析へl    機械学習のビッグデータ応⽤用の現状l    今後重要になる技術とPFIの取り組み紹介                       4
ビッグデータ分析プロセス                      蓄積             分析                           NoSQLVolume     テキスト           バイオVariety   ...
データ分析から深い解析へ       分析                      深い                               解析 集計          ⾒見見える化       予測      カテゴリ分類 検索索...
機械学習の概要    l  機械学習研究の定義        l  「経験(データ)によって                             学習データ            賢くなるアルゴリズムの研究」    l  古典的な統計...
機械学習に⽤用いられるデータソース⼈人間系       l    テキスト系                l  新聞/Web/ブログ/Twitter       l    イベント系列列              l  カード利利⽤用...
機械学習の応⽤用 クレジットカード不不正利利⽤用検知        ネットワーク攻撃/侵⼊入検出 Jeopardy!でクイズ王に勝利利   9       医療療診断⽀支援
⽬目次l    ビッグデータ分析は深い解析へl    機械学習のビッグデータ応⽤用の現状l    今後重要になる技術とPFIの取り組み紹介                       10
データ解析技術への過度度な期待と現実とのギャップ                    応⽤用                  営業戦略略最適化    ビッグデータビ      解析          マーケ最適化グ             ...
ビッグデータ処理理系と機械学習ツールの乖離離                       応⽤用     ビッグデータ処理理系      営業戦略略最適化ビ                    マーケ最適化グ                 ...
ビッグデータ処理理系での機械学習への対応状況l    Hadoop本体      l    YARN (MapReduce2.0)l    MapReduce系      l    Mahout (Apache)      l    ...
ビッグデータへの機械学習応⽤用事例例:⽶米国の巨⼤大Web企業から他業種へ広がりつつあるl  Google     l  検索索アルゴリズム(PageRank)     l  広告最適化     l  SEO対策            ...
機械学習からビッグデータ処理理への歩み寄りl    “Machine learning that matters” [K. L. Wagstaff, ICML2012]       l  ベンチマーク性能への固執、評価関数の有意性、応⽤用との...
Machine Learning for the New York City PowerGrid [Rudin et al., TPAMI, 2012]l  ⽬目的:電⼒力力配電設備からの障害予測・検知l  ⽤用いたデータ     l  ...
⽬目次l    ビッグデータ分析は深い解析へl    機械学習のビッグデータ応⽤用の現状l    今後重要になる技術とPFIの取り組み紹介                       17
ここまで: 先進ビッグデータ応⽤用を⽀支える機械学習        ここから:その先のビッグデータ応⽤用を⽀支える機械学習
深い解析                                                      ❸深い分析データ分析担当者           Structured  Perception  [Collins]       ...
今後重要になる技術(1/2):データ解析の敷居を下げるためのトレーサビリティ機械学習向けスクリプト⾔言語(R⾔言語など)     l  使うための敷居が⾼高い(習得コストが⾼高い)l  WekaやSPSSのようなアイコンベースのデータ処理理...
Bazil:利利⽤用概念念図l    メール・ニュース記事・商品情報といった様々な⽂文章に対応l    少数の正解を与え学習することで、指定したカテゴリに⾃自動的に分類される                  学習             ...
Bazil Farm 学習結果分析例例(1-1) つぶやき年年齢推定:  20代⼥女女性つぶやきに対する10-19歳モデル適⽤用結果  l  10-19歳っぽい表現:⼥女女の⼦子/ameblo/かわいかっ/もう少し  l  10-19歳っぽ...
Bazil Farm 学習結果分析例例(1-2)つぶやき年年齢推定:  20代⼥女女性つぶやきに対する20-29歳モデル適⽤用結果  l  20-29歳っぽい表現:結婚式/出⾝身/パン/酒/多趣味/♡/可愛い  l  20-29歳っぽくない...
Bazil Farm 学習結果分析例例(2)つぶやき性別推定:      ⼥女女性のつぶやきに対する男性モデル適⽤用結果l    男性っぽい表現:      あんまり/ずっと/⾒見見た⽬目/      サッカー/選ん/えらい/疲れ      ...
Bazil Farm学習結果分析例例(3): ラベル修正と再学習               25
今後重要になる技術(2/2):ビッグデータ向けのリアルタイム解析                  Velocityl  ビッグデータの3VのVelocity     l  元々はデータが⽣生み出される速度度     l  そのデータをそ...
Jubatus: Hadoopの先を⾏行行く⼤大規模データ解析基盤l  世界初の⼤大規模分散オンライン機械学習基盤    l  NTT SIC様と共同開発    l  オープンソース公開  → http://jubat.us/l  分散...
Jubatusの差別化要因となっている技術特性:⼤大規模/分散並列列かつオンライン/リアルタイム • Structured  Perceptron オンライン                                      2011年...
分散オンライン機械学習を実現するコア技術:緩やかなモデル情報の共有l  Jubatusは各サーバーのモデル情報を「緩やか」に共有するl  データ⾃自体は共有せず、モデルのみ共有する     l  既存システムと違う割り切切りl  全サー...
Jubatusの優位性:分散オンラインかつ深い解析に 重要な機能を揃えています l    従来のデータ解析システムと⽐比較したJubatusのアドバンテージ                Jubatus Hadoop CEP RDBMS   ...
将来のビッグデータ向けリアルタイム解析:Edge-heavy dataにおける機械学習を例例にl  Edge-heavy data:解析するためにデータを中央に集められない     l  データを伝送して蓄積するコストが⾼高過ぎる     ...
Jubatus v0.4.02012年年11⽉月ごろリリース予定!      +分散オンライン異異常検知              32
まとめ:PFIはこれからも最先端の技術を最短で実⽤用化しますl  ビッグデータ分析はより深い知⾒見見を得られるビッグデータ解析へl  鍵となる機械学習技術のビッグデータとの繋がりは道半ばl  さらに将来を⾒見見据えると重要になる2つの技術...
Upcoming SlideShare
Loading in …5
×

Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平

10,623 views

Published on

PFIオープンセミナー2012「多様化する情報を支える技術」
2012年9月21日(金)実施
≪概要≫Hadoopが大規模データ処理に広く用いられれる一方、その限界も見え始めてきた。一方、データに潜む複雑な因果関係や傾向を発見し精度の良い予測を実現する機械学習技術は性能向上と適用範囲の拡大を続けている。本講演ではビッグデータとその先進アプリケーションについて、間を繋ぐ機械学習技術の観点から最新動向について述べる。特に、PFIがフォーカスしているリアルタイム性とトレーサビリティについて詳しく述べ、JubatusとBazilという製品を紹介する。

  • Be the first to comment

Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平

  1. 1. PFIオープンセミナー2012先進ビッグデータ応⽤用を⽀支える 機械学習に求められる新技術 株式会社Preferred Infrastructure リサーチャー&Jubatusチームリーダー ⽐比⼾戸  将平
  2. 2. ⾃自⼰己紹介l  ⽐比⼾戸将平(HIDO Shohei)l  専⾨門:データマイニング、機械学習l  経歴: l  -2006: 京都⼤大学⼤大学院情報学研究科システム科学専攻 l  2006-2012: IBM東京基礎研究所データ解析グループ l  機械学習(特に異異常検知)のアルゴリズム研究開発 l  お客様案件でデータ解析プロジェクトに従事 l  2012-: 株式会社プリファードインフラストラクチャーl  担当:Jubatusチーム共同リーダー 2
  3. 3. 概要l  ビッグデータ分析はより深い知⾒見見を得られるビッグデータ解析へl  鍵となる機械学習技術のビッグデータとの繋がりは道半ばl  さらに将来を⾒見見据えると重要になる2つの技術 l  トレーサビリティ&リアルタイム 3
  4. 4. ⽬目次l  ビッグデータ分析は深い解析へl  機械学習のビッグデータ応⽤用の現状l  今後重要になる技術とPFIの取り組み紹介 4
  5. 5. ビッグデータ分析プロセス 蓄積 分析 NoSQLVolume テキスト バイオVariety Hadoop メディアVelocity Complex Event M2M 5 Processing
  6. 6. データ分析から深い解析へ 分析 深い 解析 集計 ⾒見見える化 予測 カテゴリ分類 検索索 ルール処理理 レコメンド 異異常検知SQL DWH BI 機械学習 (MachineCQL CEP M/R 6 Learning)
  7. 7. 機械学習の概要 l  機械学習研究の定義 l  「経験(データ)によって 学習データ 賢くなるアルゴリズムの研究」 l  古典的な統計⼿手法に⽐比べた特徵 分類モデル l  確率率率分布の仮定などの制限が少ない l  ⼤大規模・⾼高次元データにも有効 l  主な問題設定 l  カテゴリ分類/回帰 l  クラスタリング(グルーピング) l  近傍探索索 l  レコメンド/異異常検知Dimensionality Reduction by Learning an Invariant MappingRaia Hadsell, Sumit Chopra, Yann LeCun, CVPR, 2006 7
  8. 8. 機械学習に⽤用いられるデータソース⼈人間系 l  テキスト系   l  新聞/Web/ブログ/Twitter l  イベント系列列 l  カード利利⽤用/治療療履履歴 l  メディア系   l  ⾳音声/画像/動画 l  ネットワーク系 l  パケット流流量量/種類/内容 l  M2Mセンサー系   l  ヒト/⾞車車/⼯工場監視機械系 8
  9. 9. 機械学習の応⽤用 クレジットカード不不正利利⽤用検知 ネットワーク攻撃/侵⼊入検出 Jeopardy!でクイズ王に勝利利 9 医療療診断⽀支援
  10. 10. ⽬目次l  ビッグデータ分析は深い解析へl  機械学習のビッグデータ応⽤用の現状l  今後重要になる技術とPFIの取り組み紹介 10
  11. 11. データ解析技術への過度度な期待と現実とのギャップ 応⽤用 営業戦略略最適化 ビッグデータビ 解析 マーケ最適化グ パーソナライズデ 需要予測ータ データ 故障予知 アナリティクス コスト最⼩小化 利利益最⼤大化 11
  12. 12. ビッグデータ処理理系と機械学習ツールの乖離離 応⽤用 ビッグデータ処理理系 営業戦略略最適化ビ マーケ最適化グ パーソナライズデ 需要予測ー データサイエンティストタ 故障予知 コスト最⼩小化 利利益最⼤大化 機械学習ツール 12
  13. 13. ビッグデータ処理理系での機械学習への対応状況l  Hadoop本体 l  YARN (MapReduce2.0)l  MapReduce系 l  Mahout (Apache) l  AllReduce or Vowpal Wabbit (Yahoo!) l  SystemML (IBM)l  ⾮非MapReduce系 l  Spark 13
  14. 14. ビッグデータへの機械学習応⽤用事例例:⽶米国の巨⼤大Web企業から他業種へ広がりつつあるl  Google l  検索索アルゴリズム(PageRank) l  広告最適化 l  SEO対策 バイオl  Facebook l  広告最適化 l  知り合い候補レコメンドl  Amazon ヘルスケア l  おすすめ商品 メディアl  Twitter l  トレンドワード検出 l  知り合い候補レコメンド M2M 14
  15. 15. 機械学習からビッグデータ処理理への歩み寄りl  “Machine learning that matters” [K. L. Wagstaff, ICML2012] l  ベンチマーク性能への固執、評価関数の有意性、応⽤用との乖離離を批判 機械学習として定式化 データ収集 前処理理して特徴量量を抽出 必要な準備 アルゴリズムを選ぶ/開発する 評価基準を決めて実験する “機械学習研究”における貢献 結果を翻訳する ユーザに伝える ユーザが使うよう説得する 実世界におけるインパクトl  Big Learning Workshop [NIPS2011, NIPS2012]l  Scaling Up Machine Learning (Book) [2011/12] 15
  16. 16. Machine Learning for the New York City PowerGrid [Rudin et al., TPAMI, 2012]l  ⽬目的:電⼒力力配電設備からの障害予測・検知l  ⽤用いたデータ l  設備情報、状態測定データ l  メンテナンス履履歴、停電履履歴 l  システム全体の負荷 l  温度度変化履履歴l  機械学習の応⽤用 l  Rule&k-means: 障害危険度度ランキング l  サポートベクター回帰: MTBF(平均故障間隔)推定 http://web.mit.edu/rudin/www/TPAMIPreprint.pdf 16
  17. 17. ⽬目次l  ビッグデータ分析は深い解析へl  機械学習のビッグデータ応⽤用の現状l  今後重要になる技術とPFIの取り組み紹介 17
  18. 18. ここまで: 先進ビッグデータ応⽤用を⽀支える機械学習 ここから:その先のビッグデータ応⽤用を⽀支える機械学習
  19. 19. 深い解析 ❸深い分析データ分析担当者 Structured  Perception  [Collins] Passive  Aggressive  /  MIRA Oll:  online-‐‑‒learning  library  [PFI] トレーサビリティ Complex  Event   Processing RDBMS/DWHリアルタイム/オンライン ⼤大規模化 ❶⼤大規模化 Yahoo!  S4 ❷リアルタイム性 Twitter   Storm
  20. 20. 今後重要になる技術(1/2):データ解析の敷居を下げるためのトレーサビリティ機械学習向けスクリプト⾔言語(R⾔言語など) l  使うための敷居が⾼高い(習得コストが⾼高い)l  WekaやSPSSのようなアイコンベースのデータ処理理プロセス記述 l  データ前処理理などには強⼒力力だが機械学習などと相性は良良くない l  結果の⾒見見える化部分との統合が不不⼗十分 データサイエンティスト データ分析担当者 トレーサビリティ 付きツール 機械学習ツール 20
  21. 21. Bazil:利利⽤用概念念図l  メール・ニュース記事・商品情報といった様々な⽂文章に対応l  少数の正解を与え学習することで、指定したカテゴリに⾃自動的に分類される 学習 予測 迷惑メール OK ・OK ・スパム スパム ・経済 ニュース スポーツ ・政治 経済 ・スポーツ ・芸能  etc レディース ・メンズ 商品情報 ・レディース キッズ ・キッズ ・ベビー  etc
  22. 22. Bazil Farm 学習結果分析例例(1-1) つぶやき年年齢推定: 20代⼥女女性つぶやきに対する10-19歳モデル適⽤用結果 l  10-19歳っぽい表現:⼥女女の⼦子/ameblo/かわいかっ/もう少し l  10-19歳っぽくない表現:酒/頑張ら/出⾝身/結婚式/楽しんで 10-19歳(不不正解)モデルに反応した表現⻘青⽂文字:プラスに働いた⾚赤⽂文字:マイナスに働いた⾚赤⽂文字:マイナスに働いた 22
  23. 23. Bazil Farm 学習結果分析例例(1-2)つぶやき年年齢推定: 20代⼥女女性つぶやきに対する20-29歳モデル適⽤用結果 l  20-29歳っぽい表現:結婚式/出⾝身/パン/酒/多趣味/♡/可愛い l  20-29歳っぽくない表現:クリパ/下さい/かわいかっ/暮らし/部屋 20-29歳(不不正解)モデルに反応した表現⻘青⽂文字:プラスに働いた⾚赤⽂文字:マイナスに働いた⾚赤⽂文字:マイナスに働いた
  24. 24. Bazil Farm 学習結果分析例例(2)つぶやき性別推定: ⼥女女性のつぶやきに対する男性モデル適⽤用結果l  男性っぽい表現: あんまり/ずっと/⾒見見た⽬目/ サッカー/選ん/えらい/疲れ 試合/歩い/マジ/悔しいl  男性っぽくない= ⼥女女性っぽい表現: 私/捨て/おじさん/お菓⼦子/ 塗り/途中/まま/本/♡⻘青⽂文字:プラスに働いた⾚赤⽂文字:マイナスに働いた⾚赤⽂文字:マイナスに働いた
  25. 25. Bazil Farm学習結果分析例例(3): ラベル修正と再学習 25
  26. 26. 今後重要になる技術(2/2):ビッグデータ向けのリアルタイム解析 Velocityl  ビッグデータの3VのVelocity l  元々はデータが⽣生み出される速度度 l  そのデータをその速度度のまま処理理する=リアルタイム処理理l  Hadoopはデータを⼀一度度蓄積するためリアルタイム処理理に不不向きl  CEPやストリーム処理理エンジンは集計やルール処理理に特化 データ規模 Hadoop ??? CEP リアルタイム性 26
  27. 27. Jubatus: Hadoopの先を⾏行行く⼤大規模データ解析基盤l  世界初の⼤大規模分散オンライン機械学習基盤 l  NTT SIC様と共同開発 l  オープンソース公開  → http://jubat.us/l  分散オンライン化したアルゴリズムを実装済みの処理理機能 l  分類/回帰/統計処理理/近傍探索索/レコメンド 1. ⼤大規模化 2. リアルタイム/オンライン 3. 深い解析 27
  28. 28. Jubatusの差別化要因となっている技術特性:⼤大規模/分散並列列かつオンライン/リアルタイム • Structured  Perceptron オンライン 2011年年現在 [Collins,  EMNLP  2002] (リアルタイム) • Passive  Aggressive  / 存在しなかった MIRA  2004〜~ この分野を • online-‐‑‒learning  library   [岡野原,  2008] 開拓拓する!⼩小規模 ⼤大規模 単体 分散並列列 WEKA     1993-‐‑‒ SVM  light Mahout            1998-‐‑‒          2006-‐‑‒ バッチ 28
  29. 29. 分散オンライン機械学習を実現するコア技術:緩やかなモデル情報の共有l  Jubatusは各サーバーのモデル情報を「緩やか」に共有するl  データ⾃自体は共有せず、モデルのみ共有する l  既存システムと違う割り切切りl  全サーバー間で同時刻に同じモデルが存在することは保証しない l  サーバー毎に解析が(実⽤用上問題が無い程度度に)異異なることを許容 l  時間が経つにつれ、モデル間の情報は共有されていく 統合 統合 統合 モデル モデル モデル モデル モデル モデル UPDATE MIX ANALYZE データを分散して学習 モデルのみ共有 分散して処理理 29
  30. 30. Jubatusの優位性:分散オンラインかつ深い解析に 重要な機能を揃えています l  従来のデータ解析システムと⽐比較したJubatusのアドバンテージ Jubatus Hadoop CEP RDBMS ⼤大規模 △ ◎ 対象外 ○ データ蓄積 対象外 HDFS 中規模まで バッチ ○ ○ ✕ ◎ 機械学習 Mahout SPSS等 ストリーム 処理理 ○ ✕ ◎ ✕ 分散 ○ 機械学習 ◎ Mahout ✕ ✕重要度度 ⾼高い オンライン 機械学習 ◎ ✕ ✕ ✕ 30
  31. 31. 将来のビッグデータ向けリアルタイム解析:Edge-heavy dataにおける機械学習を例例にl  Edge-heavy data:解析するためにデータを中央に集められない l  データを伝送して蓄積するコストが⾼高過ぎる l  アプリケーションによっては解析までの時間が許容できないl  Edge-heavy dataで必要になるリアルタイム異異常検知 l  例例:⼯工場システムの故障予知検知、⾃自動⾞車車のヒヤリハット検知 l  データを削減することが原理理的にできないバッチ処理理:⼤大きなタイムラグ リアルタイム処理理:⼩小さな遅延 31
  32. 32. Jubatus v0.4.02012年年11⽉月ごろリリース予定! +分散オンライン異異常検知 32
  33. 33. まとめ:PFIはこれからも最先端の技術を最短で実⽤用化しますl  ビッグデータ分析はより深い知⾒見見を得られるビッグデータ解析へl  鍵となる機械学習技術のビッグデータとの繋がりは道半ばl  さらに将来を⾒見見据えると重要になる2つの技術 l  トレーサビリティ(Bazil)&リアルタイム(Jubatus) 33

×