Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

統計的機械学習における量子アニーリング

11,181 views

Published on

  • Be the first to comment

統計的機械学習における量子アニーリング

  1. 1. 情報統計力学の最前線ー情報と揺らぎの制御の物理学を目指して in Kyoto 2012.03.21-23 統計的機械学習における 量子アニーリング 佐藤一誠1、田中宗2 、栗原賢一3 宮下精二2 、中川裕志1 1. 東京大学 情報基盤センター 2. 東京大学大学院 理学系研究科 3. Google 今回の話: Sato+, UAI2009, Quantum Annealing for Variational Bayes Inference
  2. 2. 自己紹介• 佐藤 一誠 – 2011年3月 東大大学院 情報理工学系研究科 博士課程修了(総代) – 2011年4月より東大情報基盤センター 助教• 研究分野 – 統計的機械学習とデータマイニング • 確率的潜在変数モデルの学習 • Bayesian Nonparametrics, Topic Modeling本研究での我々の目標:量子揺らぎの制御により学習効率を向上させる 2/36
  3. 3. 目次• 統計的機械学習 (デモ:NAYOSEおよび例) – 機械学習の目標:機械が過去のデータや人の経 験から自動的に情報処理方法を学習し、未知の 問題解決を行う – 逆問題• 潜在変数モデル• 変分ベイズ法• 量子アニーリングを用いた変分ベイズ法• 実験 3/36
  4. 4. 語義曖昧性解消問題• Spring is one of the four temperate seasons, the transition period between winter and summer.• In Ireland, spring traditionally starts on 1 February, St Brigids Day.• A spring is a component of the hydrosphere.• A spring is any natural situation where water flows to the surface of the earth from underground. Spring: season, hydrosphere, device, mathematics, tide 4/36
  5. 5. 表情の分類:どのような表情か? HappinessBeat Fasel +2004, Latent Semantic Analysis of Facial Action Codes for AutomaticFacial Expression Recognition 5/36
  6. 6. 表情の分類:どのような表情か? SurpriseBeat Fasel +2004, Latent Semantic Analysis of Facial Action Codes for AutomaticFacial Expression Recognition 6/36
  7. 7. 物体認識:画像にある物体は?Putthividhya+2010, Supervised Topic Model for Automatic Image Annotation 7/36
  8. 8. 目次• 統計的機械学習(デモ:NAYOSEおよび例)• 潜在変数モデル• 変分ベイズ法• 量子アニーリングを用いた変分ベイズ法• 実験 8/36
  9. 9. 統計的機械学習は、機械が過去のデータから学習することで、未知の問題解決を行う情報処理 ? 問題 問題 問題 問題 問題 問題過去に解いた問題 問題 (学習データ) 問題 問題 問題 9/36
  10. 10. 新しい問題を解く場合、過去の問題(学習データ) との類似性を利用して解くプロセスを考える ? 問題 問題 類似性 問題 問題 問題 問題類似性をどのように 問題 モデル化するか? 問題 問題 問題類似性の探索をどのように 行うか? 10/36
  11. 11. 1つのアプローチとして、過去の問題を いくつかのクラスに分類することを考える このクラス ? 問題 問題 に属する 問題 問題 問題 問題問題をどのように 問題 問題 問題分類するか? 問題 11/36
  12. 12. 潜在変数の導入による分類のモデル化 ? 問題 2 問題 1 2 2 1 問題 問題 問題 問題各々の問題(データ)は 1潜在変数 を持っており 問題この変数の値が同じ問題(データ) 問題 問題 2 問題は類似性を持つと仮定 3 3 12/36
  13. 13. 潜在変数の導入による分類のモデル化 ? 問題 ? 問題 ? ? ? ? 問題 問題 問題 問題ただし、実際のデータには ? の情報は 問題付与されていない(非観測)とする 問題 問題 ? 問題→潜在変数の学習(推定) ? ? 13/36
  14. 14. 潜在変数の導入による分類のモデル化全潜在変数 の取る状態を確率変数  で表す学習データ集合Dが与えられた下での条件付確率を用いてエネルギー関数を定義する: ? ? ?E[ ]   log p( | D) 問題 問題 ? 問題 問題潜在変数は、 ? 問題 問題 問題 ?このエネルギー関数を最小に 問題 ?することにより学習する ? 14/36
  15. 15. 最初はランダムに割り振ってスタートする 基本的には局所的な探索を行って 低いエネルギー状態へ移動する 1 1 3 2 問題 問題 問題 問題 3 問題 問題 問題 2 問題 2 3 15/36
  16. 16. 最初はランダムに割り振ってスタートする 基本的には局所的な探索を行って 低いエネルギー状態へ移動する →局所解の問題 従来研究 熱揺らぎの導入 1 2 2 1 問題 問題 問題 問題 3 問題 問題 問題 2 問題 2 3 16/36
  17. 17. 我々の研究目標: 潜在変数に対し量子揺らぎを導入し学習する アルゴリズムを開発する 熱揺らぎ 1 2 2 1 問題 問題 問題 問題 1量子揺らぎ 問題 問題 問題 2 問題  3 3 17/36
  18. 18. 目次• 統計的機械学習 (デモ:NAYOSEおよび例)• 潜在変数モデル• 変分ベイズ法• 量子アニーリングを用いた変分ベイズ法 18/36
  19. 19. 潜在変数学習の(近似)手法は、主に2つ 本発表では変分ベイズ法を扱う E[ ]   log p( | D) 計算量大Sampling (確率的探索):  s ~ p( | D)変分ベイズ法[Attias,1999]: q ( )  arg min KL[q( ) || p( | D)] VB q ( ) Kullback-Leibler divergence (相対エントロピー) 19/36
  20. 20. 変分ベイズ法[Attias,1999]: q ( )  arg min KL[q( ) || p( | D)] VB q ( ) Kullback-Leibler divergence (相対エントロピー)(+) 決定性アルゴリズム(+) 収束が速い(+) 様々な潜在変数モデルで用いられている(-) 局所解問題 20/36
  21. 21. 実際には、KL divergence最小化ではなく 変分自由エネルギー最小化を行う q ( )  arg min KL[q( ) || p( | D)] VB q ( ) 計算量大 q ( )  arg min F[q( )] VB q ( ) log  p( D,  ) ( L) L+KLを計算すると  F[q( )] 最適化し易いKL[q( ) || p( | D)] Fが出てくる 21/36
  22. 22. 変分自由エネルギー最小化の中身は 期待対数尤度+エントロピー最大化 F[q( )]   log p( D,  ) q ( )  H [q( )] 期待対数尤度 エントロピー熱揺らぎの導入 [Beal,2006][Katahira+,2007] F[q( );  ]    log p( D,  ) q ( )  H [q( )] 逆温度 22/36
  23. 23. 目次• 統計的機械学習 (デモ:NAYOSEおよび例)• 潜在変数モデル• 変分ベイズ法• 量子アニーリングを用いた変分ベイズ法 – 量子揺らぎを制御するパラメータΓの導入 – 鈴木トロッター展開による古典系への対応付け• 実験 23/36
  24. 24. 変分ベイズ法は、初期値によって収束する状態が変わるため(局所解問題)、複数の異なる初期値で独立にプロセスを実行する→非独立にm個のプロセスを実行→量子アニーリング変分ベイズ法 f f f f 相互作用 1 2 3 1 2 3 変分ベイズ法  量子アニーリング 変分ベイズ法 24/36
  25. 25. 量子アニーリング変分ベイズ法は 量子系を古典系へ対応付けることにより導出 量子系 古典系潜在変数に量子揺らぎを プロセス1 f導入すると 1 2 1 問1 問2 問3 ・・・問1 問2 問3 ・・・ プロセス2 f 1 3 1が複数の潜在変数の 問1 問2 問3 ・・・値を同時に取る f→m個の相互作用付プロセス プロセス3 2 3 3 でシミュレート 問1 問2 問3 ・・・ f 25/36
  26. 26. 量子アニーリング変分ベイズ法は 量子系を古典系へ対応付けることにより導出 量子系 古典系p( | D;  , ) 鈴木トロッター展開 exp(   H )  Tr[exp(  H )]     p( 1  m | D;  , )   1 f(β,Γ) 2 m H  Hc  Hq 非対角項が-Γの 2 ハミルトニアン    古典系ハミルトニアンHc 2 m (対角行列) m 26/36
  27. 27. 量子アニーリング変分ベイズ法は 量子系を古典系へ対応付けることにより導出p( 1  m | D;  , ) は潜在変数の重ね合わせに対する確率分布q( 1 )q( m ) で近似するための変分自由エネルギーを導出するL F[q( 1 )q( m );  , ]KL 27/36
  28. 28. 量子アニーリング変分ベイズ法では、m個のプロ セス全体で以下を最小化し、各々 q( j ) を求めるF[q( 1 ),, q( m );  j番目のプロセスで , ] 推定した確率分布 相互作用の強さを制御する項 Γ:量子効果パラメータ m    F q( j );   f (  , ) s[q( j ), q( j 1 )] (m+1=1) j 1  m q( j ) , q( j 1 ) 逆温度がβ/mの が互いに類似した分布 変分自由エネルギー であるほど小さくなる項 ※ポイント:この項は、モデルに無関係なので、実際は、 個々のモデルに対してこの項を追加するだけでOK 28/36
  29. 29. 実際の更新式  j,i :データiの潜在変数 q( j ,i )  exp log p( D,  j ) m q ( ji )古典系と同じ  exp f ( , )q( j 1,i )  q( j 1,i )  q( j 1,i ) , q( j 1,i ) と類似した分布になる効果 ※ポイント:この項は、モデルに無関係なので、実際は、 個々のモデルに対してこの項を乗算するだけでOK 29/36
  30. 30. 目次• 統計的機械学習 (デモ:NAYOSEおよび例)• 潜在変数モデル• 変分ベイズ法• 量子アニーリングを用いた変分ベイズ法• 実験 – Simulated Annealing (SA) – Quantum Annealing (QA) 30/36
  31. 31. 実験 (文書分類)• モデル:Unigram mixture (UM) model• データセット:文書データ – BBCコーパス: • 約2500文書, 約9千語彙(次元数), 5ラベル – 20NGコーパス • 約4000文書, 約1万語彙(次元数), 8ラベル• 評価方法: – Minimum Free energy – F-measure • 文書分類で使われる評価手法:同一ラベルを持つデータ の潜在変数が同じであれば高くなる指標 • 1が最も良い 31/36
  32. 32. スケジューリング: SAに対して複数のスケジュールを試し、最もよいものを採用QAは、Γ0を変えて実験する 逆温度   0 t 1 量子効果   0 2 t f(β,Γ) f(β,Γ) Γ0:大→ 1 β t:time(step) 32/36
  33. 33. SAで並列数mを倍にしても到達できないエネルギー状態へ、QAでは同一の並列数mで到達できる Γ0が大きく 良 なると性能は QA=SA 33/36
  34. 34. 文書分類性能も10%以上向上良 34/36
  35. 35. 文書数が約2倍のデータセット(ラベル数も異なる) においても、同様な結果が得られた 良良 35/36
  36. 36. 実行時間は、同一並列数であれば、SAとQAほとんど変わらない クラス数を 変えて計測 36/36
  37. 37. おわりに• 長所 – 従来の変分ベイズ法が適用可能なモデルに対して 適用可能 • 隠れマルコフモデル(Web閲覧履歴解析) • Latent Dirichlet Allocation(音楽再生履歴解析) – シミュレーテッドアニーリングでは到達できないエネ ルギー状態へ移動できる• 短所 – アニーリングスケジュール依存性• 今後の展開 – 適用モデルの拡大(ex.無限混合モデル) – 大規模化(スパコン利用) 37/36
  38. 38. Appendix 38/36
  39. 39. 古典系ハミルトニアン 39/36
  40. 40. 量子系ハミルトニアン 40/36
  41. 41. 相互作用関数 41/36
  42. 42. 試したスケジュールβ0=0.1, 0.2,0.4,0.60.2を採用 2log t , t , t , t 42/36
  43. 43. Trotter product formula [Trotter,1959] 43/36
  44. 44. 経路積分 44/36
  45. 45. s[q( j ), q( j 1 )] を計算するときに、単純にやると以下の二つは分類という観点では同じ状態 にも関わらず、s=0になってしまう 1 1x 2 1 : x 1 1x 2 x 2 x x x 2 2 1 x x2 : 2 x 2 1 x 1 x x x 45
  46. 46. Label Identification = 割り当て問題 j-1 j j+1Class 1Class 2Class 3 完全マッチ:O(K^3)アルゴリズム 近似マッチ:O(K^2) アルゴリズム MAP近似:O(K) アルゴリズム 46

×