Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Jokyokai20110725

5,611 views

Published on

Published in: Technology, Education
  • Sex in your area is here: ♥♥♥ http://bit.ly/2F7hN3u ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Jokyokai20110725

  1. 1. Quantum Annealingin Statistical Machine Learning -統計的機械学習における量子アニーリング- 東大 情報基盤センター 佐藤一誠数理助教会2011/07/26 1
  2. 2. 本スライドは、さまざまな発表資料を リサイクルしております 2
  3. 3. イジングスピンモデルにおける量子ダイナミクス ⇒確率的潜在(離散)変数モデルへ データがもつ情報の1表現 -博士論文構成-• Chapter 1 Introduction• Chapter 2 Learning Algorithms – Gibbs sampler, Particle Filter, Variational Bayes, etc• Chapter 3 Probabilistic Latent Variable Models – Latent Dirichlet allocation & Dirichlet process mixture• Chapter 4 Quantum Annealing Variational Bayes• Chapter 5 Quantum Annealing Gibbs Sampler ※Ch. 5を最初に説明して、時間があったらCh.4も
  4. 4. 00 00 10 10 00 10 00 00 00 1010 10 01 01 01 11 11 X X X X 01 X X 01 1111 11 11 XX X X X XX X X X X 1 1 2 2 X 1 X X XX X 11 1 2 X 2 2 2 3 3 3 4 4 3 3 4 44 4
  5. 5. 遊ぼって言うと、論文書かない といけないからって言う遊ぼ | って | 言う | と | 、 |論文 | 書か |ない | と | いけ | ない | から | って |言う ジジ, キキジジキキ メイ, サツキ, 猫バスメイサツキ ジジ,猫バス猫バス キキ,メイ, サツキ,
  6. 6. 確率的潜在変数モデル xi zi  2 Class 1 Class 2 xi 潜在 変数 zixi ~ p( x | zi , )  xi Class 3 Class 4 6
  7. 7.  Latent Dirichlet Allocation [D.Blei+, 2001] d  地震 文書潜在変数 z d ,i k x x x 津波 K Topic 1 x x wd ,i x x Topic 2 nd 原発 M Topic =Simplex上の基底 7
  8. 8. 統計的機械学習 • データの生成過程を統計的に記述する • 目的 p( x1:n |  ) – データの隠れた性質を抽出する パラメータの 推定も含む – 未知のデータに対する予測をするMaximum likelihood (ML) learning  ML  arg max p( x1:n |  ) p( x |  * ML )  予測Maximum a posterior (MAP) learning MAP  arg max p( x1:n |  ) p( ) p( x |  * MAP )  8
  9. 9. Bayesian learning事後分布 p( x1:n |  ) p( ) p( | x1:n )   p( x1:n |  ) p( )d 予測分布 p( x | x1:n )   p( x |  ) p( | x1:n )d * * MCMC/Sampling Variational Bayes 1 Sp( x* | x1:n )   p( x* |  s ) KL[q( ) | p( | x1:n )] S s 1 9
  10. 10. 本研究の位置付け 確率的潜在変数モデル の学習アルゴリズム Optimization MCMC/Sampling Variational ML/MAP approximation Gibbs sampling, EM, SA+EM VB No Metropolis-Hasting, SM+EM SA+VBInteraction Split- Marge sampling SA+Gibbs SM+VB Slice sampling Beam search Particle filterInteraction (Exchange MCMC) 10
  11. 11. 本研究の位置付け 確率的潜在変数モデル の学習アルゴリズム Optimization MCMC/Sampling Variational ML/MAP approximation Gibbs sampling, EM, SA+EM VB No Metropolis-Hasting, SM+EM Chapter 2 & 3Interaction Split- Marge sampling SA+Gibbs SA+VB SM+VB Slice sampling Beam search Particle filterInteraction (Exchange MCMC) Chapter 4 & 5 11
  12. 12. 無限混合モデル+量子アニーリング• 潜在変数モデル:無限混合モデル• 量子ダイナミクス:量子アニーリング• 近似アルゴリズム:並列最適化離散最適化 潜在変数(離散)  *  arg max p( | X )  ex. 最適な データ分割 12
  13. 13. 無限混合モデル [Antoniak,1974] k  1k 1 πとθを積分消去 潜在変数   p( X , Z )  p( X | Z , ) p(Z |  ) zi 次元が陽に出てこない    xi Chinese Restaurant process [Aldous,1985] 元々は分割上の確率分布と して提案された 13
  14. 14. Chinese Restaurant Process (CRP) 1p( zi | z1:i 1 ,  )  Nk 既存のテーブル i 1    新しいテーブル i 1  14
  15. 15. Chinese Restaurant Process (CRP) 1 1  1  1  4 2 5 3 15
  16. 16. Chinese Restaurant Process (CRP) 1 2 1 1  2  2  2  3 4 5 16
  17. 17. Chinese Restaurant Process (CRP) 3 1 2 1 2  3 3 3 4 5 17
  18. 18. Chinese Restaurant Process (CRP) 3 1 4 2 5 潜在変数=テーブルの座り方p( Z |  ) 18
  19. 19. Chinese Restaurant Process (CRP) 3 1 4 5 2 2  4  4  4  2 19
  20. 20. 無限混合モデル+量子アニーリング• 潜在変数モデル:無限混合モデル• 量子ダイナミクス:量子アニーリング• 近似アルゴリズム:並列最適化離散最適化 潜在変数(離散)  *  arg max p( | X )  ex. 最適な データ分割 20
  21. 21. 準備 潜在変数の状態を指示ベクトルで表現する (1)  (1,0) ( 2)  (0,1) 21
  22. 22. Simulated annealing for CRP *  arg max p( | X ;  )  逆温度 22
  23. 23. Quantum annealing for CRP (with Suzuki-Trotter)( 1 ,,  m )*  arg max p( 1 ,,  m | X ;  , ) (1 ,, m ) 量子効果トロッター軸 (虚時間) 23
  24. 24. Ising Spin [Kadowaki+,1998,Santoro+,2002] + ー + + ー + 量子揺らぎ 古典系での状態数(ダイナミクス)  ・スピン:2状態  k  1 k 1 ・潜在変数: Unknown(Unfixed)無限混合モデル   量子揺らぎ zi(ダイナミクス)    xi 24
  25. 25. CRPの2値行列表現 or 4 1 2 3 5 25
  26. 26. CRPの2値行列表現 orここからの流れ1. QA for CRPの直感的な説明2. アルゴリズム 43. アルゴリズム導出 3 1 2 5 26
  27. 27. 鈴木トロッター展開 [Suzuki,1976] d次元の量子系はd+1次元の古典系で近似可能 1次元イジングスピン + ー + + ー + J2次元イジングスピンj+1-th + ー + + ー ー j-th ー ー + ー + + Jj-1-th + ー + + ー + 27
  28. 28. CRP1 1 2 3 5 4CRP2 3 1 4 5 2 2  exp(2 f ) 4 4  4  2CRP3 4 2 3 5 4 1 28
  29. 29. Quantum annealing for CRP (with Suzuki-Trotter)p ( z j ,i | z  j ,i ,  )  相席している人の数  /m  N j ,k     exp M j ,i f (  , )   N     /m     N      f (  , )  2 log coth( ) m 29
  30. 30. Simulated Annealing (SA) for CRP p( )  exp   E[ ] 1 Zp( | X ,  ) 目的関数 E[ ]   log p( X ,  |  ) 30
  31. 31. Simulated Annealing (SA) for CRPの行列表示 p( )  exp   E[ ] 1 Z ハミルトニアン: H c  diag( E[ ], E[ (1) ( 2) ],) 1  p( )    exp   H c  T Z   Z 1e  E 0   0 0 1  1   1  E      0 Z e  1 2 31
  32. 32. Simulated Annealing (SA): 1  p( )    exp   H c  T Z Quantum Annealing (QA): 非対角行列  p( )   | exp   H c  H q ()  |   1 Z 3  0  密度行列 2  0 1    1  - Positive-semidefinite2     - Trace one 32
  33. 33. (予備) 33
  34. 34. [定理] (量子系CRPの古典系への近似) p( )   | exp   H c  H q ()  |   1 Z  2   p( 1 ,,  m | X ;  , )  O  m      m 1  p( j | X ; m ) exp s( j , j 1 ) f ( , )Z (  , ) j 1 複数の状態に対する制約 SA(古典系)の積 34
  35. 35. 証明のポイント (鈴木トロッター展開[Suzuki,1976])Trotter product formula (Operator splitting)Feynman path integral ※省略 35
  36. 36. 実験:ネットワーク分割• 並列数m=12• Networkの生成モデル – [Newman+,2007][Kuwata+,2007]• Dataset – Netscience: 1,589 Nodes – Wiki-Vote: 7,115 Nodes – Enron communication network 36,692 Nodes # of Node=# of customers 36
  37. 37. Assortative Network Disassortative NetworkMixture of Assortative and Disassortative Network 37
  38. 38. Annealing Schedule  L  0 t,  0 m t 0 :大→ t:time(step) 38
  39. 39. ※←Beam search[DaumeIII,2007]は これよりも悪いbetter実行時間SA(L=30): 1482 [s]QA(L=30): 1524 [s] 39
  40. 40. まとめ• 量子系CRPは,m並列の古典系CRP で近似できる!• 良い面:汎用的なアルゴリズム – Infinite Relational model [Kemp+,2006] – Multi-task learning [Xue+,2007]• 悪い面:性能がスケジューリングに依存 40
  41. 41. おまけQuantum Annealing + Variational Bayes 41
  42. 42. •Greedy search Z  arg max log p(X | Z , ) Z   arg max log p(X | Z , ) •EM algorithm[Dempster +, 1977] q(Z )  p(X , Z , )   arg max E q ( Z ) [log p(X , Z , )] •Variational Bayes(VB)[Attias, 1999] q(Z )  exp E q ( ) [log p(X , Z , )] q( )  exp E q ( Z ) [log p(X , Z , )] 42
  43. 43. Variational Bayes q(Z )  exp E q ( ) [logp( X , Z , )] q( )  exp E q ( Z ) [logp( X , Z , )] Quantum Annealing Variational BayesFor (j=1,..,m){ q(Z j )  exp  E q ( j ) [logp( X , Z j , j )] ✕ q( j )  exp  E q ( Z j ) [logp( X , Z j , j )]} 43
  44. 44. Variational Bayes inference [Attias, 1999]q(Z , )  arg min KL[q(Z , ) | p(Z , | x1:n )] q ( Z , )q( Z , )  arg max Fc [q( Z , )] q ( Z , ) Fc [q]log p( X )  Fc [q] log p( X ) KL(q || p) Variational Free Energy 44
  45. 45. Construction of Hamiltonian  Fc [q] intractable  F[q] 45
  46. 46. 鈴木トロッター展開を用いた近似の導出 1 m 状態間の 類似度 m SA simulations Quantum effectポイント:パウリ行列が使えない 46
  47. 47. Lower-boundの導出 m F (i )m個の古典系Free energyの和: c [q] i 1新たに追加された項: 47
  48. 48. class 1 class 21 : x x x x x x x x x x x x x2 : x x x x x x x class 2 class 1 48
  49. 49. Label Identification = 割り当て問題 j-1 j j+1Class 1Class 2Class 3完全マッチ:O(K^3)アルゴリズム重複マッチ:O(K^2) アルゴリズムMAP重複マッチ:O(K) アルゴリズム 49
  50. 50. 実験 1• モデル:Unigram mixture (UM) model• データセット:文書データ – BBCコーパス: • 約2500文書, 約9千語彙, 5カテゴリー – 20NGコーパス • 約4000文書, 約1万語彙, 8カテゴリー• 評価方法: – Free energy – F-measure(文書分類) 50
  51. 51. 目的 良良文書分類 性能 51
  52. 52. 目的 良良文書分類 性能 52
  53. 53. 53
  54. 54. 実験 2• モデル:Latent Dirichlet Allocation(LDA) K=20• データセット: – NIPSコーパス: • 約1500文書, 約1万語彙, – LAST.FM コーパス • 約2400ユーザー, 1万アーティスト• 評価方法: – Free energy – Perplexity(予測, train 70%, test 30%) 54
  55. 55. 目的良予測性能 良 55
  56. 56. 目的良予測性能 良 56
  57. 57. 実験 3• モデル:Hidden Markov model (HMM) K=20• データセット:Webの閲覧履歴 – MSNBC コーパス: • 2000 系列• 評価方法: – Free energy – Test set log likelihood(予測, train 50%, test 50%) 57
  58. 58. 目的良予測性能 良 58
  59. 59. おわり 59

×