Jokyokai20110725

5,100 views

Published on

Published in: Technology, Education
0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
5,100
On SlideShare
0
From Embeds
0
Number of Embeds
3,060
Actions
Shares
0
Downloads
0
Comments
0
Likes
7
Embeds 0
No embeds

No notes for slide

Jokyokai20110725

  1. 1. Quantum Annealingin Statistical Machine Learning -統計的機械学習における量子アニーリング- 東大 情報基盤センター 佐藤一誠数理助教会2011/07/26 1
  2. 2. 本スライドは、さまざまな発表資料を リサイクルしております 2
  3. 3. イジングスピンモデルにおける量子ダイナミクス ⇒確率的潜在(離散)変数モデルへ データがもつ情報の1表現 -博士論文構成-• Chapter 1 Introduction• Chapter 2 Learning Algorithms – Gibbs sampler, Particle Filter, Variational Bayes, etc• Chapter 3 Probabilistic Latent Variable Models – Latent Dirichlet allocation & Dirichlet process mixture• Chapter 4 Quantum Annealing Variational Bayes• Chapter 5 Quantum Annealing Gibbs Sampler ※Ch. 5を最初に説明して、時間があったらCh.4も
  4. 4. 00 00 10 10 00 10 00 00 00 1010 10 01 01 01 11 11 X X X X 01 X X 01 1111 11 11 XX X X X XX X X X X 1 1 2 2 X 1 X X XX X 11 1 2 X 2 2 2 3 3 3 4 4 3 3 4 44 4
  5. 5. 遊ぼって言うと、論文書かない といけないからって言う遊ぼ | って | 言う | と | 、 |論文 | 書か |ない | と | いけ | ない | から | って |言う ジジ, キキジジキキ メイ, サツキ, 猫バスメイサツキ ジジ,猫バス猫バス キキ,メイ, サツキ,
  6. 6. 確率的潜在変数モデル xi zi  2 Class 1 Class 2 xi 潜在 変数 zixi ~ p( x | zi , )  xi Class 3 Class 4 6
  7. 7.  Latent Dirichlet Allocation [D.Blei+, 2001] d  地震 文書潜在変数 z d ,i k x x x 津波 K Topic 1 x x wd ,i x x Topic 2 nd 原発 M Topic =Simplex上の基底 7
  8. 8. 統計的機械学習 • データの生成過程を統計的に記述する • 目的 p( x1:n |  ) – データの隠れた性質を抽出する パラメータの 推定も含む – 未知のデータに対する予測をするMaximum likelihood (ML) learning  ML  arg max p( x1:n |  ) p( x |  * ML )  予測Maximum a posterior (MAP) learning MAP  arg max p( x1:n |  ) p( ) p( x |  * MAP )  8
  9. 9. Bayesian learning事後分布 p( x1:n |  ) p( ) p( | x1:n )   p( x1:n |  ) p( )d 予測分布 p( x | x1:n )   p( x |  ) p( | x1:n )d * * MCMC/Sampling Variational Bayes 1 Sp( x* | x1:n )   p( x* |  s ) KL[q( ) | p( | x1:n )] S s 1 9
  10. 10. 本研究の位置付け 確率的潜在変数モデル の学習アルゴリズム Optimization MCMC/Sampling Variational ML/MAP approximation Gibbs sampling, EM, SA+EM VB No Metropolis-Hasting, SM+EM SA+VBInteraction Split- Marge sampling SA+Gibbs SM+VB Slice sampling Beam search Particle filterInteraction (Exchange MCMC) 10
  11. 11. 本研究の位置付け 確率的潜在変数モデル の学習アルゴリズム Optimization MCMC/Sampling Variational ML/MAP approximation Gibbs sampling, EM, SA+EM VB No Metropolis-Hasting, SM+EM Chapter 2 & 3Interaction Split- Marge sampling SA+Gibbs SA+VB SM+VB Slice sampling Beam search Particle filterInteraction (Exchange MCMC) Chapter 4 & 5 11
  12. 12. 無限混合モデル+量子アニーリング• 潜在変数モデル:無限混合モデル• 量子ダイナミクス:量子アニーリング• 近似アルゴリズム:並列最適化離散最適化 潜在変数(離散)  *  arg max p( | X )  ex. 最適な データ分割 12
  13. 13. 無限混合モデル [Antoniak,1974] k  1k 1 πとθを積分消去 潜在変数   p( X , Z )  p( X | Z , ) p(Z |  ) zi 次元が陽に出てこない    xi Chinese Restaurant process [Aldous,1985] 元々は分割上の確率分布と して提案された 13
  14. 14. Chinese Restaurant Process (CRP) 1p( zi | z1:i 1 ,  )  Nk 既存のテーブル i 1    新しいテーブル i 1  14
  15. 15. Chinese Restaurant Process (CRP) 1 1  1  1  4 2 5 3 15
  16. 16. Chinese Restaurant Process (CRP) 1 2 1 1  2  2  2  3 4 5 16
  17. 17. Chinese Restaurant Process (CRP) 3 1 2 1 2  3 3 3 4 5 17
  18. 18. Chinese Restaurant Process (CRP) 3 1 4 2 5 潜在変数=テーブルの座り方p( Z |  ) 18
  19. 19. Chinese Restaurant Process (CRP) 3 1 4 5 2 2  4  4  4  2 19
  20. 20. 無限混合モデル+量子アニーリング• 潜在変数モデル:無限混合モデル• 量子ダイナミクス:量子アニーリング• 近似アルゴリズム:並列最適化離散最適化 潜在変数(離散)  *  arg max p( | X )  ex. 最適な データ分割 20
  21. 21. 準備 潜在変数の状態を指示ベクトルで表現する (1)  (1,0) ( 2)  (0,1) 21
  22. 22. Simulated annealing for CRP *  arg max p( | X ;  )  逆温度 22
  23. 23. Quantum annealing for CRP (with Suzuki-Trotter)( 1 ,,  m )*  arg max p( 1 ,,  m | X ;  , ) (1 ,, m ) 量子効果トロッター軸 (虚時間) 23
  24. 24. Ising Spin [Kadowaki+,1998,Santoro+,2002] + ー + + ー + 量子揺らぎ 古典系での状態数(ダイナミクス)  ・スピン:2状態  k  1 k 1 ・潜在変数: Unknown(Unfixed)無限混合モデル   量子揺らぎ zi(ダイナミクス)    xi 24
  25. 25. CRPの2値行列表現 or 4 1 2 3 5 25
  26. 26. CRPの2値行列表現 orここからの流れ1. QA for CRPの直感的な説明2. アルゴリズム 43. アルゴリズム導出 3 1 2 5 26
  27. 27. 鈴木トロッター展開 [Suzuki,1976] d次元の量子系はd+1次元の古典系で近似可能 1次元イジングスピン + ー + + ー + J2次元イジングスピンj+1-th + ー + + ー ー j-th ー ー + ー + + Jj-1-th + ー + + ー + 27
  28. 28. CRP1 1 2 3 5 4CRP2 3 1 4 5 2 2  exp(2 f ) 4 4  4  2CRP3 4 2 3 5 4 1 28
  29. 29. Quantum annealing for CRP (with Suzuki-Trotter)p ( z j ,i | z  j ,i ,  )  相席している人の数  /m  N j ,k     exp M j ,i f (  , )   N     /m     N      f (  , )  2 log coth( ) m 29
  30. 30. Simulated Annealing (SA) for CRP p( )  exp   E[ ] 1 Zp( | X ,  ) 目的関数 E[ ]   log p( X ,  |  ) 30
  31. 31. Simulated Annealing (SA) for CRPの行列表示 p( )  exp   E[ ] 1 Z ハミルトニアン: H c  diag( E[ ], E[ (1) ( 2) ],) 1  p( )    exp   H c  T Z   Z 1e  E 0   0 0 1  1   1  E      0 Z e  1 2 31
  32. 32. Simulated Annealing (SA): 1  p( )    exp   H c  T Z Quantum Annealing (QA): 非対角行列  p( )   | exp   H c  H q ()  |   1 Z 3  0  密度行列 2  0 1    1  - Positive-semidefinite2     - Trace one 32
  33. 33. (予備) 33
  34. 34. [定理] (量子系CRPの古典系への近似) p( )   | exp   H c  H q ()  |   1 Z  2   p( 1 ,,  m | X ;  , )  O  m      m 1  p( j | X ; m ) exp s( j , j 1 ) f ( , )Z (  , ) j 1 複数の状態に対する制約 SA(古典系)の積 34
  35. 35. 証明のポイント (鈴木トロッター展開[Suzuki,1976])Trotter product formula (Operator splitting)Feynman path integral ※省略 35
  36. 36. 実験:ネットワーク分割• 並列数m=12• Networkの生成モデル – [Newman+,2007][Kuwata+,2007]• Dataset – Netscience: 1,589 Nodes – Wiki-Vote: 7,115 Nodes – Enron communication network 36,692 Nodes # of Node=# of customers 36
  37. 37. Assortative Network Disassortative NetworkMixture of Assortative and Disassortative Network 37
  38. 38. Annealing Schedule  L  0 t,  0 m t 0 :大→ t:time(step) 38
  39. 39. ※←Beam search[DaumeIII,2007]は これよりも悪いbetter実行時間SA(L=30): 1482 [s]QA(L=30): 1524 [s] 39
  40. 40. まとめ• 量子系CRPは,m並列の古典系CRP で近似できる!• 良い面:汎用的なアルゴリズム – Infinite Relational model [Kemp+,2006] – Multi-task learning [Xue+,2007]• 悪い面:性能がスケジューリングに依存 40
  41. 41. おまけQuantum Annealing + Variational Bayes 41
  42. 42. •Greedy search Z  arg max log p(X | Z , ) Z   arg max log p(X | Z , ) •EM algorithm[Dempster +, 1977] q(Z )  p(X , Z , )   arg max E q ( Z ) [log p(X , Z , )] •Variational Bayes(VB)[Attias, 1999] q(Z )  exp E q ( ) [log p(X , Z , )] q( )  exp E q ( Z ) [log p(X , Z , )] 42
  43. 43. Variational Bayes q(Z )  exp E q ( ) [logp( X , Z , )] q( )  exp E q ( Z ) [logp( X , Z , )] Quantum Annealing Variational BayesFor (j=1,..,m){ q(Z j )  exp  E q ( j ) [logp( X , Z j , j )] ✕ q( j )  exp  E q ( Z j ) [logp( X , Z j , j )]} 43
  44. 44. Variational Bayes inference [Attias, 1999]q(Z , )  arg min KL[q(Z , ) | p(Z , | x1:n )] q ( Z , )q( Z , )  arg max Fc [q( Z , )] q ( Z , ) Fc [q]log p( X )  Fc [q] log p( X ) KL(q || p) Variational Free Energy 44
  45. 45. Construction of Hamiltonian  Fc [q] intractable  F[q] 45
  46. 46. 鈴木トロッター展開を用いた近似の導出 1 m 状態間の 類似度 m SA simulations Quantum effectポイント:パウリ行列が使えない 46
  47. 47. Lower-boundの導出 m F (i )m個の古典系Free energyの和: c [q] i 1新たに追加された項: 47
  48. 48. class 1 class 21 : x x x x x x x x x x x x x2 : x x x x x x x class 2 class 1 48
  49. 49. Label Identification = 割り当て問題 j-1 j j+1Class 1Class 2Class 3完全マッチ:O(K^3)アルゴリズム重複マッチ:O(K^2) アルゴリズムMAP重複マッチ:O(K) アルゴリズム 49
  50. 50. 実験 1• モデル:Unigram mixture (UM) model• データセット:文書データ – BBCコーパス: • 約2500文書, 約9千語彙, 5カテゴリー – 20NGコーパス • 約4000文書, 約1万語彙, 8カテゴリー• 評価方法: – Free energy – F-measure(文書分類) 50
  51. 51. 目的 良良文書分類 性能 51
  52. 52. 目的 良良文書分類 性能 52
  53. 53. 53
  54. 54. 実験 2• モデル:Latent Dirichlet Allocation(LDA) K=20• データセット: – NIPSコーパス: • 約1500文書, 約1万語彙, – LAST.FM コーパス • 約2400ユーザー, 1万アーティスト• 評価方法: – Free energy – Perplexity(予測, train 70%, test 30%) 54
  55. 55. 目的良予測性能 良 55
  56. 56. 目的良予測性能 良 56
  57. 57. 実験 3• モデル:Hidden Markov model (HMM) K=20• データセット:Webの閲覧履歴 – MSNBC コーパス: • 2000 系列• 評価方法: – Free energy – Test set log likelihood(予測, train 50%, test 50%) 57
  58. 58. 目的良予測性能 良 58
  59. 59. おわり 59

×