Unified	  Expecta.on	  Maximiza.on	        R.	  Samdani,	  M.	  Chang	  ,Dan	  Roth	                    (NAACL’12)	  すずかけ論文...
Unified	  EM	  Algorithm	•  [Samdani+	  NAACL’12]	      –  EMによる(Semi-­‐supervised)学習の統一的な解釈	          •  この論文のアイデアは非常にシンプル...
構造に制約が無いEM	•  ふつうの	  EM	  アルゴリズム	       –  色々な定式化があるが,ここでは発表者スライド        に合わせて	•  E-­‐step:	                              ...
自然言語処理における	                 具体的な事前知識の例	•  文書分類	      –  ある割合の文書はあるクラスであるということが分かっている	  •  POS-­‐tagging	      –  各文に最低一つは動...
EM学習において,	         どのように事前知識を入れるか	  •  制約をどのように表現するか	    •  制約を用いた学習はどうすれば良いか	Posterior	  Regulariza.on	   COnstraint	  Dr...
Posterior	  Regulariza.on	•  ふつう	  “Regulariza.on”	  というと	    –  パラメータw(とかθ)に対する事前知識の導入	     正則化と言われてすぐ思いつく例	             ...
PRにおける制約の表現(1/2)	•  制約の「素性表現」を導入	   –  文書分類の例) ある文書が”poli.cs”	   	   ! (x, y) = ! 1 if y is "politics"                 #  ...
PRにおける制約の表現(2/2)	•  制約を満たす確率分布の集合を定義	   –  先ほどの例なら,”poli.cs”が25%であるような分    布の集合(一般には,不等式制約で書く)	  •  分布の集合とのKLダイバージェンスを定義	 ...
PRにおけるEM学習(1/2)	•  Jensenの不等式で尤度の下限をおさえる	q,	  θを交互に最大化	                             9
PRにおけるEM学習(2/2)	•  先ほどの制約を導入した目的関数	つまり, q∈Qの範囲でE-­‐stepの探索を行えばよい	                                  10
PRにおけるEM学習(図解)	                             ここに問答無用で近づけるのが	                               ふつうのEM	PRにおいては,制約を満たすqの中で,もっとも尤も...
実装例	constraint.project()	  は問題(制約)依存だが既存のgradientベースのソルバで解ける	                                                          12
Unified	  EM(ここからが本論文)	•  PRのE-­‐StepはKLダイバージェンスを最小化	           KL(q , p)	  =	  ∑y	  q(y)	  log	  q(y)	  –	  q(y)	  log	  p...
γの効果	                          KL(q , p;	  °)	  =	  ∑y	  °	  q(y)	  log	  q(y)	  –	  q(y)	  log	  p(y)	                   ...
γの効果	γを導入することで,過去に提案されてきたさまざまなEMベースの	  学習アルゴリズムを統一的に解釈できる	                                                                ...
制約つきE-­‐Stepの計算	            modified	  KL	  divergence	                                            制約の期待値	                 ...
制約つきE-­‐Stepの計算	•  ラグランジュ変数λを各制約に対して導入	   –  あとは劣勾配法でλとqを更新していくだけ	                        G(・)は論文参照	                      ...
制約付きE-­‐Stepの計算	•  制約および分布が分解できる場合は双対分   解を用いることができる	                 たとえば,等式制約を	                   二つの不等式制約	             ...
実験(POS	  tagging)	•  Un(semi-­‐)supervised	  POS	  Tagging	      –  モデル	  :	  HMM(First	  Order,	  制約なし)	      –  初期値	  :	...
実験(Rela.on	  Extrac.on)	•  Semi	  Supervised	  En.ty-­‐Rela.on	  Extrac.on	     –  モデル:	  log	  linear(en.ty	  extrac.on,	...
実験(Word	  Alignment)	•  モデル:	  HMM,MBRデコード	  •  制約:bi-­‐direc.onal	  agreement	  •  E-­‐Stepは双対分解(ループ数5,けっこう重い?)	 γはdevelo...
まとめ	•  EMに基づくun(semi)	  supervisedな学習において,事前知識を導入する手   法のひとつPosterior	  Regulariza.on	  を紹介	  •  PRを含んだ様々な(制約付き)EMアルゴリズムを内...
Further	  Reading	•  Posterior	  Regulariza.on	  for	  Structured	  Latent	  Variable	     Models	  [Ganchev+	  JMLR	  201...
Upcoming SlideShare
Loading in …5
×

Unified Expectation Maximization

2,574 views

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,574
On SlideShare
0
From Embeds
0
Number of Embeds
1,485
Actions
Shares
0
Downloads
13
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Unified Expectation Maximization

  1. 1. Unified  Expecta.on  Maximiza.on   R.  Samdani,  M.  Chang  ,Dan  Roth   (NAACL’12) すずかけ論文読み会 2013  /  03  /  23   紹介者:matsuda 1
  2. 2. Unified  EM  Algorithm •  [Samdani+  NAACL’12]   –  EMによる(Semi-­‐supervised)学習の統一的な解釈   •  この論文のアイデアは非常にシンプル   –  構造に「制約」が無い場合は簡単(アニーリング EMの拡張)   –  構造に「制約」が入る場合はややこしい  •  Prior  Work   主にこっちのお話をします –  Posterior  Reguraliza.on  [Ganchev+  JMLR’10]   –  Constraint  Driven  Learning  [Chang+  ACL’07] 2
  3. 3. 構造に制約が無いEM •  ふつうの  EM  アルゴリズム   –  色々な定式化があるが,ここでは発表者スライド に合わせて •  E-­‐step:   現在のパラメータのもとで,尤もらしい   argminqKL(qt(y),P (y|x;wt))   ラベルyの分布qを求める •  M-­‐step:   求めた分布qの期待値が最大   argmaxw Eqlog P(x, y; w) になるようにパラメータwを更新 3
  4. 4. 自然言語処理における   具体的な事前知識の例 •  文書分類   –  ある割合の文書はあるクラスであるということが分かっている  •  POS-­‐tagging   –  各文に最低一つは動詞,名詞が含まれている   –  ある語が多数のPOSに割り当てられることは少ない  •  Rela.on  Informa.on  Extrac.on   –  ある種類のEn.tyと他の種類のEn.tyの間には,特定の Rela.onしか成り立たない   •  LOCATION  –  PERSON間 なら LIVE-­‐IN  とか.  •  (SMTにおける)アラインメント   –  L1  -­‐>  L2の対応は,  L2  -­‐>  L1の対応と等しい   –  L1のある語がL2の多数の語と対応することは少ない  多数のラベルつきデータがあれば,そこから自然に学習が可能そう  しかし,ラベルつきデータが利用できない場合でも,事前知識をモデルに取り込みたい 4
  5. 5. EM学習において,   どのように事前知識を入れるか •  制約をどのように表現するか   •  制約を用いた学習はどうすれば良いか Posterior  Regulariza.on   COnstraint  Driven  Learning   [Ganchev  et  al,  2010] [Chang  et  al,  2007] 制約を「ソフト」に入れる   制約を「ハード」に入れる  「制約を満たす分布」とのKLダイバージェンス最小化   ビームサーチ  +  hard  EM   (今回は紹介しません)   Unified  EM   一つパラメータを導入することで,一般的な解釈   ラグランジュ緩和に基づく効率的なE-­‐stepの計算   5
  6. 6. Posterior  Regulariza.on •  ふつう  “Regulariza.on”  というと   –  パラメータw(とかθ)に対する事前知識の導入   正則化と言われてすぐ思いつく例 正則化項(L2ノルムなど)   w = argmin " L(x, y, w) + ! R(w) ! w•  しかし,出力(の構造)に事前知識を入れたい   ・・・どうやって?? –  Posterior  Regulariza.on   –  Constraint  Driven  Learing   –  Generalized  Expecta.on  Criteria 6
  7. 7. PRにおける制約の表現(1/2) •  制約の「素性表現」を導入   –  文書分類の例) ある文書が”poli.cs”     ! (x, y) = ! 1 if y is "politics" # "   # 0 $ otherwise•  素性の「期待値」を取る   –  文書分類の例) 25%の文書が”poli.cs”   E p! [" (x, y)] = b 期待値を取るのは「モデル全体として」 のソフトな制約を入れるため   b = 0.25 (期待値をとらないハードな手法もある)   bは一般にはベクトル表現になる(多数 の制約を入れるため) 7
  8. 8. PRにおける制約の表現(2/2) •  制約を満たす確率分布の集合を定義   –  先ほどの例なら,”poli.cs”が25%であるような分 布の集合(一般には,不等式制約で書く)  •  分布の集合とのKLダイバージェンスを定義     制約を満たす分布qの中で,最•  最大化する目的関数   もモデルの分布と近いものとの KLダイバージェンス モデルの尤度を   制約分布とのKLダイバージェンスを最小に 最大に 8
  9. 9. PRにおけるEM学習(1/2) •  Jensenの不等式で尤度の下限をおさえる q,  θを交互に最大化 9
  10. 10. PRにおけるEM学習(2/2) •  先ほどの制約を導入した目的関数 つまり, q∈Qの範囲でE-­‐stepの探索を行えばよい 10
  11. 11. PRにおけるEM学習(図解) ここに問答無用で近づけるのが   ふつうのEM PRにおいては,制約を満たすqの中で,もっとも尤もらしい事後分布にprojec.on 11
  12. 12. 実装例 constraint.project()  は問題(制約)依存だが既存のgradientベースのソルバで解ける 12
  13. 13. Unified  EM(ここからが本論文) •  PRのE-­‐StepはKLダイバージェンスを最小化   KL(q , p)  =  ∑y  q(y)  log  q(y)  –  q(y)  log  p(y)    •  modified  KL  Divergenceを導入    KL(q , p;  °)  =  ∑y  °  q(y)  log  q(y)  –  q(y)  log  p(y)    •  ここで°がどういう役割を果たしているか考え る 13
  14. 14. γの効果 KL(q , p;  °)  =  ∑y  °  q(y)  log  q(y)  –  q(y)  log  p(y)   qのエントロピー q,pのクロスエントロピー q  with  °  =  1 q  with  °  =  1 Original   Distribu.on  p   q  with  °  =  0q  with  °  =  -­‐1 γは事後分布のエントロピーを制御するパラメータとみなすことができる 14
  15. 15. γの効果 γを導入することで,過去に提案されてきたさまざまなEMベースの  学習アルゴリズムを統一的に解釈できる   Determinis.c  Annealing   (Smith  and  Eisner,  04;  制約なし   Hard  EM   EM   Hofmann,  99)   -1     0     1     1       LP  approx   °    制約あり   CODL   PR   to  CODL   15
  16. 16. 制約つきE-­‐Stepの計算 modified  KL  divergence 制約の期待値 q(y)のsimplex制約 γ  ≧  0  であればconvexなので,(劣)勾配法で最小化が可能 16
  17. 17. 制約つきE-­‐Stepの計算 •  ラグランジュ変数λを各制約に対して導入   –  あとは劣勾配法でλとqを更新していくだけ G(・)は論文参照   いわゆるヘルパ 17
  18. 18. 制約付きE-­‐Stepの計算 •  制約および分布が分解できる場合は双対分 解を用いることができる たとえば,等式制約を   二つの不等式制約   (上下から抑える)に   分けたり,   アラインメントのように   双方向で一致するような   制約を入れたりできる 18
  19. 19. 実験(POS  tagging) •  Un(semi-­‐)supervised  POS  Tagging   –  モデル  :  HMM(First  Order,  制約なし)   –  初期値  :  Uniform  or  few  Labeled  Example γ  =  1(EM),  γ  =  0(Hard  EM)   より,γを調整した方が   高いAccuracy   (初期値に依存する) 傾向としては,初期値   が良ければEMよりHard  EM   のほうが優れている 19
  20. 20. 実験(Rela.on  Extrac.on) •  Semi  Supervised  En.ty-­‐Rela.on  Extrac.on   –  モデル:  log  linear(en.ty  extrac.on,  rela.on  classifica.on)   –  制約:   •  Type  Constraint      :    (  (Loc,Per)  -­‐>  LIVE  IN  )  etc..   •  Count  Constraint  :  データ内のRela.on数から±20%   γの調整は   2-­‐fold  CV.   0.5-­‐0.6くらいに   最適値がある らしい   20
  21. 21. 実験(Word  Alignment) •  モデル:  HMM,MBRデコード  •  制約:bi-­‐direc.onal  agreement  •  E-­‐Stepは双対分解(ループ数5,けっこう重い?) γはdevelopment  setで決定,  0.5-­‐0.7くらいに最適値があるらしい 21
  22. 22. まとめ •  EMに基づくun(semi)  supervisedな学習において,事前知識を導入する手 法のひとつPosterior  Regulariza.on  を紹介  •  PRを含んだ様々な(制約付き)EMアルゴリズムを内包するアルゴリズムと して,UEMを紹介  •  この論文のContribu.on   –  KLダイバージェンスにパラメータを一個足すことで,CoDL,  PRを一般化できるこ とを示した   –  ラグランジュ緩和による効率的なE-­‐Stepの計算法を示した   –  実験において,PR(γ=1)とCoDL(γ=-­‐inf)の間に最適なγがあることを明らかにした   –  (EM,  PRのコードがあれば)実装が非常に簡単なのもポイントらしい  •  感想   –  思っていたのとはちょっと違った,Posterior  Regulariza.onは面白そう,双対分 解する必要性がどれくらいあるものなの?ICML  Workshopにまったく同じ内容 の論文出てますね(今気づいた)   22
  23. 23. Further  Reading •  Posterior  Regulariza.on  for  Structured  Latent  Variable   Models  [Ganchev+  JMLR  2010]   –  PRについて恐らくもっとも詳しく書いてある文献  •  Rich  Prior  Knowledge  in  Learning  for  NLP  [Druck+  ACL  2011   Tutorial]   –  PR,  CODL,  その他の類似フレームワークについて整理されたチュート リアル.スライドがわかりやすい.   –  hup://sideinfo.wikkii.com/  •  MALLET   –  PR,GE  (for  Maxent,  linear-­‐chain  CRF)のコードが含まれている   –  hup://mallet.cs.umass.edu/ge-­‐classifica.on.php 23

×