Unified	
  Expecta.on	
  Maximiza.on	
  
      R.	
  Samdani,	
  M.	
  Chang	
  ,Dan	
  Roth	
  
                  (NAACL’12)	

  すずかけ論文読み会 2013	
  /	
  03	
  /	
  23	
  
      紹介者:matsuda	



                                                          1
Unified	
  EM	
  Algorithm	
•  [Samdani+	
  NAACL’12]	
  
    –  EMによる(Semi-­‐supervised)学習の統一的な解釈	
  
        •  この論文のアイデアは非常にシンプル	
  
    –  構造に「制約」が無い場合は簡単(アニーリング
       EMの拡張)	
  
    –  構造に「制約」が入る場合はややこしい	
  
•  Prior	
  Work	
                            主にこっちのお話をします	
    –  Posterior	
  Reguraliza.on	
  [Ganchev+	
  JMLR’10]	
  
    –  Constraint	
  Driven	
  Learning	
  [Chang+	
  ACL’07]	

                                                                  2
構造に制約が無いEM	
•  ふつうの	
  EM	
  アルゴリズム	
  
     –  色々な定式化があるが,ここでは発表者スライド
        に合わせて	


•  E-­‐step:	
  
                                        現在のパラメータのもとで,尤もらしい	
  
     argminqKL(qt(y),P (y|x;wt)) 	
     ラベルyの分布qを求める	

•  M-­‐step:	
  
                                        求めた分布qの期待値が最大	
  
     argmaxw Eqlog P(x, y; w)           になるようにパラメータwを更新	



                                                            3
自然言語処理における	
  
               具体的な事前知識の例	
•  文書分類	
  
    –  ある割合の文書はあるクラスであるということが分かっている	
  
•  POS-­‐tagging	
  
    –  各文に最低一つは動詞,名詞が含まれている	
  
    –  ある語が多数のPOSに割り当てられることは少ない	
  
•  Rela.on	
  Informa.on	
  Extrac.on	
  
    –  ある種類のEn.tyと他の種類のEn.tyの間には,特定の
       Rela.onしか成り立たない	
  
         •  LOCATION	
  –	
  PERSON間 なら LIVE-­‐IN	
  とか.	
  
•  (SMTにおける)アラインメント	
  
    –  L1	
  -­‐>	
  L2の対応は,	
  L2	
  -­‐>	
  L1の対応と等しい	
  
    –  L1のある語がL2の多数の語と対応することは少ない	
  

多数のラベルつきデータがあれば,そこから自然に学習が可能そう	
  
しかし,ラベルつきデータが利用できない場合でも,事前知識をモデルに取り込みたい	
                                                               4
EM学習において,	
  
       どのように事前知識を入れるか	
  •  制約をどのように表現するか	
  
  •  制約を用いた学習はどうすれば良いか	

Posterior	
  Regulariza.on	
   COnstraint	
  Driven	
  Learning	
  
      [Ganchev	
  et	
  al,	
  2010]	
                 [Chang	
  et	
  al,	
  2007]	
制約を「ソフト」に入れる	
                                     制約を「ハード」に入れる	
  
「制約を満たす分布」とのKLダイバージェンス最小化	
                        ビームサーチ	
  +	
  hard	
  EM	
  
                                                   (今回は紹介しません)	
  



                                    Unified	
  EM	
  
                一つパラメータを導入することで,一般的な解釈	
  
                ラグランジュ緩和に基づく効率的なE-­‐stepの計算	
  
                                                                                        5
Posterior	
  Regulariza.on	
•  ふつう	
  “Regulariza.on”	
  というと	
  
  –  パラメータw(とかθ)に対する事前知識の導入	
  
   正則化と言われてすぐ思いつく例	
                                               正則化項(L2ノルムなど)	
  
     w = argmin " L(x, y, w) + ! R(w)
       !

              w

•  しかし,出力(の構造)に事前知識を入れたい	
  
                                                 ・・・どうやって??	
  –  Posterior	
  Regulariza.on	
  
  –  Constraint	
  Driven	
  Learing	
  
  –  Generalized	
  Expecta.on	
  Criteria	

                                                              6
PRにおける制約の表現(1/2)	
•  制約の「素性表現」を導入	
  
 –  文書分類の例) ある文書が”poli.cs”	
  
 	
   ! (x, y) = ! 1 if y is "politics"
                 #
                 "
 	
              # 0
                 $       otherwise
•  素性の「期待値」を取る	
  
 –  文書分類の例) 25%の文書が”poli.cs”	
  
    E p! [" (x, y)] = b 期待値を取るのは「モデル全体として」
                    のソフトな制約を入れるため	
  
   b = 0.25         (期待値をとらないハードな手法もある)	
  
                    bは一般にはベクトル表現になる(多数
                    の制約を入れるため)	
                                              7
PRにおける制約の表現(2/2)	
•  制約を満たす確率分布の集合を定義	
  
 –  先ほどの例なら,”poli.cs”が25%であるような分
    布の集合(一般には,不等式制約で書く)	
  


•  分布の集合とのKLダイバージェンスを定義	
  
	
  
                 制約を満たす分布qの中で,最
•  最大化する目的関数	
   もモデルの分布と近いものとの
                 KLダイバージェンス	



         モデルの尤度を	
     制約分布とのKLダイバージェンスを最小に	
         最大に	
                            8
PRにおけるEM学習(1/2)	
•  Jensenの不等式で尤度の下限をおさえる	




q,	
  θを交互に最大化	




                             9
PRにおけるEM学習(2/2)	
•  先ほどの制約を導入した目的関数	



つまり, q∈Qの範囲でE-­‐stepの探索を行えばよい	




                                  10
PRにおけるEM学習(図解)	
                             ここに問答無用で近づけるのが	
  
                             ふつうのEM	




PRにおいては,制約を満たすqの中で,もっとも尤もらしい事後分布にprojec.on	
                                           11
実装例	




constraint.project()	
  は問題(制約)依存だが既存のgradientベースのソルバで解ける	


                                                          12
Unified	
  EM(ここからが本論文)	
•  PRのE-­‐StepはKLダイバージェンスを最小化	
  
         KL(q , p)	
  =	
  ∑y	
  q(y)	
  log	
  q(y)	
  –	
  q(y)	
  log	
  p(y)	
  
	
  
•  modified	
  KL	
  Divergenceを導入	
  
     	
  KL(q , p;	
  °)	
  =	
  ∑y	
  °	
  q(y)	
  log	
  q(y)	
  –	
  q(y)	
  log	
  p(y)	
  
	
  
•  ここで°がどういう役割を果たしているか考え
     る	

                                                                                            13
γの効果	
                          KL(q , p;	
  °)	
  =	
  ∑y	
  °	
  q(y)	
  log	
  q(y)	
  –	
  q(y)	
  log	
  p(y)	
  
                                                               qのエントロピー	
 q,pのクロスエントロピー	

              q	
  with	
  °	
  =	
  1                                                                    q	
  with	
  °	
  =	
  1




                                                           Original	
  
                                                           Distribu.on	
  p
                                                           	
                                    q	
  with	
  °	
  =	
  0
q	
  with	
  °	
  =	
  -­‐1




             γは事後分布のエントロピーを制御するパラメータとみなすことができる	
                                                                                                                                     14
γの効果	

γを導入することで,過去に提案されてきたさまざまなEMベースの	
  
学習アルゴリズムを統一的に解釈できる	
  

                                                                      Determinis.c	
  Annealing	
  
                                                                      (Smith	
  and	
  Eisner,	
  04;	
  
制約なし	
                     Hard	
  EM	
                  EM	
         Hofmann,	
  99)	
  




             -1	
  	
            0	
  	
                  1	
  	
                                       1	
  	
  	
  
                          LP	
  approx	
  
                                             °	
  	
  
制約あり	
     CODL	
                                         PR	
  
                          to	
  CODL	
  




                                                                                                                    15
制約つきE-­‐Stepの計算	

            modified	
  KL	
  divergence	



                                            制約の期待値	


                                            q(y)のsimplex制約	




γ	
  ≧	
  0	
  であればconvexなので,(劣)勾配法で最小化が可能	


                                                               16
制約つきE-­‐Stepの計算	
•  ラグランジュ変数λを各制約に対して導入	
  
 –  あとは劣勾配法でλとqを更新していくだけ	




                        G(・)は論文参照	
  
                        いわゆるヘルパ	
                                 17
制約付きE-­‐Stepの計算	
•  制約および分布が分解できる場合は双対分
   解を用いることができる	



                 たとえば,等式制約を	
  
                 二つの不等式制約	
  
                 (上下から抑える)に	
  
                 分けたり,	
  
                 アラインメントのように	
  
                 双方向で一致するような	
  
                 制約を入れたりできる	

                             18
実験(POS	
  tagging)	
•  Un(semi-­‐)supervised	
  POS	
  Tagging	
  
    –  モデル	
  :	
  HMM(First	
  Order,	
  制約なし)	
  
    –  初期値	
  :	
  Uniform	
  or	
  few	
  Labeled	
  Example	

                                                                  γ	
  =	
  1(EM),	
  γ	
  =	
  0(Hard	
  EM)	
  
                                                                  より,γを調整した方が	
  
                                                                  高いAccuracy	
  
                                                                  (初期値に依存する)	


                                                                  傾向としては,初期値	
  
                                                                  が良ければEMよりHard	
  EM	
  
                                                                  のほうが優れている	



                                                                                                            19
実験(Rela.on	
  Extrac.on)	
•  Semi	
  Supervised	
  En.ty-­‐Rela.on	
  Extrac.on	
  
   –  モデル:	
  log	
  linear(en.ty	
  extrac.on,	
  rela.on	
  classifica.on)	
  
   –  制約:	
  
       •  Type	
  Constraint	
  	
  	
  :	
  	
  (	
  (Loc,Per)	
  -­‐>	
  LIVE	
  IN	
  )	
  etc..	
  
       •  Count	
  Constraint	
  :	
  データ内のRela.on数から±20%	
  


                                                                                                          γの調整は	
  
                                                                                                          2-­‐fold	
  CV.	
  
                                                                                                          0.5-­‐0.6くらいに	
  
                                                                                                          最適値がある
                                                                                                          らしい	
  
                                                                                                          	


                                                                                                                        20
実験(Word	
  Alignment)	
•  モデル:	
  HMM,MBRデコード	
  
•  制約:bi-­‐direc.onal	
  agreement	
  
•  E-­‐Stepは双対分解(ループ数5,けっこう重い?)	




 γはdevelopment	
  setで決定,	
  0.5-­‐0.7くらいに最適値があるらしい	
                                                        21
まとめ	
•  EMに基づくun(semi)	
  supervisedな学習において,事前知識を導入する手
   法のひとつPosterior	
  Regulariza.on	
  を紹介	
  
•  PRを含んだ様々な(制約付き)EMアルゴリズムを内包するアルゴリズムと
   して,UEMを紹介	
  
•  この論文のContribu.on	
  
    –  KLダイバージェンスにパラメータを一個足すことで,CoDL,	
  PRを一般化できるこ
       とを示した	
  
    –  ラグランジュ緩和による効率的なE-­‐Stepの計算法を示した	
  
    –  実験において,PR(γ=1)とCoDL(γ=-­‐inf)の間に最適なγがあることを明らかにした	
  
    –  (EM,	
  PRのコードがあれば)実装が非常に簡単なのもポイントらしい	
  
•  感想	
  
    –  思っていたのとはちょっと違った,Posterior	
  Regulariza.onは面白そう,双対分
       解する必要性がどれくらいあるものなの?ICML	
  Workshopにまったく同じ内容
       の論文出てますね(今気づいた)	
  

                                                         22
Further	
  Reading	
•  Posterior	
  Regulariza.on	
  for	
  Structured	
  Latent	
  Variable	
  
   Models	
  [Ganchev+	
  JMLR	
  2010]	
  
     –  PRについて恐らくもっとも詳しく書いてある文献	
  
•  Rich	
  Prior	
  Knowledge	
  in	
  Learning	
  for	
  NLP	
  [Druck+	
  ACL	
  2011	
  
   Tutorial]	
  
     –  PR,	
  CODL,	
  その他の類似フレームワークについて整理されたチュート
        リアル.スライドがわかりやすい.	
  
     –  hup://sideinfo.wikkii.com/	
  
•  MALLET	
  
     –  PR,GE	
  (for	
  Maxent,	
  linear-­‐chain	
  CRF)のコードが含まれている	
  
     –  hup://mallet.cs.umass.edu/ge-­‐classifica.on.php	


                                                                                              23

Unified Expectation Maximization

  • 1.
    Unified  Expecta.on  Maximiza.on   R.  Samdani,  M.  Chang  ,Dan  Roth   (NAACL’12) すずかけ論文読み会 2013  /  03  /  23   紹介者:matsuda 1
  • 2.
    Unified  EM  Algorithm • [Samdani+  NAACL’12]   –  EMによる(Semi-­‐supervised)学習の統一的な解釈   •  この論文のアイデアは非常にシンプル   –  構造に「制約」が無い場合は簡単(アニーリング EMの拡張)   –  構造に「制約」が入る場合はややこしい   •  Prior  Work   主にこっちのお話をします –  Posterior  Reguraliza.on  [Ganchev+  JMLR’10]   –  Constraint  Driven  Learning  [Chang+  ACL’07] 2
  • 3.
    構造に制約が無いEM •  ふつうの  EM  アルゴリズム   –  色々な定式化があるが,ここでは発表者スライド に合わせて •  E-­‐step:   現在のパラメータのもとで,尤もらしい   argminqKL(qt(y),P (y|x;wt))   ラベルyの分布qを求める •  M-­‐step:   求めた分布qの期待値が最大   argmaxw Eqlog P(x, y; w) になるようにパラメータwを更新 3
  • 4.
    自然言語処理における   具体的な事前知識の例 •  文書分類   –  ある割合の文書はあるクラスであるということが分かっている   •  POS-­‐tagging   –  各文に最低一つは動詞,名詞が含まれている   –  ある語が多数のPOSに割り当てられることは少ない   •  Rela.on  Informa.on  Extrac.on   –  ある種類のEn.tyと他の種類のEn.tyの間には,特定の Rela.onしか成り立たない   •  LOCATION  –  PERSON間 なら LIVE-­‐IN  とか.   •  (SMTにおける)アラインメント   –  L1  -­‐>  L2の対応は,  L2  -­‐>  L1の対応と等しい   –  L1のある語がL2の多数の語と対応することは少ない   多数のラベルつきデータがあれば,そこから自然に学習が可能そう   しかし,ラベルつきデータが利用できない場合でも,事前知識をモデルに取り込みたい 4
  • 5.
    EM学習において,   どのように事前知識を入れるか •  制約をどのように表現するか   •  制約を用いた学習はどうすれば良いか Posterior  Regulariza.on   COnstraint  Driven  Learning   [Ganchev  et  al,  2010] [Chang  et  al,  2007] 制約を「ソフト」に入れる   制約を「ハード」に入れる   「制約を満たす分布」とのKLダイバージェンス最小化   ビームサーチ  +  hard  EM   (今回は紹介しません)   Unified  EM   一つパラメータを導入することで,一般的な解釈   ラグランジュ緩和に基づく効率的なE-­‐stepの計算   5
  • 6.
    Posterior  Regulariza.on •  ふつう  “Regulariza.on”  というと   –  パラメータw(とかθ)に対する事前知識の導入   正則化と言われてすぐ思いつく例 正則化項(L2ノルムなど)   w = argmin " L(x, y, w) + ! R(w) ! w •  しかし,出力(の構造)に事前知識を入れたい   ・・・どうやって?? –  Posterior  Regulariza.on   –  Constraint  Driven  Learing   –  Generalized  Expecta.on  Criteria 6
  • 7.
    PRにおける制約の表現(1/2) •  制約の「素性表現」を導入   –  文書分類の例) ある文書が”poli.cs”     ! (x, y) = ! 1 if y is "politics" # "   # 0 $ otherwise •  素性の「期待値」を取る   –  文書分類の例) 25%の文書が”poli.cs”   E p! [" (x, y)] = b 期待値を取るのは「モデル全体として」 のソフトな制約を入れるため   b = 0.25 (期待値をとらないハードな手法もある)   bは一般にはベクトル表現になる(多数 の制約を入れるため) 7
  • 8.
    PRにおける制約の表現(2/2) •  制約を満たす確率分布の集合を定義   –  先ほどの例なら,”poli.cs”が25%であるような分 布の集合(一般には,不等式制約で書く)   •  分布の集合とのKLダイバージェンスを定義     制約を満たす分布qの中で,最 •  最大化する目的関数   もモデルの分布と近いものとの KLダイバージェンス モデルの尤度を   制約分布とのKLダイバージェンスを最小に 最大に 8
  • 9.
  • 10.
  • 11.
    PRにおけるEM学習(図解) ここに問答無用で近づけるのが   ふつうのEM PRにおいては,制約を満たすqの中で,もっとも尤もらしい事後分布にprojec.on 11
  • 12.
  • 13.
    Unified  EM(ここからが本論文) •  PRのE-­‐StepはKLダイバージェンスを最小化   KL(q , p)  =  ∑y  q(y)  log  q(y)  –  q(y)  log  p(y)     •  modified  KL  Divergenceを導入    KL(q , p;  °)  =  ∑y  °  q(y)  log  q(y)  –  q(y)  log  p(y)     •  ここで°がどういう役割を果たしているか考え る 13
  • 14.
    γの効果 KL(q , p;  °)  =  ∑y  °  q(y)  log  q(y)  –  q(y)  log  p(y)   qのエントロピー q,pのクロスエントロピー q  with  °  =  1 q  with  °  =  1 Original   Distribu.on  p   q  with  °  =  0 q  with  °  =  -­‐1 γは事後分布のエントロピーを制御するパラメータとみなすことができる 14
  • 15.
    γの効果 γを導入することで,過去に提案されてきたさまざまなEMベースの   学習アルゴリズムを統一的に解釈できる   Determinis.c  Annealing   (Smith  and  Eisner,  04;   制約なし   Hard  EM   EM   Hofmann,  99)   -1     0     1     1       LP  approx   °     制約あり   CODL   PR   to  CODL   15
  • 16.
    制約つきE-­‐Stepの計算 modified  KL  divergence 制約の期待値 q(y)のsimplex制約 γ  ≧  0  であればconvexなので,(劣)勾配法で最小化が可能 16
  • 17.
    制約つきE-­‐Stepの計算 •  ラグランジュ変数λを各制約に対して導入   –  あとは劣勾配法でλとqを更新していくだけ G(・)は論文参照   いわゆるヘルパ 17
  • 18.
    制約付きE-­‐Stepの計算 •  制約および分布が分解できる場合は双対分 解を用いることができる たとえば,等式制約を   二つの不等式制約   (上下から抑える)に   分けたり,   アラインメントのように   双方向で一致するような   制約を入れたりできる 18
  • 19.
    実験(POS  tagging) •  Un(semi-­‐)supervised  POS  Tagging   –  モデル  :  HMM(First  Order,  制約なし)   –  初期値  :  Uniform  or  few  Labeled  Example γ  =  1(EM),  γ  =  0(Hard  EM)   より,γを調整した方が   高いAccuracy   (初期値に依存する) 傾向としては,初期値   が良ければEMよりHard  EM   のほうが優れている 19
  • 20.
    実験(Rela.on  Extrac.on) •  Semi  Supervised  En.ty-­‐Rela.on  Extrac.on   –  モデル:  log  linear(en.ty  extrac.on,  rela.on  classifica.on)   –  制約:   •  Type  Constraint      :    (  (Loc,Per)  -­‐>  LIVE  IN  )  etc..   •  Count  Constraint  :  データ内のRela.on数から±20%   γの調整は   2-­‐fold  CV.   0.5-­‐0.6くらいに   最適値がある らしい   20
  • 21.
    実験(Word  Alignment) •  モデル:  HMM,MBRデコード   •  制約:bi-­‐direc.onal  agreement   •  E-­‐Stepは双対分解(ループ数5,けっこう重い?) γはdevelopment  setで決定,  0.5-­‐0.7くらいに最適値があるらしい 21
  • 22.
    まとめ •  EMに基づくun(semi)  supervisedな学習において,事前知識を導入する手 法のひとつPosterior  Regulariza.on  を紹介   •  PRを含んだ様々な(制約付き)EMアルゴリズムを内包するアルゴリズムと して,UEMを紹介   •  この論文のContribu.on   –  KLダイバージェンスにパラメータを一個足すことで,CoDL,  PRを一般化できるこ とを示した   –  ラグランジュ緩和による効率的なE-­‐Stepの計算法を示した   –  実験において,PR(γ=1)とCoDL(γ=-­‐inf)の間に最適なγがあることを明らかにした   –  (EM,  PRのコードがあれば)実装が非常に簡単なのもポイントらしい   •  感想   –  思っていたのとはちょっと違った,Posterior  Regulariza.onは面白そう,双対分 解する必要性がどれくらいあるものなの?ICML  Workshopにまったく同じ内容 の論文出てますね(今気づいた)   22
  • 23.
    Further  Reading •  Posterior  Regulariza.on  for  Structured  Latent  Variable   Models  [Ganchev+  JMLR  2010]   –  PRについて恐らくもっとも詳しく書いてある文献   •  Rich  Prior  Knowledge  in  Learning  for  NLP  [Druck+  ACL  2011   Tutorial]   –  PR,  CODL,  その他の類似フレームワークについて整理されたチュート リアル.スライドがわかりやすい.   –  hup://sideinfo.wikkii.com/   •  MALLET   –  PR,GE  (for  Maxent,  linear-­‐chain  CRF)のコードが含まれている   –  hup://mallet.cs.umass.edu/ge-­‐classifica.on.php 23