Unified Expectation Maximization

Uniﬁed
Expecta.on
Maximiza.on

R.
Samdani,
M.
Chang
,Dan
Roth

(NAACL’12)

すずかけ論文読み会 2013
/
03
/
23

紹介者:matsuda

1

Uniﬁed
EM
Algorithm
•  [Samdani+
NAACL’12]

–  EMによる(Semi-‐supervised)学習の統一的な解釈

•  この論文のアイデアは非常にシンプル

–  構造に「制約」が無い場合は簡単（アニーリング
EMの拡張)

–  構造に「制約」が入る場合はややこしい

•  Prior
Work
主にこっちのお話をします
–  Posterior
Reguraliza.on
[Ganchev+
JMLR’10]

–  Constraint
Driven
Learning
[Chang+
ACL’07]

2

構造に制約が無いEM
•  ふつうの
EM
アルゴリズム

–  色々な定式化があるが，ここでは発表者スライド
に合わせて

•  E-‐step:

現在のパラメータのもとで，尤もらしい

argminqKL(qt(y),P (y|x;wt))
ラベルyの分布qを求める

•  M-‐step:

求めた分布qの期待値が最大

argmaxw Eqlog P(x, y; w) になるようにパラメータｗを更新

3

自然言語処理における

具体的な事前知識の例
•  文書分類

–  ある割合の文書はあるクラスであるということが分かっている

•  POS-‐tagging

–  各文に最低一つは動詞,名詞が含まれている

–  ある語が多数のPOSに割り当てられることは少ない

•  Rela.on
Informa.on
Extrac.on

–  ある種類のEn.tyと他の種類のEn.tyの間には，特定の
Rela.onしか成り立たない

•  LOCATION
–
PERSON間なら LIVE-‐IN
とか．

•  (SMTにおける)アラインメント

–  L1
-‐>
L2の対応は，
L2
-‐>
L1の対応と等しい

–  L1のある語がL2の多数の語と対応することは少ない

多数のラベルつきデータがあれば，そこから自然に学習が可能そう

しかし，ラベルつきデータが利用できない場合でも，事前知識をモデルに取り込みたい
4

EM学習において，

どのように事前知識を入れるか
•  制約をどのように表現するか

•  制約を用いた学習はどうすれば良いか

Posterior
Regulariza.on
COnstraint
Driven
Learning

[Ganchev
et
al,
2010]
[Chang
et
al,
2007]
制約を「ソフト」に入れる
制約を「ハード」に入れる

「制約を満たす分布」とのKLダイバージェンス最小化
ビームサーチ
+
hard
EM

(今回は紹介しません)

Uniﬁed
EM

一つパラメータを導入することで，一般的な解釈

ラグランジュ緩和に基づく効率的なE-‐stepの計算

5

Posterior
Regulariza.on
•  ふつう
“Regulariza.on”
というと

–  パラメータw(とかθ)に対する事前知識の導入

正則化と言われてすぐ思いつく例
正則化項（L2ノルムなど)

w = argmin " L(x, y, w) + ! R(w)
!

w

•  しかし，出力（の構造）に事前知識を入れたい

・・・どうやって？？
–  Posterior
Regulariza.on

–  Constraint
Driven
Learing

–  Generalized
Expecta.on
Criteria

6

PRにおける制約の表現(1/2)
•  制約の「素性表現」を導入

–  文書分類の例）ある文書が”poli.cs”

! (x, y) = ! 1 if y is "politics"
#
"

# 0
$ otherwise
•  素性の「期待値」を取る

–  文書分類の例） 25%の文書が”poli.cs”

E p! [" (x, y)] = b 期待値を取るのは「モデル全体として」
のソフトな制約を入れるため

b = 0.25 （期待値をとらないハードな手法もある）

bは一般にはベクトル表現になる（多数
の制約を入れるため)
7

PRにおける制約の表現(2/2)
•  制約を満たす確率分布の集合を定義

–  先ほどの例なら，”poli.cs”が25%であるような分
布の集合(一般には，不等式制約で書く)

•  分布の集合とのKLダイバージェンスを定義

制約を満たす分布qの中で，最
•  最大化する目的関数
もモデルの分布と近いものとの
KLダイバージェンス

モデルの尤度を
制約分布とのKLダイバージェンスを最小に
最大に
8

PRにおけるEM学習(1/2)
•  Jensenの不等式で尤度の下限をおさえる

q,
θを交互に最大化

9

PRにおけるEM学習(2/2)
•  先ほどの制約を導入した目的関数

つまり， q∈Qの範囲でE-‐stepの探索を行えばよい

10

PRにおけるEM学習（図解）
ここに問答無用で近づけるのが

ふつうのEM

PRにおいては，制約を満たすqの中で，もっとも尤もらしい事後分布にprojec.on
11

実装例

constraint.project()
は問題(制約)依存だが既存のgradientベースのソルバで解ける

12

Uniﬁed
EM(ここからが本論文)
•  PRのE-‐StepはKLダイバージェンスを最小化

KL(q , p)
=
∑y
q(y)
log
q(y)
–
q(y)
log
p(y)

•  modiﬁed
KL
Divergenceを導入

KL(q , p;
°)
=
∑y
°
q(y)
log
q(y)
–
q(y)
log
p(y)

•  ここで°がどういう役割を果たしているか考え
る

13

γの効果
KL(q , p;
°)
=
∑y
°
q(y)
log
q(y)
–
q(y)
log
p(y)

qのエントロピー
q,pのクロスエントロピー

q
with
°
=
1 q
with
°
=
1

Original

Distribu.on
p

q
with
°
=
0
q
with
°
=
-‐1

γは事後分布のエントロピーを制御するパラメータとみなすことができる
14

γの効果

γを導入することで，過去に提案されてきたさまざまなEMベースの

学習アルゴリズムを統一的に解釈できる

Determinis.c
Annealing

(Smith
and
Eisner,
04;

制約なし
Hard
EM
EM
Hofmann,
99)

-1

0

1

1

LP
approx

°

制約あり
CODL
PR

to
CODL

15

制約つきE-‐Stepの計算

modiﬁed
KL
divergence

制約の期待値

q(y)のsimplex制約

γ
≧
0
であればconvexなので，(劣)勾配法で最小化が可能

16

制約つきE-‐Stepの計算
•  ラグランジュ変数λを各制約に対して導入

–  あとは劣勾配法でλとqを更新していくだけ

G(・）は論文参照

いわゆるヘルパ
17

制約付きE-‐Stepの計算
•  制約および分布が分解できる場合は双対分
解を用いることができる

たとえば，等式制約を

二つの不等式制約

（上下から抑える）に

分けたり，

アラインメントのように

双方向で一致するような

制約を入れたりできる

18

実験(POS
tagging)
•  Un(semi-‐)supervised
POS
Tagging

–  モデル
:
HMM（First
Order,
制約なし)

–  初期値
:
Uniform
or
few
Labeled
Example

γ
=
1(EM),
γ
=
0(Hard
EM)

より，γを調整した方が

高いAccuracy

(初期値に依存する)

傾向としては，初期値

が良ければEMよりHard
EM

のほうが優れている

19

実験(Rela.on
Extrac.on)
•  Semi
Supervised
En.ty-‐Rela.on
Extrac.on

–  モデル:
log
linear(en.ty
extrac.on,
rela.on
classiﬁca.on)

–  制約：

•  Type
Constraint

:

(
(Loc,Per)
-‐>
LIVE
IN
)
etc..

•  Count
Constraint
:
データ内のRela.on数から±20%

γの調整は

2-‐fold
CV.

0.5-‐0.6くらいに

最適値がある
らしい

20

実験(Word
Alignment)
•  モデル:
HMM，MBRデコード

•  制約：bi-‐direc.onal
agreement

•  E-‐Stepは双対分解（ループ数5，けっこう重い？）

γはdevelopment
setで決定,
0.5-‐0.7くらいに最適値があるらしい
21

まとめ
•  EMに基づくun(semi)
supervisedな学習において，事前知識を導入する手
法のひとつPosterior
Regulariza.on
を紹介

•  PRを含んだ様々な（制約付き）EMアルゴリズムを内包するアルゴリズムと
して，UEMを紹介

•  この論文のContribu.on

–  KLダイバージェンスにパラメータを一個足すことで，CoDL,
PRを一般化できるこ
とを示した

–  ラグランジュ緩和による効率的なE-‐Stepの計算法を示した

–  実験において,PR(γ=1)とCoDL(γ=-‐inf)の間に最適なγがあることを明らかにした

–  （EM,
PRのコードがあれば）実装が非常に簡単なのもポイントらしい

•  感想

–  思っていたのとはちょっと違った，Posterior
Regulariza.onは面白そう，双対分
解する必要性がどれくらいあるものなの？ICML
Workshopにまったく同じ内容
の論文出てますね（今気づいた)

22

Further
Reading
•  Posterior
Regulariza.on
for
Structured
Latent
Variable

Models
[Ganchev+
JMLR
2010]

–  PRについて恐らくもっとも詳しく書いてある文献

•  Rich
Prior
Knowledge
in
Learning
for
NLP
[Druck+
ACL
2011

Tutorial]

–  PR,
CODL,
その他の類似フレームワークについて整理されたチュート
リアル．スライドがわかりやすい．

–  hup://sideinfo.wikkii.com/

•  MALLET

–  PR,GE
(for
Maxent,
linear-‐chain
CRF)のコードが含まれている

–  hup://mallet.cs.umass.edu/ge-‐classiﬁca.on.php

23

Unified Expectation Maximization

More Related Content

Similar to Unified Expectation Maximization

More from Koji Matsuda

Unified Expectation Maximization