Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)

Word
Sense
Induc-on
&

Disambigua-on
Using

Hierarchical
Random
Graphs
Ioannis
Klapa=is
&
Suresh
Manandhar

EMNLP
2010

発表者
:
M2
松田

Abstract
•  Unsupervised
WSD

–  Known
as
Word
Sense
Induc-on(WSI)

–  クラスタリングに基づくWSD

•  本研究ではグラフをベースにしている

–  多くのWSIではグラフのノードをフラットにクラスタ
リングする

–  対して、本研究ではグラフに存在している階層構
造を用いることで性能を上げようと試みている

語義の階層構造とグラフ
•  多義語 paper
の共
起グラフの例

–  密にリンクしている
部分とそうでない
部分がある

–  フラットなクラスタリ
ングだと落としてし
まう情報がある

階層構造の推測
Observed
Graph
Inferred
Hierarchy

D2

B
D

D0
D1

A
C

A
B
C
D

類似度に基づくグラフを元にして、階層関係を表したグラフを作成

研究の目的
•  Infer
the
hierarchical
structure
(binary
tree)
of

a
graph
made
by
the
contexts
of
a
polysemous

word.

–  多義語のコンテキストから作成されたグラフから、
階層構造(二分木)を推定する

•  Apply
the
inferred
binary
tree
to
WSD
&

compare
with
ﬂat
clustering.

–  推定された二分木をWSDに適用し、フラットなクラ
スタリングとの比較を行う

提案手法の概要

Step.1
Step.2
Step.3
Step.4
対象語のコンテキストから
グラフ(G)から、
Gold-‐Standard 木の親
共起関係に基づくグラフ
(G)
階層構造を表データから、そ方向に
を作る
した二分木(H) れぞれのノード足しあわ
G
:
無向、unweighted
の構造を推定
に対して語義せて
(Hierarchical
の確率を振る
argmax

Random
Graph)

Step.
1

GRAPH
CREATION

Graph
Crea-on
(1/3)
•  対象語を含んだコンテキスト(パラグラフ)から
キーワードを抽出

–  対照コーパス(BNC)と出現確率を比較して、Log-‐
Likelihood
ra-oが一定以上の名詞

•  足切りパラメータ p1

–  Balancedなコンテキストに比べて、対象語と共起
しやすい(独立でないと)名詞を抽出している

•  以下、コンテキスト＝抽出された名詞の集合
で表す

Graph
Crea-on
(2/3)
•  グラフのノード

–  対象語を含むそれぞれのコンテキスト

•  グラフのエッジ

–  コンテキスト同士の類似度を測り、一定値以上の
場合、その間にエッジを張る

•  足切りパラメータ p3
simcl (A,B) + simwd (A,B)
W (A,B) = ・・・式(1)
2
こんな感じの無向グラフ
(G)
が

出来上がる

Graph
Crea-on
(3/3)
simcl (A,B) + simwd (A,B)
W (A,B) =
2
•  simcl
:
コロケーションに基づく類似度

–  コロケーションの抽出にも
Log-‐Likelihood
ra-oを
! 使用

–  足切りパラメータ p2

•  simwd:
Bag-‐of-‐Wordsに基づく類似度

•  いずれも
Jaccard
係数を用いて類似度を計算

Step.2

INFERRING
GRAPH
HIERARCHY

Hierarchical
Random
Graphs

•  Model
:n
個の葉ノードと n-‐1
個の内部ノード
からなる二分木

•  内部ノードの集合を D
とおく
分かりにくいので

後で
– 

D = {D1, D2 ,...Dn!1 }
•  もとのグラフ
G
において、 Dk
に対応するエッ
ジが存在する確率を θk
とおく

•  Dのトポロジカルな構造と各内部ノードに関連
づく確率変数のベクトルをセットにして、
!
–  HRG

: と定義

H (D, ! )

HRG
(例)

もとのグラフ G

HRG
H

HRG
parameteriza-on

•  目標：もとのグラフ G
と統計的に類似した
!
HRGになるようなパラメータ D と ! を選ぶ

!
–  !

は
Dのトポロジーさえ決まれば
MLE
で簡単に

求まる.

– 
D
はsuper-‐exponen-alに組み合わせが大きくなる

!
ので、
MCMC
で求める.

!
左右どちらの二分木が、

元のグラフの性質を反映している？

!
HRG
parameteriza-on
(!
)

•  D
k

をHRGの内部ノードとする

•  l(Dk ) r(D

)

をそれぞれ、の左、右の
subtree

,

k Dk
に存在する葉ノードの個数とする

• 

(D
k

を Dk の
subtree
同士を結ぶエッジのうち、
f

)
! もとのグラフ
G
に存在するものの数とする
!

•  すると、 ! k の最尤推定値は

!
f (Dk )
!k =
l(Dk )r(Dk )
直感的に言うと・・・・

左の葉と右の葉を結ぶすべてのパスのうち、
G
に実際存在するものの割合

!
HRG
parameteriza-on
(!
)

•  Example
for
node
D2:

–  f(D2)
=
2,
there
are
2
edges,
AB
&
CD

–  l(D2)
=2,
there
are
2
ver-ces
on
the
le=
subtree.

–  r(D2)
=
2,
the
are
2
ver8ces
on
the
right
subtree.

–  Hence
the
probability
is
2/4
=
0.5

HRG
parameteriza-on
(

)
D

•  尤度関数
(Clauset
et
al.,
2008)
:

!
L(D, ! ) = " ! kf (Dk ) (1# !! l (Dk )r(Dk )# f (Dk )
k)
Dk !D

•  L
(A)
=
0.105

•  L
(B)
=
0.062

尤度関数について
(1/2)
!
L(D, ! ) = " ! kf (Dk ) (1# ! k )l (Dk )r(Dk )# f (Dk )
Dk !D

h(! k ) = !! k log! k ! (1! ! k )log(1! ! k ) とおいて対数をとると、

!
log L(D, ! ) = ! # h(! k )l(Dk )r(Dk )
Dk "D

対数尤度関数が導かれる。これを最大化するパラメータを見つけるのが目標

（対数をとるのは主にアンダーフローを防ぐため）

尤度関数について
(2/2)
それぞれ、左（右）の葉の数

（木のルートに近いノードほど大きな値)

!
log L(D, ! ) = ! # h(! k )l(Dk )r(Dk )
Dk "D

-‐h(θ)は右図のようにθが

0か1に近いときに最大値をとる

曖昧性の低いノードほど高い値

θが0か1に近いノードが多い場合に対数尤度が大きくなる

もとのグラフGにおけるリンクがとても多いかとても少なくなるようDを選ぶ
θはDのトポロジ(およびG)が決まれば一意に決まるので、

対数尤度を最大化するような
D
を求める問題に落ちる

MCMC
Sampling
•  先ほど述べたように、θは簡単に求まる

•  しかし、尤度が最大になるようなDは、二分木
のすべての構造を列挙しなければ求まらない

•  そこで、木の構造をすこしづつ変化させ、尤
度の変化を見ながら最適な構造を見つける

Markov
Chain
Monte
Carlo(MCMC)法を用いる

具体的なサンプリング法

S  Given
a
current
dendrogram
Dcurr
Dk
S  ノードをランダムに選択する
(Figure
(A)).

S  子Subtreeのどちらかを兄弟Subtreeと入れ替える
(Figures
(B),(C))

S  Metropolis-‐Has-ngs
ruleに基づいて採択を判定する

!
! L(Dnext )
S  尤度が上がるなら採択、下がる場合でもの確率で採択

L(Dcurr )
(おおよそ
O(n2)
くらいのステップ数で収束するらしい)

Sense
Mapping
•  推定されたHRGを実際にWSDに用いるには、
「語義」と対応付ける必要がある

–  内部ノードDiが語義skに関連づく確率をタグ付き
コーパスから学習
F(D )
:
D の下にある葉(コ i i
ンテキスト)の集合

| F(Di )! F "(sk ) | F’(sk)
:
コーパスの中で語
P(sk | Di ) =
| F(Di ) | 義skとタグ付けされてい
るコンテキストの集合

タグ付きコーパスとの語彙のオーバーラップをはかって、

それぞれの内部ノードに対して語義の確率をマッピングしている
タグ付きコーパスとしてはSemeval
2007
English
lexical
sampleデータを使用

Sense
Tagging

•  Let

c
j

be
an
untagged
instance.

•  This
will
be
leaf
in
the
dendrogram.

•  Example:
context
C
in
Figure
(A).

! •  H(c

j
)
set
of
parents
for
context
c j

•  Score
assigned
to
sense

sk

w(sk , c j ) = % p(s k | Di ) " # i
! 例:

D i $ H (c j )
w(s1,C)
=
(0*1+
(2/3)*0.25)
=
0.16

! w(s2,C)
=
(1*1+(1/3)*0.25)=
1.08.

スコアが最も高い語義をleaf-‐nodeに対応する

よって,
s2
が
leaf-‐node
Cに対応する語義

語義として出力する

Evalua-on
Sehng
•  データセット:

–  Semeval-‐2007
sense
induc-on
task

•  評価指標:

–  F1-‐score

•  Baselines:

–  フラットクラスタリング using
weighted
graphs
(CWW)

–  フラットクラスタリング using
unweighted
graphs

(CWU)

•  Chinese
Whispers
(Biemann,
2006)
という手法を用いている

–  階層的凝集型クラスタリング(HAC)

•  average
linkageに基づくもの
(伝統的な手法)

Result(1/2)

•  パラメータ：すべて共起に基づくグラフGのもの

–  p1,
p2
:
単語、コロケーションの抽出のためのしきい値(対数尤度比)

–  p3
:
エッジを張るかどうか決める類似度のしきい値(ジャッカード係数)

•  (おおよそ)パラメータに依存せず、安定してベースラインより高い性能が出
ている

•  HACでは「類似」関係のみを考慮しているが、HRGでは「類似」「非類似」の
両方の関係を考慮できるため性能が向上した

–  と著者らは主張している・・・

Result(2/2)
System
Performance
(%)

HRGs
87.6

(Brody
&
Lapata,
2009)
87.3

(Niu
et
al.,
2007)
86.8

(Klapa=is
and
Manandhar,
2008)
86.4

HAC
86.0

CWU
85.1

CWW
84.7

(Pedersen,
2007)
84.5

MFS
80.9

F1-‐score
for
SemEval-‐2007
WSI
task
dataset.

State-‐of-‐the-‐artな他の手法と比べても高い性能

（ただし、上位3つは有意な差ではないらしい）

Conclusion
•  Unsupervised
method
for
inferring
the

hierarchical
grouping
of
the
senses
of
a

polysemous
word.

•  Graphs
exhibit
hierarchical
organiza-on

captured
by
HRGs,
in
eﬀect
providing

improved
WSD
performance
compared
to

–  Flat
graph
clustering.

–  Hierarchical
Agglomera-ve
Clustering

感想、疑問等
•  Hierarchical
Random
Graphの尤度関数の解釈が難しい

•  グラフ
G
を unweighted
にしてしまうのはもったいない気が
する

–  関連性には「程度」がある

–  足切りパラメータに意味があるのかよくわからない

•  MCMCの収束条件について何も書いてない

•  凝集クラスタリング(HAC)に対して有意に性能が向上する
理由がイマイチ納得いかない

•  途中からGold-‐Standardを用いているので評価指標が公平
なものであるか判断が難しい

–  WSDとして評価するためには必要なものではあるが・・・

–  WSIとしての評価指標も（妥当性はともかく）存在するので、そ
ちらの結果も見たかった

おまけ
•  Hierarchical
Random
Graphの原論文
(Nature2008(leker),
ICML2006)も当たってみた

–  いろいろと応用があるらしい

•  Missing
ling
detec-on,
link
predic-on

•  Community
detec-on

•  Personalized
recommenda-on
etc…

•  NLPの分野ではまだほとんど応用されていない
手法なので、興味のある方は触ってみるといい
かも

–  著者がコードも配っています

–

ANY
QUESTION
OR
COMMENT?

Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)

More Related Content

What's hot

Viewers also liked

Similar to Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)

More from Koji Matsuda

Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)