Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)

Language
Models
as

Representa1ons
for

Weakly-‐Supervised
NLP
Tasks
Fei
Huang,
Alexander
Yates,
Arun
Ahuja

and
Doug
Downey

CoNLL2011

紹介者
:
松田

2011/12/13
1

Introduc1on
•  NLPのタスクの多くは分類問題に帰着できる

•  分類に用いる素性ベクトルの作り方に性能が大
きく依存する

–  人手で注意深くつくられた素性が強い

•  しかし、(特にDomain
Adapta1onのような状況に
おいて)次のような問題が性能を制限している

– 
スパース性

•  訓練データに出てきていない語に対応する能力

–  多義性

•  ドメインに依存して語義の分布がかわる(POSの分布もかわ
る)ような語に対応する能力

2011/12/13
2

Introduc1on
•  この問題に対処するために、素性表現に着目

–  unseen
exampleに対する汎化性能を上げるような素性表現

–  distribu1onal
hypothesis
:
意味の似た語はコンテキストも似て
いる

•  研究のゴール

–  コンテキストを考慮した確率的言語モデルに基づく素性表現を
開発

–  素性表現：語(token
/
type)から実数値ベクトルへのマッピング

•  言語モデルから生成
→
コンテキストを考慮したベクトルを生成できる

•  コンテキストから生成
→
多義性やスパース性に対して頑健になる

2011/12/13
3

Previous
Work
•  素性表現についての研究は主に四つに分類される

1.  文書レベルでの共起指標に基づくVector
Space
Model

2.  Vector
Space
Modelに対する次元削減

3.  分布類似度に基づくクラスタリング

4.  言語モデルに基づく素性表現

•  PL-‐MRFという新しいrepresenta1onを提案し、 POS
Taggerにお
いてstate-‐of-‐the-‐artな性能を達成したところがcontribu1on

•  Domain
Adapta1onの研究としては

–  targetドメインのラベルつきデータがある設定

–  targetドメインのラベルつきデータが無い設定

–  本研究は後者

2011/12/13
4

Representa1ons
•  A
representa1on
is
a
set
of
features
that

describe
instances
for
a
classiﬁer

•  形式的な定義

–  事例集合から素性空間への写像を行う関数

–  R(x)
:
Yという素性空間(
such
as
Rd
)
の中の一つの
ベクトル

2011/12/13
5

Representa1ons(具体例)

伝統的な素性表現

trigram言語モデル

グラフィカルモデル

クラスタリングに

基づく表現

提案手法

*-‐TOKEN-‐R
:
ある語の”特定の”出現事例に対する素性表現(Viterbi等でデコードした値)

*-‐TYPE-‐R
:
語それ自体に対する素性表現(コーパス中で一定)
2011/12/13
6

フレームワーク

解くtaskの

labeled
data

素性

2.
素性ベクトル作成
ベクトル

1.学習
大量の

unlabeled
data
Representa1on
3.
学習

解くtaskの

分類器

2011/12/13
7

Unsupervised
HMMs
（本当は有向)

•  それぞれの語が
K
状態のうちのいずれかの状態を持つ、というモデル

•  EMアルゴリズムによってパラメータ P(xi|yi),
P(yi|yi-‐1) の推定が可能

•  Viterbiアルゴリズムによって状態のデコードが可能

•  高村さんの本に書いてあるHMMは
Supervised-‐HMMs
なので注意

2011/12/13
8

I-‐HMM(Independent-‐HMM)
本当は有向

M

M個のHMM(レイヤー)を（初期値をランダムに変えて）独立に構築

それぞれのノードが
K
状態のいずれかの値をもっている(HMMと同じ)

2011/12/13
9

I-‐HMMの問題点
• 
それぞれのHMMが独立に訓練されており、
文の別の側面を（異なるレイヤで）捉えるとい
うモデルになっていない

•  それぞれのレイヤーが語の異なる側面をとら
えるようにしたい

–  POS,
gender,
number,
格(case),
人称,
テンス,
etc..

•  レイヤー間のインタラクションの導入

2011/12/13
10

La`ce
Structured
MRF
i

M
j

2011/12/13
11

La`ce
Structured
MRF
極大クリークを因子とした対数線形モデルで表現（PRML
8.3に類似例あり）

P(x)
=

パラメータとしては、例えば・・・
となりあった二つのノードに関する遷移パラメタ

観測された語に関するパラメタ

となりあった二つのレイヤに関するパラメタ

ただし、O(2M)個のパラメータがあるのでExactな推論/学習はほぼ不可能
2011/12/13
12

Par1al
La`ce
MRF
odd

even
M

odd

いくつかのエッジを削除する。文の前半では(odd
–
even),
文の後半では
(even
–
odd)
の間

（あまり納得できるような正当化はなされていない）
2011/12/13
13

Par1al
La`ce
MRF
•  エッジを削除することで効率的計算が可能にな
る

–  動的計画法,
メッセージパッシング

–  tree-‐width(木幅:グラフがどれだけ木に近いかを表す
指標)が
2

•  木幅が
1
であれば木、低いほど効率的な計算が可能

–  O(K4MN)

•  K
:
ノードの状態数,
M:レイヤー数,
N
:
文長

•  (論文には書いていないが)モデルの柔軟さをで
きるだけ損なわずに木幅を低くして計算しやすく
するためのエッジ削除法なのではないか

2011/12/13
14

Contras1ve
Es1ma1on
•  (Smith
and
Eisner,

2005)

•  対数線形モデルをUnlabeled
Dataから学習す
る一般的な枠組み

–  Contras1ve
Divergence学習,
擬似負例からの学
習

N(x)
:
Neighborhood
func1on(本論文では、隣接する二単語を入れ替えたもの)

2011/12/13
15

?
?
?
?
?
?

p red
leaves
don t
hide
blue
jays

?
?
?
?
?
?

red
leaves
don t
hide
blue
jays

?
?
?
?
?
?

leaves
red
don t
hide
blue
jays

?
?
?
?
?
?

red
don t
leaves
hide
blue
jays

p ?
?
?
?
?
?

red
leaves
hide
don t
blue
jays

?
?
?
?
?
?

red
leaves
don t
blue
hide
jays

?
?
?
?
?
?

red
leaves
don t
hide
jays
blue

2011/12/13
16
Smith
and
Eisner,
ACL2005発表スライドより引用

その他学習における工夫
•  目的関数はnon-‐convexなので勾配法で局所
解を求めることになる

•  For
tractability:一層づつ順番に訓練する

–  層 i
に「関係する」パラメータを θi,
その他を θ¬i

–  まず
θ¬0
をすべてゼロに固定し、
θ0
を最適化

–  収束したら固定して、次の層にとりかかる

–  一層あたり100iter以下で収束するらしい

2011/12/13
17

Domain
Adapta1on
for
a
POS
Tagger
Newspaper
Domain(WSJ)

=>
Biomedical
Domain(MEDLINE)
へのドメイン適応

Penn
Treebank

Penn
Treebank
+MEDLINE
MEDLINE

71306
sentence
561
sentence

labeled
training
data
unlabeled
training
data
labeled
test
data

for
POS
Tagger
for
train
LMs

2011/12/13
POS
Taggerの学習モデルはCRF
18

Domain
Adapta1on
for
a
POS
Tagger

trigram
on
Web1T
8
layer,
80
state
20
layer,
binary
可能な状態数

I-‐HMM
:
1015
,
PL-‐MRF
:
106

bioドメインの
PL-‐MRFはOOV-‐errorを大幅に下げることに成功している
ラベルつきデータ併用
2011/12/13
19

Domain
Adapta1on
for
a
POS
Tagger

多義語の判定は

人手で行った。

unlabeledデータ

中に5回以下しか

出現しない語を

sparse語、

50回以上出現

する語を

non-‐sparse語

として調査。

多義語においては、グラフィカルモデルに基づく言語モデルの効果が大きい

おそらくViterbiデコードを行うときにコンテキストを考慮に入れることができるため

スパースな語においてもグラフィカルモデルの効果は(そうでない語と比較して)大きい。
2011/12/13
20

Informa1on
Extrac1on
•  set-‐expansion
task

–  種語が幾つか与えられた状況で、コーパス中に
出現する同じ意味カテゴリの語を獲得するタスク

–  distribu1onal
hypothesisに基づいた手法

•  同じ意味カテゴリに属する語はそのコンテキストにあら
われる語の分布も似ているだろう、という仮定

–  正例の一部だけが与えられているという意味で

“weakly-‐supervised”
である

2011/12/13
21

Informa1on
Extrac1on
•  手法

1.  コーパス、シードの集合が与えられている
2.  それぞれの意味カテゴリCに対して

•  すべての候補フレーズP
が、カテゴリCに属する尤もらしさで
降順に並べる

–  各カテゴリに対して、シードとして語を幾つか与えて
その平均値ベクトルをCのprototype
vectorとする

–  それぞれのフレーズPに対して、prototype
vectorとの
距離をはかり、近い順にカテゴリCに属すると判定

•  距離
:
KL,
JS疑距離,
cosine,
ユークリッド,
L1の単純平均

–  チューニングしても効果はなかったらしい

2011/12/13
22

Informa1on
Extrac1on
•  実験データ

–  Webから集めた10万文

–  Lexアルゴリズム(Downey
et
al.,
2007)を用いて複数
語からなる固有名詞は一語として認識できるように結
合

–  Wikipediaの
“listOf”
ページから正解データを得た(16
カテゴリ、432事例)

•  実験設定

–  seed事例を5個づつ、という実験をseedをランダムに
変えながら5回

–  評価はAUC
metric.

•  Recall-‐Precision
曲線の下側の面積(大きいほど良い)

2011/12/13
23

Informa1on
Extrac1on

ランダムベースラインよりは

良くなったものの、提案手法
(LATTICE-‐TYPE-‐R)の効果はみあるカテゴリに90%以上のインスタンスが属さ
えない
ない場合は多義 (人手で推定)、コーパス中に
30回以下の場合はスパース、と定義

2011/12/13
24

IEで性能が振るわない理由
•  分類する「対象」の違いが疑わしい

–  POSタギング:
“token”(インスタンス)の分類

–  IE
:
“type”(語そのもの)
の分類

•  Representa1onのモデル

–  PL-‐MRFはHMMに比べてtransi1onのパラメータに依存が
大きいのではないか

–  訓練に用いているContras1ve
Es1ma1onもtransi1onパラ
メータに対する依存を強くする効果がありそうだ

•  語が与えられた状態でのモデルの事後分布

–  エントロピー：
PL-‐MRF
:
9.95
bits,
HMM
:
2.74bits

–  PL-‐MRFは語が決まってもモデルの曖昧性が高い

•  結論
:
よく分からないので更なる実験が必要
2011/12/13
25

Conclusion
•  まとめ

–  多義性やスパースな状況に対応できるような素性表現

–  本論文で提案したグラフィカルモデルに基づくrepresenta1onは
POS
TaggerのDomain
Adapta1onで
state-‐of-‐the-‐art.

–  IEにおける多義性の扱い等は今後の課題

•  以下、個人的感想

–  (PL-‐)MRFで層ごとに”異なる側面”が学習されるメカニズムが理
解できなかった

–  そもそも
IE
は問題設定としてどうなのだ

•  というかこれは
IE
なのだろうか,
多義性を考慮するtype分類とは

–  Token-‐based
tasks(POS
Tagger)と
Type-‐based
tasks(IE)で異なっ
た素性表現が有効であるというのは割と納得できる

–  Contras1ve
Es1ma1onについては、本論文ではさらっとしか触
れていないが、応用範囲はかなり広いようだ

2011/12/13
26

Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)

More Related Content

Similar to Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)

More from Koji Matsuda