Icml2011 reading-sage

論文紹介
Sparse Additive Generative Model for Text

icml 2011読み会
2011/7/16

論文の背景

• 近年Dirichlet-multinomial分布を使った文章の生成モデルが
流行してる(e.g. LDA)
• これらの分布を使った推論は比較的簡単であるという利点
がある
• しかしながら、このような生成モデルには3つの問題点がある
– Inference cost
– Overparametrization
– Lack of sparsity

Inference cost

• 評判情報やイデオロギーなど複数の側面を考慮した生成モ
デルを考えることがある(Mei + 2007 WWW, Ahmed & Xing
2010 EMNLP, Paul & Girju 2010 AAAI)
• 多くの場合複数の側面の追加はトークンごとの潜在変数の
追加が必要となる
– どの側面が有効かの”switch”に使われる
• このため推論のコストが大きくなる

Ahmed & Xing 2010(EMNLP)

Overparametrization

• “the”や”of”のような高頻度語に対してもトピックごとにトピッ
ク単語出現確率を学習してしまう
– 対策としてはストップワードの除去
– 高頻度語を考慮したモデルを考える(Chemudugunta+ 2006, NIPS)

Lack of sparsity

• 例えばDirichlet-multinomialに基づくNaive bayesモデルを考
えたとき、クラス中に単語が一回でも出てくるとその単語の
生成確率を考慮する必要がある

Sparse Additive GEnerative model (SAGE)
• 上記の問題解決のためSAGEというモデルを導入する
• このモデルではコーパスでの単語の対数頻度から文章ラベ
ルや潜在変数に応じた差分をモデル化する
• このモデルのメリットとして
– 差分に関してsparseになるようなpriorを導入することにより、多くの単
語の差分を0とできる
– 複数の側面があるときに各側面に関する差分を足し合わせるだけで
単語の生成確率が求まる
• このモデルはDirichlet-mutlinomialなモデルを単純に置き換
えることができる、論文では以下の3つのモデルに関して
SAGEの優位性を示している
– Naive bayes分類
– トピックモデル(LDA)
– イデオロギーや地理情報を加味した文章生成モデル

SAGEのアイディア
• 従来のトピックモデル word distribution

switch
topic a
z
topic b

• SAGE
word distribution
background
add

+

difference

SAGEのアイディア
• 従来のトピックモデル word distribution

switch
topic a
z
topic b

• SAGE
word distribution
background
add

+

difference

sparse

単語の出現確率モデル

• background distribution : �� ∈ ��
• component vectors : *�� ∈ �� +
– ここで添字��は文章のラベルに対応しているとする
• 文章��における単語の出現確率を以下のようにモデル化する
�� , ��, �� ∝ exp(�� + �� )
• ラベルが既知のときはNaive Bayesモデルに対応し
• 未知の時は混合unigramモデルに対応する

Prior of ��
• ��の事前分布としては、なるべく疎になるようにLaplace 分布
を考える
• Laplace分布は正規分布と指数分布の結合モデルとして表現
できる(Lange & Sinsheimer 1993, J. Comp. Graph. Stat)
• すなわち、以下のようにすればLaplace分布に従って生成で
きる

��~��
��~�� 0, ��

from wikipedia:Laplace_distribution

SAGEによるNBモデル
• ラベル既知の文章における生成モデルは以下のように表さ
れる

��,�� ∼ ��(0, ��)と等価

変分ベイズによる推定

• パラメータ��に関しては事後分布��(��|��, ��, ��)をなるべく近似
するような変分分布��(��)を求める
• これは以下の変分下限を最大化することによって得られる

– ここで<・>は変分分布で期待値をとることを意味する
• また��に関してはMAP推定により最適化する

inference of ��
• 変分下限の�� に関する項のみ抜き出すと

�� = �� − �� log
�� exp(�� + �� ) ��(��|��, ��)の部分
��:�� =��

−�� diag < ��−1 > �� /2
��
��(��|��)の部分

• �� : 文章dの単語頻度ベクトル
• �� = �� : �� の要素の合計
• �� = ��:�� =�� : ラベル��が付いた文章ベクトルの和
• �� = �� : �� の要素の合計

inference of ��

• ��(�� )の勾配を求めると
��
= �� − �� − diag < ��−1 > ��
��
��

• 最適化にはNewton法を使うためHessianを計算すると
��2 �� 2 ��
2 = �� − 1 −< �� >, �� = ��
��

��(�� ) = �� − diag �� +< ��−1 >
��

inference of ��

• Hessianの逆行列はSherman-Morrison公式を使って効率的
に計算でき、ニュートン方向は以下のようになる
��
��
��−1 �� = �� −
1 + ��
��
−Δ�� = ��−1 ��
��
= �� − �� (�� )
1 + ��
��
−1
�� = diag − �� +< ��−1
�� >
��
��(�� ) =
��

inference of ��

• まず変分分布が次のように書けることを仮定する
�� = �� (�� )
��
• また�� はガンマ分布に従うとする、すなわち
��
exp(− )
�� = �� , �� = �� −1 ��
Γ ��
• 期待値の性質として
−1
< �� > = ��, < �� −1 > = �� − 1 �� , < log �� > = �� + log ��

inference of ��

• ��(正確には�� だが簡単のため添字は省略)に関する項を抜
き出すと

• ��に関するニュートン方向と��の解析解は

inference of ��

• 前述の更新式では指数分布のパラメータである��を決定する
という問題が残る
• このため��の事前分布として無情報事前分布であるinproper
Jeffery’s prior �� ∝ 1/��を採用する
• この場合でもSparse性がある(Guan & Dy 2009, AISTATS)
• このときの��に関するニュートン方向と��の解析解は

−2
• このとき、��の推論に必要な< �� −1 >は< �� −1 > = �� となる

Application: 文章分類

• 20 Newsgroups データセットを使って、評価を行った
– http://people.csail.mit.edu/jrennie/20Newsgroups/
• ベースラインアルゴリズムとして、Dirichlet事前分布をいれたNB分
類器を用いる (Diriclet分布のparameterはNewton法を使って最適
化する(Minka 2003) )
– 当然識別モデルなどを使ったほうが分類性能は高くなるが、ここでは
Dirichlet-Multinomialな分布との比較が主眼であるため考慮しない
• また、ストップワードの除去は行わず、語彙数は50000となる

Application: 文章分類

• SAGEは常にDirichletよりも良い結果となっている
– 特にデータが尐ないときは10%以上の向上が見られる
• またfull-data利用時、パラメータの約90%が0となった
– これはDirichletのときは50000 * 20 = 1Mのパラメータが必要なのに
対して、SAGEでは0.1Mで済むことを意味している

Latent Variable Models

• LDAと同様に以下のような文章生成モデルを考える
• For each document ��
– �� ∼ ��(��)
(��)
– For each ��
(��)
• sample topic �� ∼ ��(�� )
(��) ��
• sample word �� ∼ ��(�� |��, �� ) (�� , �� ∝ exp(�� + ��) )
��

cf. LDA(Blei+ 2003)

Inference

• 以下の変分下限を最適化する

• ここで��に関しては
• �� , ��, �� = �� (��)と分解できることを仮定する
• ここで�� , ��(��)の変分推定の式はLDAと同じになる、また
��(��)の推定は前述の導出と同じになる

Estimation of ��

• ここで��の推定の時に�� = 0となったら< �� >も動かなくな
るため、Mステップでは複数回反復を行わず、一回だけ更新
を行う

Application 2: Sparse topic models
• ベンチマークデータとしてNIPSデータセットを利用する
• 文章の20%をテストデータとする
• ストップワードの除去は行わない
• perplexityを比較するとトピック数が多いときSAGEの方が小さくなる
• またトピック数を10から50にしていったときパラメータの非ゼロ重みの数は
5%から1%へと減っている

Application 2: Sparse topic models

• 単語頻度ごとにトピック単語出現確率の平均からのずれを
みると、LDAでは頻度の低い単語においてもどこかのトピック
に集中して出現してることが分かるが、SAGEではそのような
現象はなく単語の頻度に比例することがわかる

Multifaceted generative models

• 文章データは多くの場合単独で存在するわけではなく、レ
ビューであれば評判情報や政治系のブログであれば支持政
党などの情報が付随している
• このような複数の側面(Multi faceted)をもつデータに対して
SAGEは有効に働く

Multifaceted generative models
(��)
• トピックに関する対数頻度ベクトルを�� , 文章についている
(��)
ラベルに関するベクトルを�� , トピックとラベルの交互作用
(��)
のベクトルを��,�� とする
• このとき単語生成確率は

• 推論も前述と似た感じでできる

Application 3: Topic and ideology
• 右派のブログと左派のブログがそれぞれ3つ存在する
• ラベル未知の右派、左派のブログ2つを残りの4つを訓練
データとしてあてる

Application 4: Geolocation from Text

• 文章および位置情報が与えられたときのトピックモデル
– 隠れ変数として”region”があり、そこから文章と位置が生成される
– 実験にはtwitterのテキストデータと位置情報を利用

[Eisenstein+ 2010, EMNLP]

Application 4: Geolocation from Text

• SAGEの性能がこれまでの手法よりもよい

Conclusion

• 離散データのためのSAGEという新しいモデルを提案した
• SAGEをNB分類器、トピックモデルに適応することにより、より
尐数の単語により表現されるシンプルなモデルが学習できる
ことを示した
• 複数の側面を持つ生成モデルにも適応を行った
• 今後はより複雑なモデルである階層トピックモデル, 混合効
果モデルなどへの適応を考えたい

Icml2011 reading-sage

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Similar to Icml2011 reading-sage

Similar to Icml2011 reading-sage (20)

More from 正志坪坂

More from 正志坪坂 (20)