論文紹介
Sparse Additive Generative Model for Text

            icml 2011読み会
               2011/7/16
論文の背景

• 近年Dirichlet-multinomial分布を使った文章の生成モデルが
  流行してる(e.g. LDA)
• これらの分布を使った推論は比較的簡単であるという利点
  がある
• しかしながら、このような生成モデルには3つの問題点がある
  – Inference cost
  – Overparametrization
  – Lack of sparsity
Inference cost

• 評判情報やイデオロギーなど複数の側面を考慮した生成モ
  デルを考えることがある(Mei + 2007 WWW, Ahmed & Xing
  2010 EMNLP, Paul & Girju 2010 AAAI)
• 多くの場合複数の側面の追加はトークンごとの潜在変数の
  追加が必要となる
  – どの側面が有効かの”switch”に使われる
• このため推論のコストが大きくなる




              Ahmed & Xing 2010(EMNLP)
Overparametrization

• “the”や”of”のような高頻度語に対してもトピックごとにトピッ
  ク単語出現確率を学習してしまう
  – 対策としてはストップワードの除去
  – 高頻度語を考慮したモデルを考える(Chemudugunta+ 2006, NIPS)
Lack of sparsity

• 例えばDirichlet-multinomialに基づくNaive bayesモデルを考
  えたとき、クラス中に単語が一回でも出てくるとその単語の
  生成確率を考慮する必要がある
Sparse Additive GEnerative model (SAGE)
• 上記の問題解決のためSAGEというモデルを導入する
• このモデルではコーパスでの単語の対数頻度から文章ラベ
  ルや潜在変数に応じた差分をモデル化する
• このモデルのメリットとして
  – 差分に関してsparseになるようなpriorを導入することにより、多くの単
    語の差分を0とできる
  – 複数の側面があるときに各側面に関する差分を足し合わせるだけで
    単語の生成確率が求まる
• このモデルはDirichlet-mutlinomialなモデルを単純に置き換
  えることができる、論文では以下の3つのモデルに関して
  SAGEの優位性を示している
  – Naive bayes分類
  – トピックモデル(LDA)
  – イデオロギーや地理情報を加味した文章生成モデル
SAGEのアイディア
   • 従来のトピックモデル            word distribution

                  switch
 topic a
                    z
 topic b


   • SAGE
                           word distribution
background
                  add

                    +

difference
SAGEのアイディア
   • 従来のトピックモデル                word distribution

                      switch
 topic a
                        z
 topic b


   • SAGE
                               word distribution
background
                      add

                        +

difference


             sparse
単語の出現確率モデル

• background distribution :  ∈ 
• component vectors : * ∈  +
   – ここで添字は文章のラベルに対応しているとする
• 文章における単語の出現確率を以下のようにモデル化する
     , ,  ∝ exp( +  )
• ラベルが既知のときはNaive Bayesモデルに対応し
• 未知の時は混合unigramモデルに対応する
Prior of 
• の事前分布としては、なるべく疎になるようにLaplace 分布
  を考える
• Laplace分布は正規分布と指数分布の結合モデルとして表現
  できる(Lange & Sinsheimer 1993, J. Comp. Graph. Stat)
• すなわち、以下のようにすればLaplace分布に従って生成で
  きる

       ~ 
       ~ 0, 


                                from wikipedia:Laplace_distribution
SAGEによるNBモデル
• ラベル既知の文章における生成モデルは以下のように表さ
  れる




                 , ∼ (0, )と等価
変分ベイズによる推定

• パラメータに関しては事後分布(|, , )をなるべく近似
  するような変分分布()を求める
• これは以下の変分下限を最大化することによって得られる




  – ここで<・>は変分分布で期待値をとることを意味する
• またに関してはMAP推定により最適化する
inference of 
• 変分下限の に関する項のみ抜き出すと

         =                   −  log
                                                           exp( +  )   (|, )の部分
                   : =                          


                   − diag < −1 >  /2
                                
                                                                                   (|)の部分


•    : 文章dの単語頻度ベクトル
•    =   :  の要素の合計
•    = : =  : ラベルが付いた文章ベクトルの和
•    =   :  の要素の合計
inference of 

• ( )の勾配を求めると
         
               =  −   − diag < −1 > 
                                             
        

• 最適化にはNewton法を使うためHessianを計算すると
  2                                          2 
     2 =    − 1 −<  >,         =   
                                            


  ( ) =    − diag   +< −1 >
inference of 

• Hessianの逆行列はSherman-Morrison公式を使って効率的
  に計算でき、ニュートン方向は以下のようになる
                                
                                             
        −1  =  −
                           1 +    
                                         
             −Δ = −1   
                                             
                     =      −                          ( )
                                        1 +     
                                                   
                                                     −1
         = diag −   +<        −1
                                               >
                  
     ( ) =
inference of 

• まず変分分布が次のように書けることを仮定する
        =                  ( )
                        
• また はガンマ分布に従うとする、すなわち
                                            
                                    exp(− )
       =   ,  =  −1         
                                     Γ   
• 期待値の性質として
                                               −1
   <  > = , <  −1 > =       − 1          , < log  > =   + log
inference of 

• (正確には だが簡単のため添字は省略)に関する項を抜
  き出すと




• に関するニュートン方向との解析解は
inference of 

• 前述の更新式では指数分布のパラメータであるを決定する
  という問題が残る
• このための事前分布として無情報事前分布であるinproper
  Jeffery’s prior  ∝ 1/を採用する
• この場合でもSparse性がある(Guan & Dy 2009, AISTATS)
• このときのに関するニュートン方向との解析解は




                                        −2
• このとき、の推論に必要な<  −1 >は<  −1 > =  となる
Application: 文章分類

• 20 Newsgroups データセットを使って、評価を行った
  – http://people.csail.mit.edu/jrennie/20Newsgroups/
• ベースラインアルゴリズムとして、Dirichlet事前分布をいれたNB分
  類器を用いる (Diriclet分布のparameterはNewton法を使って最適
  化する(Minka 2003) )
  – 当然識別モデルなどを使ったほうが分類性能は高くなるが、ここでは
    Dirichlet-Multinomialな分布との比較が主眼であるため考慮しない
• また、ストップワードの除去は行わず、語彙数は50000となる
Application: 文章分類




• SAGEは常にDirichletよりも良い結果となっている
  – 特にデータが尐ないときは10%以上の向上が見られる
• またfull-data利用時、パラメータの約90%が0となった
  – これはDirichletのときは50000 * 20 = 1Mのパラメータが必要なのに
    対して、SAGEでは0.1Mで済むことを意味している
Latent Variable Models

   • LDAと同様に以下のような文章生成モデルを考える
   • For each document 
        –  ∼ ()
                        ()
        – For each 
                               ()
             • sample topic       ∼ ( )
                                ()              
             • sample word         ∼ ( |,   )   (  ,  ∝ exp( + ) )
                                                            



cf. LDA(Blei+ 2003)
Inference

• 以下の変分下限を最適化する




• ここでに関しては
•  , ,  =     ()と分解できることを仮定する
• ここで  , ()の変分推定の式はLDAと同じになる、また
  ()の推定は前述の導出と同じになる
Estimation of 




• ここでの推定の時に = 0となったら<  >も動かなくな
  るため、Mステップでは複数回反復を行わず、一回だけ更新
  を行う
Application 2: Sparse topic models
•   ベンチマークデータとしてNIPSデータセットを利用する
•   文章の20%をテストデータとする
•   ストップワードの除去は行わない
•   perplexityを比較するとトピック数が多いときSAGEの方が小さくなる
•   またトピック数を10から50にしていったときパラメータの非ゼロ重みの数は
    5%から1%へと減っている
Application 2: Sparse topic models




• 単語頻度ごとにトピック単語出現確率の平均からのずれを
  みると、LDAでは頻度の低い単語においてもどこかのトピック
  に集中して出現してることが分かるが、SAGEではそのような
  現象はなく単語の頻度に比例することがわかる
Multifaceted generative models

• 文章データは多くの場合単独で存在するわけではなく、レ
  ビューであれば評判情報や政治系のブログであれば支持政
  党などの情報が付随している
• このような複数の側面(Multi faceted)をもつデータに対して
  SAGEは有効に働く
Multifaceted generative models
                         ()
• トピックに関する対数頻度ベクトルを , 文章についている
                ()
  ラベルに関するベクトルを , トピックとラベルの交互作用
           ()
 のベクトルを, とする
• このとき単語生成確率は



• 推論も前述と似た感じでできる
Application 3: Topic and ideology
• 右派のブログと左派のブログがそれぞれ3つ存在する
• ラベル未知の右派、左派のブログ2つを残りの4つを訓練
  データとしてあてる
Application 4: Geolocation from Text

• 文章および位置情報が与えられたときのトピックモデル
 – 隠れ変数として”region”があり、そこから文章と位置が生成される
 – 実験にはtwitterのテキストデータと位置情報を利用




                              [Eisenstein+ 2010, EMNLP]
Application 4: Geolocation from Text

• SAGEの性能がこれまでの手法よりもよい
Conclusion

• 離散データのためのSAGEという新しいモデルを提案した
• SAGEをNB分類器、トピックモデルに適応することにより、より
  尐数の単語により表現されるシンプルなモデルが学習できる
  ことを示した
• 複数の側面を持つ生成モデルにも適応を行った
• 今後はより複雑なモデルである階層トピックモデル, 混合効
  果モデルなどへの適応を考えたい

Icml2011 reading-sage

  • 1.
    論文紹介 Sparse Additive GenerativeModel for Text icml 2011読み会 2011/7/16
  • 2.
    論文の背景 • 近年Dirichlet-multinomial分布を使った文章の生成モデルが 流行してる(e.g. LDA) • これらの分布を使った推論は比較的簡単であるという利点 がある • しかしながら、このような生成モデルには3つの問題点がある – Inference cost – Overparametrization – Lack of sparsity
  • 3.
    Inference cost • 評判情報やイデオロギーなど複数の側面を考慮した生成モ デルを考えることがある(Mei + 2007 WWW, Ahmed & Xing 2010 EMNLP, Paul & Girju 2010 AAAI) • 多くの場合複数の側面の追加はトークンごとの潜在変数の 追加が必要となる – どの側面が有効かの”switch”に使われる • このため推論のコストが大きくなる Ahmed & Xing 2010(EMNLP)
  • 4.
    Overparametrization • “the”や”of”のような高頻度語に対してもトピックごとにトピッ ク単語出現確率を学習してしまう – 対策としてはストップワードの除去 – 高頻度語を考慮したモデルを考える(Chemudugunta+ 2006, NIPS)
  • 5.
    Lack of sparsity •例えばDirichlet-multinomialに基づくNaive bayesモデルを考 えたとき、クラス中に単語が一回でも出てくるとその単語の 生成確率を考慮する必要がある
  • 6.
    Sparse Additive GEnerativemodel (SAGE) • 上記の問題解決のためSAGEというモデルを導入する • このモデルではコーパスでの単語の対数頻度から文章ラベ ルや潜在変数に応じた差分をモデル化する • このモデルのメリットとして – 差分に関してsparseになるようなpriorを導入することにより、多くの単 語の差分を0とできる – 複数の側面があるときに各側面に関する差分を足し合わせるだけで 単語の生成確率が求まる • このモデルはDirichlet-mutlinomialなモデルを単純に置き換 えることができる、論文では以下の3つのモデルに関して SAGEの優位性を示している – Naive bayes分類 – トピックモデル(LDA) – イデオロギーや地理情報を加味した文章生成モデル
  • 7.
    SAGEのアイディア • 従来のトピックモデル word distribution switch topic a z topic b • SAGE word distribution background add + difference
  • 8.
    SAGEのアイディア • 従来のトピックモデル word distribution switch topic a z topic b • SAGE word distribution background add + difference sparse
  • 9.
    単語の出現確率モデル • background distribution: ∈ • component vectors : * ∈ + – ここで添字は文章のラベルに対応しているとする • 文章における単語の出現確率を以下のようにモデル化する , , ∝ exp( + ) • ラベルが既知のときはNaive Bayesモデルに対応し • 未知の時は混合unigramモデルに対応する
  • 10.
    Prior of •の事前分布としては、なるべく疎になるようにLaplace 分布 を考える • Laplace分布は正規分布と指数分布の結合モデルとして表現 できる(Lange & Sinsheimer 1993, J. Comp. Graph. Stat) • すなわち、以下のようにすればLaplace分布に従って生成で きる ~ ~ 0, from wikipedia:Laplace_distribution
  • 11.
  • 12.
    変分ベイズによる推定 • パラメータに関しては事後分布(|, ,)をなるべく近似 するような変分分布()を求める • これは以下の変分下限を最大化することによって得られる – ここで<・>は変分分布で期待値をとることを意味する • またに関してはMAP推定により最適化する
  • 13.
    inference of •変分下限の に関する項のみ抜き出すと = − log exp( + ) (|, )の部分 : = − diag < −1 > /2 (|)の部分 • : 文章dの単語頻度ベクトル • = : の要素の合計 • = : = : ラベルが付いた文章ベクトルの和 • = : の要素の合計
  • 14.
    inference of •( )の勾配を求めると = − − diag < −1 > • 最適化にはNewton法を使うためHessianを計算すると 2 2 2 = − 1 −< >, = ( ) = − diag +< −1 >
  • 15.
    inference of •Hessianの逆行列はSherman-Morrison公式を使って効率的 に計算でき、ニュートン方向は以下のようになる −1 = − 1 + −Δ = −1 = − ( ) 1 + −1 = diag − +< −1 > ( ) =
  • 16.
    inference of •まず変分分布が次のように書けることを仮定する = ( ) • また はガンマ分布に従うとする、すなわち exp(− ) = , = −1 Γ • 期待値の性質として −1 < > = , < −1 > = − 1 , < log > = + log
  • 17.
    inference of •(正確には だが簡単のため添字は省略)に関する項を抜 き出すと • に関するニュートン方向との解析解は
  • 18.
    inference of •前述の更新式では指数分布のパラメータであるを決定する という問題が残る • このための事前分布として無情報事前分布であるinproper Jeffery’s prior ∝ 1/を採用する • この場合でもSparse性がある(Guan & Dy 2009, AISTATS) • このときのに関するニュートン方向との解析解は −2 • このとき、の推論に必要な< −1 >は< −1 > = となる
  • 19.
    Application: 文章分類 • 20Newsgroups データセットを使って、評価を行った – http://people.csail.mit.edu/jrennie/20Newsgroups/ • ベースラインアルゴリズムとして、Dirichlet事前分布をいれたNB分 類器を用いる (Diriclet分布のparameterはNewton法を使って最適 化する(Minka 2003) ) – 当然識別モデルなどを使ったほうが分類性能は高くなるが、ここでは Dirichlet-Multinomialな分布との比較が主眼であるため考慮しない • また、ストップワードの除去は行わず、語彙数は50000となる
  • 20.
    Application: 文章分類 • SAGEは常にDirichletよりも良い結果となっている – 特にデータが尐ないときは10%以上の向上が見られる • またfull-data利用時、パラメータの約90%が0となった – これはDirichletのときは50000 * 20 = 1Mのパラメータが必要なのに 対して、SAGEでは0.1Mで済むことを意味している
  • 21.
    Latent Variable Models • LDAと同様に以下のような文章生成モデルを考える • For each document – ∼ () () – For each () • sample topic ∼ ( ) () • sample word ∼ ( |, ) ( , ∝ exp( + ) ) cf. LDA(Blei+ 2003)
  • 22.
    Inference • 以下の変分下限を最適化する • ここでに関しては • , , = ()と分解できることを仮定する • ここで , ()の変分推定の式はLDAと同じになる、また ()の推定は前述の導出と同じになる
  • 23.
    Estimation of •ここでの推定の時に = 0となったら< >も動かなくな るため、Mステップでは複数回反復を行わず、一回だけ更新 を行う
  • 24.
    Application 2: Sparsetopic models • ベンチマークデータとしてNIPSデータセットを利用する • 文章の20%をテストデータとする • ストップワードの除去は行わない • perplexityを比較するとトピック数が多いときSAGEの方が小さくなる • またトピック数を10から50にしていったときパラメータの非ゼロ重みの数は 5%から1%へと減っている
  • 25.
    Application 2: Sparsetopic models • 単語頻度ごとにトピック単語出現確率の平均からのずれを みると、LDAでは頻度の低い単語においてもどこかのトピック に集中して出現してることが分かるが、SAGEではそのような 現象はなく単語の頻度に比例することがわかる
  • 26.
    Multifaceted generative models •文章データは多くの場合単独で存在するわけではなく、レ ビューであれば評判情報や政治系のブログであれば支持政 党などの情報が付随している • このような複数の側面(Multi faceted)をもつデータに対して SAGEは有効に働く
  • 27.
    Multifaceted generative models () • トピックに関する対数頻度ベクトルを , 文章についている () ラベルに関するベクトルを , トピックとラベルの交互作用 () のベクトルを, とする • このとき単語生成確率は • 推論も前述と似た感じでできる
  • 28.
    Application 3: Topicand ideology • 右派のブログと左派のブログがそれぞれ3つ存在する • ラベル未知の右派、左派のブログ2つを残りの4つを訓練 データとしてあてる
  • 29.
    Application 4: Geolocationfrom Text • 文章および位置情報が与えられたときのトピックモデル – 隠れ変数として”region”があり、そこから文章と位置が生成される – 実験にはtwitterのテキストデータと位置情報を利用 [Eisenstein+ 2010, EMNLP]
  • 30.
    Application 4: Geolocationfrom Text • SAGEの性能がこれまでの手法よりもよい
  • 31.
    Conclusion • 離散データのためのSAGEという新しいモデルを提案した • SAGEをNB分類器、トピックモデルに適応することにより、より 尐数の単語により表現されるシンプルなモデルが学習できる ことを示した • 複数の側面を持つ生成モデルにも適応を行った • 今後はより複雑なモデルである階層トピックモデル, 混合効 果モデルなどへの適応を考えたい