Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Upcoming SlideShare
Loading in...5
×
 

Joint Modeling of a Matrix with Associated Text via Latent Binary Features

on

  • 3,160 views

"Joint Modeling of a Matrix with Associated Text via Latent Binary Features" (NIPS 2012) の紹介

"Joint Modeling of a Matrix with Associated Text via Latent Binary Features" (NIPS 2012) の紹介

Statistics

Views

Total Views
3,160
Views on SlideShare
597
Embed Views
2,563

Actions

Likes
2
Downloads
6
Comments
0

10 Embeds 2,563

http://conditional.github.io 2519
http://cloud.feedly.com 20
https://www.facebook.com 10
http://localhost 5
http://www.feedspot.com 3
http://plus.url.google.com 2
http://feedly.com 1
http://translate.googleusercontent.com 1
https://m.facebook.com&_=1375611968519 HTTP 1
https://www.google.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Joint Modeling of a Matrix with Associated Text via Latent Binary Features Joint Modeling of a Matrix with Associated Text via Latent Binary Features Presentation Transcript

    • Joint  Modeling  of  a  Matrix  with   Associated  Text  via  Latent  Binary   Features XianXing  Zhang  and  Lawrence  Carin   NIPS  2012   すずかけ論文読み会#5  2013/08/03  紹介者  :  matsuda 13/08/03 1
    • 問題 •  議員の投票行動をモデル化したい 0    1      1      1      1      0      1      0      1   0    1      1      1      1      0      1      0      1   0    1      1      1      1      1      1      0      1   0    1      1      1      1      0      1      0      1   0    1      0      1      1      0      1      0      1   0    1      1      0      1      1      1      0      1   0    1      1      1      1      0      1      0      1   1    1      0      1      1      0      1      0      1   0    1      1      1      1      0      1      0      1   議員P人 法案N個 各法案(テキスト) 投票だけなら,協調フィルタリングでモデル化可能.   テキストが利用可能な場合,どのように用いるか? 13/08/03 2 1:賛成 0:反対
    • モデル •  FTM(Focused  Topic  Model)  +  BMF(Binary  Matrix   FactorizaRon)のJoint  Model   –  FTM   •  IBP(Indian  Buffet  Process)  +  (H)DP(Dirichlet  Process)   –  IBP  :  無限に「素性」が出てくるようなPrior   –  DP    :  無限に「クラス」が出てくるようなPrior   –  BMF  :    X  =  LHRT  (  L,  Rの要素は  {0,1}  )となる分解   •  この  L,  R  のPrior  にも  IBP  を用いる   •  低ランクの仮定をおく   –  テキストをFTMで,voRngの行列をBMFでモデル化   •  事後分布は一気にサンプリングすることで推定   •  “どのように繋げるか がポイント 13/08/03 3
    • 解読しようよグラフィカルモデル ・・・・・・!? 図はSupplementより引用.ハイパーパラメータは省略されています. 13/08/03 4
    • このへんLDAっぽい これが投票のデータ({0,1}P×N) Nは法案の数かな Pは議員の人数ぽい このへんが繋ぎ目になりそう とりあえず眺めてみる これが単語っぽい プレートのKなんとかは,隠れ変数のクラス数っぽい,   IBPがどうとか言っていたので可変なんだろう. 13/08/03 5
    • Indian  Buffet  Process(IBP) •  無限隠れ素性モデルのPrior     – [Griffiths  and  Ghahramani,  2005]   •  Chinese  Restaurant  Processは無限隠れクラスのPrior 構成法   – 要するに・・・   •  Binary  Matrixに対するPrior   •  Beta-­‐Bernoulli過程の行列に対する拡張(自信なし)   13/08/03 6
    • Indian  Buffet  ProcessとCRP •  Chinese  Restaurant  Process     •  Indian  Buffet  Process テーブルは「クラス」 お皿は「素性」 from  hep://mlg.eng.cam.ac.uk/zoubin/talks/turin09.pdf     (IBPとその応用についていろいろ書いてあるスライド,おすすめ) 13/08/03 7
    • Focused  Topic  Model(1/2) •  Nonparametric  Topic  Modelのひとつ[Williamson +  2010](HDPの拡張)   –  HDPは,コーパス全体のTopic出現率と,個々のド キュメント内でのTopicの割合に高い相関がでてしま う   •  ドキュメント一つ一つの「専門性」が高い場合は不適切,と いうことのよう(あくまで自分の理解)   •  野球の話題に触れているドキュメントは「コーパス全体の中 の割合としては」少ないが,その数少ないドキュメントでは, ほとんど野球にしか触れていない   –  IBPを導入することで,スパースにする   •  ドキュメント内の主要な部分に  “Focus”  する効果が生まれ る 13/08/03 8
    • Focused  Topic  Model(2/2) •  IBP  +  DP ドキュメント  j  でトピック  t  が用いられるか否か(  {0,1}  )を  SRck  Breakingでモデル document,  word  の生成はほぼ  LDA  と同じ  (  b  ●  λ  :  ベクトル要素ごとの積)   λは全ドキュメントで共有  (  HDPの 基底に相当) このへん ふつうのHDPはλをそのまま 用いるが,FTMにおいては 0/1ベクトルbjを用いてフィル タリングしているのがポイント   ※bjtがゼロのところは消える 13/08/03 9
    • Binary  Matrix  FactorizaRon •  X  ∈  RP×N  な行列Xの分解  X  =  LHRT   – L  ∈  {0,1}P×KL,  H  ∈  RKL×KR,  R  ∈  {0,1}N×KR     – KL,  KR  :  行列のランク(無限大のこともある)   X H L R N(人数) P( 数 ) KL P KR N = L,  R はIBPでモデル(KL,  KRは可変) このへん 13/08/03 10
    • Binary  Matrix  FactorizaRon  with    low  rank  assumpRon(1/2) •  観測されるvoRng行列Yは隠れた真の値にノイズが 乗ったもの(を,0/1に離散化した)と仮定   –  イメージとしては,「どれくらい賛成か」という度合い     •  分解された行列Hに低ランク性を仮定(Kc:小)   Hを,ランク1の行列Kc個の足しあわせで表す(sk  :  重み) Kc,  skをどのように求めるか・・・・? このへん 13/08/03 11
    • Binary  Matrix  FactorizaRon  with    low  rank  assumpRon(2/2) •  xは以下のような正規分布でモデル化   –  probit  model     –  l,  r  は  {0,1}のベクトルであることに注意   •  uk,  vkのうち,l,rで値が立っているとこだけFilterするイメージ   •  sk,  Kcは  mulRplicaRve  gamma  process(MGP)でモデル   –  ランクを深くすると,skは速やかに減少(Theorem1)   –  AdapRve  Samplerというサンプリング法+閾値で求める 13/08/03 12
    • BMFとFTMのJoint  Model •  FTMのbベクトルと,BMFのrベクトル   –  b:FTMにおいて,ある文書中であるトピックが扱われるかどうかの0/1 ベクトル   –  r  :  BMFにおいて,行列を分解した結果得られたある実数ベクトルvを, filterするような0/1ベクトル   •  v  :  Hから1ランク分とってきたようなイメージ   •  単純に  b  =  r  とおく   •  Inferenceは省略・・・   –  ちょっとややこしすぎます   •  v,u  :  Hを構成する実数値ベクトル   •  sk  :    ランク1行列の重み(スカラー)   •  τ,  δ  :  MGPのパラメータ   •  r  :  0/1ベクトル   –  ハイパーパラメータ   •  αl  ,  αr  :  IBPのbeta分布,    αc  :  MGPのgamma分布     •  γ  :  FTMのgamma分布,      η  :  FTMのDirichlet分布,      κ  :  MGPのthreshold   b  =  r 13/08/03 13
    • 実験に用いているデータ •  アメリカ合衆国下院議会のroll-­‐callデータ   – 106th  –  111th  (1999年-­‐2010年)   – 誰がどの法案に賛成したか分かる(記名投票)   – 定数435,  法案数は書いてなかった・・・(1000くら い?)   •  (参考)アメリカはほぼ完全な二大政党制   – 2013年現在,共和党  232,  民主党  200,  欠員3   – 党議拘束みたいなのはほぼ無いらしい   •  日本だと状況がかなり違いそう 13/08/03 14
    • 行列穴埋め実験 縦軸:正解率,横軸:rank   Binary  Matrix  FactorizaRon  (with  low-­‐rank  assumpRon)の効果を確かめる   (この実験においては,テキストは一切用いていない) PMF  :  ProbabilisRc  Matrix  FactorizaRon  [Salakhutdinov+,  NIPS’07]   PMF  +  MGP  :  PMFのrankをMGPで推定   BMF  :  Binary  Matrix  FactorizaRon  [Meeds+,  NIPS’06]    (・・・フルランク?)   Proposed  :  BMFのrankをMGPで推定 13/08/03 15 BMFは表現力が低いが,MGPを導入するとPMFとcompeRRveになる
    • 新法案に対する予測 モデルを学習したあと,テキストだけが与えられたときに,   その法案が採択されるかを予測   •  IPTM  :  Ideal  Point  Topic  Model[Gerrish  and  Blei,  ICML’11]   •  FATM  :  因子分析+Topic  Model  +  Markov  Process[Wang+,  NIPS’10]   横軸:トピック数(本来は自動で推論できるが,比較のため外から決定)   縦軸:正解率(どう評価すべきか悩ましい)   13/08/03 16 IPTMについては   hep://www.ism.ac.jp/~daichi/lectures/ISM-­‐2012-­‐TopicModels_day2_4_supervised.pdf   の後半部分に,NTT石黒さんによる解説があります
    • トピックの分析 賛成が90%以上の法案   •  子供を守る   •  環境問題   •  テロリストへ屈しない 賛成が60%以下の法案   •  議会会期の問題?   •  減税に関する問題   •  すでにある法案の修正 13/08/03 17 誰もが賛成するようなトピック 意見がわかれるようなトピック
    • まとめ/感想 •  行列とテキストのJoint  Modelを提案   –  feature側にIBP  Priorをおいてbinary  shared  featureを学習   •  FTMのbと,BMFのrを結びつける  latent  な  feature   –  分解の結果得られたlatent  real  matrixに低ランク性を仮定   •  問題設定は面白い   –  が,問題の特徴を生かしきれていない気も・・・   •  政党など,同じvoteをしやすい会派(アメリカではあまり問題にならない?,Hの低ランク 性でいちおう考慮はしている)   •  時間(社会の状況)によって,賛否が異なる   •  どこまで問題specificにするかは難しいところ   –  性能評価も難しい   •  採択/非採択の2クラス予測で,90 94%はどれほどのものか   •  ここまで複雑にする必要があるのか疑問   –  基本的には,コンテンツ推薦システムと同様の問題設定   –  content  –  collabolaRve  filteringのハイブリッドなら,他にもいろいろある   –  やり過ぎ感がある一方,キャプチャーしきれていない要素もありそうで,何と もいえない読後感 13/08/03 18
    • 13/08/03 19 αr αl αc γ η y  :  xを0/1に離散化   x  :  probit(s,u,l,v,r) IBP IBP MGP Dir gamma θ    Dir(λ  ●  r) Mult Mult Focused  Topic  Model Binary  Matrix  FactorizaRon  with  low  rank  assumpRon Mult 行列モデルとトピックモデ ルでシェアされる変数 行列分解モデル トピックモデル ドキュメント数 ユーザー数