Joint Modeling of a Matrix with Associated Text via Latent Binary Features

Joint
Modeling
of
a
Matrix
with

Associated
Text
via
Latent
Binary

Features
XianXing
Zhang
and
Lawrence
Carin

NIPS
2012

すずかけ論文読み会#5
2013/08/03
紹介者
:
matsuda
13/08/03
1

問題
•  議員の投票行動をモデル化したい
0

1

1

1

1

0

1

0

1

0

1

1

1

1

0

1

0

1

0

1

1

1

1

1

1

0

1

0

1

1

1

1

0

1

0

1

0

1

0

1

1

0

1

0

1

0

1

1

0

1

1

1

0

1

0

1

1

1

1

0

1

0

1

1

1

0

1

1

0

1

0

1

0

1

1

1

1

0

1

0

1

議員P人
法案N個
各法案(テキスト)
投票だけなら，協調フィルタリングでモデル化可能．

テキストが利用可能な場合，どのように用いるか？
13/08/03
2
1:賛成
0:反対

モデル
•  FTM(Focused
Topic
Model)
+
BMF(Binary
Matrix

FactorizaRon)のJoint
Model

–  FTM

•  IBP(Indian
Buﬀet
Process)
+
(H)DP(Dirichlet
Process)

–  IBP
:
無限に「素性」が出てくるようなPrior

–  DP

:
無限に「クラス」が出てくるようなPrior

–  BMF
:

X
=
LHRT
(
L,
Rの要素は
{0,1}
)となる分解

•  この
L,
R
のPrior
にも
IBP
を用いる

•  低ランクの仮定をおく

–  テキストをFTMで，voRngの行列をBMFでモデル化

•  事後分布は一気にサンプリングすることで推定

•  “どのように繋げるかがポイント
13/08/03
3

解読しようよグラフィカルモデル
・・・・・・！？
図はSupplementより引用．ハイパーパラメータは省略されています．
13/08/03
4

このへんLDAっぽい
これが投票のデータ({0,1}P×N)
Nは法案の数かな
Pは議員の人数ぽい
このへんが繋ぎ目になりそう
とりあえず眺めてみる
これが単語っぽい
プレートのKなんとかは，隠れ変数のクラス数っぽい，

IBPがどうとか言っていたので可変なんだろう．
13/08/03
5

Indian
Buﬀet
Process(IBP)
•  無限隠れ素性モデルのPrior

– [Griﬃths
and
Ghahramani,
2005]

•  Chinese
Restaurant
Processは無限隠れクラスのPrior
構成法

– 要するに・・・

•  Binary
Matrixに対するPrior

•  Beta-‐Bernoulli過程の行列に対する拡張（自信なし）

13/08/03
6

Indian
Buﬀet
ProcessとCRP
•  Chinese
Restaurant
Process

•  Indian
Buﬀet
Process
テーブルは「クラス」
お皿は「素性」
from
hep://mlg.eng.cam.ac.uk/zoubin/talks/turin09.pdf

(IBPとその応用についていろいろ書いてあるスライド，おすすめ)
13/08/03
7

Focused
Topic
Model(1/2)
•  Nonparametric
Topic
Modelのひとつ[Williamson
+
2010]（HDPの拡張）

–  HDPは，コーパス全体のTopic出現率と，個々のド
キュメント内でのTopicの割合に高い相関がでてしま
う

•  ドキュメント一つ一つの「専門性」が高い場合は不適切，と
いうことのよう（あくまで自分の理解）

•  野球の話題に触れているドキュメントは「コーパス全体の中
の割合としては」少ないが，その数少ないドキュメントでは，
ほとんど野球にしか触れていない

–  IBPを導入することで，スパースにする

•  ドキュメント内の主要な部分に
“Focus”
する効果が生まれ
る
13/08/03
8

Focused
Topic
Model(2/2)
•  IBP
+
DP
ドキュメント
j
でトピック
t
が用いられるか否か(
{0,1}
)を
SRck
Breakingでモデル
document,
word
の生成はほぼ
LDA
と同じ
(
b
●
λ
:
ベクトル要素ごとの積)

λは全ドキュメントで共有
(
HDPの基底に相当)
このへん
ふつうのHDPはλをそのまま
用いるが，FTMにおいては
0/1ベクトルbjを用いてフィル
タリングしているのがポイント

※bjtがゼロのところは消える
13/08/03
9

Binary
Matrix
FactorizaRon
•  X
∈
RP×N
な行列Xの分解
X
=
LHRT

– L
∈
{0,1}P×KL,
H
∈
RKL×KR,
R
∈
{0,1}N×KR

– KL,
KR
:
行列のランク(無限大のこともある)

X
H
L
R
N(人数)
P(
数
)
KL
P
KR
N
=
L,
R はIBPでモデル（KL,
KRは可変）
このへん
13/08/03
10

Binary
Matrix
FactorizaRon
with

low
rank
assumpRon(1/2)
•  観測されるvoRng行列Yは隠れた真の値にノイズが
乗ったもの(を，0/1に離散化した)と仮定

–  イメージとしては，「どれくらい賛成か」という度合い

•  分解された行列Hに低ランク性を仮定(Kc:小)

Hを，ランク1の行列Kc個の足しあわせで表す(sk
:
重み)
Kc,
skをどのように求めるか・・・・？
このへん
13/08/03
11

Binary
Matrix
FactorizaRon
with

low
rank
assumpRon(2/2)
•  xは以下のような正規分布でモデル化

–  probit
model

–  l,
r
は
{0,1}のベクトルであることに注意

•  uk,
vkのうち，l,rで値が立っているとこだけFilterするイメージ

•  sk,
Kcは
mulRplicaRve
gamma
process(MGP)でモデル

–  ランクを深くすると，skは速やかに減少(Theorem1)

–  AdapRve
Samplerというサンプリング法+閾値で求める
13/08/03
12

BMFとFTMのJoint
Model
•  FTMのbベクトルと，BMFのrベクトル

–  b：FTMにおいて，ある文書中であるトピックが扱われるかどうかの0/1
ベクトル

–  r
:
BMFにおいて，行列を分解した結果得られたある実数ベクトルｖを，
ﬁlterするような0/1ベクトル

•  v
:
Hから1ランク分とってきたようなイメージ

•  単純に
b
=
r
とおく

•  Inferenceは省略・・・

–  ちょっとややこしすぎます

•  v,u
:
Hを構成する実数値ベクトル

•  sk
:

ランク1行列の重み(スカラー)

•  τ,
δ
:
MGPのパラメータ

•  r
:
0/1ベクトル

–  ハイパーパラメータ

•  αl
,
αr
:
IBPのbeta分布，

αc
:
MGPのgamma分布

•  γ
:
FTMのgamma分布,

η
:
FTMのDirichlet分布,

κ
:
MGPのthreshold

b
=
r
13/08/03
13

実験に用いているデータ
•  アメリカ合衆国下院議会のroll-‐callデータ

– 106th
–
111th
(1999年-‐2010年)

– 誰がどの法案に賛成したか分かる（記名投票）

– 定数435,
法案数は書いてなかった・・・(1000くら
い？)

•  (参考)アメリカはほぼ完全な二大政党制

– 2013年現在，共和党
232,
民主党
200,
欠員3

– 党議拘束みたいなのはほぼ無いらしい

•  日本だと状況がかなり違いそう
13/08/03
14

行列穴埋め実験
縦軸：正解率，横軸:rank

Binary
Matrix
FactorizaRon
(with
low-‐rank
assumpRon)の効果を確かめる

（この実験においては，テキストは一切用いていない）
PMF
:
ProbabilisRc
Matrix
FactorizaRon
[Salakhutdinov+,
NIPS’07]

PMF
+
MGP
:
PMFのrankをMGPで推定

BMF
:
Binary
Matrix
FactorizaRon
[Meeds+,
NIPS’06]

(・・・フルランク？)

Proposed
:
BMFのrankをMGPで推定
13/08/03
15
BMFは表現力が低いが，MGPを導入するとPMFとcompeRRveになる

新法案に対する予測
モデルを学習したあと，テキストだけが与えられたときに，

その法案が採択されるかを予測

•  IPTM
:
Ideal
Point
Topic
Model[Gerrish
and
Blei,
ICML’11]

•  FATM
:
因子分析+Topic
Model
+
Markov
Process[Wang+,
NIPS’10]

横軸：トピック数(本来は自動で推論できるが，比較のため外から決定)

縦軸：正解率(どう評価すべきか悩ましい)

13/08/03
16
IPTMについては

hep://www.ism.ac.jp/~daichi/lectures/ISM-‐2012-‐TopicModels_day2_4_supervised.pdf

の後半部分に，NTT石黒さんによる解説があります

トピックの分析
賛成が90%以上の法案

•  子供を守る

•  環境問題

•  テロリストへ屈しない
賛成が60%以下の法案

•  議会会期の問題？

•  減税に関する問題

•  すでにある法案の修正
13/08/03
17
誰もが賛成するようなトピック
意見がわかれるようなトピック

まとめ／感想
•  行列とテキストのJoint
Modelを提案

–  feature側にIBP
Priorをおいてbinary
shared
featureを学習

•  FTMのbと，BMFのrを結びつける
latent
な
feature

–  分解の結果得られたlatent
real
matrixに低ランク性を仮定

•  問題設定は面白い

–  が，問題の特徴を生かしきれていない気も・・・

•  政党など，同じvoteをしやすい会派(アメリカではあまり問題にならない？，Hの低ランク
性でいちおう考慮はしている）

•  時間（社会の状況）によって，賛否が異なる

•  どこまで問題speciﬁcにするかは難しいところ

–  性能評価も難しい

•  採択／非採択の2クラス予測で，90 94%はどれほどのものか

•  ここまで複雑にする必要があるのか疑問

–  基本的には，コンテンツ推薦システムと同様の問題設定

–  content
–
collabolaRve
ﬁlteringのハイブリッドなら，他にもいろいろある

–  やり過ぎ感がある一方，キャプチャーしきれていない要素もありそうで，何と
もいえない読後感
13/08/03
18

13/08/03
19
αr
αl
αc
γ
η
y
:
xを0/1に離散化

x
:
probit(s,u,l,v,r)
IBP
IBP
MGP
Dir
gamma
θ

Dir(λ
●
r)
Mult
Mult
Focused
Topic
Model
Binary
Matrix
FactorizaRon
with
low
rank
assumpRon
Mult
行列モデルとトピックモデ
ルでシェアされる変数
行列分解モデル
トピックモデル
ドキュメント数
ユーザー数

Joint Modeling of a Matrix with Associated Text via Latent Binary Features

Recommended

Recommended

More Related Content

What's hot

What's hot (17)

More from Koji Matsuda

More from Koji Matsuda (19)

Recently uploaded

Recently uploaded (15)

Joint Modeling of a Matrix with Associated Text via Latent Binary Features