読書会「トピックモデルによる統計的潜在意味解析」第6回 4.3節潜在意味空間における分類問題

1
読書会「トピックモデルによる統計的潜在意味解析」
第6回
4.3節潜在意味空間における分類問題
日時： 2015/09/17 19:30～
場所：株式会社 ALBERT
発表者： @aoki_kenji

目次
2
• 4.3.1節 LDA＋ロジスティック回帰モデル
• 4.3.2節 LDA＋多クラスロジスティック回帰モデル
• 4.3.3節 LDA＋SVM
• 4.3.4節 LDA＋SVMの学習アルゴリズム

目次
3
→時間の都合上まとめて定式化

（多クラス）ロジスティック回帰モデル
4
• ラベルを推定するためのモデル
• ラベルの種類が二つの場合はロジスティック回帰モデル、三つ以上の場合は
多クラスロジスティック回帰モデルと呼ばれる
• LDAの文脈では、例えば商品レビューが肯定的か否定的かをそのレビューに
含まれる単語から推定する問題がこれに該当する
ロジスティック回帰モデルの適用例（出力：試験の合否入力：勉強時間）
（引用元） Wikipedia： https://en.wikipedia.org/wiki/Logistic_regression

（多クラス）ロジスティック回帰モデルの定式化
5
• 出力を𝑦、入力を𝒙とすると 𝐶 + 1 クラスロジスティック回帰モデルは以下の式
で表わされる ※𝜼1:𝐶 = 𝜼1, ⋯ , 𝜼 𝐶 はパラメータ
𝑝 𝑦 𝒙, 𝜼1:𝐶 =
exp 𝜼 𝑦
𝑇
𝒙
1 + 𝑐=1
𝐶
exp 𝜼 𝑐
𝑇
𝒙
4.40 , 4.53
• 一般化線形モデルの式で書くと
𝑝 𝑦 𝒙, 𝜼1:𝐶 = exp 𝜼 𝑦
𝑇 𝒙 − log 1 +
𝑐=1
𝐶
exp 𝜼 𝑐
𝑇 𝒙 (4.41)

LDA＋（多クラス）ロジスティック回帰モデルの定式化
6
• モデル全体は以下の式となる
𝑝 𝒚, 𝒘, 𝒛, 𝝓, 𝜽 𝜶, 𝜷, 𝜼1:𝐶 = 𝑝 𝒚 𝒛, 𝜼1:𝐶 𝑝 𝒘 𝒛, 𝝓 𝑝 𝒛 𝜽 𝑝 𝝓 𝜷 𝑝 𝜽 𝜶
• ロジスティック回帰モデルの部分は4.2節と同様に入力を 𝒛 𝑑とする
𝑝 𝒚 𝒛, 𝜼1:𝐶 =
𝑑=1
𝑀
𝑝 𝑦 𝑑 𝒛 𝑑, 𝜼1:𝐶
𝑝 𝑦 𝑑 𝒛 𝑑, 𝜼1:𝐶 = exp 𝜼 𝑦
𝑇
𝒛 𝑑 − log 1 +
𝑐=1
𝐶
exp 𝜼 𝑐
𝑇
𝒛 𝑑 4.42
新たに追加された部分

LDA＋（多クラス）ロジスティック回帰モデルの学習その１
7
• 4.2節と同様に変分ベイズ法によって学習する
• 𝐹LDAをLDAの変分下限とするとLDA＋（多クラス）ロジスティック回帰モデルの
変分下限は以下の式で表わされる
log 𝑝 𝒚, 𝒘 𝜶, 𝜷, 𝜼1:𝐶
≥
𝒛
𝑞 𝒛, 𝜽, 𝝓 log
𝑝 𝒚, 𝒘, 𝒛, 𝝓, 𝜽 𝜶, 𝜷, 𝜼1:𝐶
𝑞 𝒛, 𝜽, 𝝓
𝑑𝜽𝑑𝝓
=
𝒛
𝑝 𝒚 𝒛, 𝜼1:𝐶 𝑝 𝒘 𝒛, 𝝓 𝑝 𝒛 𝜽 𝑝 𝝓 𝜷 𝑝 𝜽 𝜶
𝑑𝜽𝑑𝝓
= 𝐹LDA +
𝒛
𝑞 𝒛, 𝜽, 𝝓 log 𝑝 𝒚 𝒛, 𝜼1:𝐶
= 𝐹LDA + 𝐸 𝑞 𝒛 log 𝑝 𝒚 𝒛, 𝜼1:𝐶 4.43
• したがって𝑞 𝜽 , 𝑞 𝝓 の更新式はLDAと同じ
• 次ページ以降で𝑞 𝒛 , 𝜼1:𝐶の更新式を導出する

LDA＋（多クラス）ロジスティック回帰モデルの学習その２
8
𝐸 𝑞 𝒛 𝑑
log 𝑝 𝑦 𝑑 𝒛 𝑑, 𝜼1:𝐶
= 𝜼 𝑦 𝑑
𝑇 𝐸 𝑞 𝒛 𝑑
𝒛 𝑑 − 𝐸 𝑞 𝒛 𝑑
log 1 +
𝑐=1
𝐶
exp 𝜼 𝑐
𝑇 𝒛 𝑑 4.45 , 4.54
• 上記第2項は解析的に計算できないため
log 1 +
𝑐=1
𝐶
exp 𝜼 𝑐
𝑇
𝒛 𝑑 ≤
1 + 𝑐=1
𝐶
exp 𝜼 𝑐
𝑇 𝒛 𝑑
𝜉 𝑑
+ log 𝜉 𝑑 − 1 (4.44)
を利用して目的関数の下限を最大化する（変分下限の下限を最大化する）
• (4.43)と(4.44)から
𝐹LDA +
𝑑=1
𝑀
𝜼 𝑦 𝑑
𝑇 𝐸 𝑞 𝒛 𝑑
𝒛 𝑑 −
1
𝜉 𝑑
𝐸 𝑞 𝒛 𝑑
1 +
𝑐=1
𝐶
exp 𝜼 𝑐
𝑇 𝒛 𝑑 − log 𝜉 𝑑 + 1
= 𝐹LDA + 𝐿m−logistic
が新たな目的関数となる（ちなみに右辺第2項は 4.33 式から計算可能）

LDA＋（多クラス）ロジスティック回帰モデルのパラメータ推定その１
9
◎𝜼 𝑐の推定
𝜕𝐿m−logistic
𝜕𝜼 𝑐
=
𝑑 𝑦 𝑑 = 𝑐
𝐸 𝑞 𝒛 𝑑
𝒛 𝑑 −
1
𝜉 𝑑
𝜕
𝜕𝜼 𝑐
𝐸 𝑞 𝒛 𝑑
1 + exp 𝜼 𝑐
𝑇 𝒛 𝑑 4.57
から
𝜕𝜼 𝑐
= 0を求めたいが解析的に解けないため共役勾配法（付録A.4）を
用いて求める（ちなみに右辺第2項は 4.35 式から計算可能）

LDA＋（多クラス）ロジスティック回帰モデルのパラメータ推定その２
10
◎𝝃 𝑑の推定
𝜕𝝃 𝑑
=
1
𝜉 𝑑
2 𝐸 𝑞 𝒛 𝑑
1 +
𝑐=1
𝐶
exp 𝜼 𝑐
𝑇 𝒛 𝑑 −
1
𝜉 𝑑
= 0 4.58
から
𝜉 𝑑 = 𝐸 𝑞 𝒛 𝑑
1 +
𝑐=1
𝐶
exp 𝜼 𝑐
𝑇 𝒛 𝑑 4.59

LDA＋（多クラス）ロジスティック回帰モデルのパラメータ推定その３
11
◎𝑞 𝑧 𝑑,𝑖 = 𝑘 の推定
𝜕𝑞 𝑧 𝑑,𝑖 = 𝑘
=
𝜂 𝑦 𝑑,𝑘
𝑛 𝑑
−
1
𝜉 𝑑
𝜕
𝐸 𝑞 𝒛 𝑑
1 +
𝑐=1
𝐶
exp 𝜼 𝑐
𝑇 𝒛 𝑑 4.61
で、右辺第2項は 4.60 から計算可能
したがって 3.98 と合わせると
𝑞 𝑧 𝑑,𝑖 = 𝑘
∝ exp 𝐸 𝑞 𝝓 𝑘
log 𝜙 𝑘,𝑤 𝑑,𝑖
exp 𝐸 𝑞 𝜽 𝑑
log 𝜃 𝑑,𝑘 exp
4.62

目次
12

サポートベクターマシン（SVM）
13
• ロジスティック回帰モデルと同様に二値のラベルを推定するための手法
• 分離超平面（下図中央の実線）と、2種類のデータ（黒丸と白丸）との間の距離
（破線と実線の距離）が最大になるように分類超平面を決定する
SVMの概念図
（引用元） Wikipedia： https://en.wikipedia.org/wiki/Support_vector_machine

ソフトマージンのサポートベクターマシン（SVM）の定式化
14
• 𝒙𝑖を前ページ図中の黒丸および白丸の座標、 𝑦𝑖を黒か白かを表わすラベル、
𝜼を分離超平面の傾きおよび切片とするとソフトマージンのSVMの最適化問題
は以下で定式化される
min
𝜼,𝝃
1
2
𝜼 𝑇 𝜼 + 𝐶
𝑖=1
𝑛
𝜉𝑖 ,
s.t. ∀𝑖 1 − 𝑦𝑖 𝜼 𝑇 𝒙𝑖 − 𝜉𝑖 ≤ 0, 𝜉𝑖 ≥ 0 4.63
• 𝜉𝑖があるため、必ずしも1 − 𝑦𝑖 𝜼 𝑇
𝒙𝑖 ≤ 0が満たされなくてもよい
• ただし𝜉𝑖は目的関数に含まれるため、𝜼と同時に小さくすることが望まれる
• SVMはロジスティック回帰とは異なり確率モデルによる定式化ではないため、
LDAと組み合わせるには異なる枠組みが必要

制約付きベイズ学習による枠組みその１
15
• 事後分布導出を以下の最適化問題によって定式化する
min
𝑞 𝜽
𝐾𝐿 𝑞 𝜽 𝑝 𝜽 − 𝑞 𝜽 log 𝑝 𝑥1:𝑛 𝜽 𝑑𝜽 ,
s.t. 𝑞 𝜽 ∈ 𝑃 4.65
ここで制約条件は
𝑞 𝜽 𝑑𝜽 = 1
を表わす
• 上記の解は変分法によって
𝑞 𝜽 = 𝑝 𝜽 𝑥1:𝑛
と求まる

制約付きベイズ学習による枠組みその２
16
• 前ページをもう少し一般化すると
min
𝑞 𝜽
𝐾𝐿 𝑞 𝜽 𝑝 𝜽 − 𝑞 𝜽 log 𝑝 𝑥1:𝑛 𝜽 𝑑𝜽 + 𝑈 𝝃 ,
s.t. 𝑞 𝜽 ∈ 𝑃 𝑐 𝝃 4.66
𝝃はここで制約緩和のためのスラック変数、𝑈 𝝃 は制約を破ったときの罰則金
を意味する

制約付きベイズ学習による枠組みその３
17
• LDAの変分下限は
−𝐹𝐿𝐷𝐴 = −
𝒛
𝑝 𝒘, 𝒛, 𝝓, 𝜽 𝜶, 𝜷
𝑑𝜽𝑑𝝓
= −
𝒛
𝑝 𝒛, 𝝓, 𝜽 𝜶, 𝜷 𝑝 𝒘 𝒛, 𝝓, 𝜽
𝑑𝜽𝑑𝝓
= 𝐾𝐿 𝑞 𝒛, 𝜽, 𝝓 𝑝 𝒛, 𝝓, 𝜽 𝜶, 𝜷 − 𝑞 𝒛, 𝜽, 𝝓 log 𝑝 𝒘 𝒛, 𝝓, 𝜽 𝑑𝜽𝑑𝝓
なので、制約付きベイズ学習の枠組みで最適化問題として定式化すると
min
𝑞 𝒛,𝝓,𝜽
−𝐹𝐿𝐷𝐴 ,
s.t. 𝑞 𝒛, 𝝓, 𝜽 ∈ 𝑄 4.69
𝑄は因子化仮定を表わす

制約付きベイズ学習による枠組みその4
18
• 一方で、SVMの定式化 4.63 を以下のように解釈する
min
𝜼,𝝃
− log 𝑝 𝜼 + 𝐶
𝑖=1
𝑛
𝜉𝑖 ,
s.t. ∀𝑖 1 − 𝑦𝑖 𝜼 𝑇 𝒙𝑖 − 𝜉𝑖 ≤ 0, 𝜉𝑖 ≥ 0 4.67
ここで、
𝑝 𝜼 =
1
2𝜋
𝐷 exp −
1
2
𝜼 𝑇
𝜼
を𝜼の事前分布と仮定し、𝜼を点推定することを考える

制約付きベイズ学習による枠組みその4
19
• したがって、 4.69 と 4.67 を組み合わせて、LDA＋SVMを以下の式で定式化
する
min
𝑞 𝒛,𝝓,𝜽 ,𝜼,𝝃
−𝐹𝐿𝐷𝐴 − log 𝑝 𝜼 + 𝐶
𝑑=1
𝑀
𝜉 𝑑 ,
s.t. 𝑞 𝒛, 𝝓, 𝜽 ∈ 𝑄, ∀𝑑 1 − 𝑦 𝑑 𝜼 𝑇 𝐸 𝑞 𝒛 𝑑
𝒛 𝑑 − 𝜉 𝑑 ≤ 0, 𝜉 𝑑 ≥ 0 4.70

目次
20

LDA＋SVMの学習その１
21
• 制約付き最適化問題 4.70 のラグランジュ関数は、𝜆 𝑑, 𝛾 𝑑をラグランジュ乗数
とすると、以下の式で表わされる
𝐿 𝑞 𝒛 , 𝑞 𝜽 , 𝑞 𝝓 , 𝜼, 𝝀, 𝜸
= −𝐹𝐿𝐷𝐴 +
1
2
𝜼 𝑇
𝜼 + 𝐶
𝑑=1
𝑀
𝜉 𝑑 +
𝑑=1
𝑀
𝜆 𝑑 1 − 𝑦 𝑑 𝜼 𝑇
𝐸 𝑞 𝒛 𝑑
𝒛 𝑑 − 𝜉 𝑑 +
𝑑=1
𝑀
𝛾 𝑑 𝜉 𝑑 4.71
• 𝜼, 𝝀, 𝜸の更新は𝐸 𝑞 𝒛 𝑑
𝒛 𝑑 が与えられたもとでSVMの学習アルゴリズムをその
まま適用することができる
• 次ページ以降で𝑞 𝒛 の更新式を導出する

LDA＋SVMのパラメータ推定その１
22
◎𝑞 𝑧 𝑑,𝑖 = 𝑘 の推定
𝜕
𝜼 𝑇 𝐸 𝑞 𝒛 𝑑
𝒛 𝑑 =
𝜂 𝑘
𝑛 𝑑
4.73 , 4.74
より、 3.98 と合わせると
𝑞 𝑧 𝑑,𝑖 = 𝑘
∝ exp 𝐸 𝑞 𝝓 𝑘
log 𝜙 𝑘,𝑤 𝑑,𝑖
exp 𝐸 𝑞 𝜽 𝑑
log 𝜃 𝑑,𝑘 exp
𝜆 𝑑 𝑦 𝑑 𝜂 𝑘
𝑛 𝑑
4.75
したがって、大きい𝜆 𝑑に対応する文書（サポートベクター）ほど、SVMの学習結果
𝜼の影響を強く受ける

LDA＋SVMのパラメータ推定その２
23
• 次に𝜼の点推定でなく事後分布を求める場合を考える（𝜼に関しても変分近似
を仮定する）
• 4.70 は以下のように書き換えられる
min
𝑞 𝒛,𝝓,𝜽,𝜼 ,𝝃
−𝐹𝐿𝐷𝐴 + 𝐾𝐿 𝑞 𝜼 𝑝 𝜼 + 𝐶
𝑑=1
𝑀
𝜉 𝑑 ,
s.t. 𝑞 𝒛, 𝝓, 𝜽, 𝜼 ∈ 𝑄, ∀𝑑 1 − 𝑦 𝑑 𝐸 𝑞 𝒛 𝑑,𝜼 𝜼 𝑇 𝒛 𝑑 − 𝜉 𝑑 ≤ 0, 𝜉 𝑑 ≥ 0 4.76
• 実は𝑞 𝜼 として𝑁 𝝁, 𝑰 を仮定しても同じ最適化問題となる（証明は162ページ
を参照）ので上記の最適化問題は以下のように書き換えられる
min
𝑞 𝒛,𝝓,𝜽 ,𝝁,𝝃
−𝐹𝐿𝐷𝐴 +
1
2
𝝁 𝑇
𝝁 + 𝐾 + 𝐶
𝑑=1
𝑀
𝜉 𝑑 ,
s.t. 𝑞 𝒛, 𝝓, 𝜽 ∈ 𝑄, ∀𝑑 1 − 𝑦 𝑑 𝝁 𝑇
𝐸 𝑞 𝒛 𝑑
𝒛 𝑑 − 𝜉 𝑑 ≤ 0, 𝜉 𝑑 ≥ 0 4.76
変更があった部分

LDA＋SVMのパラメータ推定その３
24
• 制約付き最適化問題 4.76 のラグランジュ関数は、𝜆 𝑑, 𝛾 𝑑をラグランジュ乗数
とすると、以下の式で表わされる
𝐿 𝑞 𝒛 , 𝑞 𝜽 , 𝑞 𝝓 , 𝑞 𝜼 , 𝝀, 𝜸
= −𝐹𝐿𝐷𝐴 +
1
2
𝝁 𝑇 𝝁 + 𝐾 + 𝐶
𝑑=1
𝑀
𝜉 𝑑 +
𝑑=1
𝑀
𝜆 𝑑 1 − 𝑦 𝑑 𝝁 𝑇 𝐸 𝑞 𝒛 𝑑
𝒛 𝑑 − 𝜉 𝑑
+
𝑑=1
𝑀
𝛾 𝑑 𝜉 𝑑 4.83
• 𝝁, 𝝀, 𝜸の更新は𝐸 𝑞 𝒛 𝑑
𝒛 𝑑 が与えられたもとでSVMの学習アルゴリズムをその
まま適用することができる
• 𝑞 𝒛 の更新式 4.75 も𝜼が𝝁に変わっただけ

読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題

More Related Content

What's hot

Viewers also liked

Similar to 読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題