第1章 統計的潜在意味解析
第 1 回「 統計的潜在意味解析」
読書会
@ksmzn
会場:株式会社 ALBERT 西新宿
June 4, 2015
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 1 / 34
自己紹介
Koshi @ksmzn
某大学 M2 → 社会人一年目
法 研究
SQL 日々
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 2 / 34
https://speakerdeck.com/yamano357/tokyowebmining46th
先日 TokyoWebmining 資料 参考
、見 !!
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 3 / 34
目次
1 1.1 潜在的意味・ 潜在的共起性
2 1.2 潜在意味解析 歴史
3 1.4 確率的潜在変数
4 1.5 確率的生成
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 4 / 34
目次
1 1.1 潜在的意味・ 潜在的共起性
2 1.2 潜在意味解析 歴史
3 1.4 確率的潜在変数
4 1.5 確率的生成
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 5 / 34
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 6 / 34
潜在的意味・ 潜在的共起性
潜在的意味
▶ 「音楽」 「 」 単語 無
、単語群 見 想起
▶ 複数 単語 共起性 創発 情報
▶ 潜在的意味 呼
→「単語 共起性 数学的 化 ?」
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 7 / 34
目次
1 1.1 潜在的意味・ 潜在的共起性
2 1.2 潜在意味解析 歴史
3 1.4 確率的潜在変数
4 1.5 確率的生成
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 8 / 34
潜在意味解析 歴史
▶ 行列分解 (1988)
Latent Semantic Indexing/Analysis (LSI/LSA)
▶ 確率 (1998)
Probabilistic LSI/LSA (PLSI/PLSA)
▶ 階層 (2003)
Latent Dirichlet Allocation (LDA)
▶ 拡張 多数 (2004 )
▶ 大規模 高速化 (2007)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 9 / 34
特異値分解
特異値分解
▶ 単語文書行列 X 3 行列 分解
X =US VT
▶ U, S, V 各列 特異値 大 順 K
個用 、 ˜U, ˜S , ˜V 作 、 K 低
近似行列 ˜X 得
˜X = ˜U ˜S ˜VT
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 10 / 34
特異値分解
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 11 / 34
特異値分解 潜在意味解析
文書 含 単語 抽出 、 頻度
単語文書行列 X 作成
▶ 「car」 検索 、文書 1 発見
▶ 「automobile」 、文書 2 発見
→単語 持 潜在的 意味 考
→特異値分解
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 12 / 34
特異値分解 結果
文書 1・2 、「car」「automobile」 頻度 0
!
→「drive」 共起性 、潜在的 意味 抽出
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 13 / 34
˜V 情報
各列 、複数 単語 共起性 表 。
→潜在
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 14 / 34
˜U 情報
各列 、文書 共起性 表
。
→間接的 、文書 単語 共起性 抽出
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 15 / 34
LSI 問題点
▶ ˜U, ˜S 解釈 難
▶ 特異値分解 性質 、 軸 互
直交 、 対 非常 強 制約
→ PLSI, 階層 , etc...
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 16 / 34
目次
1 1.1 潜在的意味・ 潜在的共起性
2 1.2 潜在意味解析 歴史
3 1.4 確率的潜在変数
4 1.5 確率的生成
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 17 / 34
確率的潜在変数
確率的潜在変数
1
観測 潜在変数 仮定 数理
2
潜在変数 推定 、 間
類似性 意味 解析
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 18 / 34
例: 間 類似性
▶ x = {x1, x2, . . . , xn} : 観測変数
▶ z = {z1, z2, . . . , zn} : 潜在変数
▶ ϕ = {ϕ1, ϕ2, . . . , ϕK} :
類似 表 確率変数
z1 = z2 = k ⇒
x1 x2 ϕk 意味 類似
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 19 / 34
目次
1 1.1 潜在的意味・ 潜在的共起性
2 1.2 潜在意味解析 歴史
3 1.4 確率的潜在変数
4 1.5 確率的生成
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 20 / 34
確率的生成
確率的生成
生成過程 確率 表現 数理
確率的生成 視覚的 表現
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 21 / 34
生成過程
確率変数 xi(x = 1, . . . , n) 確率分布 p(xi|ϕ) 従
,
xi ∼ p(xi|ϕ) (i = 1, . . . , n)
記述 。
↓
確率変数 xi 値 , 確率分布 p(xi|ϕ) 生成
示 。
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 22 / 34
考
K 個 目 出 n 回振 出 目
生成 考
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 23 / 34
▶ 確率変数間 条件付 依存構造 表現
▶ 生成 π zi 関係
以下 表
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 24 / 34
定理 条件付 独立性
、 定理 条件付 独立
性 同時確率 展開 役立 。
定理
p (x|y) =
p (y|x) p (x)
p (y)
条件付 独立性
z 与 下 x y 条件付 確率分布 p(x|z), p(y|z)
, (x, y) 条件付 同時分布 p(x, y|z) 。
、 x, y 対 p(x, y|z) = p(x|z)p(y|z) 成 立
、「z 与 下 x y 条件付 独立 」 、
x y|z 表
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 25 / 34
tail-to-tail型
tail-to-tail 型
条件付 独立性:a b|c
⇒ p(a, b|c) = p(a|c)p(b|c)
対応 同時分布
p(a, b, c) = p(a|c)p(b|c)p(c)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 26 / 34
head-to-tail型
head-to-tail 型
条件付 独立性:a b|c
⇒ p(a, b|c) = p(a|c)p(b|c)
対応 同時分布
p(a, b, c) = p(b|c)p(c|a)p(a)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 27 / 34
head-to-head型
head-to-head 型
条件付 独立性:a ̸ b|c
⇒ p(a, b|c) p(a|c)p(b|c)
対応 同時分布
p(a, b, c) = p(c|a, b)p(a)p(b)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 28 / 34
生成 同時分布
同時分布 p(x, z, π, ϕ, η) 展開
▶ π 生成確率 p(π)
▶ η 生成確率 p(η)
▶ π 与 下 z
tail-to-tail 型 、
p(z|π) =
n∏
i=1
p(zi|π)
▶ η 与 下 ϕ
tail-to-tail 型 、
p(ϕ|η) =
K∏
k=1
p(ϕk|η)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 29 / 34
生成 同時分布
▶ z ϕ 与 下 x tail-to-tail 型 、
p(x|z, π, ϕ, η) = p(x|z, ϕ)
=
n∏
i=1
p(xi|zi, ϕ)
▶ 同時分布 以下 展開
p(x, z, π, ϕ, η) = p(x|z, π, ϕ, η)p(z, π, ϕ, η)
= p(x|z, ϕ)p(z|π)p(π)p(ϕ|η)p(η)
=
n∏
i=1
p(xi|zi, ϕ)
n∏
i=1
p(zi|π)p(π)
K∏
k=1
p(ϕk|η)p(η)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 30 / 34
生成 条件付 分布1
条件付 分布 p(z|x, π, ϕ, η) 計算
▶ π x z 繋
依存関係
▶ x 与 、
ϕ z 対 独立
(head-to-head 型)
▶ ϕ 与 、
η x 条件付 独立
(head-to-tail 型)。従 、
η z 条件付 独立
▶ 、
p(z|x, π, ϕ, η) = p(z|x, π, ϕ)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 31 / 34
生成 条件付 分布2
条件付 分布 p(ϕ|x, π, z, η) 計算
▶ η x ϕ 繋
依存関係
▶ x 与 、
ϕ z 対 独立
(head-to-head 型)
▶ z 与 、
π x 条件付 独立
(head-to-tail 型)。従 、
π ϕ 条件付 独立
▶ 、
p(ϕ|x, z, π, η) = p(ϕ|x, z, η)
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 32 / 34
1. 潜在的意味 呼
2. 特異値分解 行 、文書 潜在的 意味 解析
3. 書 、同時分布 展
開 容易
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 33 / 34
清聴 .
@ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 34 / 34

「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

  • 1.
    第1章 統計的潜在意味解析 第 1回「 統計的潜在意味解析」 読書会 @ksmzn 会場:株式会社 ALBERT 西新宿 June 4, 2015 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 1 / 34
  • 2.
    自己紹介 Koshi @ksmzn 某大学 M2→ 社会人一年目 法 研究 SQL 日々 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 2 / 34
  • 3.
    https://speakerdeck.com/yamano357/tokyowebmining46th 先日 TokyoWebmining 資料参考 、見 !! @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 3 / 34
  • 4.
    目次 1 1.1 潜在的意味・潜在的共起性 2 1.2 潜在意味解析 歴史 3 1.4 確率的潜在変数 4 1.5 確率的生成 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 4 / 34
  • 5.
    目次 1 1.1 潜在的意味・潜在的共起性 2 1.2 潜在意味解析 歴史 3 1.4 確率的潜在変数 4 1.5 確率的生成 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 5 / 34
  • 6.
    @ksmzn 第 1章 統計的潜在意味解析 June 4, 2015 6 / 34
  • 7.
    潜在的意味・ 潜在的共起性 潜在的意味 ▶ 「音楽」「 」 単語 無 、単語群 見 想起 ▶ 複数 単語 共起性 創発 情報 ▶ 潜在的意味 呼 →「単語 共起性 数学的 化 ?」 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 7 / 34
  • 8.
    目次 1 1.1 潜在的意味・潜在的共起性 2 1.2 潜在意味解析 歴史 3 1.4 確率的潜在変数 4 1.5 確率的生成 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 8 / 34
  • 9.
    潜在意味解析 歴史 ▶ 行列分解(1988) Latent Semantic Indexing/Analysis (LSI/LSA) ▶ 確率 (1998) Probabilistic LSI/LSA (PLSI/PLSA) ▶ 階層 (2003) Latent Dirichlet Allocation (LDA) ▶ 拡張 多数 (2004 ) ▶ 大規模 高速化 (2007) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 9 / 34
  • 10.
    特異値分解 特異値分解 ▶ 単語文書行列 X3 行列 分解 X =US VT ▶ U, S, V 各列 特異値 大 順 K 個用 、 ˜U, ˜S , ˜V 作 、 K 低 近似行列 ˜X 得 ˜X = ˜U ˜S ˜VT @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 10 / 34
  • 11.
    特異値分解 @ksmzn 第 1章 統計的潜在意味解析 June 4, 2015 11 / 34
  • 12.
    特異値分解 潜在意味解析 文書 含単語 抽出 、 頻度 単語文書行列 X 作成 ▶ 「car」 検索 、文書 1 発見 ▶ 「automobile」 、文書 2 発見 →単語 持 潜在的 意味 考 →特異値分解 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 12 / 34
  • 13.
    特異値分解 結果 文書 1・2、「car」「automobile」 頻度 0 ! →「drive」 共起性 、潜在的 意味 抽出 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 13 / 34
  • 14.
    ˜V 情報 各列 、複数単語 共起性 表 。 →潜在 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 14 / 34
  • 15.
    ˜U 情報 各列 、文書共起性 表 。 →間接的 、文書 単語 共起性 抽出 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 15 / 34
  • 16.
    LSI 問題点 ▶ ˜U,˜S 解釈 難 ▶ 特異値分解 性質 、 軸 互 直交 、 対 非常 強 制約 → PLSI, 階層 , etc... @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 16 / 34
  • 17.
    目次 1 1.1 潜在的意味・潜在的共起性 2 1.2 潜在意味解析 歴史 3 1.4 確率的潜在変数 4 1.5 確率的生成 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 17 / 34
  • 18.
    確率的潜在変数 確率的潜在変数 1 観測 潜在変数 仮定数理 2 潜在変数 推定 、 間 類似性 意味 解析 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 18 / 34
  • 19.
    例: 間 類似性 ▶x = {x1, x2, . . . , xn} : 観測変数 ▶ z = {z1, z2, . . . , zn} : 潜在変数 ▶ ϕ = {ϕ1, ϕ2, . . . , ϕK} : 類似 表 確率変数 z1 = z2 = k ⇒ x1 x2 ϕk 意味 類似 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 19 / 34
  • 20.
    目次 1 1.1 潜在的意味・潜在的共起性 2 1.2 潜在意味解析 歴史 3 1.4 確率的潜在変数 4 1.5 確率的生成 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 20 / 34
  • 21.
    確率的生成 確率的生成 生成過程 確率 表現数理 確率的生成 視覚的 表現 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 21 / 34
  • 22.
    生成過程 確率変数 xi(x =1, . . . , n) 確率分布 p(xi|ϕ) 従 , xi ∼ p(xi|ϕ) (i = 1, . . . , n) 記述 。 ↓ 確率変数 xi 値 , 確率分布 p(xi|ϕ) 生成 示 。 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 22 / 34
  • 23.
    考 K 個 目出 n 回振 出 目 生成 考 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 23 / 34
  • 24.
    ▶ 確率変数間 条件付依存構造 表現 ▶ 生成 π zi 関係 以下 表 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 24 / 34
  • 25.
    定理 条件付 独立性 、定理 条件付 独立 性 同時確率 展開 役立 。 定理 p (x|y) = p (y|x) p (x) p (y) 条件付 独立性 z 与 下 x y 条件付 確率分布 p(x|z), p(y|z) , (x, y) 条件付 同時分布 p(x, y|z) 。 、 x, y 対 p(x, y|z) = p(x|z)p(y|z) 成 立 、「z 与 下 x y 条件付 独立 」 、 x y|z 表 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 25 / 34
  • 26.
    tail-to-tail型 tail-to-tail 型 条件付 独立性:ab|c ⇒ p(a, b|c) = p(a|c)p(b|c) 対応 同時分布 p(a, b, c) = p(a|c)p(b|c)p(c) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 26 / 34
  • 27.
    head-to-tail型 head-to-tail 型 条件付 独立性:ab|c ⇒ p(a, b|c) = p(a|c)p(b|c) 対応 同時分布 p(a, b, c) = p(b|c)p(c|a)p(a) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 27 / 34
  • 28.
    head-to-head型 head-to-head 型 条件付 独立性:a̸ b|c ⇒ p(a, b|c) p(a|c)p(b|c) 対応 同時分布 p(a, b, c) = p(c|a, b)p(a)p(b) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 28 / 34
  • 29.
    生成 同時分布 同時分布 p(x,z, π, ϕ, η) 展開 ▶ π 生成確率 p(π) ▶ η 生成確率 p(η) ▶ π 与 下 z tail-to-tail 型 、 p(z|π) = n∏ i=1 p(zi|π) ▶ η 与 下 ϕ tail-to-tail 型 、 p(ϕ|η) = K∏ k=1 p(ϕk|η) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 29 / 34
  • 30.
    生成 同時分布 ▶ zϕ 与 下 x tail-to-tail 型 、 p(x|z, π, ϕ, η) = p(x|z, ϕ) = n∏ i=1 p(xi|zi, ϕ) ▶ 同時分布 以下 展開 p(x, z, π, ϕ, η) = p(x|z, π, ϕ, η)p(z, π, ϕ, η) = p(x|z, ϕ)p(z|π)p(π)p(ϕ|η)p(η) = n∏ i=1 p(xi|zi, ϕ) n∏ i=1 p(zi|π)p(π) K∏ k=1 p(ϕk|η)p(η) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 30 / 34
  • 31.
    生成 条件付 分布1 条件付分布 p(z|x, π, ϕ, η) 計算 ▶ π x z 繋 依存関係 ▶ x 与 、 ϕ z 対 独立 (head-to-head 型) ▶ ϕ 与 、 η x 条件付 独立 (head-to-tail 型)。従 、 η z 条件付 独立 ▶ 、 p(z|x, π, ϕ, η) = p(z|x, π, ϕ) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 31 / 34
  • 32.
    生成 条件付 分布2 条件付分布 p(ϕ|x, π, z, η) 計算 ▶ η x ϕ 繋 依存関係 ▶ x 与 、 ϕ z 対 独立 (head-to-head 型) ▶ z 与 、 π x 条件付 独立 (head-to-tail 型)。従 、 π ϕ 条件付 独立 ▶ 、 p(ϕ|x, z, π, η) = p(ϕ|x, z, η) @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 32 / 34
  • 33.
    1. 潜在的意味 呼 2.特異値分解 行 、文書 潜在的 意味 解析 3. 書 、同時分布 展 開 容易 @ksmzn 第 1 章 統計的潜在意味解析 June 4, 2015 33 / 34
  • 34.
    清聴 . @ksmzn 第1 章 統計的潜在意味解析 June 4, 2015 34 / 34