SlideShare a Scribd company logo
「トピックモデルによる統計的潜在意味解析」輪読会
第2章 Latent Dirichlet Allocation
尾崎 遼
15/08/24
内容
この章の目的
統計的潜在意味解析で用いられる統計モデルの一つであるLatent Dirichlet
Allocation (LDA) について直感的な理解を得る
(学習アルゴリズムは3章で扱う)
目標
LDAが文章集合をどのようにモデル化しているか説明できる
LDAの幾何学的な解釈から名前の由来を説明できる
LDAの応用例を挙げることができる
2
準備: 多項分布
確率分布 π に従ってK個の値のいずれかをとる確率変数 x があるとき、
N回の独立な試行でそれぞれの値がでた回数が従う確率分布を多項分布という。
3
k番目の値が出た回数
1回の試行でk番目の値をとる確率
1回の試行の場合は以下のようにかける
N回の独立な試行の結果
準備: Dirichlet分布
Dirichlet分布
単体(座標の総和が1で定義される空間)上の確率分布
4
パラメタ(実数)
期待値
分散
ただし
準備: Dirichlet分布は多項分布の共役事前分布
Dirichlet分布は多項分布の事前分布として用いられる
多項分布のパラメタは単体上の点と解釈できる
多項分布の共役事前分布(conjugate prior)であるから
=多項分布を尤度、Dirichlet分布を事前分布とすると、事後分布の形もDirichlet分布に
なる → 数学的な取り扱いが容易になる
5
事後分布 事前分布尤度
nk+αk をパラメタとするDirichlet分布になる → 頻度 nk が加算されたイメージ
証明は 式(2.7)
文書中の単語の共起関係をどのようにモデル化するか
6
潜在トピック
V種類の単語から成るM個の文書集合
文書
文書 d の i 番目の単語
入力
単語のインデックス
潜在トピックの数 K
文書中の各単語はある潜在トピックから出現すると仮定
→ トピックごとの単語の出現分布として、多項分布を設定
→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定
各文書に複数のトピックが潜在していると仮定
→ 文書ごとの潜在トピックの出現分布として、多項分布を設定
→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定
LDAにおける生成過程
7
潜在トピック
V種類の単語から成るM個の文書集合
文書
文書 d の i 番目の単語
入力
出力
文書 d での潜在トピック k の出現確率
文書 d の i 番目の単語が
どの潜在トピックから生成されたかを
示す潜在変数
潜在トピック k での単語 v の出現確率単語のインデックス
潜在トピックの数 K
各文書での潜在トピック出現確率
各トピックでの単語出現確率
各トピックでの単語出現確率
LDAのグラフィカルモデル
8
潜在トピック k での単語 v の出現確率
単語のインデックス(種類)
潜在トピック k での単語の出現分布のパラメタ
文書 d における潜在トピックの出現分布のパラメタ
文書 d の i 番目の単語
wd,i を生成した
潜在トピックを示す潜在変数
文書 d での潜在トピック k の出現確率
φk の超パラメタθd の超パラメタ
潜在トピック
文書
単語
参考: トピックが文書内で共通の場合のグラフィカルモデ
ル
9
潜在トピック k での単語 v の出現確率
単語のインデックス(種類)
潜在トピック k での単語の出現分布のパラメタ
潜在トピックの出現分布のパラメタ
文書 d の i 番目の単語
wd,i を生成した
潜在トピックを示す潜在変数
文書 d での潜在トピック k の出現確率
φk の超パラメタθ の超パラメタ
潜在トピック
文書
単語
LDAの幾何学的解釈: 準備
単体 simplex
d次元空間において各成分の和が 1 になるような部分空間
多項分布のパラメタは単体上の点とみることができる
10
LDAの幾何学的解釈: 文書は単語座標単体上の点と見なせる
単語出現分布は単語座標単体上の点である
単語座標単体: 各単語の確率が1であるベクトルを基底ベクトルとする単体
文書は単語出現分布とみなせる
和が1になるように正規化すれば確率分布になる
よって、文書は単語座標単体上の点と解釈できる
11
単語出現分布は単語座標単体上の点である
潜在トピックは単語出現分布である
よって、潜在トピックは単語座標単体上の点と解釈できる
LDAの幾何学的解釈: 潜在トピックも単語座標単体上の点とみなせる
12
潜在トピック出現分布は潜在トピック座標単体上の点と解釈できる
潜在トピック座標単体: 潜在トピックを基底ベクトルとする単体
LDAでは各文書に潜在トピック出現分布が推定される
よって、文書は潜在トピック座標単体上の点と解釈できる
LDAの幾何学的解釈: 文書は潜在トピック座標単体上の点ともみなせる
13
LDAの幾何学的解釈: まとめ
Latent Dirichlet Allocation の名前の由来
文書を、Dirichlet分布に従って、潜在(latent)トピック座標単体上に配置(allocate)
しているから
14
文書→単語座標単体 潜在トピック→単語座標単体 文書→潜在トピック座標単体
LDAは文書を単語座標単体から潜在トピック座標単体へ射影している
単語座標単体よりも潜在トピック座標単体の方が低次元であるため
次元圧縮と捉えることもできる
LDAの応用 1
単語の予測分布を利用する
単語の予測分布
トピックを介しているので、実際に文章中で現れなかった単語でもよい
応用例: 単語入力予測、言い換えの提案、キーワードによる情報検索、購入履歴
に基づく推薦
15
LDAの応用 2
時系列分析
潜在変数から時間ごとにθk、 φk,v を推定する
応用例: トピックの時系列、バースト、トレンド解析
文書の次元圧縮
単語を潜在変数の値(潜在トピック)と入れ替える
応用例: 分類器の特徴量として利用
単語の潜在的意味
潜在変数の値(潜在トピック)を参照することで、同じ単語でも異なる意味だとわかる
応用例: 語義曖昧性の解決、機械翻訳
16
LDAの応用例: 3
他のデータ
Bag of XXX になればどんなデータにも適用できる
応用例: 画像処理、バイオインフォマティクス、人の行動解析、画像+テキスト
、音楽+歌詞
17

More Related Content

What's hot

トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
matsuolab
 
識別モデルと生成モデルと損失データ
識別モデルと生成モデルと損失データ識別モデルと生成モデルと損失データ
識別モデルと生成モデルと損失データ
Shohei Miyashita
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
Shoichi Taguchi
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
Hirotaka Hachiya
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
Ohsawa Goodfellow
 
Rで架空データの発生
Rで架空データの発生Rで架空データの発生
Rで架空データの発生
Makoto Hirakawa
 
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアルscikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
敦志 金谷
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリング
Shushi Namba
 
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
ksmzn
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章
YosukeAkasaka
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング
大貴 末廣
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
matsuolab
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013Shuyo Nakatani
 
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)Motoya Wakiyama
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
sleepy_yoshi
 

What's hot (20)

トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
識別モデルと生成モデルと損失データ
識別モデルと生成モデルと損失データ識別モデルと生成モデルと損失データ
識別モデルと生成モデルと損失データ
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
LDA入門
LDA入門LDA入門
LDA入門
 
Rで架空データの発生
Rで架空データの発生Rで架空データの発生
Rで架空データの発生
 
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアルscikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリング
 
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング
 
決定木学習
決定木学習決定木学習
決定木学習
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013
 
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 

Viewers also liked

160817 ISMB2016読み会
160817 ISMB2016読み会160817 ISMB2016読み会
160817 ISMB2016読み会
Haruka Ozaki
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデルMathieu Bertin
 
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Haruka Ozaki
 
トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半
Shinya Akiba
 
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
koba cky
 
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
Kouhei Nakaji
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
 
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
koba cky
 
Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析
Nobuyuki Kawagashira
 
トピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーショントピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーション
businessanalytics
 
Pfi last seminar
Pfi last seminarPfi last seminar
Pfi last seminar
Hidekazu Oiwa
 
Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-
Haruka Ozaki
 
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomesISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
Haruka Ozaki
 
Rで塩基配列を扱う方法
Rで塩基配列を扱う方法Rで塩基配列を扱う方法
Rで塩基配列を扱う方法Haruka Ozaki
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでしたHaruka Ozaki
 
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
Takao Yamanaka
 
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと 12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと Haruka Ozaki
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Haruka Ozaki
 
20150625 cloudera
20150625 cloudera20150625 cloudera
20150625 cloudera
Recruit Technologies
 
20151221 public
20151221 public20151221 public
20151221 public
Katsuhiko Ishiguro
 

Viewers also liked (20)

160817 ISMB2016読み会
160817 ISMB2016読み会160817 ISMB2016読み会
160817 ISMB2016読み会
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデル
 
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
 
トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半
 
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
 
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
 
Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析
 
トピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーショントピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーション
 
Pfi last seminar
Pfi last seminarPfi last seminar
Pfi last seminar
 
Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-
 
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomesISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
 
Rで塩基配列を扱う方法
Rで塩基配列を扱う方法Rで塩基配列を扱う方法
Rで塩基配列を扱う方法
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでした
 
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
 
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと 12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
 
20150625 cloudera
20150625 cloudera20150625 cloudera
20150625 cloudera
 
20151221 public
20151221 public20151221 public
20151221 public
 

トピックモデル勉強会: 第2章 Latent Dirichlet Allocation