LDA入門

Latent Dirichlet Allocation入門

@tokyotextmining
坪坂正志

内容
• NLPで用いられるトピックモデルの代表である
LDA(Latent Dirichlet Allocation)について紹介
する
• 機械学習ライブラリmalletを使って、LDAを使
う方法について紹介する

Why LDA
• 白鵬が単独首位琴欧洲敗れる

Why LDA
• 人は上の文を見て相撲に関係する文である
ことを理解できる
– 文中に相撲という単語は出てこないのにもかか
わらず

Why LDA
• 人は上の文を見て相撲に関係する文である
ことを理解できる
– 文中に相撲という単語は出てこないのにもかか
わらず
• 単語は独立に出現しているのではなく、潜在
的なトピックを持ち、同じトピックを持つ単語
は同じ文章に出現しやすい

Why LDA
• 文章/単語のトピックを推定すると何の役にた
つか？
• 文章分類
• 次元削減
• 言語モデル
– 情報検索[Wei and Croft 2006]

概要
• LDA
– 確率モデル
– 推論アルゴリズム
– ハイパーパラメータの調整
– 並列化
– 高速化
• Mallet
– Malletを使ったLDA

文章生成モデル
• トピック数Tはあらかじめ決める
• 各トピックごとに単語出現確率を生成
– ディリクレ分布から生成 ~Dir()
• 文章ごとにトピック確率を生成する
– ディリクレ分布から生成 ~Dir()
– 各文章において以下のように単語を生成していく
• ~Multi( )と単語のトピックを生成する
• ~Multi( )とトピックに応じた確率で単語を生成

パラメータは未知
• 実際にはパラメータは推定する必要がある

[Steyvers and Griffiths 2007]より

推論アルゴリズム
• Bleiの元論文[Blei+ 2003]では変分ベイズを
使ったパラメータ推定を行っている
• しかし、実用的には後にでたGibbs samplerを
使ったパラメータ推定法がよく用いられる
[Griffiths and Steyvers 2004]
– 一回当たりの計算が軽い
– 数式が簡単(実装コストが低い)
• 他にもcollapsed変分ベイズという方法もある
[Teh+ 2007, Asuncion+ 2009]

Collapsed Gibbs sampler
• 文章中の各単語に対して、初期状態としてランダムなトピック
を割り当てる
• 各単語に関してトピックを逐次更新する
– 直感的には(文章中でのトピックtの割合) * (その単語におけるトピッ
クtの割合)
– 一つの文章では同じトピックがでやすい
– 単語ごとに出やすいトピックと出にくいトピックがある

| : 文章dに出現するトピックtに属する単語の合計
| : トピックtに属する単語wの合計
⋅| : トピックtに属する単語の合計

ハイパーパラメータの影響
• 多くの論文では, を天下り的に設定するこ
とが多い
– 実際は, の値によってPerplexityなど変わってく
る [Asuncion+ 2009]
• また、 = 0.1などと各トピックの事前パラメー
タはすべて同じにすることが多い

でも実際は
• の値をトピックごとに差を設けることにより、
トピックの出やすさを表現できる

[Wallach+ 2009]より

他のストップワードへの対応方法
[Wilson and Chew 2010]
• サンプリングの際の| などの計算で単語ご
とに異なる重みづけを用いて計算する
– 重み付けにはtf-idf, PMIなどを用いる

どうやって推定するか
[Wallach+ 2009]より

• 階層的なモデルを立てる

• 一定間隔でハイパーパラメータを最適化する
– 実用上はこちらが階層的モデルと比べ精度も変
わらず、高速
– Malletではこちらを採用

並列化
• マルチコアとかグリッドとか流行ってる
• LDAにおいても並列化しようという話はいくつ
かある
– マルチコア[Newman+ 07]
– グリッド (Mapreduce/MPIを使う)[Wang+ 2009]
– GPGPU [Yan+ 2009]

並列化
• 更新式

文章ごとに独立

• 文章を各プロセッサに分散して配置する
• | , .| は各プロセッサで独立に持つ
– 定期的にグローバルな値を計算し直し、同期する
– グローバルな値をmemcachedに持つという話も
ある[Smola and Narayanamurthy 2010]

並列化
• 1プロセッサあたりの時間/空間計算量
– プロセッサの数をPとする
– 各プロセッサには文章が均一に割り当てられて
いるとする
時間計算量空間計算量
LDA O(NT) O(N + (D + W) * T)
PLDA O(NT/P) O(N / P + (D / P + W) * T)

高速化
• トピック数Tが多くなっていくとナイーブな実装
だと、一回のGibbs samplerにかかる時間が
O(T)であるため、計算にかかるコストが大きい
• 効率的なサンプリング方法が存在[Yao+ 2009]

更新式の展開
• 更新式を展開する

• 各項のトピックについての総和を保持

サンプリングの高速化
• 一様分布 ∼ ( + + )から乱数を生成
• 経験的に90%以上がの部分に落ちる
• トピック-単語カウントに相当する項に関して
高速なサンプリングができればよい

サンプリングの高速化

• 上の式に従って高速にサンプリングするため
に| の降順でトピックからサンプリングされ
るかどうかを見ていく

高速化のためのデータ構造
• | の頻度の降順でならんだ配列を維持する
– ここで単語の総出現回数よりも非ゼロの要素数が
少ないことを利用するとメモリが大幅に節約できる
– Malletでは(トピックID,出現回数)の組を32bitのint
の形で保持している
• このため出現回数が多い単語に関してはオーバフロー
する危険がある

トピックID 3 2 4 1
出現回数 8 6 6 3

高速化の効果
 データセットにはNIPS Dataset(1500文章, 約190万トークン) を使用
 plda(code.google.com/p/plda)とmalletでトピック数を変えたときの
実行時間を測定
 反復回数は両方ともに100回とした

3500

3000

2500

2000
実行時間(sec)
plda
1500
mallet

1000

500

0
0 200 400 600 800 1000 1200
# of topics

高速化の効果
• 前のグラフを対数領域でプロットしたもの
10000

1000

plda
100
mallet

10

1
1 10 100 1000

Malletとは
• MAchine Learning for LanguagE Toolkit
• Javaベースの統計的自然言語処理、文章分
類、トピックモデリングなどのパッケージ
• Andrew McCallumを中心として開発が行われ
ている

Instance
• Malletにおいてデータ一つ一つはInstanceと
いうオブジェクトで表現される
– 文章集合中の文章に相当する
• 4つのメンバ変数を持つ
– Name (Instanceの名前今回は使わない)
– Data (入力データ)
– Target/Label (出力今回は使わない)
– Source (Instanceのソース)

Iterator
• InstanceにはIteratorを経由して、アクセスされ
る
– XML,ディレクトリ配下のファイルなど様々な入力
形式に対応できる
• 大抵の場合はCsvIteratorが使える

CsvIterator
CsvIterator(String fileName, Pattern lineRegex,
int dataGroup, int targetGroup, int uriGroup)

• 対象のfileNameの各行に対してlineRegexで
マッチを行い、data,target,uri(name)に指定さ
れたグループの値を代入する
• Ex: name label dataと空白区切りで並んでい
るデータから読み取る場合
– new CsvIterator(fileName,
"(¥¥w+)¥¥s+(¥¥w+)¥¥s+(.*)", 3, 2, 1)

Pipe
• CsvIteratorで読んだInstanceに入っているdata
は単なるString
– Malletで扱う形式に変換する必要がある
• Instance Pipe.pipe(Instance inst)
– 与えられたInstanceを別のInstanceに変換して返す
– TokenSequence2FeatureSequenceなど様々な変換
用のPipeが存在する
• SerialPipe(List<Pipe>)
– 指定されたlist中のpipeを順番に適応するPipe

InstanceList
• Instanceのリストを表現する
• InstanceList(Pipe pipe)
– InstanceListに入ってくるInstanceを処理するpipe
を指定する
• void InstanceList.addThruPipe(Iterator inst)
– InstanceListにpipeを通しながらIterator経由で
データをロードする

データのロード
• PLDA形式のデータを読み込む
a 2 is 1 character 1
a 2 is 1 b 1 character 1 after 1

class MyPipe extends Pipe{ static InstanceList load(String fileName) {
@Override ArrayList<Pipe> pipeList = new ArrayList<Pipe>();
public Instance pipe(Instance inst) { pipeList.add(new MyPipe());
String data = (String)inst.getData(); pipeList.add(new TokenSequence2FeatureSequence());
String array[] = data.split("¥¥s+"); InstanceList list =
TokenSequence ret = new TokenSequence(); new InstanceList(new SerialPipes(pipeList));
for(int i = 0 ; i < array.length ; i += 2){ CsvIterator it = new CsvIterator(fileName, "(.*)",1, 0,0);
String word = array[i]; list.addThruPipe(it);
int freq = Integer.parseInt(array[i + 1]); return list;
for(int f = 0 ; f < freq; ++f){ }
ret.add(new Token(word));
}
}
inst.setData(ret);
return inst;
}
}

ParallelTopicModel
• マルチスレッドなLDA実装
static ParallelTopicModel train(int numberOfTopics , InstanceList training) {
ParallelTopicModel ptm = new ParallelTopicModel(numberOfTopics);
ptm.addInstances(training);
ptm.estimate();
return ptm;
}
• 訓練後のデータの保存にはwrite(File f)を使う。
– シリアライズされたParallelTopicModelが保存される
– static ParallelTopicModel read(File f)で読み込める

マルチスレッドのパフォーマンス
• UCI Datasetのnytimesデータを使用
– 30万文章, 10万単語
– 約1億トークン
– トピック数500, 反復回数 500回

1スレッド 276min 33sec
4スレッド 179min 45sec

Core i7 920 , JDK 1.6.16 (-server –Xmx1500m)

トピックの代表的単語の抽出
• printTopWordsを使う
0 0.1847 algorithm learning function gradient convergence parameter error iteration vector
1 0.03452 map dominance ocular development pattern mapping organizing kohonen eye
2 0.01327 hint return data cost market stock prediction load subscriber
3 0.71807 case term result form consider general defined order paper
4 0.02225 face images recognition image faces representation hand video facial
5 0.42392 values line order point number high step result factor
6 0.01545 disparity gamma game play player partition games board operator
7 0.09096 local point region surface contour segment data field path
8 0.04591 prediction series error network predict training road predictor committee
9 0.12844 vector matrix linear space component dimensional point data transformation
...

新規文章に関する推論
• getInferencer()を呼びTopicInferencerを取得
する
• TopicInferencerのgetSampledDistributionを使
うと各トピックに帰属する確率を取得できる

参考文献
• [Asuncion+ 2009] On smoothing and inference for topic models, UAI
• [Blei+ 2003] Latent Dirichlet allocation, JMLR
• [Griffiths and Steyvers 2004] Finding scientific topics, PNAS
• [Newman+ 2007] Distributed inference for latent Dirichlet allocation, NIPS
• [Smola and Narayanamurthy 2010] An architecture for parallel topic models, VLDB
• [Steyvers and Griffiths 2007] Probabilistic topic models, In Handbook of Latent
Semantic Analysis
• [Teh+ 2007] A collapsed variational Bayesian inference algorithm for latent
Dirichlet allocation, NIPS
• [Wallach+ 2009] Rethinking LDA: Why Priors Matter, NIPS
• [Wang+ 2009] PLDA: Parallel Latent Dirichlet Allocation for Large-scale Applications,
AAIM
• [Wilson and Chew 2010] Term Weighting Schemes for Latent Dirichlet Allocation,
ACL
• [Yan+ 2009] Parallel Inference for Latent Dirichlet Allocation on Graphics
Processing Units, NIPS
• [Yao+ 2009] Efficient methods for topic model inference on streaming document
collections, SIGKDD

参考文献2
• [Bao and Chang 2010] AdHeat: an influence-based
diffusion model for propagating hints to match ads
• [Chen+ 2009] Collaborative filtering for Orkut
communities : discovery of user latent behavior
• [Lau+ 2010] Best topic word selection for topic
labelling, Colling
• [Phan+ 2008] Learning to classify short and sparse text
& web with hidden topics from large-scale data
collections
• [Wei and Croft 2006] LDA-based document models for
ad-hoc retrieval, SIGIR

LDA入門

More Related Content

What's hot

Viewers also liked

Similar to LDA入門

More from 正志 坪坂

LDA入門

More from 正志坪坂