A survery of topic model in bioinformatics
- 1. A survey of topic model
in bioinformatics
東京大学 新領域創成科学研究科
情報生命科学専攻 岩崎研究室 博士三年
福永 津嵩
WACODE#3
- 5. モデルその1:ユニグラムモデル
• 文書1: {選挙:2, 勝利:2, 議員:1}
• 文書2: {野球:1, 勝利:2, 投手:1, 試合:1}
• 文書3: {国会:2, 投票:2, 選挙:1}
• ユニグラムモデルでは、複数の文書データに対して1つ
のカテゴリ分布を生成モデルとする。すなわち、
– {選挙:3/15, 勝利:4/15, 野球:1/15…}
• しかし、全文書が同じカテゴリ分布で生成されるとは考
えにくい
– 政治記事では「議員」はよく出てくるだろうが、スポーツ記事
ではあまり出てこないだろう
- 6. モデルその2: 混合ユニグラムモデル
• 文書1: {選挙:2, 勝利:2, 議員:1}
• 文書2: {野球:1, 勝利:2, 投手:1, 試合:1}
• 文書3: {国会:2, 投票:2, 選挙:1}
• 各文書にはそれぞれトピックがあり、そのトピックごと
に1つのカテゴリー分布が定義される。
– 文書1:政治、文書2:スポーツ、文書3:政治
• データから、トピックの混合比とトピックごとのカテゴ
リー分布をEMアルゴリズム等で推定する。
- 14. (Nature Methods 2011)
• メタ16Sデータのコンタミがどこ由来であるかを識別するためのソ
フトウェア
• 文書:メタ16Sデータ、語:OTU、トピックは各環境を意味する
– ある環境で採取されたメタゲノムデータは、採取された環境と汚染元
環境(腸内、皮膚など)のトピックが混合している状態であるとみなす
– 各環境でのOTU出現確率はあらかじめ求めておく
• 実用性の高い使い方だ
と思われる
(図)