SlideShare a Scribd company logo
A survey of topic model
in bioinformatics
東京大学 新領域創成科学研究科
情報生命科学専攻 岩崎研究室 博士三年
福永 津嵩
WACODE#3
自己紹介
• Twitter アカウントは@fukunagatsu
• 研究テーマ
– 動画データの情報解析に基づく動物行動学
– 環境DNAから探る魚類の生態
– (長鎖RNAのRNA二次構造解析)
• 四日前に博士論文の予備審査が終わりました
動物行動のトラッキング
• 自動的に個体の位置を抽出し、速度や個体間距
離を計算
前準備: Bag-of-words表現
• 文書を、出て来た単語の頻度集合で表現する
– 上の文を例にすると、{文書:1, 単語:1, 頻度:1, 集合:1,
表現:1}
– 順番は考えない
• Bag-of-words表現を生成する確率モデルを考え
る事が目標
– トピックモデルはそのようなモデルの一つ
モデルその1:ユニグラムモデル
• 文書1: {選挙:2, 勝利:2, 議員:1}
• 文書2: {野球:1, 勝利:2, 投手:1, 試合:1}
• 文書3: {国会:2, 投票:2, 選挙:1}
• ユニグラムモデルでは、複数の文書データに対して1つ
のカテゴリ分布を生成モデルとする。すなわち、
– {選挙:3/15, 勝利:4/15, 野球:1/15…}
• しかし、全文書が同じカテゴリ分布で生成されるとは考
えにくい
– 政治記事では「議員」はよく出てくるだろうが、スポーツ記事
ではあまり出てこないだろう
モデルその2: 混合ユニグラムモデル
• 文書1: {選挙:2, 勝利:2, 議員:1}
• 文書2: {野球:1, 勝利:2, 投手:1, 試合:1}
• 文書3: {国会:2, 投票:2, 選挙:1}
• 各文書にはそれぞれトピックがあり、そのトピックごと
に1つのカテゴリー分布が定義される。
– 文書1:政治、文書2:スポーツ、文書3:政治
• データから、トピックの混合比とトピックごとのカテゴ
リー分布をEMアルゴリズム等で推定する。
モデルその3:トピックモデル
• 1つの文書は1つのトピックしか持たないのか?
複数のトピックを取り扱う文書があるのでは?
– 「科学」+「政治」とか?
• 各文書が異なるトピックの出力分布を持ち、ま
た各単語は各トピックでの単語の出力分布に基
づいて生成されるモデルを、「トピックモデ
ル」という
図で説明
• (岩田具治先生のtopic model本57Pより)
数式等の詳しい話は
• トピックモデルについての良い教科書が今年2冊出たので
読んでください
– 特に後者が丁寧でわかりやすい(変分ベイズ力が必要)
大切な事は
• BoW表現のデータ集合から、各文書ごとのト
ピック出現確率と、トピックごとの単語出現確
率を求める事が出来る
• トピックモデルの面白そうな所
1. (潜在的に)共起している語の集合がトピックとして
抽出される→解釈しやすそう
2. グラフィカルモデルなので拡張が容易
• 時系列データなど
3. BoW表現であれば自然言語データに限らない
• 画像データ解析では成功例が多い
Bioinformaticsへの応用
• 文書、語、文書集合をどう見立てるかを考える
例)
1. 文書:ゲノム、語:遺伝子、文書集合:全微生物ゲノム
– Bag of genes モデル、潜在的に共起する遺伝子セットをトピックと
して抽出する
2. 文書:メタ16S or メタゲノム、語:16S or 遺伝子、文書集合:
全メタ16S or 全メタゲノム
3. 文書:トランスクリプトーム、語:各遺伝子発現、文書集合:全
トランスクリプトーム
Bioinformaticsへの応用
• データのメタアナリシスで隠れた法則性を発見
する、という研究が出来そう
• 多分大林先生の遺伝子共発現解析は雰囲気が似
ている気がする
• タンパク質間の高速かつ精度のよい比較を行う事が目的
• 文書:タンパク質、語:構造断片、文書集合:タンパク質構造データ
セット
• タンパク質構造解析に応用する
のは目新しいが、解釈はほとん
ど不可能では?
• 語をポケットにすると何か出て
こないんだろうか
(図)
(Nature Methods 2011)
• メタ16Sデータのコンタミがどこ由来であるかを識別するためのソ
フトウェア
• 文書:メタ16Sデータ、語:OTU、トピックは各環境を意味する
– ある環境で採取されたメタゲノムデータは、採取された環境と汚染元
環境(腸内、皮膚など)のトピックが混合している状態であるとみなす
– 各環境でのOTU出現確率はあらかじめ求めておく
• 実用性の高い使い方だ
と思われる
(図)
(Microbiome 2015)
• 文書:メタ16Sデータ、トピックはenvironment、サブトピックが
microbial group、語がOTU
– 各トピックごとに対してサブトピックの出力確率が求められ、各サブ
トピックごとに語の出力確率が求められると言う二段構え
– 少々わかりにくい
• 季節変動ごとに
microbial groupが変
動している
(図)
• 13個の化合物を濃度を変えて酵母にかけ、遺伝子の発現変化を見た
アレイデータを対象にtopic modelを適用
• GOのアノテーションがあればそれもモデルに組み込んでいる
• トピック内にどういう遺伝子が集まっ
てくるかとか、化合物に対する応答の
解釈、新規ターゲットの予測といった
分析がしっかりあるので好印象
• 各アレイはほぼ1つのトピックしか出力
せず、複数のトピック出力確率を持つ
ものがレアだったので、トピックモデ
ルの長所がどの程度生きたのかは疑問
(図)
レビューのまとめ
• バイオインフォマティクスにトピックモデルを
applyした研究は30本くらいはある
– 分野としてはメタゲノム解析やトランスクリプトーム
解析が多い
• 大半の研究は「精度が上がりました!」で終わり
– 特に面白くない
• まだバイオインフォマティシャンはこのモデルの
可能性を引き出せていないのではないだろうか
感想
• メタゲノムとtopic modelは相性が良いと思う
– 共起しやすい・しにくい微生物系統群や遺伝子群の同定
– 環境データと関連づけて解釈する事も可能
– (上手く行けば)機能未知遺伝子の機能予測も出来る
• Meta-metagenomics解析
感想
• 遺伝子集合をトピックと見立てて、それが進化するとい
うモデルはどうか?
– 複合体や代謝パスウェイ等を考えると、遺伝子は単独というよ
り複数個そろって初めて機能を持つ物も多い
– 遺伝子の欠失/獲得は独立に起こるというよりも機能単位ごと
にまとまって欠失/獲得される(Iwasaki et al. (2009))
– 系統樹を組み込んだトピックモデルによって、より適切な機能
単位を特定出来るようになる?
• 行動・発声パターンの共起関係を探れないか?
– ソングバードの音声データから特徴的な発声パターンを抽出し、
文書:音声データ、語:発声パターンとみなすとか
– HMMとの組み合わせも出来る
– 行動データでも同じ事が出来そうな気がする
(この辺はあまりsurveyしてない)

More Related Content

Viewers also liked

自動翻訳ツールの概要と応用(ネットショップ向け)
自動翻訳ツールの概要と応用(ネットショップ向け)自動翻訳ツールの概要と応用(ネットショップ向け)
自動翻訳ツールの概要と応用(ネットショップ向け)
fengruoyouqing
 
日英機械翻訳のための構文辞書
日英機械翻訳のための構文辞書日英機械翻訳のための構文辞書
日英機械翻訳のための構文辞書Kanji Takahashi
 
Wsdm2016: Extracting Search Query Patterns via the Pairwise Coupled Topic Model
Wsdm2016: Extracting Search Query Patterns via the Pairwise Coupled Topic ModelWsdm2016: Extracting Search Query Patterns via the Pairwise Coupled Topic Model
Wsdm2016: Extracting Search Query Patterns via the Pairwise Coupled Topic Model
Mitsuhisa Ohta
 
PFI seminar 2010/05/27 統計的機械翻訳
PFI seminar 2010/05/27 統計的機械翻訳PFI seminar 2010/05/27 統計的機械翻訳
PFI seminar 2010/05/27 統計的機械翻訳Preferred Networks
 
Ibis2016
Ibis2016Ibis2016
Ibis2016
Taiji Suzuki
 
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
Silicon Studio Corporation
 
10分で分かるRパッケージの作り方
10分で分かるRパッケージの作り方10分で分かるRパッケージの作り方
10分で分かるRパッケージの作り方Yohei Sato
 
「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」
「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」
「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」
ksmzn
 
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
koba cky
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
Toru Imai
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
東京R非公式おじさんが教える本当に気持ちいいパッケージ作成法
東京R非公式おじさんが教える本当に気持ちいいパッケージ作成法東京R非公式おじさんが教える本当に気持ちいいパッケージ作成法
東京R非公式おじさんが教える本当に気持ちいいパッケージ作成法
Nagi Teramo
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
 
生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビュー生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビュー
takehikoihayashi
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
 

Viewers also liked (15)

自動翻訳ツールの概要と応用(ネットショップ向け)
自動翻訳ツールの概要と応用(ネットショップ向け)自動翻訳ツールの概要と応用(ネットショップ向け)
自動翻訳ツールの概要と応用(ネットショップ向け)
 
日英機械翻訳のための構文辞書
日英機械翻訳のための構文辞書日英機械翻訳のための構文辞書
日英機械翻訳のための構文辞書
 
Wsdm2016: Extracting Search Query Patterns via the Pairwise Coupled Topic Model
Wsdm2016: Extracting Search Query Patterns via the Pairwise Coupled Topic ModelWsdm2016: Extracting Search Query Patterns via the Pairwise Coupled Topic Model
Wsdm2016: Extracting Search Query Patterns via the Pairwise Coupled Topic Model
 
PFI seminar 2010/05/27 統計的機械翻訳
PFI seminar 2010/05/27 統計的機械翻訳PFI seminar 2010/05/27 統計的機械翻訳
PFI seminar 2010/05/27 統計的機械翻訳
 
Ibis2016
Ibis2016Ibis2016
Ibis2016
 
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
 
10分で分かるRパッケージの作り方
10分で分かるRパッケージの作り方10分で分かるRパッケージの作り方
10分で分かるRパッケージの作り方
 
「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」
「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」
「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」
 
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
東京R非公式おじさんが教える本当に気持ちいいパッケージ作成法
東京R非公式おじさんが教える本当に気持ちいいパッケージ作成法東京R非公式おじさんが教える本当に気持ちいいパッケージ作成法
東京R非公式おじさんが教える本当に気持ちいいパッケージ作成法
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
 
生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビュー生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビュー
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 

A survery of topic model in bioinformatics