SlideShare a Scribd company logo
1 of 35
Pachinko Allocation Model を用いた
クラスタリングによるシングルセル発現解析手法
大阪大学基礎工学部
広田航
第117回 MPS 研究会 2017/03/01
研究背景
• 遺伝子発現解析技術が発展
• 発現量 … 細胞から現れた遺伝子の数
• 細胞1つ1つの発現量が測定可能に (シングルセル発現解析)
2
細胞集団1
遺伝子A 10.5
遺伝子B 3.2
…
細胞1 細胞2 細胞3 細胞4 …
遺伝子A 1 0 10 1 …
遺伝子B 0 0 2 0 …
…
従来の発現プロファイル シングルセル発現プロファイル
• 細胞のクラスタリング
• (例) 細胞を分化の程度で分類
→分化による性質の変化の解明
研究背景
3
分化の
進行
細胞
分化初期の性質
…
分化中期の性質
…
分化後期の性質
…
研究背景
• 一般的な方法でのクラスタリングは困難
• 発現プロファイルは次元が大きい疎行列
→ 次元削減を行う必要性
• 生物学的な意味を解釈する必要性
→ 次元の意味の解釈も必要
4
細胞1 細胞2 細胞3 細胞4 …
遺伝子A 1 0 10 1 …
遺伝子B 0 0 2 0 …
…
シングルセル発現プロファイル
従来手法 Single Cell Consensus Clustering[1]
• 複数の距離尺度・次元削減でコンセンサス
クラスタリング
• 距離尺度 … ユークリッド距離, スピアマンの順位相関係数,
ピアソンの相関係数
• 次元削減 … 主成分分析, Laplacian Eigenmaps
• 得られたクラスタの生物学的な特徴の抽出が困難
5
[1] Kiselev, V. Y, et al. SC3: consensus clustering of single-cell RNA-seq data, Nature Methods (2017).
従来手法 CellTree[2]
• Latent Dirichlet Allocation (LDA)を用いて次元削減
• 自然言語処理で用いられているモデル
6
… …
トピック
遺伝子
細胞
… …
トピック
単語
文章
自然言語処理での LDA CellTree での LDA
[2] DuVerle, D. A., et al.: CellTree: an R/bioconductor package to infer the hierarchical structure of
cell populations from single-cell RNA-seq data, BMC Bioinformatics (2016).
従来手法 CellTree
• ルート→トピックの重みが次元削減後の特徴ベクトル
• 次元 (トピック) の意味付けが容易
• トピックからの重みが大きい遺伝子で意味付け
7
… …
トピック
遺伝子
細胞
次元削減後の次元
LDA のグラフィカルモデル
• 𝜃: 細胞 𝑗 のトピック分布
(ルート→トピックからの重み)
• 𝑧𝑗𝑛:細胞 𝑗の𝑛番目のトピック
• 𝑥𝑗𝑛 : 𝑧𝑗𝑛 から生じた細胞
(発現プロファイル)
• 𝜙 𝑘: トピック 𝑘 の遺伝子分布
(トピック→遺伝子の重み)
8
𝜃𝑗
𝜙 𝑘
𝛽
𝐶
𝛼
𝑧𝑗𝑛
𝑥𝑗𝑛
𝑁𝑗 𝐾
サンプリング
発現
プロファイル
細
胞
遺伝子
𝜃細
胞
トピック
𝜙
ト
ピ
ッ
ク
遺伝子
更新
CellTree の問題点
• シングルセル発現解析技術が発展→細胞群を詳細に解析する必要性
• CellTree では詳細なトピックの意味付けが困難
• LDA はトピック数を増やすとトピックの推定精度が低下
• LDA はトピック間の相関を考慮しない
• 無理に独立したトピックを抽出する可能性
9
… …
トピック
遺伝子
ルート
相関を表現できない
提案手法
• Pachinko Allocation Model[3] (PAM) を次元削減に採用
• トピックを2層に
• 下位トピック間の相関を上位トピックで表現
• LDA と比べより多くのトピック数をサポート
10
…
…
…
…
上位トピック
下位トピック
遺伝子
ルート
… …
トピック
遺伝子
ルート
LDA PAM
相関を
表現できる
[3] Li, W., & McCallum, A. Pachinko allocation: DAG-structured mixture models of
topic correlations. In Proceedings of the 23rd international conference on Machine learning (2016).
PAM のグラフィカルモデル
• 𝛼, 𝛽 : 事前分布のパラメータ
• 𝜃1
𝑗
: 細胞 𝑗 の上位トピック分布
• 𝜃2
𝑗
: 細胞 𝑗 の下位トピック分布
• 𝑧1𝑗𝑛: 細胞 𝑗の𝑛番目の
上位トピック
• 𝑧2𝑗𝑛: 細胞 𝑗の𝑛番目の
下位トピック
• 𝑥𝑗𝑛 : 𝑧2𝑗𝑛 から生じた細胞
• 𝜙 𝑘: 下位トピック 𝑘 の遺伝子分布
11
𝑧0 𝑗𝑛
𝜃1
𝑗
𝜙 𝑘
𝛽
𝐶
𝑁𝑗 𝐾2
𝜃2𝑘
(𝑗)
𝛼1 𝛼2𝑘
𝑧1 𝑗𝑛
𝑧2 𝑗𝑛
𝑥𝑗𝑛
𝐾1
サンプリング
発現プロファイル
サンプ
リング
更新
上位
トピック
下位
トピック
提案手法でのクラスタリング
• Ward 法による階層型クラスタリング
• 距離尺度はユークリッド距離
12
…
…
…
…
上位トピック
下位トピック
遺伝子
ルート
𝑅𝑗𝑙 =
𝑘=1
𝐾1
𝜃2𝑘𝑙
(𝑗)
𝑑 𝑗, 𝑗′ = 𝑹𝑗 − 𝑹𝑗′
2
=
𝑙=1
𝐾2
𝑅𝑗𝑙 − 𝑅𝑗′ 𝑙
2
(細胞𝑗の下位トピック𝑙の出現確率)
(細胞𝑗と細胞𝑗′の距離)
• Gene Ontology* (GO)を利用
• GO の遺伝子群とトピックの遺伝子群で検定
• トピックの遺伝子群 … トピックからの重みが95パーセンタイルとなる
遺伝子集合
トピックの意味付け
13
* http://www.geneontology.org/
GO Aの
遺伝子群
トピックTの
遺伝子群
U
GO Aの
遺伝子群
トピックTの
遺伝子群
U
トピック T には
GO A を付加しない
トピック T に
GO A を付加
トピックの意味付け
• フィッシャーの正確確率検定
14
Aに
含まれる
Aに
含まれない
Tに
含まれる
𝑎 𝑏
Tに
含まれない
𝑐 𝑑
GO Aの
遺伝子群
トピックTの
遺伝子群
U
𝑝 =
𝑎′=𝑎
𝑎+𝑏
𝑎 + 𝑏 ! 𝑐 + 𝑑 ! 𝑎 + 𝑐 ! 𝑏 + 𝑑 !
𝑛! 𝑎′! (𝑎 + 𝑏 − 𝑎′)! (𝑎 + 𝑐 − 𝑎′)! (𝑑 − 𝑎 + 𝑎′)
BH法により補正したp値が有意水準より
低い場合, T に A を付加
実験
15
• 3つの実験
• クラスタリングの精度評価
• 予備実験: トピック数の推定
• トピックの意味付けの精度評価
• トピックの機能解析
[4] Klein. A, et al. (2015). Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells.
Cell, 161(5), 1187-1201.
実験に使用したデータセット
• Klein らのデータセット[4]
• 分化開始後0日, 2日, 4日, 7日の細胞, 分化日数によって分類
• Zeisel らのデータセット[5]
• マウスの脳内細胞, 取得した組織 (計7個) によって分類
• Zheng らのデータセット[6]
• ヒトの末梢血単核球細胞, 認識する抗原の種類で分類
• 生物学的に大きく異なる細胞を集めた simple (抗原3種類) と
似ている細胞を集めた challenging (抗原3種類) を使用
16
[4] Klein. A, et al. Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells. Cell (2015).
[5] Zeisel, A, et al.: Cell types in the mouse cortex and hippocampus revealed by singlecell RNA-seq, Science (2015).
[5] Zheng, G. X, et al.: Massively parallel digital transcriptional profiling of single cells, Nature communications, (2017).
クラスタリング性能を比較した手法
• k-means法
• pcaReduce[7]
• 主成分分析とクラスタリングを交互に行う
• DIMM-SC[8]
• 混合ディリクレ分布にもとづいてクラスタリング
• SC3[1]
• CellTree[2]
17
[7] Zurauskien˙e, J. and Yau, C.: pcaReduce: hierarchical clustering of single cell transcriptional profiles, BMC Bioinformatics (2016).
[8] Sun, Z, et al.: DIMM-SC: a Dirichlet mixture model for clustering droplet-based single cell transcriptomic data, Bioinformatics (2017).
• Adjusted Rand Index (ARI) を用いて評価
実験1 クラスタリングの性能評価
18
1 2 … Sums
1 𝑛11 𝑛12 … 𝑎1
2 𝑛21 𝑛22 … 𝑎2
... … … … …
Sums 𝑏1 𝑏2 … 𝑛
クラスタリング結果
正
解
ラ
ベ
ル
Index Index の期待値
𝐴𝑅𝐼 =
𝑖
𝑛 𝑖𝑖
2
− 𝑖
𝑎 𝑖
2 𝑗
𝑏 𝑗
2
𝑛
2
1
2 𝑖
𝑎 𝑖
2
+ 𝑗
𝑏 𝑗
2
− 𝑖
𝑎 𝑖
2 𝑗
𝑏 𝑗
2
𝑛
2
ARI が高いほどクラスタリング性能が高い
実験1 クラスタリングの性能評価
• Klein: 提案手法, その他: SC3 が最も精度が良い
• CellTree の精度より提案手法の精度のほうが高い
19
上位トピック数の推定
20
• 平均トピック間類似度[1]を採用
• LDA のトピック数推定方法の1つ
• 平均トピック間類似度が
最初に極小値を取る
トピック数を採用
[1] Cao, J., Xia, T., Li, J., Zhang, Y. and Tang, S.:
A density-based method for adaptive LDA model selection,
Neurocomputing, Vol. 72, No. 7-9, pp. 1775–1781 (2009).
下位トピック数の決定
• 下位トピック数によって ARI は
ほとんど変化せず
• トピック数を 50 に設定
21
• トピックの意味付けの評価指標に特異度・感度を使用
• 特異度 … GOが1つ以上付加されたトピック数 / トピック数
• 感度 … 1つ以上のトピックに付加されたGO数 / GO数
実験2 トピックの意味付けの性能評価
22
特異度・感度ともに提案手法のほうが高い
実験3 トピックの機能解析
• Klein らのデータセットで得られたトピックを解析
• 得られたトピックを GO と照合
• トピックの生物学的な機能を解析
23
クラスタごとのトピック分布
24
• 各クラスタの
トピックの割合の平均
• トピック27が
全てのクラスで最大
• トピック28, 2など
特定の分化日数でのみ
顕著なトピックも存在
トピックと GO との照合結果
25
トピック27: 多様な機能
トピック14, 19: 代謝に関連
Word Cloud
26
Word Cloud 表現 (トピック27での例)
→下位トピックの代表的な遺伝子が一目でわかる
まとめ
• 細胞のクラスタリングと生物学的な意味付けを行う手
法を提案
• 次元削減に PAM を用いることで, LDA の欠点を改善
• より詳細な意味付け
• 従来手法と比べクラスタリング精度, 意味付けの精度が
ともに改善
27
GO Term の DAG による表現
GO0001077L05D05
transcriptionalactivatoractivity
RNApolymeraseIIproximalpromotersequence-specificDNAbinding
GO0003777L08D08
microtubulemotoractivity
GO1990939L09D09
ATP-dependentmicrotubulemotoractivity
GO0003841L07D07
1-acylglycerol-3-phosphateO-acyltransferaseactivity
GO0005041L05D05
low-densitylipoproteinreceptoractivity
GO0005057L02D02
signaltransduceractivity
downstreamofreceptor
GO0008195L06D06
phosphatidatephosphataseactivity
GO0008574L10D10
ATP-dependentmicrotubulemotoractivity
plus-end-directed
GO0009922L06D06
fattyacidelongaseactivity
GO0031683L04D04
G-proteinbeta/gamma-subunitcomplexbinding
GO0047144L06D07
2-acylglycerol-3-phosphateO-acyltransferaseactivity
GO0047617L06D06
acyl-CoAhydrolaseactivity
GO0070840L04D04
dyneincomplexbinding
GO0001228L04D04
transcriptionalactivatoractivity
RNApolymeraseIItranscriptionregulatoryregionsequence-specificDNAbinding
GO0000981L03D03
RNApolymeraseIItranscriptionfactoractivity
sequence-specificDNAbinding
GO0000982L04D04
transcriptionfactoractivity
RNApolymeraseIIproximalpromotersequence-specificDNAbinding
GO0003700L02D02
DNAbindingtranscriptionfactoractivity
GO0140110L01D01
transcriptionregulatoractivity
GO0003674L00D00
molecular_function
GO0005488L01D01
binding
GO0004871L01D01
signaltransduceractivity
GO0060089L01D01
moleculartransduceractivity
GO0003824L01D01
catalyticactivity
GO0003774L07D07
motoractivity
GO0017111L06D06
nucleoside-triphosphataseactivity
GO0016887L07D07
ATPaseactivity
GO0016462L05D05
pyrophosphataseactivity
GO0016818L04D04
hydrolaseactivity
actingonacidanhydrides
inphosphorus-containinganhydrides
GO0016817L03D03
hydrolaseactivity
actingonacidanhydrides
GO0016787L02D02
hydrolaseactivity
GO0016788L03D03
hydrolaseactivity
actingonesterbonds
GO0016740L02D02
transferaseactivity
GO0042171L06D06
lysophosphatidicacidacyltransferaseactivity
GO0071617L05D05
lysophospholipidacyltransferaseactivity
GO0016747L04D04
transferaseactivity
transferringacylgroupsotherthanamino-acylgroups
GO0008374L05D05
O-acyltransferaseactivity
GO0004312L05D05
fattyacidsynthaseactivity
GO0016746L03D03
transferaseactivity
transferringacylgroups
GO0016411L06D06
acylglycerolO-acyltransferaseactivity
GO0030228L04D04
lipoproteinparticlereceptoractivity
GO0038024L03D03
cargoreceptoractivity
GO0004872L02D02
receptoractivity
GO0016791L05D05
phosphataseactivity
GO0042578L04D04
phosphoricesterhydrolaseactivity
GO0016790L04D04
thiolesterhydrolaseactivity
GO0042623L08D08
ATPaseactivity
coupled
GO0032403L03D03
proteincomplexbinding
GO0044877L02D02
macromolecularcomplexbinding
GO0005515L02D02
proteinbinding
GO0016289L05D05
CoAhydrolaseactivity
28
下位トピック数が30のモデルに付与された GO
GO Term の DAG による表現
29
下位トピック数が40のモデルに付与された GO
GO0001077L05D05
transcriptionalactivatoractivity
RNApolymeraseIIproximalpromotersequence-specificDNAbinding
GO0002151L05D05
G-quadruplexRNAbinding
GO0003777L08D08
microtubulemotoractivity
GO0003841L07D07
1-acylglycerol-3-phosphateO-acyltransferaseactivity
GO0005041L05D05
low-densitylipoproteinreceptoractivity
GO0005225L06D08
volume-sensitiveanionchannelactivity
GO0008137L06D06
NADHdehydrogenase(ubiquinone)activity
GO0008195L06D06
phosphatidatephosphataseactivity
GO0009922L06D06
fattyacidelongaseactivity
GO0015026L03D04
coreceptoractivity
GO0019960L05D05
C-X3-Cchemokinebinding
GO0035613L05D05
RNAstem-loopbinding
GO0047144L06D07
2-acylglycerol-3-phosphateO-acyltransferaseactivity
GO0047617L06D06
acyl-CoAhydrolaseactivity
GO0051880L05D05
G-quadruplexDNAbinding
GO0001228L04D04
transcriptionalactivatoractivity
RNApolymeraseIItranscriptionregulatoryregionsequence-specificDNAbinding
GO0000981L03D03
RNApolymeraseIItranscriptionfactoractivity
sequence-specificDNAbinding
GO0000982L04D04
transcriptionfactoractivity
RNApolymeraseIIproximalpromotersequence-specificDNAbinding
GO0003700L02D02
DNAbindingtranscriptionfactoractivity
GO0140110L01D01
transcriptionregulatoractivity
GO0003674L00D00
molecular_function
GO0005488L01D01
binding
GO0004871L01D01
signaltransduceractivity
GO0060089L01D01
moleculartransduceractivity
GO0005215L01D01
transporteractivity
GO0003824L01D01
catalyticactivity
GO0003723L04D04
RNAbinding
GO0003676L03D03
nucleicacidbinding
GO0003677L04D04
DNAbinding
GO1901363L02D02
heterocycliccompoundbinding
GO0097159L02D02
organiccycliccompoundbinding
GO0005515L02D02
proteinbinding
GO0003774L07D07
motoractivity
GO0017111L06D06
nucleoside-triphosphataseactivity
GO0016462L05D05
pyrophosphataseactivity
GO0016818L04D04
hydrolaseactivity
actingonacidanhydrides
inphosphorus-containinganhydrides
GO0016817L03D03
hydrolaseactivity
actingonacidanhydrides
GO0016787L02D02
hydrolaseactivity
GO0016788L03D03
hydrolaseactivity
actingonesterbonds
GO0016491L02D02
oxidoreductaseactivity
GO0016740L02D02
transferaseactivity
GO0042171L06D06
lysophosphatidicacidacyltransferaseactivity
GO0071617L05D05
lysophospholipidacyltransferaseactivity
GO0016747L04D04
transferaseactivity
transferringacylgroupsotherthanamino-acylgroups
GO0008374L05D05
O-acyltransferaseactivity
GO0004312L05D05
fattyacidsynthaseactivity
GO0016746L03D03
transferaseactivity
transferringacylgroups
GO0016411L06D06
acylglycerolO-acyltransferaseactivity
GO0030228L04D04
lipoproteinparticlereceptoractivity
GO0038024L03D03
cargoreceptoractivity
GO0004872L02D02
receptoractivity
GO0038023L02D03
signalingreceptoractivity
GO0005253L05D07
anionchannelactivity
GO0008509L04D04
aniontransmembranetransporteractivity
GO0015075L03D03
iontransmembranetransporteractivity
GO0005216L04D06
ionchannelactivity
GO0022857L02D02
transmembranetransporteractivity
GO0022803L03D03
passivetransmembranetransporteractivity
GO0022838L05D05
substrate-specificchannelactivity
GO0015267L04D04
channelactivity
GO0050136L05D05
NADHdehydrogenase(quinone)activity
GO0003954L04D04
NADHdehydrogenaseactivity
GO0016651L03D03
oxidoreductaseactivity
actingonNAD(P)H
GO0016655L04D04
oxidoreductaseactivity
actingonNAD(P)H
quinoneorsimilarcompoundasacceptor
GO0016791L05D05
phosphataseactivity
GO0042578L04D04
phosphoricesterhydrolaseactivity
GO0016790L04D04
thiolesterhydrolaseactivity
GO0019956L04D04
chemokinebinding
GO0019955L03D03
cytokinebinding
GO0016289L05D05
CoAhydrolaseactivity
GO Term の DAG による表現
30
下位トピック数が50のモデルに付与された GO
GO0000993L04D06
RNApolymeraseIIcorebinding
GO0001054L06D08
RNApolymeraseIactivity
GO0001055L06D08
RNApolymeraseIIactivity
GO0001056L06D08
RNApolymeraseIIIactivity
GO0001077L05D05
transcriptionalactivatoractivity
RNApolymeraseIIproximalpromotersequence-specificDNAbinding
GO0002151L05D05
G-quadruplexRNAbinding
GO0003743L06D06
translationinitiationfactoractivity
GO0003777L08D08
microtubulemotoractivity
GO1990939L09D09
ATP-dependentmicrotubulemotoractivity
GO0003841L07D07
1-acylglycerol-3-phosphateO-acyltransferaseactivity
GO0004017L05D07
adenylatekinaseactivity
GO0004340L06D07
glucokinaseactivity
GO0004386L07D07
helicaseactivity
GO0004875L04D05
complementreceptoractivity
GO0004950L05D08
chemokinereceptoractivity
GO0005041L05D05
low-densitylipoproteinreceptoractivity
GO0005049L03D03
nuclearexportsignalreceptoractivity
GO0005225L06D08
volume-sensitiveanionchannelactivity
GO0008168L04D04
methyltransferaseactivity
GO0008195L06D06
phosphatidatephosphataseactivity
GO0008528L04D06
G-proteincoupledpeptidereceptoractivity
GO0001637L05D07
G-proteincoupledchemoattractantreceptoractivity
GO0008574L10D10
ATP-dependentmicrotubulemotoractivity
plus-end-directed
GO0008865L06D07
fructokinaseactivity
GO0009922L06D06
fattyacidelongaseactivity
GO0016887L07D07
ATPaseactivity
GO0042623L08D08
ATPaseactivity
coupled
GO0019158L06D07
mannokinaseactivity
GO0031432L04D04
titinbinding
GO0042166L03D05
acetylcholinebinding
GO0042805L04D04
actininbinding
GO0047144L06D07
2-acylglycerol-3-phosphateO-acyltransferaseactivity
GO0047617L06D06
acyl-CoAhydrolaseactivity
GO0051373L04D04
FATZbinding
GO0051880L05D05
G-quadruplexDNAbinding
GO0001099L04D04
basalRNApolymeraseIItranscriptionmachinerybinding
GO0001098L03D03
basaltranscriptionmachinerybinding
GO0005515L02D02
proteinbinding
GO0008092L03D03
cytoskeletalproteinbinding
GO0032403L03D03
proteincomplexbinding
GO0019899L03D03
enzymebinding
GO0005488L01D01
binding
GO1901363L02D02
heterocycliccompoundbinding
GO0008144L02D02
drugbinding
GO0042562L02D02
hormonebinding
GO0043167L02D02
ionbinding
GO0042165L02D02
neurotransmitterbinding
GO0044877L02D02
macromolecularcomplexbinding
GO0097159L02D02
organiccycliccompoundbinding
GO0003674L00D00
molecular_function
GO0140110L01D01
transcriptionregulatoractivity
GO0140104L01D01
molecularcarrieractivity
GO0004871L01D01
signaltransduceractivity
GO0060089L01D01
moleculartransduceractivity
GO0005215L01D01
transporteractivity
GO0003824L01D01
catalyticactivity
GO0043175L05D05
RNApolymerasecoreenzymebinding
GO0070063L04D04
RNApolymerasebinding
GO0003899L05D07
DNA-directed5’-3’RNApolymeraseactivity
GO0034062L04D06
5’-3’RNApolymeraseactivity
GO0097747L03D05
RNApolymeraseactivity
GO0016779L04D04
nucleotidyltransferaseactivity
GO0016772L03D03
transferaseactivity
transferringphosphorus-containinggroups
GO0016301L04D04
kinaseactivity
GO0016776L04D04
phosphotransferaseactivity
phosphategroupasacceptor
GO0016773L04D04
phosphotransferaseactivity
alcoholgroupasacceptor
GO0016740L02D02
transferaseactivity
GO0016741L03D03
transferaseactivity
transferringone-carbongroups
GO0016746L03D03
transferaseactivity
transferringacylgroups
GO0016787L02D02
hydrolaseactivity
GO0140098L02D02
catalyticactivity
actingonRNA
GO0001228L04D04
transcriptionalactivatoractivity
RNApolymeraseIItranscriptionregulatoryregionsequence-specificDNAbinding
GO0000981L03D03
RNApolymeraseIItranscriptionfactoractivity
sequence-specificDNAbinding
GO0000982L04D04
transcriptionfactoractivity
RNApolymeraseIIproximalpromotersequence-specificDNAbinding
GO0003700L02D02
DNAbindingtranscriptionfactoractivity
GO0003723L04D04
RNAbinding
GO0008135L05D05
translationfactoractivity
RNAbinding
GO0003676L03D03
nucleicacidbinding
GO0003677L04D04
DNAbinding
GO0003774L07D07
motoractivity
GO0017111L06D06
nucleoside-triphosphataseactivity
GO0016462L05D05
pyrophosphataseactivity
GO0016818L04D04
hydrolaseactivity
actingonacidanhydrides
inphosphorus-containinganhydrides
GO0016817L03D03
hydrolaseactivity
actingonacidanhydrides
GO0016788L03D03
hydrolaseactivity
actingonesterbonds
GO0042171L06D06
lysophosphatidicacidacyltransferaseactivity
GO0071617L05D05
lysophospholipidacyltransferaseactivity
GO0016747L04D04
transferaseactivity
transferringacylgroupsotherthanamino-acylgroups
GO0008374L05D05
O-acyltransferaseactivity
GO0004312L05D05
fattyacidsynthaseactivity
GO0016411L06D06
acylglycerolO-acyltransferaseactivity
GO0019201L06D06
nucleotidekinaseactivity
GO0019205L05D05
nucleobase-containingcompoundkinaseactivity
GO0019200L05D05
carbohydratekinaseactivity
GO0004396L05D06
hexokinaseactivity
GO0004888L03D04
transmembranesignalingreceptoractivity
GO0004930L04D05
G-proteincoupledreceptoractivity
GO0004896L04D05
cytokinereceptoractivity
GO0038023L02D03
signalingreceptoractivity
GO0001653L03D04
peptidereceptoractivity
GO0004872L02D02
receptoractivity
GO0038024L03D03
cargoreceptoractivity
GO0099600L03D03
transmembranereceptoractivity
GO0030228L04D04
lipoproteinparticlereceptoractivity
GO0140142L02D02
nucleocytoplasmiccarrieractivity
GO0005253L05D07
anionchannelactivity
GO0008509L04D04
aniontransmembranetransporteractivity
GO0015075L03D03
iontransmembranetransporteractivity
GO0005216L04D06
ionchannelactivity
GO0022857L02D02
transmembranetransporteractivity
GO0022803L03D03
passivetransmembranetransporteractivity
GO0022838L05D05
substrate-specificchannelactivity
GO0015267L04D04
channelactivity
GO0016791L05D05
phosphataseactivity
GO0042578L04D04
phosphoricesterhydrolaseactivity
GO0016790L04D04
thiolesterhydrolaseactivity
GO0070405L04D04
ammoniumionbinding
GO0043169L03D03
cationbinding
GO0016289L05D05
CoAhydrolaseactivity
LDA のグラフィカルモデル
𝜃𝑗
𝜙 𝑘
𝛽
𝐶
𝛼
𝑧𝑗𝑛
𝑥𝑗𝑛
𝑁𝑗 𝐾
… …
トピック
遺伝子
細胞
PAM のグラフィカルモデル
32
𝑧0 𝑗𝑛
𝜃1
𝑗
𝜙 𝑘
𝛽
𝐶
𝑁𝑗 𝐾2
𝜃2𝑘
(𝑗)
𝛼1 𝛼2𝑘
𝑧1 𝑗𝑛
𝑧2 𝑗𝑛
𝑥𝑗𝑛
𝐾1
…
…
…
…
ギブスサンプリング
• 提案手法で用いるサンプリング方法
• 変数を1つ抜き, 残りの変数の値に従い重みを推定
• これをくり返す
33
c
Her2 (1, 2)
Sox2
発現した遺伝子
Oct4 (2, 3)
Naong (1, 5)
Oct4 (2, 3)
遺伝子 (上位トピック, 下位トピック)
… …
c
Her2 (1, 2)
Sox2(1, 4)
発現した遺伝子
Oct4 (2, 3)
Naong (1, 5)
Oct4 (2, 3)
実験1 クラスタリングの性能評価
34
提案手法のクラスタリング精度が最も高い
特異度と感度
35
• 特異度, 感度は
全てのデータセットで
提案手法を上回る

More Related Content

Similar to Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法

KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...奈良先端大 情報科学研究科
 
Protein-protein docking-based virtual screening
Protein-protein docking-based virtual screeningProtein-protein docking-based virtual screening
Protein-protein docking-based virtual screeningMasahito Ohue
 
FiberDock: Flexible Protein Docking with Normal Mode
FiberDock: Flexible Protein Docking with Normal ModeFiberDock: Flexible Protein Docking with Normal Mode
FiberDock: Flexible Protein Docking with Normal ModeMasahito Ohue
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料Genaris Omics, Inc.
 
サマーセミナー2016: 遺伝アルゴリズムによるナビゲーション
サマーセミナー2016: 遺伝アルゴリズムによるナビゲーションサマーセミナー2016: 遺伝アルゴリズムによるナビゲーション
サマーセミナー2016: 遺伝アルゴリズムによるナビゲーション奈良先端大 情報科学研究科
 
150304 science council of japan-kawaji
150304 science council of japan-kawaji150304 science council of japan-kawaji
150304 science council of japan-kawajiHideya Kawaji
 

Similar to Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法 (9)

KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
 
Protein-protein docking-based virtual screening
Protein-protein docking-based virtual screeningProtein-protein docking-based virtual screening
Protein-protein docking-based virtual screening
 
kita m
kita mkita m
kita m
 
FiberDock: Flexible Protein Docking with Normal Mode
FiberDock: Flexible Protein Docking with Normal ModeFiberDock: Flexible Protein Docking with Normal Mode
FiberDock: Flexible Protein Docking with Normal Mode
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
 
サマーセミナー2016: 遺伝アルゴリズムによるナビゲーション
サマーセミナー2016: 遺伝アルゴリズムによるナビゲーションサマーセミナー2016: 遺伝アルゴリズムによるナビゲーション
サマーセミナー2016: 遺伝アルゴリズムによるナビゲーション
 
ENCODE勉強会
ENCODE勉強会ENCODE勉強会
ENCODE勉強会
 
150304 science council of japan-kawaji
150304 science council of japan-kawaji150304 science council of japan-kawaji
150304 science council of japan-kawaji
 
研究概要
研究概要研究概要
研究概要
 

Pachinko Allocation Model を用いたクラスタリングによるシングルセル発現解析手法

  • 1. Pachinko Allocation Model を用いた クラスタリングによるシングルセル発現解析手法 大阪大学基礎工学部 広田航 第117回 MPS 研究会 2017/03/01
  • 2. 研究背景 • 遺伝子発現解析技術が発展 • 発現量 … 細胞から現れた遺伝子の数 • 細胞1つ1つの発現量が測定可能に (シングルセル発現解析) 2 細胞集団1 遺伝子A 10.5 遺伝子B 3.2 … 細胞1 細胞2 細胞3 細胞4 … 遺伝子A 1 0 10 1 … 遺伝子B 0 0 2 0 … … 従来の発現プロファイル シングルセル発現プロファイル
  • 3. • 細胞のクラスタリング • (例) 細胞を分化の程度で分類 →分化による性質の変化の解明 研究背景 3 分化の 進行 細胞 分化初期の性質 … 分化中期の性質 … 分化後期の性質 …
  • 4. 研究背景 • 一般的な方法でのクラスタリングは困難 • 発現プロファイルは次元が大きい疎行列 → 次元削減を行う必要性 • 生物学的な意味を解釈する必要性 → 次元の意味の解釈も必要 4 細胞1 細胞2 細胞3 細胞4 … 遺伝子A 1 0 10 1 … 遺伝子B 0 0 2 0 … … シングルセル発現プロファイル
  • 5. 従来手法 Single Cell Consensus Clustering[1] • 複数の距離尺度・次元削減でコンセンサス クラスタリング • 距離尺度 … ユークリッド距離, スピアマンの順位相関係数, ピアソンの相関係数 • 次元削減 … 主成分分析, Laplacian Eigenmaps • 得られたクラスタの生物学的な特徴の抽出が困難 5 [1] Kiselev, V. Y, et al. SC3: consensus clustering of single-cell RNA-seq data, Nature Methods (2017).
  • 6. 従来手法 CellTree[2] • Latent Dirichlet Allocation (LDA)を用いて次元削減 • 自然言語処理で用いられているモデル 6 … … トピック 遺伝子 細胞 … … トピック 単語 文章 自然言語処理での LDA CellTree での LDA [2] DuVerle, D. A., et al.: CellTree: an R/bioconductor package to infer the hierarchical structure of cell populations from single-cell RNA-seq data, BMC Bioinformatics (2016).
  • 7. 従来手法 CellTree • ルート→トピックの重みが次元削減後の特徴ベクトル • 次元 (トピック) の意味付けが容易 • トピックからの重みが大きい遺伝子で意味付け 7 … … トピック 遺伝子 細胞 次元削減後の次元
  • 8. LDA のグラフィカルモデル • 𝜃: 細胞 𝑗 のトピック分布 (ルート→トピックからの重み) • 𝑧𝑗𝑛:細胞 𝑗の𝑛番目のトピック • 𝑥𝑗𝑛 : 𝑧𝑗𝑛 から生じた細胞 (発現プロファイル) • 𝜙 𝑘: トピック 𝑘 の遺伝子分布 (トピック→遺伝子の重み) 8 𝜃𝑗 𝜙 𝑘 𝛽 𝐶 𝛼 𝑧𝑗𝑛 𝑥𝑗𝑛 𝑁𝑗 𝐾 サンプリング 発現 プロファイル 細 胞 遺伝子 𝜃細 胞 トピック 𝜙 ト ピ ッ ク 遺伝子 更新
  • 9. CellTree の問題点 • シングルセル発現解析技術が発展→細胞群を詳細に解析する必要性 • CellTree では詳細なトピックの意味付けが困難 • LDA はトピック数を増やすとトピックの推定精度が低下 • LDA はトピック間の相関を考慮しない • 無理に独立したトピックを抽出する可能性 9 … … トピック 遺伝子 ルート 相関を表現できない
  • 10. 提案手法 • Pachinko Allocation Model[3] (PAM) を次元削減に採用 • トピックを2層に • 下位トピック間の相関を上位トピックで表現 • LDA と比べより多くのトピック数をサポート 10 … … … … 上位トピック 下位トピック 遺伝子 ルート … … トピック 遺伝子 ルート LDA PAM 相関を 表現できる [3] Li, W., & McCallum, A. Pachinko allocation: DAG-structured mixture models of topic correlations. In Proceedings of the 23rd international conference on Machine learning (2016).
  • 11. PAM のグラフィカルモデル • 𝛼, 𝛽 : 事前分布のパラメータ • 𝜃1 𝑗 : 細胞 𝑗 の上位トピック分布 • 𝜃2 𝑗 : 細胞 𝑗 の下位トピック分布 • 𝑧1𝑗𝑛: 細胞 𝑗の𝑛番目の 上位トピック • 𝑧2𝑗𝑛: 細胞 𝑗の𝑛番目の 下位トピック • 𝑥𝑗𝑛 : 𝑧2𝑗𝑛 から生じた細胞 • 𝜙 𝑘: 下位トピック 𝑘 の遺伝子分布 11 𝑧0 𝑗𝑛 𝜃1 𝑗 𝜙 𝑘 𝛽 𝐶 𝑁𝑗 𝐾2 𝜃2𝑘 (𝑗) 𝛼1 𝛼2𝑘 𝑧1 𝑗𝑛 𝑧2 𝑗𝑛 𝑥𝑗𝑛 𝐾1 サンプリング 発現プロファイル サンプ リング 更新 上位 トピック 下位 トピック
  • 12. 提案手法でのクラスタリング • Ward 法による階層型クラスタリング • 距離尺度はユークリッド距離 12 … … … … 上位トピック 下位トピック 遺伝子 ルート 𝑅𝑗𝑙 = 𝑘=1 𝐾1 𝜃2𝑘𝑙 (𝑗) 𝑑 𝑗, 𝑗′ = 𝑹𝑗 − 𝑹𝑗′ 2 = 𝑙=1 𝐾2 𝑅𝑗𝑙 − 𝑅𝑗′ 𝑙 2 (細胞𝑗の下位トピック𝑙の出現確率) (細胞𝑗と細胞𝑗′の距離)
  • 13. • Gene Ontology* (GO)を利用 • GO の遺伝子群とトピックの遺伝子群で検定 • トピックの遺伝子群 … トピックからの重みが95パーセンタイルとなる 遺伝子集合 トピックの意味付け 13 * http://www.geneontology.org/ GO Aの 遺伝子群 トピックTの 遺伝子群 U GO Aの 遺伝子群 トピックTの 遺伝子群 U トピック T には GO A を付加しない トピック T に GO A を付加
  • 14. トピックの意味付け • フィッシャーの正確確率検定 14 Aに 含まれる Aに 含まれない Tに 含まれる 𝑎 𝑏 Tに 含まれない 𝑐 𝑑 GO Aの 遺伝子群 トピックTの 遺伝子群 U 𝑝 = 𝑎′=𝑎 𝑎+𝑏 𝑎 + 𝑏 ! 𝑐 + 𝑑 ! 𝑎 + 𝑐 ! 𝑏 + 𝑑 ! 𝑛! 𝑎′! (𝑎 + 𝑏 − 𝑎′)! (𝑎 + 𝑐 − 𝑎′)! (𝑑 − 𝑎 + 𝑎′) BH法により補正したp値が有意水準より 低い場合, T に A を付加
  • 15. 実験 15 • 3つの実験 • クラスタリングの精度評価 • 予備実験: トピック数の推定 • トピックの意味付けの精度評価 • トピックの機能解析 [4] Klein. A, et al. (2015). Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells. Cell, 161(5), 1187-1201.
  • 16. 実験に使用したデータセット • Klein らのデータセット[4] • 分化開始後0日, 2日, 4日, 7日の細胞, 分化日数によって分類 • Zeisel らのデータセット[5] • マウスの脳内細胞, 取得した組織 (計7個) によって分類 • Zheng らのデータセット[6] • ヒトの末梢血単核球細胞, 認識する抗原の種類で分類 • 生物学的に大きく異なる細胞を集めた simple (抗原3種類) と 似ている細胞を集めた challenging (抗原3種類) を使用 16 [4] Klein. A, et al. Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells. Cell (2015). [5] Zeisel, A, et al.: Cell types in the mouse cortex and hippocampus revealed by singlecell RNA-seq, Science (2015). [5] Zheng, G. X, et al.: Massively parallel digital transcriptional profiling of single cells, Nature communications, (2017).
  • 17. クラスタリング性能を比較した手法 • k-means法 • pcaReduce[7] • 主成分分析とクラスタリングを交互に行う • DIMM-SC[8] • 混合ディリクレ分布にもとづいてクラスタリング • SC3[1] • CellTree[2] 17 [7] Zurauskien˙e, J. and Yau, C.: pcaReduce: hierarchical clustering of single cell transcriptional profiles, BMC Bioinformatics (2016). [8] Sun, Z, et al.: DIMM-SC: a Dirichlet mixture model for clustering droplet-based single cell transcriptomic data, Bioinformatics (2017).
  • 18. • Adjusted Rand Index (ARI) を用いて評価 実験1 クラスタリングの性能評価 18 1 2 … Sums 1 𝑛11 𝑛12 … 𝑎1 2 𝑛21 𝑛22 … 𝑎2 ... … … … … Sums 𝑏1 𝑏2 … 𝑛 クラスタリング結果 正 解 ラ ベ ル Index Index の期待値 𝐴𝑅𝐼 = 𝑖 𝑛 𝑖𝑖 2 − 𝑖 𝑎 𝑖 2 𝑗 𝑏 𝑗 2 𝑛 2 1 2 𝑖 𝑎 𝑖 2 + 𝑗 𝑏 𝑗 2 − 𝑖 𝑎 𝑖 2 𝑗 𝑏 𝑗 2 𝑛 2 ARI が高いほどクラスタリング性能が高い
  • 19. 実験1 クラスタリングの性能評価 • Klein: 提案手法, その他: SC3 が最も精度が良い • CellTree の精度より提案手法の精度のほうが高い 19
  • 20. 上位トピック数の推定 20 • 平均トピック間類似度[1]を採用 • LDA のトピック数推定方法の1つ • 平均トピック間類似度が 最初に極小値を取る トピック数を採用 [1] Cao, J., Xia, T., Li, J., Zhang, Y. and Tang, S.: A density-based method for adaptive LDA model selection, Neurocomputing, Vol. 72, No. 7-9, pp. 1775–1781 (2009).
  • 21. 下位トピック数の決定 • 下位トピック数によって ARI は ほとんど変化せず • トピック数を 50 に設定 21
  • 22. • トピックの意味付けの評価指標に特異度・感度を使用 • 特異度 … GOが1つ以上付加されたトピック数 / トピック数 • 感度 … 1つ以上のトピックに付加されたGO数 / GO数 実験2 トピックの意味付けの性能評価 22 特異度・感度ともに提案手法のほうが高い
  • 23. 実験3 トピックの機能解析 • Klein らのデータセットで得られたトピックを解析 • 得られたトピックを GO と照合 • トピックの生物学的な機能を解析 23
  • 25. トピックと GO との照合結果 25 トピック27: 多様な機能 トピック14, 19: 代謝に関連
  • 26. Word Cloud 26 Word Cloud 表現 (トピック27での例) →下位トピックの代表的な遺伝子が一目でわかる
  • 27. まとめ • 細胞のクラスタリングと生物学的な意味付けを行う手 法を提案 • 次元削減に PAM を用いることで, LDA の欠点を改善 • より詳細な意味付け • 従来手法と比べクラスタリング精度, 意味付けの精度が ともに改善 27
  • 28. GO Term の DAG による表現 GO0001077L05D05 transcriptionalactivatoractivity RNApolymeraseIIproximalpromotersequence-specificDNAbinding GO0003777L08D08 microtubulemotoractivity GO1990939L09D09 ATP-dependentmicrotubulemotoractivity GO0003841L07D07 1-acylglycerol-3-phosphateO-acyltransferaseactivity GO0005041L05D05 low-densitylipoproteinreceptoractivity GO0005057L02D02 signaltransduceractivity downstreamofreceptor GO0008195L06D06 phosphatidatephosphataseactivity GO0008574L10D10 ATP-dependentmicrotubulemotoractivity plus-end-directed GO0009922L06D06 fattyacidelongaseactivity GO0031683L04D04 G-proteinbeta/gamma-subunitcomplexbinding GO0047144L06D07 2-acylglycerol-3-phosphateO-acyltransferaseactivity GO0047617L06D06 acyl-CoAhydrolaseactivity GO0070840L04D04 dyneincomplexbinding GO0001228L04D04 transcriptionalactivatoractivity RNApolymeraseIItranscriptionregulatoryregionsequence-specificDNAbinding GO0000981L03D03 RNApolymeraseIItranscriptionfactoractivity sequence-specificDNAbinding GO0000982L04D04 transcriptionfactoractivity RNApolymeraseIIproximalpromotersequence-specificDNAbinding GO0003700L02D02 DNAbindingtranscriptionfactoractivity GO0140110L01D01 transcriptionregulatoractivity GO0003674L00D00 molecular_function GO0005488L01D01 binding GO0004871L01D01 signaltransduceractivity GO0060089L01D01 moleculartransduceractivity GO0003824L01D01 catalyticactivity GO0003774L07D07 motoractivity GO0017111L06D06 nucleoside-triphosphataseactivity GO0016887L07D07 ATPaseactivity GO0016462L05D05 pyrophosphataseactivity GO0016818L04D04 hydrolaseactivity actingonacidanhydrides inphosphorus-containinganhydrides GO0016817L03D03 hydrolaseactivity actingonacidanhydrides GO0016787L02D02 hydrolaseactivity GO0016788L03D03 hydrolaseactivity actingonesterbonds GO0016740L02D02 transferaseactivity GO0042171L06D06 lysophosphatidicacidacyltransferaseactivity GO0071617L05D05 lysophospholipidacyltransferaseactivity GO0016747L04D04 transferaseactivity transferringacylgroupsotherthanamino-acylgroups GO0008374L05D05 O-acyltransferaseactivity GO0004312L05D05 fattyacidsynthaseactivity GO0016746L03D03 transferaseactivity transferringacylgroups GO0016411L06D06 acylglycerolO-acyltransferaseactivity GO0030228L04D04 lipoproteinparticlereceptoractivity GO0038024L03D03 cargoreceptoractivity GO0004872L02D02 receptoractivity GO0016791L05D05 phosphataseactivity GO0042578L04D04 phosphoricesterhydrolaseactivity GO0016790L04D04 thiolesterhydrolaseactivity GO0042623L08D08 ATPaseactivity coupled GO0032403L03D03 proteincomplexbinding GO0044877L02D02 macromolecularcomplexbinding GO0005515L02D02 proteinbinding GO0016289L05D05 CoAhydrolaseactivity 28 下位トピック数が30のモデルに付与された GO
  • 29. GO Term の DAG による表現 29 下位トピック数が40のモデルに付与された GO GO0001077L05D05 transcriptionalactivatoractivity RNApolymeraseIIproximalpromotersequence-specificDNAbinding GO0002151L05D05 G-quadruplexRNAbinding GO0003777L08D08 microtubulemotoractivity GO0003841L07D07 1-acylglycerol-3-phosphateO-acyltransferaseactivity GO0005041L05D05 low-densitylipoproteinreceptoractivity GO0005225L06D08 volume-sensitiveanionchannelactivity GO0008137L06D06 NADHdehydrogenase(ubiquinone)activity GO0008195L06D06 phosphatidatephosphataseactivity GO0009922L06D06 fattyacidelongaseactivity GO0015026L03D04 coreceptoractivity GO0019960L05D05 C-X3-Cchemokinebinding GO0035613L05D05 RNAstem-loopbinding GO0047144L06D07 2-acylglycerol-3-phosphateO-acyltransferaseactivity GO0047617L06D06 acyl-CoAhydrolaseactivity GO0051880L05D05 G-quadruplexDNAbinding GO0001228L04D04 transcriptionalactivatoractivity RNApolymeraseIItranscriptionregulatoryregionsequence-specificDNAbinding GO0000981L03D03 RNApolymeraseIItranscriptionfactoractivity sequence-specificDNAbinding GO0000982L04D04 transcriptionfactoractivity RNApolymeraseIIproximalpromotersequence-specificDNAbinding GO0003700L02D02 DNAbindingtranscriptionfactoractivity GO0140110L01D01 transcriptionregulatoractivity GO0003674L00D00 molecular_function GO0005488L01D01 binding GO0004871L01D01 signaltransduceractivity GO0060089L01D01 moleculartransduceractivity GO0005215L01D01 transporteractivity GO0003824L01D01 catalyticactivity GO0003723L04D04 RNAbinding GO0003676L03D03 nucleicacidbinding GO0003677L04D04 DNAbinding GO1901363L02D02 heterocycliccompoundbinding GO0097159L02D02 organiccycliccompoundbinding GO0005515L02D02 proteinbinding GO0003774L07D07 motoractivity GO0017111L06D06 nucleoside-triphosphataseactivity GO0016462L05D05 pyrophosphataseactivity GO0016818L04D04 hydrolaseactivity actingonacidanhydrides inphosphorus-containinganhydrides GO0016817L03D03 hydrolaseactivity actingonacidanhydrides GO0016787L02D02 hydrolaseactivity GO0016788L03D03 hydrolaseactivity actingonesterbonds GO0016491L02D02 oxidoreductaseactivity GO0016740L02D02 transferaseactivity GO0042171L06D06 lysophosphatidicacidacyltransferaseactivity GO0071617L05D05 lysophospholipidacyltransferaseactivity GO0016747L04D04 transferaseactivity transferringacylgroupsotherthanamino-acylgroups GO0008374L05D05 O-acyltransferaseactivity GO0004312L05D05 fattyacidsynthaseactivity GO0016746L03D03 transferaseactivity transferringacylgroups GO0016411L06D06 acylglycerolO-acyltransferaseactivity GO0030228L04D04 lipoproteinparticlereceptoractivity GO0038024L03D03 cargoreceptoractivity GO0004872L02D02 receptoractivity GO0038023L02D03 signalingreceptoractivity GO0005253L05D07 anionchannelactivity GO0008509L04D04 aniontransmembranetransporteractivity GO0015075L03D03 iontransmembranetransporteractivity GO0005216L04D06 ionchannelactivity GO0022857L02D02 transmembranetransporteractivity GO0022803L03D03 passivetransmembranetransporteractivity GO0022838L05D05 substrate-specificchannelactivity GO0015267L04D04 channelactivity GO0050136L05D05 NADHdehydrogenase(quinone)activity GO0003954L04D04 NADHdehydrogenaseactivity GO0016651L03D03 oxidoreductaseactivity actingonNAD(P)H GO0016655L04D04 oxidoreductaseactivity actingonNAD(P)H quinoneorsimilarcompoundasacceptor GO0016791L05D05 phosphataseactivity GO0042578L04D04 phosphoricesterhydrolaseactivity GO0016790L04D04 thiolesterhydrolaseactivity GO0019956L04D04 chemokinebinding GO0019955L03D03 cytokinebinding GO0016289L05D05 CoAhydrolaseactivity
  • 30. GO Term の DAG による表現 30 下位トピック数が50のモデルに付与された GO GO0000993L04D06 RNApolymeraseIIcorebinding GO0001054L06D08 RNApolymeraseIactivity GO0001055L06D08 RNApolymeraseIIactivity GO0001056L06D08 RNApolymeraseIIIactivity GO0001077L05D05 transcriptionalactivatoractivity RNApolymeraseIIproximalpromotersequence-specificDNAbinding GO0002151L05D05 G-quadruplexRNAbinding GO0003743L06D06 translationinitiationfactoractivity GO0003777L08D08 microtubulemotoractivity GO1990939L09D09 ATP-dependentmicrotubulemotoractivity GO0003841L07D07 1-acylglycerol-3-phosphateO-acyltransferaseactivity GO0004017L05D07 adenylatekinaseactivity GO0004340L06D07 glucokinaseactivity GO0004386L07D07 helicaseactivity GO0004875L04D05 complementreceptoractivity GO0004950L05D08 chemokinereceptoractivity GO0005041L05D05 low-densitylipoproteinreceptoractivity GO0005049L03D03 nuclearexportsignalreceptoractivity GO0005225L06D08 volume-sensitiveanionchannelactivity GO0008168L04D04 methyltransferaseactivity GO0008195L06D06 phosphatidatephosphataseactivity GO0008528L04D06 G-proteincoupledpeptidereceptoractivity GO0001637L05D07 G-proteincoupledchemoattractantreceptoractivity GO0008574L10D10 ATP-dependentmicrotubulemotoractivity plus-end-directed GO0008865L06D07 fructokinaseactivity GO0009922L06D06 fattyacidelongaseactivity GO0016887L07D07 ATPaseactivity GO0042623L08D08 ATPaseactivity coupled GO0019158L06D07 mannokinaseactivity GO0031432L04D04 titinbinding GO0042166L03D05 acetylcholinebinding GO0042805L04D04 actininbinding GO0047144L06D07 2-acylglycerol-3-phosphateO-acyltransferaseactivity GO0047617L06D06 acyl-CoAhydrolaseactivity GO0051373L04D04 FATZbinding GO0051880L05D05 G-quadruplexDNAbinding GO0001099L04D04 basalRNApolymeraseIItranscriptionmachinerybinding GO0001098L03D03 basaltranscriptionmachinerybinding GO0005515L02D02 proteinbinding GO0008092L03D03 cytoskeletalproteinbinding GO0032403L03D03 proteincomplexbinding GO0019899L03D03 enzymebinding GO0005488L01D01 binding GO1901363L02D02 heterocycliccompoundbinding GO0008144L02D02 drugbinding GO0042562L02D02 hormonebinding GO0043167L02D02 ionbinding GO0042165L02D02 neurotransmitterbinding GO0044877L02D02 macromolecularcomplexbinding GO0097159L02D02 organiccycliccompoundbinding GO0003674L00D00 molecular_function GO0140110L01D01 transcriptionregulatoractivity GO0140104L01D01 molecularcarrieractivity GO0004871L01D01 signaltransduceractivity GO0060089L01D01 moleculartransduceractivity GO0005215L01D01 transporteractivity GO0003824L01D01 catalyticactivity GO0043175L05D05 RNApolymerasecoreenzymebinding GO0070063L04D04 RNApolymerasebinding GO0003899L05D07 DNA-directed5’-3’RNApolymeraseactivity GO0034062L04D06 5’-3’RNApolymeraseactivity GO0097747L03D05 RNApolymeraseactivity GO0016779L04D04 nucleotidyltransferaseactivity GO0016772L03D03 transferaseactivity transferringphosphorus-containinggroups GO0016301L04D04 kinaseactivity GO0016776L04D04 phosphotransferaseactivity phosphategroupasacceptor GO0016773L04D04 phosphotransferaseactivity alcoholgroupasacceptor GO0016740L02D02 transferaseactivity GO0016741L03D03 transferaseactivity transferringone-carbongroups GO0016746L03D03 transferaseactivity transferringacylgroups GO0016787L02D02 hydrolaseactivity GO0140098L02D02 catalyticactivity actingonRNA GO0001228L04D04 transcriptionalactivatoractivity RNApolymeraseIItranscriptionregulatoryregionsequence-specificDNAbinding GO0000981L03D03 RNApolymeraseIItranscriptionfactoractivity sequence-specificDNAbinding GO0000982L04D04 transcriptionfactoractivity RNApolymeraseIIproximalpromotersequence-specificDNAbinding GO0003700L02D02 DNAbindingtranscriptionfactoractivity GO0003723L04D04 RNAbinding GO0008135L05D05 translationfactoractivity RNAbinding GO0003676L03D03 nucleicacidbinding GO0003677L04D04 DNAbinding GO0003774L07D07 motoractivity GO0017111L06D06 nucleoside-triphosphataseactivity GO0016462L05D05 pyrophosphataseactivity GO0016818L04D04 hydrolaseactivity actingonacidanhydrides inphosphorus-containinganhydrides GO0016817L03D03 hydrolaseactivity actingonacidanhydrides GO0016788L03D03 hydrolaseactivity actingonesterbonds GO0042171L06D06 lysophosphatidicacidacyltransferaseactivity GO0071617L05D05 lysophospholipidacyltransferaseactivity GO0016747L04D04 transferaseactivity transferringacylgroupsotherthanamino-acylgroups GO0008374L05D05 O-acyltransferaseactivity GO0004312L05D05 fattyacidsynthaseactivity GO0016411L06D06 acylglycerolO-acyltransferaseactivity GO0019201L06D06 nucleotidekinaseactivity GO0019205L05D05 nucleobase-containingcompoundkinaseactivity GO0019200L05D05 carbohydratekinaseactivity GO0004396L05D06 hexokinaseactivity GO0004888L03D04 transmembranesignalingreceptoractivity GO0004930L04D05 G-proteincoupledreceptoractivity GO0004896L04D05 cytokinereceptoractivity GO0038023L02D03 signalingreceptoractivity GO0001653L03D04 peptidereceptoractivity GO0004872L02D02 receptoractivity GO0038024L03D03 cargoreceptoractivity GO0099600L03D03 transmembranereceptoractivity GO0030228L04D04 lipoproteinparticlereceptoractivity GO0140142L02D02 nucleocytoplasmiccarrieractivity GO0005253L05D07 anionchannelactivity GO0008509L04D04 aniontransmembranetransporteractivity GO0015075L03D03 iontransmembranetransporteractivity GO0005216L04D06 ionchannelactivity GO0022857L02D02 transmembranetransporteractivity GO0022803L03D03 passivetransmembranetransporteractivity GO0022838L05D05 substrate-specificchannelactivity GO0015267L04D04 channelactivity GO0016791L05D05 phosphataseactivity GO0042578L04D04 phosphoricesterhydrolaseactivity GO0016790L04D04 thiolesterhydrolaseactivity GO0070405L04D04 ammoniumionbinding GO0043169L03D03 cationbinding GO0016289L05D05 CoAhydrolaseactivity
  • 32. PAM のグラフィカルモデル 32 𝑧0 𝑗𝑛 𝜃1 𝑗 𝜙 𝑘 𝛽 𝐶 𝑁𝑗 𝐾2 𝜃2𝑘 (𝑗) 𝛼1 𝛼2𝑘 𝑧1 𝑗𝑛 𝑧2 𝑗𝑛 𝑥𝑗𝑛 𝐾1 … … … …
  • 33. ギブスサンプリング • 提案手法で用いるサンプリング方法 • 変数を1つ抜き, 残りの変数の値に従い重みを推定 • これをくり返す 33 c Her2 (1, 2) Sox2 発現した遺伝子 Oct4 (2, 3) Naong (1, 5) Oct4 (2, 3) 遺伝子 (上位トピック, 下位トピック) … … c Her2 (1, 2) Sox2(1, 4) 発現した遺伝子 Oct4 (2, 3) Naong (1, 5) Oct4 (2, 3)

Editor's Notes

  1. c