SlideShare a Scribd company logo
1 of 15
Download to read offline
A cross­species bi­clustering approach to 
identifying conserved co­regulated genes
Jiangwen Sun, Zongliang Jiang, 
Xiuchun Tian and Jinbo Bi
Bioinformatics, 32, 2016, i137–i146
中央大学 物理学科 田口善弘
d samples
n genes
Species 1 Species 2
gene cluster 1
gene cluster 2
種1で発現パターンを共有すると種2でも
(別の)パターンを共有する遺伝子群の同定
(      view)
(      variables)
(      subjects)
基本は疎性非負行列分解(Sparse NMF)
特徴:
・Rank 1(ベクトル)分解
・種間で共通にノンゼロになる遺伝子を選ぶベ
クトルz(後述)を計算(正則化項とは別)
・残差に繰り返し同じ操作を繰り返すことで複
数のクラスターを同定
X u
v
z
min||X−( z∘u)vT
||
2
+λz
|z|+λu
|u|+λv
|v|
z ∘u=(z1 u1 ,z2 u2 , z3 u3 ,⋯, zn un)
T
min∑
i=1
m
||Xi−(z ∘ui)vi
T
||
2
+λz|z|+∑
i=1
m
λui
|ui|+∑
i=1
m
λvi
|vi|
m種(view)についての和に拡張
=
multi­view
bi­clustering
L1L1正則化正則化
(1)
n genes
d samplesn×d 
このあと(1)式を解くアルゴリズムについて詳細な説明
(僕の手には負えないので省略)
概要をいうと....
・求めるのはui,z,vi (i=1,...,m)の3つ。
・(z,vi):固定,ui:解く
 →(ui,z):固定,vi:解く
 → (ui,vi):固定, z,:解く
の繰り返しアルゴリズム。
・bi­(tri­?)convexの証明
(全ての変数について最小値収束が保証)
・λの決め方が書いてない?
・Rでの実装をhttps://github.com/JavonSun/mvbc.git で公開
(コアはC++)
クラスターの定義:
その1:zがノンゼロの遺伝子
その2:uiが全てのiでノンゼロ遺伝子 → こっち採用
“ The second approach was used in our experiment.”
(3節最後)
計算が終わったらXi   ← Xi ­ uivi
Tに置き換えて第2クラス
ターを同定。ほしい数のクラスターまで計算を継続。
Synthetic Data
1000 genes
12 15
1
2
3 4
MVBC:提案手法
SVO:種ごとにやって積集合を取る
その他:カーネル+スペクトラル・クラスタリング
PCA+K­means
規
格
化
相
互
情
報
量
 normalized mutual information (NMI) 
=
=
http://nlp.stanford.edu/IR­book/html/htmledition/evaluation­of­clustering­1.html
正直言ってこのSynthetic Dataはヤラセである
・PCA+K­meansでできるのにわざわざ難しい方法を比較手
法に持ってきて難しそうな問題の雰囲気を醸し出す。
・どうみても4つのクラスターじゃないものを4つだと言い張っ
て提案手法が有利になるような結果を出す。
(PCA+K­meansと提案手法の「差」は4番目のクラスターが
「正しく」分割されない、という差)
しかし、これでレビューワはまんまと騙されたんだからこういう
「技術」も「名を挙げる」のには重要!
論文に載っている図
正解
この部分、意図的に順序を移動しています!
Real Data GSE44183(初期発生)
human mouse
文献検索で同定した既知のパターン(上記)と相関係数が0.75以上の遺
伝子だけを選んでから計算。得られたクラスターにenrich解析(詳細省略)
これぐらい、まあ、なんでやってもでるでしょ、というレベル。
比較手法でやってないのによく論文通ったな、という印象
”「ISMB読み会」は、バイオインフォマティクス分
野最大の国際会議に採択された論文の概要を
なるべく多く知ることによって、分野全体の流行
を手っ取り早く把握することを目的としていま
す。トップのレベルを感じることによって、どうすトップのレベルを感じることによって、どうす
れば世界を相手に戦うことができるか、参加者れば世界を相手に戦うことができるか、参加者
全員で考える機会になることを期待全員で考える機会になることを期待します。”
※なぜ、採択されたか?
Jinbo Bi, google scholar 407
今回採択者(特にコレポン)のgoogle scholarを見ることは大切。
この程度の論文で採択されたくされたければ、
この程度のgoogle scholarが必要。
・しょぼいことがレヴューワーにばれないばれないSynthetic Dataを作る技
術
・生物学的なことをしっかり考察
(gene expression patterns を用いたプレスクリーニング)
→個人的なことで恐縮ですが、最近、ジョンズ・ホプキンスのメディ
カルの人(心筋の発生、日本人)と論文書いたけど、「離散的な発
展段階ごとの考察」にとてもこだわっていた。数値を扱う側からす
ると「なんで連続変数(=時間)をわざわざカテゴリ化する」と思う
けど、生物は「連続の中の離散」を追求する現象なので。
・数学的に厳密にフォーミュレーションしbi­convexも証明し、Rで
の実装を公開。
※他に必要なこと

More Related Content

More from Y-h Taguchi

Tensor decomposition based and principal component analysis based unsupervise...
Tensor decomposition based and principal component analysis based unsupervise...Tensor decomposition based and principal component analysis based unsupervise...
Tensor decomposition based and principal component analysis based unsupervise...Y-h Taguchi
 
主成分分析を用いた教師なし学習による筋萎縮性側索硬化症とがんの遺伝的関連性の解明
主成分分析を用いた教師なし学習による筋萎縮性側索硬化症とがんの遺伝的関連性の解明主成分分析を用いた教師なし学習による筋萎縮性側索硬化症とがんの遺伝的関連性の解明
主成分分析を用いた教師なし学習による筋萎縮性側索硬化症とがんの遺伝的関連性の解明Y-h Taguchi
 
Tensor decomposition­based unsupervised feature extraction identified the un...
Tensor decomposition­based unsupervised  feature extraction identified the un...Tensor decomposition­based unsupervised  feature extraction identified the un...
Tensor decomposition­based unsupervised feature extraction identified the un...Y-h Taguchi
 
Tensor decomposition ­based unsupervised feature extraction applied to matrix...
Tensor decomposition ­based unsupervised feature extraction applied to matrix...Tensor decomposition ­based unsupervised feature extraction applied to matrix...
Tensor decomposition ­based unsupervised feature extraction applied to matrix...Y-h Taguchi
 
遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発
遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発
遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発Y-h Taguchi
 
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...Y-h Taguchi
 
Rectified factor networks for biclustering of omics data
Rectified factor networks for biclustering of omics dataRectified factor networks for biclustering of omics data
Rectified factor networks for biclustering of omics dataY-h Taguchi
 
テンソル分解を用いた教師なし学習による変数選択
テンソル分解を用いた教師なし学習による変数選択テンソル分解を用いた教師なし学習による変数選択
テンソル分解を用いた教師なし学習による変数選択Y-h Taguchi
 
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索Y-h Taguchi
 
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定Y-h Taguchi
 
miRNA-mRNA相互作用同定を用いた 腎芽腫関連遺伝子の推定
miRNA-mRNA相互作用同定を用いた 腎芽腫関連遺伝子の推定miRNA-mRNA相互作用同定を用いた 腎芽腫関連遺伝子の推定
miRNA-mRNA相互作用同定を用いた 腎芽腫関連遺伝子の推定Y-h Taguchi
 
Principal component analysis based unsupervised feature extraction applied to...
Principal component analysis based unsupervised feature extraction applied to...Principal component analysis based unsupervised feature extraction applied to...
Principal component analysis based unsupervised feature extraction applied to...Y-h Taguchi
 
microRNA-mRNA interaction identification in Wilms tumor using principal compo...
microRNA-mRNA interaction identification in Wilms tumor using principal compo...microRNA-mRNA interaction identification in Wilms tumor using principal compo...
microRNA-mRNA interaction identification in Wilms tumor using principal compo...Y-h Taguchi
 
主成分分析を用いた教師なし学習による変数選択法を用いたがんにおけるmRNA-miRNA相互作用のより信頼性のある同定
主成分分析を用いた教師なし学習による変数選択法を用いたがんにおけるmRNA-miRNA相互作用のより信頼性のある同定主成分分析を用いた教師なし学習による変数選択法を用いたがんにおけるmRNA-miRNA相互作用のより信頼性のある同定
主成分分析を用いた教師なし学習による変数選択法を用いたがんにおけるmRNA-miRNA相互作用のより信頼性のある同定Y-h Taguchi
 
Identification of aberrant gene expression associated with aberrant promoter ...
Identification of aberrant gene expression associated with aberrant promoter ...Identification of aberrant gene expression associated with aberrant promoter ...
Identification of aberrant gene expression associated with aberrant promoter ...Y-h Taguchi
 
Heuristic Principal Component Analysis Based unsupervised Feature Extraction...
Heuristic Principal Component Analysis  Based unsupervised Feature Extraction...Heuristic Principal Component Analysis  Based unsupervised Feature Extraction...
Heuristic Principal Component Analysis Based unsupervised Feature Extraction...Y-h Taguchi
 
Integrating different data types by regularized unsupervised multiple kernel...
Integrating different data types by regularized  unsupervised multiple kernel...Integrating different data types by regularized  unsupervised multiple kernel...
Integrating different data types by regularized unsupervised multiple kernel...Y-h Taguchi
 
FAMSとchooseLDを用いたインシリコ創薬パイプライン
FAMSとchooseLDを用いたインシリコ創薬パイプラインFAMSとchooseLDを用いたインシリコ創薬パイプライン
FAMSとchooseLDを用いたインシリコ創薬パイプラインY-h Taguchi
 
Principal component analysis-based unsupervised feature extraction applied to...
Principal component analysis-based unsupervised feature extraction applied to...Principal component analysis-based unsupervised feature extraction applied to...
Principal component analysis-based unsupervised feature extraction applied to...Y-h Taguchi
 
In silico spleen tyrosine kinase inhibitor screening by chooseLD
In silico spleen tyrosine kinase inhibitor screening by chooseLDIn silico spleen tyrosine kinase inhibitor screening by chooseLD
In silico spleen tyrosine kinase inhibitor screening by chooseLDY-h Taguchi
 

More from Y-h Taguchi (20)

Tensor decomposition based and principal component analysis based unsupervise...
Tensor decomposition based and principal component analysis based unsupervise...Tensor decomposition based and principal component analysis based unsupervise...
Tensor decomposition based and principal component analysis based unsupervise...
 
主成分分析を用いた教師なし学習による筋萎縮性側索硬化症とがんの遺伝的関連性の解明
主成分分析を用いた教師なし学習による筋萎縮性側索硬化症とがんの遺伝的関連性の解明主成分分析を用いた教師なし学習による筋萎縮性側索硬化症とがんの遺伝的関連性の解明
主成分分析を用いた教師なし学習による筋萎縮性側索硬化症とがんの遺伝的関連性の解明
 
Tensor decomposition­based unsupervised feature extraction identified the un...
Tensor decomposition­based unsupervised  feature extraction identified the un...Tensor decomposition­based unsupervised  feature extraction identified the un...
Tensor decomposition­based unsupervised feature extraction identified the un...
 
Tensor decomposition ­based unsupervised feature extraction applied to matrix...
Tensor decomposition ­based unsupervised feature extraction applied to matrix...Tensor decomposition ­based unsupervised feature extraction applied to matrix...
Tensor decomposition ­based unsupervised feature extraction applied to matrix...
 
遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発
遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発
遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発
 
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...
 
Rectified factor networks for biclustering of omics data
Rectified factor networks for biclustering of omics dataRectified factor networks for biclustering of omics data
Rectified factor networks for biclustering of omics data
 
テンソル分解を用いた教師なし学習による変数選択
テンソル分解を用いた教師なし学習による変数選択テンソル分解を用いた教師なし学習による変数選択
テンソル分解を用いた教師なし学習による変数選択
 
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
 
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
 
miRNA-mRNA相互作用同定を用いた 腎芽腫関連遺伝子の推定
miRNA-mRNA相互作用同定を用いた 腎芽腫関連遺伝子の推定miRNA-mRNA相互作用同定を用いた 腎芽腫関連遺伝子の推定
miRNA-mRNA相互作用同定を用いた 腎芽腫関連遺伝子の推定
 
Principal component analysis based unsupervised feature extraction applied to...
Principal component analysis based unsupervised feature extraction applied to...Principal component analysis based unsupervised feature extraction applied to...
Principal component analysis based unsupervised feature extraction applied to...
 
microRNA-mRNA interaction identification in Wilms tumor using principal compo...
microRNA-mRNA interaction identification in Wilms tumor using principal compo...microRNA-mRNA interaction identification in Wilms tumor using principal compo...
microRNA-mRNA interaction identification in Wilms tumor using principal compo...
 
主成分分析を用いた教師なし学習による変数選択法を用いたがんにおけるmRNA-miRNA相互作用のより信頼性のある同定
主成分分析を用いた教師なし学習による変数選択法を用いたがんにおけるmRNA-miRNA相互作用のより信頼性のある同定主成分分析を用いた教師なし学習による変数選択法を用いたがんにおけるmRNA-miRNA相互作用のより信頼性のある同定
主成分分析を用いた教師なし学習による変数選択法を用いたがんにおけるmRNA-miRNA相互作用のより信頼性のある同定
 
Identification of aberrant gene expression associated with aberrant promoter ...
Identification of aberrant gene expression associated with aberrant promoter ...Identification of aberrant gene expression associated with aberrant promoter ...
Identification of aberrant gene expression associated with aberrant promoter ...
 
Heuristic Principal Component Analysis Based unsupervised Feature Extraction...
Heuristic Principal Component Analysis  Based unsupervised Feature Extraction...Heuristic Principal Component Analysis  Based unsupervised Feature Extraction...
Heuristic Principal Component Analysis Based unsupervised Feature Extraction...
 
Integrating different data types by regularized unsupervised multiple kernel...
Integrating different data types by regularized  unsupervised multiple kernel...Integrating different data types by regularized  unsupervised multiple kernel...
Integrating different data types by regularized unsupervised multiple kernel...
 
FAMSとchooseLDを用いたインシリコ創薬パイプライン
FAMSとchooseLDを用いたインシリコ創薬パイプラインFAMSとchooseLDを用いたインシリコ創薬パイプライン
FAMSとchooseLDを用いたインシリコ創薬パイプライン
 
Principal component analysis-based unsupervised feature extraction applied to...
Principal component analysis-based unsupervised feature extraction applied to...Principal component analysis-based unsupervised feature extraction applied to...
Principal component analysis-based unsupervised feature extraction applied to...
 
In silico spleen tyrosine kinase inhibitor screening by chooseLD
In silico spleen tyrosine kinase inhibitor screening by chooseLDIn silico spleen tyrosine kinase inhibitor screening by chooseLD
In silico spleen tyrosine kinase inhibitor screening by chooseLD
 

A cross-species bi-clustering approach to identifying conserved co-regulated genes