SlideShare a Scribd company logo
1 of 22
Download to read offline
主成分分析を用いた教師なし学習による
変数選択法を用いたがんにおけるmRNA­
miRNA相互作用のより信頼性のある同定
中央大学理工学部物理学科
田口善弘
Published asPublished as
Taguchi, Y.­H. Identification of More Feasible 
MicroRNA–mRNA  Interactions  within 
Multiple Cancers Using Principal Component 
Analysis  Based  Unsupervised  Feature 
Extraction. Int. J. Mol. Sci. 2016, 17, 696.
1.本研究の目的
microRNA (miRNA)とは?
DNA
mRNA
タンパク
miRNA
miRNA­mRNA相互作用の予測の困難さ
*ペアの数が膨大
 mRNA 〜 104, miRNA 〜 103 → ペア 〜 107
*計算機:予測が塩基配列ベース
解決策:
発現差の有無でmRNA/miRNAをスクリーニング
 例:疾患Xで作用しているmiRNA­mRNAペア
→ 患者 vs 健常者の発現差が
有意なmRNA/miRNAを選ぶ
mRNA miRNA
健
常
者
患
者
健
常
者
患
者
マ
ッ
チ
ン
グ
負相関
この解決策の問題点:
 「発現差が有意発現差が有意」の基準が恣意的
スクリーニング基準:
P値とフォールドチェンジ(Fold Change:FC):
何倍/何分の1になったか
P値の問題点:
mRNA/miRNAの個数N:固定
サンプル数:M:可変 M:大 → P:小
FCの問題点:
2または1/2が一般的。でも根拠?
先行研究の例
現実の研究では......
P値とFCを調整 → 「いい結果」
妥当性 → 議論無し
結果が生物的に妥当なら無問題結果が生物的に妥当なら無問題
(P値とFCの選択の恣意性は不問)
→「どのmRNA/miRNAが有意に変化しているか」
→「真実の答え」
 → Data drivenなストラテジー
アイディア:アイディア:PCAPCA(主成分分析)の活用(主成分分析)の活用
N(mRNA/miRNAの個数):不変
M:可変 M → ∞で収束するものを目指す
⇓
PCAでNの方を低次元空間に埋め込めば
M → ∞で収束するはず(自由度が有限なら)
M(≪N)
サンプル
遺
伝
子
発
現
行
列
主成分負荷量
(M   ∞→ で収束)
健
常
者
患
者
PC1M
N
PC1
PC2
ガウス分布
(仮定)
cf.確率PCA
主成分得点
外れ値*
  ||
選択
有意差:
t検定:P<0.05
*:多重正規+χ2分布
BH多重比較補正P値<0.01
N(mRNA/miRNA)
Synthetic example
10 samples
10 samples
90 features 10 features
N(0)
N()
[N()+N(0)]/2
+:Top 10 outliers

Thus, extracting outliers 
selects features distinct 
between two classes in an 
unsupervised way.
Accuracy:(100 trials)Accuracy:(100 trials)
 89.5% (
 52.6% (
PC1
PC2
Normal μ:mean 
Distribution ½ :SD
miRNA発現プロファイル mRNA発現プロファイル
主成分分析を用いた教師なし学習による変数選択法主成分分析を用いた教師なし学習による変数選択法
選択されたmiRNA 選択されたmRNA
患者>健常者
患者<健常者
それ以外
患者<健常者
患者>健常者
それ以外
miRNA-mRNAペアstarbase† 文献検索
判別分析判別分析
TargetScan*TargetScan*
*:塩基配列ベースのmiRNA/mRNA相互作用データベース
†:実験ベースのmiRNA/mRNA相互作用データベース
mRNA/miRNA相互作用同定への応用ワークフロー
対
象
デ
ー
タ
セ
ッ
ト
と
選
択
結
果
主
成
分
分
析
を
用
い
た
教
師
な
し
学
習
に
よ
る
変
数
選
択
法
で
選
択
さ
れ
た
miRNA/mRNA
1
2
3
4
5
6
判別分析判別分析((主成分負荷量を用いて線形判別主成分負荷量を用いて線形判別,LOOCV,LOOCV))
いずれも、患者vs健常者をよく判別できているの
で、がんに伴った発現変化のあるmiRNA/mRNA
をうまく選べた
miRNA/mRNAペア同定結果
()内の数の意味:
*:starbaseでmiRNA/mRNA負相関が報告(癌腫非限定)
†:当該癌腫との関連の既報がある
* † †
結論:
miRNA/mRNA相互作用を、発現プロファイルと塩基配列情報を
統合して、複数の癌腫、複数のプラットフォーム、複数の実験グ
ループの混在したデータセットに対して統一基準で同定することに
成功した。
また、同定されたmiRNA,mRNA,miRNA/mRNAペアとがんの
関係は既報とよく一致していた(ので信頼できるだろう)。
統一基準で解析できる利点:
・サンプルバイアスの軽減
・ダメなものはダメとわかる。
・ヘテロなデータセット(異種プラットフォーム、複数実験グループ
の混在)が可能になるので解析の可能性が広がる。
先行研究:
そもそも、こういう問題意識が希薄なので誰もやってないので
は....。
おまけ:おまけ:
講演申込み後、別種の腫瘍(Wilms Tumor;腎臓がん)につい
て追加実験を行った(submitted to BIBE2016,
bioRXiv doi: http://dx.doi.org/10.1101/059295)
目的:同一研究グループがmiRNA/mRNAを一部同一サンプ
ルで行ったので負相関などを直接決定できる。
mRNA    miRNA
患者 健常者 患者 健常者
28 4 62 4
選択選択
mRNA 1114 miRNA 55
判別判別 mRNA miRNA
患者 健常者 患者 健常者
患者 27 0 61 0
健常者 1 4 1 4
R=-0.126 (P=0.008)
R=-0.267 (P<10­16)
3,4
2
複数個の複数個のmiRNAmiRNAの標的になっている遺伝子のの標的になっている遺伝子の
予後予測に関係するがん(太字:腎臓がん)予後予測に関係するがん(太字:腎臓がん)
3,4
2
mRNAとmiRNAが同一サンプルであるという
重要な情報を使わなくても、mRNAとmiRNAが
有意に負相関し、かつ、生物学的に妥当な結果
が出せたので手法の信頼性はさらに高まった。

More Related Content

More from Y-h Taguchi

遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発
遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発
遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発Y-h Taguchi
 
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...Y-h Taguchi
 
Rectified factor networks for biclustering of omics data
Rectified factor networks for biclustering of omics dataRectified factor networks for biclustering of omics data
Rectified factor networks for biclustering of omics dataY-h Taguchi
 
テンソル分解を用いた教師なし学習による変数選択
テンソル分解を用いた教師なし学習による変数選択テンソル分解を用いた教師なし学習による変数選択
テンソル分解を用いた教師なし学習による変数選択Y-h Taguchi
 
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索Y-h Taguchi
 
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定Y-h Taguchi
 
Principal component analysis based unsupervised feature extraction applied to...
Principal component analysis based unsupervised feature extraction applied to...Principal component analysis based unsupervised feature extraction applied to...
Principal component analysis based unsupervised feature extraction applied to...Y-h Taguchi
 
microRNA-mRNA interaction identification in Wilms tumor using principal compo...
microRNA-mRNA interaction identification in Wilms tumor using principal compo...microRNA-mRNA interaction identification in Wilms tumor using principal compo...
microRNA-mRNA interaction identification in Wilms tumor using principal compo...Y-h Taguchi
 
Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepati...
Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepati...Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepati...
Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepati...Y-h Taguchi
 
主成分分析を用いた教師なし学習による出芽酵母 の時間周期遺伝子発現プロファイルの解析
主成分分析を用いた教師なし学習による出芽酵母 の時間周期遺伝子発現プロファイルの解析主成分分析を用いた教師なし学習による出芽酵母 の時間周期遺伝子発現プロファイルの解析
主成分分析を用いた教師なし学習による出芽酵母 の時間周期遺伝子発現プロファイルの解析Y-h Taguchi
 
PCAを用いた2群の有意差検定
PCAを用いた2群の有意差検定PCAを用いた2群の有意差検定
PCAを用いた2群の有意差検定Y-h Taguchi
 
SFRP1 is a possible candidate for epigenetic therapy in non­small cell lung ...
SFRP1 is a possible candidate for epigenetic  therapy in non­small cell lung ...SFRP1 is a possible candidate for epigenetic  therapy in non­small cell lung ...
SFRP1 is a possible candidate for epigenetic therapy in non­small cell lung ...Y-h Taguchi
 
A cross-species bi-clustering approach to identifying conserved co-regulated ...
A cross-species bi-clustering approach to identifying conserved co-regulated ...A cross-species bi-clustering approach to identifying conserved co-regulated ...
A cross-species bi-clustering approach to identifying conserved co-regulated ...Y-h Taguchi
 
Identification of aberrant gene expression associated with aberrant promoter ...
Identification of aberrant gene expression associated with aberrant promoter ...Identification of aberrant gene expression associated with aberrant promoter ...
Identification of aberrant gene expression associated with aberrant promoter ...Y-h Taguchi
 
Heuristic Principal Component Analysis Based unsupervised Feature Extraction...
Heuristic Principal Component Analysis  Based unsupervised Feature Extraction...Heuristic Principal Component Analysis  Based unsupervised Feature Extraction...
Heuristic Principal Component Analysis Based unsupervised Feature Extraction...Y-h Taguchi
 
Integrating different data types by regularized unsupervised multiple kernel...
Integrating different data types by regularized  unsupervised multiple kernel...Integrating different data types by regularized  unsupervised multiple kernel...
Integrating different data types by regularized unsupervised multiple kernel...Y-h Taguchi
 
FAMSとchooseLDを用いたインシリコ創薬パイプライン
FAMSとchooseLDを用いたインシリコ創薬パイプラインFAMSとchooseLDを用いたインシリコ創薬パイプライン
FAMSとchooseLDを用いたインシリコ創薬パイプラインY-h Taguchi
 
Principal component analysis-based unsupervised feature extraction applied to...
Principal component analysis-based unsupervised feature extraction applied to...Principal component analysis-based unsupervised feature extraction applied to...
Principal component analysis-based unsupervised feature extraction applied to...Y-h Taguchi
 
In silico spleen tyrosine kinase inhibitor screening by chooseLD
In silico spleen tyrosine kinase inhibitor screening by chooseLDIn silico spleen tyrosine kinase inhibitor screening by chooseLD
In silico spleen tyrosine kinase inhibitor screening by chooseLDY-h Taguchi
 
How to screen out liars
How to screen out liarsHow to screen out liars
How to screen out liarsY-h Taguchi
 

More from Y-h Taguchi (20)

遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発
遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発
遺伝子発現プロファイルからの 薬剤標的タンパクの統計的推定法の開発
 
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...
Identification of Candidate Drugs for Heart Failure using Tensor Decompositio...
 
Rectified factor networks for biclustering of omics data
Rectified factor networks for biclustering of omics dataRectified factor networks for biclustering of omics data
Rectified factor networks for biclustering of omics data
 
テンソル分解を用いた教師なし学習による変数選択
テンソル分解を用いた教師なし学習による変数選択テンソル分解を用いた教師なし学習による変数選択
テンソル分解を用いた教師なし学習による変数選択
 
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
主成分分析を用いた教師なし学習による変数選択を用いたヒストン脱アセチル化酵素阻害剤の機能探索
 
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
 
Principal component analysis based unsupervised feature extraction applied to...
Principal component analysis based unsupervised feature extraction applied to...Principal component analysis based unsupervised feature extraction applied to...
Principal component analysis based unsupervised feature extraction applied to...
 
microRNA-mRNA interaction identification in Wilms tumor using principal compo...
microRNA-mRNA interaction identification in Wilms tumor using principal compo...microRNA-mRNA interaction identification in Wilms tumor using principal compo...
microRNA-mRNA interaction identification in Wilms tumor using principal compo...
 
Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepati...
Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepati...Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepati...
Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepati...
 
主成分分析を用いた教師なし学習による出芽酵母 の時間周期遺伝子発現プロファイルの解析
主成分分析を用いた教師なし学習による出芽酵母 の時間周期遺伝子発現プロファイルの解析主成分分析を用いた教師なし学習による出芽酵母 の時間周期遺伝子発現プロファイルの解析
主成分分析を用いた教師なし学習による出芽酵母 の時間周期遺伝子発現プロファイルの解析
 
PCAを用いた2群の有意差検定
PCAを用いた2群の有意差検定PCAを用いた2群の有意差検定
PCAを用いた2群の有意差検定
 
SFRP1 is a possible candidate for epigenetic therapy in non­small cell lung ...
SFRP1 is a possible candidate for epigenetic  therapy in non­small cell lung ...SFRP1 is a possible candidate for epigenetic  therapy in non­small cell lung ...
SFRP1 is a possible candidate for epigenetic therapy in non­small cell lung ...
 
A cross-species bi-clustering approach to identifying conserved co-regulated ...
A cross-species bi-clustering approach to identifying conserved co-regulated ...A cross-species bi-clustering approach to identifying conserved co-regulated ...
A cross-species bi-clustering approach to identifying conserved co-regulated ...
 
Identification of aberrant gene expression associated with aberrant promoter ...
Identification of aberrant gene expression associated with aberrant promoter ...Identification of aberrant gene expression associated with aberrant promoter ...
Identification of aberrant gene expression associated with aberrant promoter ...
 
Heuristic Principal Component Analysis Based unsupervised Feature Extraction...
Heuristic Principal Component Analysis  Based unsupervised Feature Extraction...Heuristic Principal Component Analysis  Based unsupervised Feature Extraction...
Heuristic Principal Component Analysis Based unsupervised Feature Extraction...
 
Integrating different data types by regularized unsupervised multiple kernel...
Integrating different data types by regularized  unsupervised multiple kernel...Integrating different data types by regularized  unsupervised multiple kernel...
Integrating different data types by regularized unsupervised multiple kernel...
 
FAMSとchooseLDを用いたインシリコ創薬パイプライン
FAMSとchooseLDを用いたインシリコ創薬パイプラインFAMSとchooseLDを用いたインシリコ創薬パイプライン
FAMSとchooseLDを用いたインシリコ創薬パイプライン
 
Principal component analysis-based unsupervised feature extraction applied to...
Principal component analysis-based unsupervised feature extraction applied to...Principal component analysis-based unsupervised feature extraction applied to...
Principal component analysis-based unsupervised feature extraction applied to...
 
In silico spleen tyrosine kinase inhibitor screening by chooseLD
In silico spleen tyrosine kinase inhibitor screening by chooseLDIn silico spleen tyrosine kinase inhibitor screening by chooseLD
In silico spleen tyrosine kinase inhibitor screening by chooseLD
 
How to screen out liars
How to screen out liarsHow to screen out liars
How to screen out liars
 

主成分分析を用いた教師なし学習による変数選択法を用いたがんにおけるmRNA-miRNA相互作用のより信頼性のある同定