主成分分析を用いた教師なし学習による
変数選択法を用いたがんにおけるmRNA­
miRNA相互作用のより信頼性のある同定
中央大学理工学部物理学科
田口善弘
Published asPublished as
Taguchi, Y.­H. Identification of More Feasible 
MicroRNA–mRNA  Interactions  within 
Multiple Cancers Using Principal Component 
Analysis  Based  Unsupervised  Feature 
Extraction. Int. J. Mol. Sci. 2016, 17, 696.
1.本研究の目的
microRNA (miRNA)とは?
DNA
mRNA
タンパク
miRNA
miRNA­mRNA相互作用の予測の困難さ
*ペアの数が膨大
 mRNA 〜 104, miRNA 〜 103 → ペア 〜 107
*計算機:予測が塩基配列ベース
解決策:
発現差の有無でmRNA/miRNAをスクリーニング
 例:疾患Xで作用しているmiRNA­mRNAペア
→ 患者 vs 健常者の発現差が
有意なmRNA/miRNAを選ぶ
mRNA miRNA
健
常
者
患
者
健
常
者
患
者
マ
ッ
チ
ン
グ
負相関
この解決策の問題点:
 「発現差が有意発現差が有意」の基準が恣意的
スクリーニング基準:
P値とフォールドチェンジ(Fold Change:FC):
何倍/何分の1になったか
P値の問題点:
mRNA/miRNAの個数N:固定
サンプル数:M:可変 M:大 → P:小
FCの問題点:
2または1/2が一般的。でも根拠?
先行研究の例
現実の研究では......
P値とFCを調整 → 「いい結果」
妥当性 → 議論無し
結果が生物的に妥当なら無問題結果が生物的に妥当なら無問題
(P値とFCの選択の恣意性は不問)
→「どのmRNA/miRNAが有意に変化しているか」
→「真実の答え」
 → Data drivenなストラテジー
アイディア:アイディア:PCAPCA(主成分分析)の活用(主成分分析)の活用
N(mRNA/miRNAの個数):不変
M:可変 M → ∞で収束するものを目指す
⇓
PCAでNの方を低次元空間に埋め込めば
M → ∞で収束するはず(自由度が有限なら)
M(≪N)
サンプル
遺
伝
子
発
現
行
列
主成分負荷量
(M   ∞→ で収束)
健
常
者
患
者
PC1M
N
PC1
PC2
ガウス分布
(仮定)
cf.確率PCA
主成分得点
外れ値*
  ||
選択
有意差:
t検定:P<0.05
*:多重正規+χ2分布
BH多重比較補正P値<0.01
N(mRNA/miRNA)
Synthetic example
10 samples
10 samples
90 features 10 features
N(0)
N()
[N()+N(0)]/2
+:Top 10 outliers

Thus, extracting outliers 
selects features distinct 
between two classes in an 
unsupervised way.
Accuracy:(100 trials)Accuracy:(100 trials)
 89.5% (
 52.6% (
PC1
PC2
Normal μ:mean 
Distribution ½ :SD
miRNA発現プロファイル mRNA発現プロファイル
主成分分析を用いた教師なし学習による変数選択法主成分分析を用いた教師なし学習による変数選択法
選択されたmiRNA 選択されたmRNA
患者>健常者
患者<健常者
それ以外
患者<健常者
患者>健常者
それ以外
miRNA-mRNAペアstarbase† 文献検索
判別分析判別分析
TargetScan*TargetScan*
*:塩基配列ベースのmiRNA/mRNA相互作用データベース
†:実験ベースのmiRNA/mRNA相互作用データベース
mRNA/miRNA相互作用同定への応用ワークフロー
対
象
デ
ー
タ
セ
ッ
ト
と
選
択
結
果
主
成
分
分
析
を
用
い
た
教
師
な
し
学
習
に
よ
る
変
数
選
択
法
で
選
択
さ
れ
た
miRNA/mRNA
1
2
3
4
5
6
判別分析判別分析((主成分負荷量を用いて線形判別主成分負荷量を用いて線形判別,LOOCV,LOOCV))
いずれも、患者vs健常者をよく判別できているの
で、がんに伴った発現変化のあるmiRNA/mRNA
をうまく選べた
miRNA/mRNAペア同定結果
()内の数の意味:
*:starbaseでmiRNA/mRNA負相関が報告(癌腫非限定)
†:当該癌腫との関連の既報がある
* † †
結論:
miRNA/mRNA相互作用を、発現プロファイルと塩基配列情報を
統合して、複数の癌腫、複数のプラットフォーム、複数の実験グ
ループの混在したデータセットに対して統一基準で同定することに
成功した。
また、同定されたmiRNA,mRNA,miRNA/mRNAペアとがんの
関係は既報とよく一致していた(ので信頼できるだろう)。
統一基準で解析できる利点:
・サンプルバイアスの軽減
・ダメなものはダメとわかる。
・ヘテロなデータセット(異種プラットフォーム、複数実験グループ
の混在)が可能になるので解析の可能性が広がる。
先行研究:
そもそも、こういう問題意識が希薄なので誰もやってないので
は....。
おまけ:おまけ:
講演申込み後、別種の腫瘍(Wilms Tumor;腎臓がん)につい
て追加実験を行った(submitted to BIBE2016,
bioRXiv doi: http://dx.doi.org/10.1101/059295)
目的:同一研究グループがmiRNA/mRNAを一部同一サンプ
ルで行ったので負相関などを直接決定できる。
mRNA    miRNA
患者 健常者 患者 健常者
28 4 62 4
選択選択
mRNA 1114 miRNA 55
判別判別 mRNA miRNA
患者 健常者 患者 健常者
患者 27 0 61 0
健常者 1 4 1 4
R=-0.126 (P=0.008)
R=-0.267 (P<10­16)
3,4
2
複数個の複数個のmiRNAmiRNAの標的になっている遺伝子のの標的になっている遺伝子の
予後予測に関係するがん(太字:腎臓がん)予後予測に関係するがん(太字:腎臓がん)
3,4
2
mRNAとmiRNAが同一サンプルであるという
重要な情報を使わなくても、mRNAとmiRNAが
有意に負相関し、かつ、生物学的に妥当な結果
が出せたので手法の信頼性はさらに高まった。

主成分分析を用いた教師なし学習による変数選択法を用いたがんにおけるmRNA-miRNA相互作用のより信頼性のある同定