主成分分析を用いた教師なし学習による出芽酵母
の時間周期遺伝子発現プロファイルの解析
田口善弘 中央大学 物理学科
本研究は
Y­h. Taguchi, “Principal component analysis 
based unsupervised feature extraction applied 
to budding yeast temporally periodic gene 
expression”, BioData mining, 2016, 9:22
 として原著論文として刊行済みです
主成分分析を用いた教師なし学習による変数選択
外れ値(遺伝子)の同定方法(P値の計算方法)
主成分得点(遺伝子)に多重ガウス分布を仮定(帰無仮説:
確率主成分分析でも使われている仮定なので妥当と予想)
→χ二乗分布を仮定して遺伝子にP値を付与
→Benjamini–HochbergでP値を多重比較補正
→補正されたP値<0.01または0.05を外れ値とする。 
人工データによるデモンストレーション
青:元の正弦・余弦波 赤:後述
黒:正弦・余弦波+周期ノイズ(ε(t)=ε(t+T(=25)))
100時刻(4周期)×10、000遺伝子
100遺伝子:2つの黒色ベクトルのランダム線形和
9,900遺伝子:全くのノイズ
タスク:無情報で100遺伝子を区別できるか?
ϵj
S
,ϵj
C
∈[−A, A],δi∈[0,2π],ϵij ∈[−1,1]
正弦・余弦波
周期ノイズ付加
直交化
100個の周期ノイズ付加
正弦波と9900個の
ノイズベクトル作成
全遺伝子の発現量規格化
100遺伝子 9,900遺伝子
主成分得点(遺伝子) 主成分負荷量(時刻)
(前々ページの赤線)
正弦回帰と主成分分析による変数選択の性能比較
A:周期ノイズが正弦・余弦波の何倍の振幅か?
人工データでは無情報でも
非正弦波周期ベクトルを
100%の精度で分離可能だった。
現実は?
現実のデータ:出芽酵母の細胞分裂周期遺伝子の同定現実のデータ:出芽酵母の細胞分裂周期遺伝子の同定
酵母は勝手な位相で分裂するので同期が必要
同期戦略①:餌の制限(メタボリックサイクル)
最初の4つの主成分負
荷量(時刻)の散布図
数字は重心のまわりの
回転数。
PC2とPC3に注目。
これらのPCを用いた
遺伝子選択は
生物学的に妥当か?
主成分得点(遺伝子) 主成分負荷量(時刻)
黒赤緑が選択遺伝子(P<0.01)
リボゾーム
ミトコンドリア →原報に一致
細胞分裂
きれいな周期関数
だが正弦波とは似
ても似つかない
REACTOME (PC1〜PC4を使って遺伝子を選択)
主成分分析を用いた教師なし学習による変数選択は正弦波・矩形
波・三角波のどれにくらべても生物学的に妥当な遺伝子を選ぶ。
そもそもPC2とPC3が全く違う形状なので単一の周期関数の位相
を動かすだけでフィッティングできるわけがない。
ここまでの結論:
遺伝子発現プロファイルは周期関数だが正弦関
数ではない。正弦回帰を使うとアーティファクトを
もたらす危険がある(しかし、あんな変な関数型
はアプリオリには想定しようがない!)。
関数形どころか、周期長さえ仮定しなくてもリミッ
トサイクルはしっかり同定可能。
詳細な生物学的な考察で原報で同定した遺伝
子の3グループが「半自動的に」同定可能。
→全て「主成分分析を用いた教師なし学習によ
る変数選択の優位性を示す」
同期戦略②:温度感受性変異体(細胞周期阻止)
Cyclebase:8つの独立した研究論文の統合データベース
8つのうちの1つの
主成分負荷量
(時刻)の散布図。
PC2とPC3にリミッ
トサイクルが観測さ
れる
→PC2 と PC3 を
使って外れ値
(遺伝子)を検出。
別の1つ。ひどい場合は「本当にリミット
サイクルなの?」と思うくらい乱れている。
しかし、人工データだって
これくらい乱れていたの
で、乱れているかどうかと
リミットサイクルかどうか
とは本当はあまり関係な
いかも....。
PC2とPC4にリミット
サイクルが観測される
→PC2とPC4を使っ
て外れ値(遺伝子)を
検出。
結果:8つ中7つのプロファイルでP<0.05で100〜
200個の遺伝子が選択され、うち37個は7つ中
6つ以上のプロファイルで共通に選ばれた
→高い整合性
REACTOME
37遺伝子 PCA
Cyclebase
ここまでの結論:
8つ中7つの実験でリミットサイクルを見つけ、細
胞分裂周期遺伝子を特定できた。
整合性は非常によく、全く独立な実験であること
を考えると信頼できる
実際、REACTOMEで評価すると細胞分裂関連
遺伝子がたくさん見つかった
同じ数をcyclebaseから選んでもそこまでいい遺
伝子は含まれていなかった。
考察
2次元平面内にリミットサイクルがある場合、2軸
の関数は全く別のものでいいので位相がずれてい
るだけの周期関数で回帰するのがそもそも間違っ
ている。
実験ごとに周期関数の形が異なるのでリミットサ
イクルがある、という条件を超えて関数形を仮定す
ると複数の実験に渡って整合性のある結果をだす
ことは原理的に不可能。
2次元平面で外れ値、というだけだと射影が大き
ければそれでOK。回帰計算は相関なので無関係
な成分はペナルティになる。射影はそうではない。
メタボリックサイクルの場合(選択遺伝子ベン図)
PC2とPC3の射影なら
PC1からPC4までの射
影 と 排 他 的 で は な い
が、PC2とPC3への回
帰にしてしまうと、PC1
やPC4の寄与が無いも
のを選んでしまうので
排他的になってしまう。
しかし、PC1やPC4は
倍周期というだけで決
してノイズではない。
→回帰にしてしまうと
ア ー テ ィ フ ァ ク ト が は
いってしまう。
REACTOME: PC1からPC4
メタボリズム関係がちゃんと選ばれている。
結論:
細胞分裂周期遺伝子は正弦回帰でみつかるだろ
う、という予想は一見、もっともらしいが、生物学的
にはなんの根拠もなく、実際に現実のデータは正
弦波からかけ離れている。
まったく間違いということではないのでなかなか間
違いに気づくことはできないが、モデル化をしない
教師なし学習ならばこのような間違いに簡単に気
づける。
安易にモデル化やってベイズ統計計算して周辺尤
度が、とかやってはいけない。「何らかの周期関数」
を仮定した時点でアウト。

主成分分析を用いた教師なし学習による出芽酵母 の時間周期遺伝子発現プロファイルの解析