テンソル分解を用いた教師なし学習による変数選択
中央大学物理学科 田口善弘
Y-h. Taguchi, PLoS ONE (2017)
DOI: 10.1371/journal.pone.0183933
(今朝の午前3時に刊行!)
自己紹介
田口善弘 中央大学物理学科教授
1961年生まれ 56歳
卒研:地震予知
修論:量子スピン系基底状態
(量子アニーリングで有名になった西森教授が
助手だった時の共同研究大学院生)
博論:フラクタル
流体乱流
粉粒体動力学の数値計算(ここまで東工大)
1997年〜(中央大学物理学科助教授・教授)
バイオインフォマティクスバイオインフォマティクス
バイオインフォマティクスで扱うゲノムデータの特徴
サンプル数が少なく(数個)、変数(=遺伝子数)が
多い(数万)→典型的なlarge p small n問題。
通常の統計手法とか使いにくい
例:サンプル数少ない→深層学習 ×
large p small n問題 
    → 疎性モデリング(lasso)で変数選択 ×
いろいろな意味で「独自のアプローチ」が求められる
目的:マルチビューデータセット解析
ヒト×属性
ヒト
属性
ヒト×買い物
ヒト
買い物
属性:
A,B,D,M
ヒト:
β,δ,μ
買い物:
イ、ト、ミ
行列   テンソル
×xij xil
xij ×xil
xijl
テンソル分解
G
xik1
xjk2
xlk3
xijl=xij ×xil≒Σk1,k2,k3
 Gk1,k2,k3
xik1
xjk2
xlk3
 
i:ヒト
j:属性
l:買い物
人工データによるデモンストレーション
50 50
1000
+20%ノイズ
50
100%ノイズ
無相関無相関
++
50
+20%ノイズ
50×1000
×1000
テンソル
テンソル分解
xik1
k1=1
1≦i 50≦
k1=2 k1=3
xjk2
k2=1
k2=2
xlk2
k3=1
k3=2
1≦j 1000≦ 1≦l 1000≦
ヒト
属性 買い物
マルチビューデータセット解析ツールとしての利点マルチビューデータセット解析ツールとしての利点
・複数のビューを結合するときの重みが不要。
・完全教師なし学習(事前知識を用いたモデルの
 作りこみが要らない)
・線形代数なので計算が軽い。
マルチビューデータセット解析ツールとしての欠点
・メモリーがでなくなりがち
 解決策:Σi xij ×xil と和を取ってj行l列の行列にし
てから計算してあとで元に戻す (説明省略)。
・サンプル数も属性数も買い物数も違うと4モードの
テンソルになる(計算大変)
変数選択の方法変数選択の方法 現実のデータではこんなに
綺麗に分離しない
ガウス分布仮定
外れ値検出
Pi=P[ >∑k
(
xik
σ )
2
]
Benjamini-Hochberg
補正P <0.01
χ二乗分布でP値
P(p)
1-p
0 1
応用例:マルチオミックスデータ
mRNA
サンプル1
サンプル2
サンプル3
サンプル4
サンプル5
miRNA
A群
B群
アクティブアクティブ
発現量 相互作用
xij ×xil   i:161サンプル, j:13393mRNA, l:755miRNA,
(8群)
病態間で差があるxik1
の選択
k1=1 k1=2 k1=3 k1=4 k1=5
1≦k1  5≦ に病態依存性がある
P値
k2 k3 k1 G(k1,k2,k3)
1≦k1 k2 k3  5≦
k1 :サンプル
k2 :mRNA 
k3 :miRNA 
1≦ k2  5≦
G大
G小
1≦ k3  2≦
xjk2
xlk3
ガウス分布仮定
外れ値検出
Benjamini­Hochberg
補正P <0.01
χ二乗分布でP値
755miRNA中7miRNA
13393mRNA中427mRNA
(生物学的な妥当性は省略)
まとめ
・マルチビューデータでの変数選択法として行列の積から
テンソルを作りテンソル分解してからモードの分布にガウス
分布を仮定し、カイ二乗分布でP値を計算してBH補正で多
重比較補正されたP値が0.01以下の変数を選択するという
方法を提案した。
・人工データの場合、相関係数ではお互いに無相関な2つの
秩序変数が、それぞれ多数のノイズに埋もれている場合、ど
れが秩序変数か教師なし学習で選択し、また、2つの秩序変
数を構成する元となった直交関数基底を再構成できた。
・マルチオミックスデータの場合、多数個のmRNAと多数個の
miRNAの中からごく少数(数%程度)の生物学的に意味が
ある、相互に相互作用のあるmRNAとmiRNAを選択できた。

テンソル分解を用いた教師なし学習による変数選択