(1).次元圧縮周りでの気付き
(2).次元圧縮vs直接的なモデル化
自己紹介
• 松本 拡高
• 東大 メディカル情報生命専攻 D3
• バイオインフォにおける確率モデル
と機械学習
• 連絡先
– @gggtta
– matsumoto@cb.k.u-tokyo.ac.jp
(1).次元圧縮周りでの気付き
(2).次元圧縮vs直接的なモデル化
次元圧縮とは
• 自然言語による大雑把な私の理解
• 高次元のデータを解釈できるよう、うま
いこと低次元に落とし込みたい。
次元圧縮(PCA)とは
• 目的関数による理解
• 元の高次元データXiを、データ共通のWと
低次元Ziを用いて上手く近似できるWとZi
を求める。(Wは直交する)
• 可視化するときは、たいていZiをplot
Sparse coding
• そもそも、この話をするようになったきっかけ
• なんか解釈可能な特徴量(辞書)が出てくるらし
い。という話を聞いて調べてみたところ。。。
引用:http://charles.cadieu.us/?p=184
Sparse coding
• 目的関数は
• Wの直交性の条件はない
• Ziにスパース性を含めただけ
• PCAとほとんど同じではないか。。。
• 確率論的には
– PCA : ziの事前分布がガウス分布
– SC : ziの事前分布がラプラス分布
Topic model
• Topicごとに単語の使われる頻度が異なり、
文章ごとにtopicの頻度が違う。
引用:http://www.scottbot.net/HIAL/?p=221
Topic model
• topicの出現確率が、文章ごとに違うmixture
modelの拡張だと私は最初に思った
• 混合モデル:topicの出現確率は一定
Topic model
• でも確率的に解釈すると、次元圧縮にWが
B、πiがZiとみなすと、ほぼprobabilistic
PCA
• 要はZiに、Zi>0かつ足したら1という条件
が加わっただけ
topic model -> mixture model -> k-means
• トピックモデル
– 出現確率がデータごとに異なる。
• 混合モデル
– 出現確率はデータで共通
• K-means
– 混合ガウスのある極限
Diffusion map
• PCAを非線形に拡張したものにdiffusion mapと
いうものがある
芳村さんのスライドから拝借
Diffusion map
• 手順
• 高次元空間上でのデータ間の遷移確率行
列をガウスカーネルから作る(ある種のグ
ラフラプラシアン)
• 遷移確率行列を固有値分解してえられる
固有ベクトルがZiに相当
Spectral clustering
• グラフラプラシアンといえばこいつ
• グラフラプラシアンを固有値分解して、固有ベ
クトルでk-meansなど
引用:http://d.hatena.ne.jp/mr_r_i_c_e/20121214/1355499195
Diffusion map vs spectral clustering
• グラフラプラシアンを固有値分解して固
有ベクトルを見るところまで同じ
– ※正確には許容できるグラフラプラシアンが違うはず
• 固有ベクトルを、連続量として扱うか、
離散的なクラスタに分類するかの違いで
しかない。
個人的な俯瞰図(scatter plot)
PCA Diffusion map
Sparse coding
スパース性
非線形
グラフラプラシアンの
固有値分解
クラスタリング
K-means Spectral clustering混合モデル
混合ガウス
トピックモデル
正則化条件
次元圧縮
個人的感想
• いろいろかっこいい名前をつけているが、基
盤はたいてい同じである。
• 次元圧縮もクラスタリングも混合モデルもた
いてい同じようなことをしている
– 機械学習は案外浅い研究分野?(※学習理論では
なく、モデルの多様性という意味で)
– いろいろ機械学習の手法を勉強してきたつもりだ
けど、実はたいして学んでいない!!???
• もっとディープな新しい何かが欲しい。
– ※ただし決してそれはディープラーニングではな
い
(1).次元圧縮周りでの気付き
(2).次元圧縮vs直接的なモデル化
Single cell expression data
• Bulk data
– ある程度細胞数が含まれたサンプルをまとめ
て計測する
– 異なる分化進行度、細胞運命の細胞が混ざっ
ており、データは平均像でしかない
• Single cell data
– 各細胞のデータを取得できるようになった
Single cell expression data
• Bulk data
• Single cell data
平均身長
平均体重
平均年収
身長
体重
年収
身長
体重
年収
Motivation
• 高解像度データを用いて、細胞の分化過
程を理解したい。
幼稚な例えをしますが
ご容赦ください
1細胞を1個人で考える
• 1細胞を1個人。遺伝子の発現量を身長
や年収などの特性と考える。
1細胞
発現量
遺伝子1 : 0.3
遺伝子2 : 1.9
1個人
値
身長 : 170
年収 : 300
細胞分化を知る、人の成長を知る
• 幹細胞→心筋細胞の分化過程を知りたい
• 子供→大人の成長過程を知りたい
1細胞
発現量
遺伝子1 : 0.3
遺伝子2 : 1.9
1個人
値
身長 : 170
年収 : 300
具体的に知りたいのは?
• 各細胞の分化進行度や細胞運命は未知
• 各個人の年齢や職業は未知
1細胞
発現量
遺伝子1 : 0.3
遺伝子2 : 1.9
1個人
値
身長 : 170
年収 : 300
次元圧縮を用いた経路再構築
• 発現量または身長などに対する次元圧縮
1細胞 or 1個人
次元圧縮を用いた経路再構築とは?
• 分化過程or成長過程を推定する
• MST, principal curve, ….
子供
iPS 警察官
心筋細胞
医者
肝細胞
次元圧縮を用いた経路再構築とは?
• 経路上の位置から、分化進行度(年齢)や細
胞運命(将来の職業)を推定する。
子供
iPS 警察官
心筋細胞
医者
肝細胞
次元圧縮の問題点
• 圧縮空間上での経路の生物学的な意味の
解釈が困難
• 必ずしも第1、第2成分が見たいものを
表すわけではない
– ノイズに弱く、いろいろぶれる
– 第何成分まで見れば良いのか?
ぶれる端的な例
子供
分化前 大人
分化後
医者
肝細胞
• 仮に赤が0歳のデータだとしても、圧縮
空間上では分散し、経路上はずれる
直接的なモデル化
• 細胞の気持ちになって考える
分化進行度
年齢
発現量
体重
1細胞or1個人の経路
平均的な振る舞い
直接的なモデル化
• 生物学的な機構を考慮したモデル化
• Ornstein-Uhlenbeck process
第1回wacodeより再掲
Essentially, all models are wrong,
but some are useful.
George E. P. Box(18 October 1919 – 28 March 2013)
結果(論文)
In preparation
まとめ
• 教師なし学習は基本的にPCAを基盤とし
てちょっと変わってるだけ。
• 次元圧縮は優れた手法だが、万能ではな
い
– 思考停止をしてはダメ
– 直接的なモデル化をぜひ

次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode