Wolf, F. Alexander, et al.
"Graph abstraction reconciles clustering with
trajectory inference through a topology preserving
map of single cells.”
bioRxiv preprint (2017).
報告者:鈴木良平
tmd-gpat Journal Club Apr.6, 2018
研究の概要
シングルセル解析で、クラスタリングと軌道推測を組み合わせる
離散的 連続的
クラスタリング (Loupe Cell Browser) 軌道推測 (Trapnell et al., 2014)
→ 複雑なデータセットでも分化系列の安定した解析が可能に!
研究の概要
シングルセル解析で、クラスタリングと軌道推測を組み合わせる
離散的 連続的
クラスタリング (Loupe Cell Browser) 軌道推測 (Trapnell et al., 2014)
→ 複雑なデータセットでも分化系列の安定した解析が可能に!
手法:「グラフ抽象化」+「トポロジー保存写像」
Background: single-cell biology
= 組織内の細胞ごとの表現型の違いを捉える実験・分析手法.
実験手法の例 (右ほど新しくハイスループット)
• IHC, FACS, single-cell mass cytometry, scRNA-seq
知りたいこと(例)
• 細胞分化の様相、メカニズム
• 薬物や疾患への細胞の応答
• 組織内の細胞不均質性、相互作用
• 組織内の各種細胞の空間分布
Single-cell RNA-seq
データ:同組織由来の数千〜数万細胞 × 数万遺伝子の遺伝子発現
Furusawa, Chikara, and Kunihiko Kaneko. "A dynamical-systems
view of stem cell biology." Science 338.6104 (2012): 215-217.
細胞の分化や応答を
読み取りたい
クラスタリング
性質の近い細胞の群れを見つける …… 教師なし学習の基本
主な手法
• 階層クラスタリング ―→
• k-means
• Meanshifts
• グラフベースクラスタリング
細胞の分類はできるが、連続的な分化や
応答ダイナミクスの情報は得られない
離散的
軌道推測 / pseudotemporal (PT)
入力例:高次元発現プロファイル
細胞
細胞
低次元空間にマッピング
(しないこともある)
入力
single-cell methodで得られたデータ
出力
• 各細胞の時間的順序 (または代表的な時系列)
• 分岐(bifurcation)パターンの特定
連続的
典型的な解析の例 (Trapnell et al., 2014)
ヒト筋芽細胞(myoblast)に分化刺激後、
{0,24,48,72}時間経過時にscRNA-seq(約500細胞)
※分化刺激:低血清濃度へのスイッチ
解析
• 独立成分分析 (FastICA) → 最小全域木
• 長い経路上にpseudotimeを割り当て
結果
• 既知をregulator geneの振る舞いを確認
PTの基本的なアイデア
仮定
• 分化に伴い表現型は連続的に変化する
• 組織中には分化経路上のあらゆる段階の
細胞がまんべんなく存在している
• それらを十分密にサンプリングできる
アプローチ
• 細胞の高次元空間中での分布を調べる
• 列をなしていれば、それが時系列変化
• 枝分かれがあれば、それが分岐的分化
Furusawa, Chikara, and Kunihiko Kaneko. "A dynamical-systems
view of stem cell biology." Science 338.6104 (2012): 215-217.
以前の勉強会資料から抜粋・一部改
PTの基本的なアイデア
仮定
• 分化に伴い表現型は連続的に変化する
• 組織中には分化経路上のあらゆる段階の
細胞がまんべんなく存在している
• それらを十分密にサンプリングできる
アプローチ
• 細胞の高次元空間中での分布を調べる
• 列をなしていれば、それが時系列変化
• 枝分かれがあれば、それが分岐的分化
Furusawa, Chikara, and Kunihiko Kaneko. "A dynamical-systems
view of stem cell biology." Science 338.6104 (2012): 215-217.
以前の勉強会資料から抜粋・一部改
実際のデータでは……
• 全く異なる種類の細胞が
混在してシーケンスされる
• まばらなサンプリング
こんなに簡単には行かない!
PTがうまくいかないケース (Monocle 2)
造血系列(hematopoiesis)のデータセット (Paul et al., 2015)
Monocle 2 (Qiu et al., 2017)での木構造抽出
→ 分化系列から外れるLympoidがデータに入っていると失敗
Lymph除去時の解析結果 非除去時の解析結果
元文献データ
(Paul et al.)
色は元文献
での分類
Motivation
クラスタリング
• 長所 非連続的でスパースなデータにも使える
• 短所 得られる生物学的知見が少ない
軌道推測(PT)
• 長所 細胞分化系列やそれに関連する遺伝子などがわかる
• 短所 データへの要請が厳しい、統計的評価ができない(p値?)
実際の研究では両者の長所を兼ね備えた分析手法が必要!
→ 離散性と連続性を同時に扱えるデータ構造とは?
Basic Ideas
Approximate graph abstraction
(AGA)
細胞クラスタ分割とその接続関係
全体的な構造はこちらで見る
Random-walk based distance
measure
遺伝子発現ベクトルではなくグラフ
歩数で細胞・クラスタの距離を定義
Method Overview
元データ
(scRNA-seq)
グラフに変換
クラスタ分割
クラスタ間距離を
計算(AGA)
木構造を抽出
遺伝子発現の
連続変化も再現
1. グラフ生成と分割
kNN (k-nearest-neighbor)で細胞グラフ を構築
• 細胞間の距離はGaussian decayで定義
分割 (partitioning)
• グラフの頂点(細胞)をいくつかのグループに分ける
• グループ内の結合は多く、グループ間の結合は少ない分け方
→ “modularity optimization”
• スタンダードなLouvain algorithmを採用
https://github.com/vtraag/louvain-igraph
2. Connectivity test
Partition同士の結合(↔距離)はどのように定義する?
(1) edge statistics
• partition i の関係する辺と全辺数との比 = edge frequency θi
• もしもpartition iとjが特に結合関係になければ、
相互接続数は期待値 E[kij] = Nθiθj のベルヌーイ分布に従う(粗い仮定)
→ 結合の確信度confidenceは二項検定で評価できる!
10%の辺が
集まった
partition
20%の辺が
集まった
partition
偶然だけなら
2%の辺が結ぶ
2. Connectivity test
(2) with random walk distance d(x, y)
• kNN結合数だけを見るのは心もとない
→ クラスタに含まれる細胞どうしの距離を材料にクラスタ距離を定義
• 両クラスタの細胞 xi, yj 同士の距離 d(xi, yj) ← あとで定義
• 全ペアに関する d(xi, yj) の要約量をクラスタ間の距離とする
例)最小値・平均値・中央値
ランダムウォーク距離の計算
ランダムウォーク(酔歩)とは?
ある出発地点からネットワーク(グラフ)上をランダムな経路で動くこと
一定時間後に目的地に到達している可能性や、到達時刻の期待値 = 距離指標
複雑な構造のグラフでは、ユークリッド距離は大域的距離指標として不適切
→ ランダムウォークは規模や構造に依らない距離の特徴付けができる
スペクトル分析
Graph Laplacian Matrix of
行列 の固有値 ,固有ベクトルを考える
例:固有値 の左固有ベクトル
→ さらに一歩進んでも変化しないような確率分布に対応
このように固有値・固有ベクトルからグラフ上の酔歩に関する情報がわかる
平均到達時間
ランダムウォーク距離d:“topology-preserving map”
隣接行列次数行列
遷移行列
ある細胞の次に
どの細胞に行くか
3. 木構造の抽出
AGAから、分化系統に対応する木構造を取り出したい
(1) 最小全域木 (MST)
• 枝の合計confidenceが最大になるようにグラフから枝を選んだもの
• 簡単で高速なアルゴリズムで計算できる (Prim法/Kraskal法)
• 縮退しやすい(ほとんど同じスコアの色々な木が作れる)
3. 木構造の抽出
(2) 反復的構築
• 細胞レベルでの「外れ値」にはAGA上でも「葉」であってほしい
• 外れ値細胞を見つけては、その属するクラスタをできるだけ葉に割り当てる
分化系列の遺伝子発現再現
分化経路に沿った遺伝子発現の連続的変化を再現したい
• 抽象グラフ でクラスタ(partition)経路を指定する
• その順にクラスタをめぐる細胞経路での発現変化をアンサンブル平均する
start
cluster
end
cluster
開始細胞
終着細胞
経路1
経路2
他の手法とのコンセプト的比較
※single-cell解析手法を定量的に比較するのは難しい
• ground truthと言えるデータがほぼ存在しない(特にpseudotemporal)
• ある手法が失敗する例を用意するのは割と簡単
AGAの従来手法に対する本質的な改善点
• 統計的有意性の概念を導入
• データについて仮定が少ない(連続分布や単一分岐でなくてもOK)
• PCAのようなグローバルな距離指標を使わず、複雑な構造にも頑強
• クラスタの解釈性がよい(離散的分割に時系列情報を組み合わせられる)
実データでの評価
造血系列の3つのデータセットを使用
(1) シミュレーション [Moignard et al. ‘15]
• 11遺伝子のBoolean network (e.g., EKLF = Gata1 & not Fli1)
• ODEに変換 → 分化時の連続的な発現変化をシミュレーション
(2) Paul et al. 2015
(3) Nestorowa et al. 2016
• マウスでのscRNA-seqデータセット
AGAによる発現ダイナミクスの再現
Paul et al.
Nestorowa et al.
シミュレーションデータ
AGA Monocle 2 StemID 2
連続的分化が
捉えられない
散在クラスタが
木構造に影響
散在クラスタ
分岐構造を
捉えられない
シミュレーションデータ wo/散在クラスタ
AGA
ECLAIR
Monocle 2
DPT
Paul et al.
AGA
Monocle 2
Lymphなし Lymphあり
Lymph有無に
関わらず一貫性
Lymphが入ると
構造が崩れる
Nestorowa et al.
AGA
Monocle2
Stemから
各細胞への分化
4次元
10次元
プラナリア全細胞系列の分類 (12252cells)
20系列への分化を確認
深層学習への応用
組織画像を細胞ごとCNNに入力
中間層で得られる特徴量を
遺伝子発現量の代わりに使用
→ AGA上に細胞周期を再現
→ ダメージ細胞グループを発見
まとめ
• クラスタリングと軌道推測の良さを併せ持った手法を提案
• kNNグラフの抽象化と、ランダムウォークに基づく距離指標を
組み合わせた「トポロジー保存写像」のテクニック
• 非連続性や複雑な枝分かれのあるデータにも対応できる
• 計算速度も従来手法(Monocle 2)より30倍程度速い
• 造血系・プラナリア全細胞系列などで評価

Wolf et al. "Graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells"