Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Single-cell pseudo-temporal ordering
近年の技術動向
報告:鈴木良平
参考文献 (括弧内はソフトウェア/アルゴリズム名)
1. Trapnell, Cole, et al. "The dynamics and regulators of cell fate decisions are revealed by
ps...
Single-cell biology
組織中の細胞ごとの表現型の
違いを捉える実験・分析手法.
IHC, FACSなどlow-throughput
↔ オミックス(バルク分析)
目的となる知見
• 組織内の遺伝型多様性, 変異
• 同種細胞間...
Single-cell transcriptome
Single-cell real-time PCR
• Guo et al., 2010: マウス胚500細胞48遺伝子の発現量測定
→ PCAを用いて3胚葉への早期分化マーカーを特定
• 同...
scRNA-seqの技術発展
Svensson, Valentine, Roser Vento-Tormo, and Sarah A. Teichmann. "Exponential
scaling of single-cell RNA-seq...
Tissue homeostasis and development
組織内には様々な分化段階の細胞が恒常的な割合で共存している
→「ある時点に組織に含まれる細胞集団には、
ひとつひとつの細胞が辿る各瞬間の状態に
対応した姿の細胞が含まれている...
Pseudo-temporal ordering (PT, 偽時系列解析)
入力
• single-cell methodで得られたデータ (e.g., scRNA-seq, mass cytometry, Hi-C)
出力
• 各細胞の時間的...
PTの基本的なアイデア
仮定
• 分化に伴い表現型は連続的に変化する
→ 時間的に近い細胞は高次元空間内で近接
• 組織中には分化経路上のあらゆる段階の細胞が
まんべんなく存在している
アプローチ
• 細胞の高次元空間中での分布を調べる
• 列...
近年のPT研究の発展
2011〜2013年ごろ
• 各種single-cell技術が登場 (real-time PCR, scRNA-seq, mass cytometry)
2014年 (pseudo-temporal analysis黎明)...
PTアルゴリズムの比較軸
入力データの複雑さ
• 数十次元 (mass cytometry向け) 〜 超高次元 (genome wide)
次元削減・データ表現の方法
• 高次元データからどうやって低次元構造を抽出するか (PCA, ICA, ...
主なPT手法 (2014年以降のpublication)
https://github.com/agitter/single-cell-pseudotime
Monocle / Monocle 2 (Census) / Wanderlust /...
Monocle [Trapnell et al., 2014]
特徴 ベンチマーク標準.広く使われている
戦略 次元削減(独立成分分析)+スパイン検出 (最小全域木)
評価 ヒト筋芽細胞の分化を複数時刻でscRNA-seq
→ 既知マーカー再現...
Monocle - 独立成分分析 (FastICA)
PCAに似た目的の処理
正規分布(ガウス性)を仮定しない
• 混合モデル
• 分離モデル
Wを最適化してuの独立性を最大化
※独立性≡KLダイバージェンス
観測データ
分離信号
FastIC...
Monocle - スパイン検出
最小全域木 (MST)
• 全細胞を含む最小のネットワーク
• 一番長く取れる経路=スパイン
順序付け&分岐検出 (PQ-tree)
• スパインに沿って順序付け
• スパイン上の同じ細胞から伸びた
枝どうしは...
SCUBA [Marco et al., 2014]
特徴 実時系列single-cellデータの分岐階層分析が主機能.
戦略 次元削減(t-SNE)+主経路検出 (principal curve analysis)
評価 B細胞分化のmass...
SCUBA – principal curve
Hastie, Trevor, and Werner Stuetzle. "Principal curves." Journal of the
American Statistical Assoc...
Wishbone [Setty et al., 2016]
特徴 二又分岐に特化,mass cytometryが主なターゲット
戦略 次元削減 (diffusion map) + 最短路ベース経路 (kNN-graph)
評価 マウス胸腺 CD...
Wishbone – diffusion maps
Coifman, Ronald R., and Stéphane Lafon. "Diffusion maps." Applied
and computational harmonic ana...
Wishbone – kNN-graphによる分岐判定
• 低次元空間内でkNNを結んだネット
ワークを作る
• ランダムに選ばれた複数の細胞それぞ
れ(waypoints)から他の各細胞までの
最短距離を計算
• global traject...
DPT [Haghverdi et al., 2016]
特徴 次元圧縮を行わない,密度分析による準安定状態検出
戦略 遷移確率行列をプロファイルに用いる+シンプルな分岐検出
評価 マウス造血系qPCR (赤血球/内皮分化), ES細胞scRN...
DPT - アルゴリズム
• 距離行列の構成はWishboneと類似
• 開始細胞からの距離で見た順序と,最遠隔細胞からの距離で見た順序を比較
• もし分岐がなければ常に逆相関する
• 分岐地点では二つの順序が正の相関を示す
RGE (Monocle 2) [Qiu et al., 2017]
特徴 反復的戦略,高次元空間内でのprincipal graph (木構造) 生成
戦略 低次元空間での経路予測と高次元空間でのデータ操作を反復
評価 筋芽細胞ゲノムワイドs...
Reversed graph embedding
今後の課題
• 10万〜細胞×ゲノムワイド入力に対応するスケーラビリティ
• 少数遺伝子変化へのセンシティビティ (cocktail party)
• 細胞分布の偏りに対する頑強性
• 階層的な分岐構造の自動検出
• cell cycleなど分...
Upcoming SlideShare
Loading in …5
×

Single-cell pseudo-temporal ordering 近年の技術動向

1,706 views

Published on

偽時系列解析(pseudo-temporal ordering analysis)の研究動向についての資料

Published in: Science
  • Be the first to comment

Single-cell pseudo-temporal ordering 近年の技術動向

  1. 1. Single-cell pseudo-temporal ordering 近年の技術動向 報告:鈴木良平
  2. 2. 参考文献 (括弧内はソフトウェア/アルゴリズム名) 1. Trapnell, Cole, et al. "The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells." Nat. biotechnol. 32.4 (2014): 381-386. (Monocle 1) 2. Marco, Eugenio, et al. "Bifurcation analysis of single-cell gene expression data reveals epigenetic landscape." PNAS 111.52 (2014): E5643-E5650. (SCUBA) 3. Setty, Manu, et al. "Wishbone identifies bifurcating developmental trajectories from single-cell data." Nat. biotechnol. 34.6 (2016): 637. (Wishbone) 4. Haghverdi, Laleh, et al. "Diffusion pseudotime robustly reconstructs lineage branching." Nat. methods (2016): 041384. (DPT) 5. Qiu, Xiaojie, et al. "Reversed graph embedding resolves complex single-cell trajectories." Nat. methods (2017). (Monocle 2, RGE)
  3. 3. Single-cell biology 組織中の細胞ごとの表現型の 違いを捉える実験・分析手法. IHC, FACSなどlow-throughput ↔ オミックス(バルク分析) 目的となる知見 • 組織内の遺伝型多様性, 変異 • 同種細胞間の表現型多様性 • 異種細胞の組織内空間分布 (Navin et al., 2011: breast cancer CNV) • 細胞種同士の分化関係 Junker, Jan Philipp, and Alexander van Oudenaarden. "Every cell is special: genome-wide studies add a new dimension to single-cell biology." Cell 157.1 (2014): 8-11. → High-throughput+single-cellへ
  4. 4. Single-cell transcriptome Single-cell real-time PCR • Guo et al., 2010: マウス胚500細胞48遺伝子の発現量測定 → PCAを用いて3胚葉への早期分化マーカーを特定 • 同時に計測できるのは数十遺伝子程度が限界 scRNA-seq • 細胞ごとにゲノムワイドなトランスクリプトームを計測する • 逆転写時に各細胞でユニークなバーコード配列を結合,シーケンス後にどの細胞 由来のリードか区別 (Hashimshony et al., 2012; Islam et al., 2011) ※single-cell mass-cytometry (プロテオーム) • 様々なタンパク質に重金属修飾抗体を結合, ToF質量分析で同時定量
  5. 5. scRNA-seqの技術発展 Svensson, Valentine, Roser Vento-Tormo, and Sarah A. Teichmann. "Exponential scaling of single-cell RNA-seq in the last decade.", arXiv:1704.01379 [q-bio.GN] 実験あたりシーケンス細胞数 • 2011年ごろ〜100個程度 • 2017年現在100万個が視野に ※数百〜数万細胞での実験が典型的 バーコード手法の進化 • STRT-seq (Islam et al., 2011) 細胞ごとにチューブに分離 • Drop-seq (Macosko et al., 2015) ユニークプライマー入り液滴に細胞分離 • Combinatorial index (Cao et al., 2017) バーコード配列のin situ逆転写を繰り返す
  6. 6. Tissue homeostasis and development 組織内には様々な分化段階の細胞が恒常的な割合で共存している →「ある時点に組織に含まれる細胞集団には、 ひとつひとつの細胞が辿る各瞬間の状態に 対応した姿の細胞が含まれている」(仮定) cf. エルゴード性 (ergodicity) ≡アンサンブル(集団)平均と時間平均が等しい 一時点での組織のsingle cell解析により、 組織内の細胞分化ダイナミクスが分かる! リンパ系,造血系など
  7. 7. Pseudo-temporal ordering (PT, 偽時系列解析) 入力 • single-cell methodで得られたデータ (e.g., scRNA-seq, mass cytometry, Hi-C) 出力 • 各細胞の時間的順序 (または代表的な時系列) • 分岐(bifurcation)パターンとその位置の特定 入力例:高次元発現プロファイル 細胞 細胞 低次元空間にマッピング (手法による)
  8. 8. PTの基本的なアイデア 仮定 • 分化に伴い表現型は連続的に変化する → 時間的に近い細胞は高次元空間内で近接 • 組織中には分化経路上のあらゆる段階の細胞が まんべんなく存在している アプローチ • 細胞の高次元空間中での分布を調べる • 列をなしていれば、それが時系列変化 • 枝分かれがあれば、それが分岐的分化 Furusawa, Chikara, and Kunihiko Kaneko. "A dynamical-systems view of stem cell biology." Science 338.6104 (2012): 215-217.
  9. 9. 近年のPT研究の発展 2011〜2013年ごろ • 各種single-cell技術が登場 (real-time PCR, scRNA-seq, mass cytometry) 2014年 (pseudo-temporal analysis黎明) • Wanderlust, Monocle, SCUBA → 複数時刻でサンプリングしたデータが主な対象.単純な次元削減+グラフ解析 2016年 • Wishbone, TSCAN, DPT → ~万クラスの細胞数+ゲノムワイドデータへの対応 2017年 • RGE (Monocle 2)
  10. 10. PTアルゴリズムの比較軸 入力データの複雑さ • 数十次元 (mass cytometry向け) 〜 超高次元 (genome wide) 次元削減・データ表現の方法 • 高次元データからどうやって低次元構造を抽出するか (PCA, ICA, diffusion mapなど) 分岐検出 • 非対応, 2分岐のみ, 多分岐対応 生物学的事前知識・教師データの利用 • マーカー遺伝子, 分岐数などの情報 他、真の複数時刻測定に対して分岐解析を行う機能を持つもの(SCUBA)など
  11. 11. 主なPT手法 (2014年以降のpublication) https://github.com/agitter/single-cell-pseudotime Monocle / Monocle 2 (Census) / Wanderlust / Cycler / Wishbone / SCUBA / DPT / Oscope / Diffusion maps / destiny / DeLorean / Waterfall / Embeddr / GP-LVM / pseudogp / GP-LVM / SLICER / TSCAN / SCOUP / Topslam / Ouija / Slingshot / Gpfates / SCIMITAR / WaveCrest / LEAP / CellTree / Bayesian hierarchical mixture of factor analysers (MFA) / Mpath / SCORPIUS / SCODE / switchde / MAGIC / PHATE / SOMSC / TASIC / FORKS / UNCURL / reCAT / PhenoPath / Branched Gaussian processes / Branch-recombinant Gaussian Processes / MATCHER / SoptSC / Di-SNE / Population Balance Analysis / Scanpy / etc. 得意とする細胞数や遺伝子数,生物学的プロセスが違う(あと、論文書きやすいのではないだろうか…)
  12. 12. Monocle [Trapnell et al., 2014] 特徴 ベンチマーク標準.広く使われている 戦略 次元削減(独立成分分析)+スパイン検出 (最小全域木) 評価 ヒト筋芽細胞の分化を複数時刻でscRNA-seq → 既知マーカー再現+新転写因子提案 長所 多遺伝子データセットに適用可能 短所 数百細胞程度までしか安定動作しない 分岐数はマニュアル指定 https://bioconductor.org/packages/release/bioc/html/monocle.html
  13. 13. Monocle - 独立成分分析 (FastICA) PCAに似た目的の処理 正規分布(ガウス性)を仮定しない • 混合モデル • 分離モデル Wを最適化してuの独立性を最大化 ※独立性≡KLダイバージェンス 観測データ 分離信号 FastICA: xを白色化して|W|=1の直交行列に限定 https://www.slideshare.net/sfchaos/numpy-scipy-9039097
  14. 14. Monocle - スパイン検出 最小全域木 (MST) • 全細胞を含む最小のネットワーク • 一番長く取れる経路=スパイン 順序付け&分岐検出 (PQ-tree) • スパインに沿って順序付け • スパイン上の同じ細胞から伸びた 枝どうしは順不同 • 上の制約を満たしつつ 全距離最小の全順序を 偽時系列として出力 • 分岐は指定回数だけ スパインの次に長い経路を取る
  15. 15. SCUBA [Marco et al., 2014] 特徴 実時系列single-cellデータの分岐階層分析が主機能. 戦略 次元削減(t-SNE)+主経路検出 (principal curve analysis) 評価 B細胞分化のmass cytometry (2万細胞) → 偽時系列のCD群増減が既知の振る舞いと一致 長所 シンプルな実装, 多細胞データへの対応 短所 分岐検出は不完全 https://github.com/gcyuan/SCUBA
  16. 16. SCUBA – principal curve Hastie, Trevor, and Werner Stuetzle. "Principal curves." Journal of the American Statistical Association 84.406 (1989): 502-516. 離散的なデータについては折れ線を作る. 各頂点 xi について、 • V = {xiの近傍のデータ点 yj} として • xi = E[yj ∈ V] を満たすような折れ線がprincipal curve. 実際は反復的最適化で計算する.
  17. 17. Wishbone [Setty et al., 2016] 特徴 二又分岐に特化,mass cytometryが主なターゲット 戦略 次元削減 (diffusion map) + 最短路ベース経路 (kNN-graph) 評価 マウス胸腺 CD4+/CD8+分化 (23万細胞, 表面マーカmass cytometry) → DN,DP,SPの分化経路を多CDで正しく再現 長所 高精度な分岐判定 短所 高次元データには対応しない scRNA-seqではマーカー選択が必須 http://www.c2b2.columbia.edu/danapeerlab/html/wishbone.html
  18. 18. Wishbone – diffusion maps Coifman, Ronald R., and Stéphane Lafon. "Diffusion maps." Applied and computational harmonic analysis 21.1 (2006): 5-30. 要素の類似性にもとづく高次元 データの次元削減手法 1. 集合をグラフ表現 2. ランダムウォークで類似性計算 3. 類似性(遷移)行列を対角化 4. 固有値が大きい固有ベクトルが 粗視化空間を張る
  19. 19. Wishbone – kNN-graphによる分岐判定 • 低次元空間内でkNNを結んだネット ワークを作る • ランダムに選ばれた複数の細胞それぞ れ(waypoints)から他の各細胞までの 最短距離を計算 • global trajectoryは近隣のwaypointに 重みを付けてコンセンサスを取る • Aを開始点, BとCをwaypointとして d(A,B) < d(A,C)とする • もしA,B,Cが同じ経路上にあれば d(A,B) + d(B,C) ≈ d(A, C)
  20. 20. DPT [Haghverdi et al., 2016] 特徴 次元圧縮を行わない,密度分析による準安定状態検出 戦略 遷移確率行列をプロファイルに用いる+シンプルな分岐検出 評価 マウス造血系qPCR (赤血球/内皮分化), ES細胞scRNA-seq → 既知の発現パターンを再現 長所 ロバストネス スケーラビリティ(?) 短所 複雑な分岐パターンには対応しない(?) diffusion parameterの非自明な調整が必要
  21. 21. DPT - アルゴリズム • 距離行列の構成はWishboneと類似 • 開始細胞からの距離で見た順序と,最遠隔細胞からの距離で見た順序を比較 • もし分岐がなければ常に逆相関する • 分岐地点では二つの順序が正の相関を示す
  22. 22. RGE (Monocle 2) [Qiu et al., 2017] 特徴 反復的戦略,高次元空間内でのprincipal graph (木構造) 生成 戦略 低次元空間での経路予測と高次元空間でのデータ操作を反復 評価 筋芽細胞ゲノムワイドscRNA-seq → 分化経路依存の887遺伝子を特定 長所 分岐モデルなど事前知識が不要 短所 ?
  23. 23. Reversed graph embedding
  24. 24. 今後の課題 • 10万〜細胞×ゲノムワイド入力に対応するスケーラビリティ • 少数遺伝子変化へのセンシティビティ (cocktail party) • 細胞分布の偏りに対する頑強性 • 階層的な分岐構造の自動検出 • cell cycleなど分化と無関係なダイナミクスの自動検出 • などなど…

×