Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Reconstruction of clonal trees and tumor composition

20150810、ISMB論文読み会

  • Login to see the comments

Reconstruction of clonal trees and tumor composition

  1. 1. Reconstruction of clonal trees and tumor composition from multi-sample sequencing data Mohammed El-Kebir et al 国立がんセンター研究所 特任研究補助員 宮本 丈 ソフトウエア名:AncesTree
  2. 2. 発表の流れ • 前提知識 • 厳密な定式化 • 実データへの対応 • 他の論文との比較
  3. 3. 発表の流れ • 前提知識 • 厳密な定式化 • 実データへの対応 • 他の論文との比較
  4. 4. がんの進化モデル • ヒトの場合、多時刻点でのデータ取得は難しい。 • 進化過程の推測->薬剤耐性の獲得過程などを知る
  5. 5. サンプリングの解像度 √ 高コスト低コスト Cならば、種間の系統樹推定と同じ->距離が近いので、比較的簡単 しかし • allelic drop outの問題 • 増幅過程でのエラーの問題 • コストの問題 から、今のところ難しい。 A.Bのどちらにも対応できる 包括的な手法が求められる A.bulk B.Multi-sample C.Single-cell
  6. 6. 発表の流れ • 前提知識 • 厳密な定式化 • 実データへの対応 • 他の論文との比較
  7. 7. 単純化のための仮定 1. Cancerは単一の祖先細胞から派生したもの と仮定 2. CNAは今のところ考慮に入れない 3. Infinite site assumption … 二度同じ部位に変 異が起きることはない
  8. 8. 目標 これ から これを作る 複数のcloneが混 じったサンプル F Cloneの系統樹(それぞれの頂点がユ ニークな遺伝型)T および それぞれのサンプル中の割合U
  9. 9. 系統樹Tを行列表現Bに直す 行 は、Tの頂点 の遺伝型 を表す。 列はそれぞれのmutationを表 す(0=変異なし、1=変異あり) このようなBを完全系統樹行列と呼び、逆行列を持つ(証明略) さらに以下の条件を加えると、Tに対応するBはただひとつとなる • を満たすrはただひとつ存在する(上図の一番上の行) • 一番上以外の行jには かつ を満たすようなkが ただひとつ存在する ->(i.e.親がただひとつ存在する) • 対角成分はすべて1 brjj=1 n å =1 bk Í bj (bjl -bkl ) =1 l=1 n å bj vj
  10. 10. Usage Matrix U を定義すると F = ½(UB) が成り立つ F … N(変異箇所)×M(サンプル数)の行列。 要素 はサンプルp のi番目のVAFを指す Sum condition(後述)を満たす fpi U … Usage Matrix、M × Nの行列 要素 はサンプルpにおけるクローンiの割合 B … 完全系統樹行列 upi 既知 未知 未知 このような定式化をVAFFP (Variant Allele Frequency Factorization Problem) と呼ぶ。こうすることで色々便利になる
  11. 11. Sum condition • すべてのサンプルp及び変異jに対して ただしδ(vj)は、jが頂点vで初めて出現した 時 のみ1、それ以外は0 Tを作るためにFが満たさなければならない仮定
  12. 12. Sum conditionの直感的説明 1サンプルでは系統樹が 一意に定まらない場合も ① ② Wei Jiao. et al(2014)
  13. 13. Sum conditionの直感的説明 2つ目のサンプルで一意に定まる場合がある A < B + Cのため、②ではデータを説明できない。 Wei Jiao. et al(2014)
  14. 14. 過去の論文は… • M = 1の特殊系だったり • Fが頻度ではなく2値だったり • 観測されたFと、モデルから生成されたFの距 離を最小にするもの だったりする これらはみな、この定式化の特殊系とみなせる
  15. 15. VAFFPの解き方 • 各々の変異を頂点にもつ完全グラフG(V、A)を考える。 • その中の部分グラフG`のうち、以下の条件をみたすものを考えると、 G`は一意に求まる(証明略) 1. 有根 2. 有向 3. 非巡回 4. 最小全域木(Minimum Spanning Tree) 5. 対応するTがsum conditionを満たす G`を求めれば、系統樹がわかる! 種々の成約のもとで、辺の数を最大化 -> 整数計画法とみなせ、NP完全 実装はIBMの数理計画問題用C++ライブラリ、CPLEXを用いて行った
  16. 16. VAFFPの解き方 よって…以下の順に解く 1. Fから完全グラフGを作成する 2. G`およびそれに対応する完全系統樹行列Bを求める 3. F = (1/2)UBをUについて解く、 系統樹だけが知りたいのなら、2までで 止めれば計算資源の削減になる
  17. 17. 発表の流れ • 前提知識 • 厳密な定式化 • 実データへの対応 • 他の論文との比較
  18. 18. エラーを考慮に入れる • 実際のシーケンスデータは、VAFの頻度に誤差があり、Tを 作成できない場合がある。 • 祖先関係がはっきりしない変異をクラスタリングしてしまう よって
  19. 19. エラーを考慮に入れる 1. 観測されたVAFのもとで、変異jが変異kの親となる 事後確率 を計算(後述) 2. を満たすj,kをクラスタ化 3. 変異K,lがクラスタ間をまたがる場合は の時のみ、親子とみなし辺を引く α…クラスタ係数 β…クラスタ間結合係数、 0.5-a £ Pr[ j ≺ k]£ 0.5+a b Î[0.5,1] a Î[0,0.5] Pr[ j ≺ k]
  20. 20. の出し方 Xpj Pr[ j ≺ k] • p,jにおける変異アレルの頻度を 、正常アレルの頻度を とする よって • の分布 を とし • を計算 Xpj ~ Beta(cpj +1,dpj +1) cpj fpj Pr[Xpj ³ Xpk ] dpj
  21. 21. 最小全域木の仮定をゆるめる 最大化すべき関数が だったところに、罰則項を加える に変更すると、すべての変異を選ぶ必要がなくなる。 実データでは、CNAのせいでVAFが0.5を超える場合があるため 非常に有効な仮定 サンプルp、変異jのVAF クラスタ内の平均VAF
  22. 22. 今後の課題 1. CNAを取り込む 2. 複数回走らせ、結果を統合する(バギング?) みたいなことができるかも 3. VAFの分布をβ分布で見積もるのは分散を過 小評価してしまう可能性あり(e.g.増幅バイア ス)
  23. 23. 発表の流れ • 前提知識 • 厳密な定式化 • 実データへの対応 • 他の論文との比較
  24. 24. 対抗ソフトウェア • CITUP BICベースで、UとBを同時に求める • SciClone VAF頻度分布にβ混合分布を仮定して変分ベイ ズで推定?詳細不明 • Phylosub VAF頻度分布を生成するモデルを、階層混合ディリクレ過程を 用いた潜在空間モデルと想定し、MCMCでパラメータ推定 最近CNAにも対応したもよう
  25. 25. 他の手法より優れているところ • VAFのデータを直接使わず、事後確率でクラスタリング するため、(特に低Depthで)より正確。 • すべての変異を考慮する必要がない • 系統樹のみを求めることができる などといろいろあるが、実際には 前半の定式化が美しかった からだと思われる 議論を厳密にし、がんの系統樹推定は 整数計画法の形で表せることを示した

×