Advertisement
Advertisement

More Related Content

Slideshows for you(20)

Advertisement

Similar to フリーソフトで始めるNGS解析_第41・42回勉強会資料(20)

Advertisement

フリーソフトで始めるNGS解析_第41・42回勉強会資料

  1. フ リ ー ソ フ ト で は じ め る N G S 解 析 入 門 ~公開データベース活用編~
  2. Copyright © Amelieff Corporation. All Rights Reserved. 2 本 日 の テ ー マ • NGSデータのSNV/Indel検出 • 公開データベース – Variant database – Disease curation – Prediction database – データベースの特徴 • データベース活用実践 – 「疾患関連の既知変異探索と新規変異探索」の例
  3. N G S デ ー タ の S N V / I n d e l 検 出 Copyright © Amelieff Corporation. All Rights Reserved. 3 入力ファイル リードのクリーニング クオリティチェック リファレンスゲノムへのマッピング 重複リードを除去 リアライメント、リキャリブレーション マッピング結果のファイル • Illumina CASAVA filter [Y] を除去 • クオリティ20未満の塩基が80%以上のリードを除去 • クオリティ20未満の末端をトリム • 未知の塩基(N)が多いリード除去 • 配列長が短いリード除去 • 片側のみのリードを除去 ファイルの形式 フリーソフト 自社開発ツール SNV / Indel 検出とフィルタリング アノテーション付与 多型情報のファイル
  4. Copyright © Amelieff Corporation. All Rights Reserved. 4 N G S デ ー タ の S N V / I n d e l 検 出 ショートリード リファレンスゲノム マッピングソフトウェア ・最新版 0.7.12(2014/12/28公開) ・BWA-SW & BWA-MEMアルゴリズム  70bp~1Mbに対応。  MEMはクオリティの高いシーケンスの時に高速かつ 高精度。70~100bpのイルミナシーケンス、454、 Ion Torrent、Sanger などで使用。  SWはgapが多いときに感度が良い。  Error rateは、100bpで2%以下、200bpで3%以下、 500bpで5%以下、 1000bp以上で10%以下が推奨。 • BWA-backtrackアルゴリズム  100bp以上のイルミナシーケンス用に最適化。  Error rateは、2%以下が対象。 BWA
  5. Copyright © Amelieff Corporation. All Rights Reserved. 5 N G S デ ー タ の S N V / I n d e l 検 出 ショートリード リファレンスゲノム パッケージソフトウェア ・最新版 3.3-0(2014/10/23公開) ・DNAseqおよびRNAseqからSNV/Indel検出  UnifiedGenotyperとHaplotypeCaller  HaplotypeCallerはlocal de-novo assemblyを実施  VQSR(Variant Quality Score Recalibration)を使用 して、VQSLODを付与。既知SNPを用いたエラーモ デルによって、真の変異であるか評価。ガウス混合 モデルで推定した対数オッズ比。 ・2倍体以外の生物種の変異検出に対応。  「-ploidy」オプションの引数として、倍数を指定可能。 GATK
  6. Copyright © Amelieff Corporation. All Rights Reserved. 6 N G S デ ー タ の S N V / I n d e l 検 出 リードがマッピング されている様子 カバレージ 変異 BAM VCF ・IGVによる可視化 ・VCFファイル :
  7. Copyright © Amelieff Corporation. All Rights Reserved. 7 N G S デ ー タ の S N V / I n d e l 検 出 ・アノテーション情報 SnpEff 基本情報 ICGC COSMIC 転写産物によって、 タンパク質へのインパ クトが大きく異なる。 米国の直腸がんのプロジェクトで 0.46%の頻度で報告されている。 Functional impactが「Low」に なっているが、どのように考えたらいいのか?
  8. Copyright © Amelieff Corporation. All Rights Reserved. 8 N G S デ ー タ の S N V / I n d e l 検 出 ・アノテーション情報 ClinVar HGVD, ESP, 1kgp OMIM IntOGen さまざまな集団中で Altアリルの頻度が高い。 疾患関連変異のデータベースに登録がない。 dbSNP
  9. Copyright © Amelieff Corporation. All Rights Reserved. 9 N G S デ ー タ の S N V / I n d e l 検 出 dbSNPに登録されている変異は除外してもいいのだろうか? サンプル数が増えて 同じ作業を繰り返している。 自動的に絞り込んでくれるシ ステムを作れないだろうか? どのデータベースが信頼できるのか? 疾患関連の既知の変異のみを まずは見たい。 でも、新規の可能性がある 変異情報も蓄積したい。 ・アノテーション情報の活用?
  10. Copyright © Amelieff Corporation. All Rights Reserved. 10 公 開 デ ー タ ベ ー ス Prediction database Disease curation Variant database
  11. 11 公 開 デ ー タ ベ ー ス ・Variant database HGVD ※引用 http://www.genome.med.kyoto-u.ac.jp/SnpDB/statistics.html  日本人のゲノム情報データベース Human Genetic Variation Databaseは、2013年11月12日に公開。  登録されているSNPの半分以上は、dbSNPなどこれまでの既知変異デー タベースに含まれていない日本人特異的。  日本人1,208名のエクソームシーケンシングデータから発見されたアリ ルやジェノタイプの頻度を公開。 443,967変異を収録
  12. 12 公 開 デ ー タ ベ ー ス ・Variant database HGVD  2013.11.13公開データのサマリを示します。 [ Alt allele frequencyの分布 ][ Total allele countの分布 ] データベースに含まれる1,208人の2,416本のアリルの うち、各SNVにおいてジェノタイピングしたアリル数。 Altのアリル頻度の出現回数。
  13. Copyright © Amelieff Corporation. All Rights Reserved. 13 公 開 デ ー タ ベ ー ス ・Disease curation ClinVar  論文  臨床医学的に重要な変異と表現型の関連性についてのデータベース。 ClinVar: public archive of relationships among sequence variation and human phenotype Landrum MJ, Lee JM, et al., Nucleic Acids Res. 2014 Jan 1  0 - Uncertain significance, 1 - not provided 2 - Benign 3 - Likely benign 4 - probable-pathogenic, 5 - pathogenic 6 - drug-response 7 - histocompatibility 255 – other / confers sensitivity / risk factor / association / protective 88,268変異を収録 ※引用 http://www.ncbi.nlm.nih.gov/clinvar/docs/clinsig/
  14. Copyright © Amelieff Corporation. All Rights Reserved. 14 公 開 デ ー タ ベ ー ス ・Prediction database dbNSFP [1] dbNSFP: A Lightweight Database of Human Nonsynonymous SNPs and Their Functional Predictions Liu et al., HUMAN MUTATION, Vol. 32, No. 8, 894–899, 2011. [2] dbNSFP v2.0: A Database of Human Non-synonymous SNVs and Their Functional Predictions and Annotations Liu et al., HUMAN MUTATION Database in Brief 34: E2393-E2402 (2013) Online.  論文  ヒトゲノムで起こりうるnon-synonymous SNP(NS)について、 SIFT、PolyPhen-2、LRT、Mutation Tasterによるprediction scoreを公開。  PhyloP によるconservation scoreを公開。  遺伝子とコドンは、hg18のCCDS v.20090327に基づいて計算し、 liftOver tool を用いてhg19に変換。  全てのscoreは高いほど、高度に保存されている、または、有害で ある可能性が高い。
  15. Copyright © Amelieff Corporation. All Rights Reserved. 15 公 開 デ ー タ ベ ー ス ・Prediction database dbNSFP  dbSNP V2.0では、prediction scoreにMutationAssessor と FATHMM、conservation scoreにGERP++ と SiPhyを追加。 ※引用 論文[2]のfigure 2, 3-A, 3-B ttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC4109890/ [ dbNSFP v2.0に登録されているscoreの割合 ] prediction score conservation score [prediction score と conservation scoreの樹形図] UPGMA(非加重平均結合法)を用いてクラスタ解析。
  16. Copyright © Amelieff Corporation. All Rights Reserved. 16 公 開 デ ー タ ベ ー ス ・データベースの特徴 1kgp (39,619,602)ESP (1,942,722) HGVD (443,967) Variant database 1kgp独自の変異 ESP独自の変異 HGVD独自の変異 98.6%: : : 72.6% 65.7% 3つに共通する変異と、 HGVD独自の変異では、 Altアリル頻度の分布が異なる。 [ HGVDのAltアリル頻度 ] COMMON (78,023) UNIQUE (291,592) Min. 0.0004 0.0004 1st Qu. 0.0023 0.0013 Median 0.0233 0.0017 Mean 0.1586 0.0125 3rd Qu. 0.2015 0.0033 Max. 1 1 UE
  17. ICGC (9,805,320) COSMIC (1,024,612) ClinVar (88,268) Copyright © Amelieff Corporation. All Rights Reserved. 17 公 開 デ ー タ ベ ー ス ・データベースの特徴 ICGC独自の変異 COSMIC独自の変異 ClinVar独自の変異 Disease curation 96.7%: : : 67.9% 84.5% 0 2000 4000 6000 8000 10000 12000 COSMIC ∩ Clinvar ICGC ∩ Clinvar CLNSIG=255 CLNSIG=6 CLNSIG=5 CLNSIG=4 CLNSIG=3 CLNSIG=2 CLNSIG=1 CLNSIG=0 ClinVarと共通する変異のうち、疾患関連の インパクトがあるとされた(≥4の)変異の 割合は、COSMICが77.8%、ICGCが56.4%
  18. ClinVar (88,268) Copyright © Amelieff Corporation. All Rights Reserved. 18 公 開 デ ー タ ベ ー ス ・データベースの特徴 HGVD とClinVarに共通する変異 HGVDのうち共通する変異の割合 ClinVarのうち共通する変異の割合 Variant database と Disease curation 5,176SNPs: : : 1.17% 5.86% HGVD (443,967) さらにデータベースに閾値を設定すると… • ClinVarで疾患関連のインパクトがあるとされた (≥4の)変異は、1,743SNPs • HGVDで「アリル頻度が5%未満」となる変異は、 3,303SNPs • 「ClinVar」かつ「アリル頻度が5%未満」とな る変異は、468SNPs
  19.  driver gene / mutationを特定するソフトウェア。  TCGAなどのExome-seqデータ(6,079 cases)を使用。  多数のアルゴリズムで変異の有害性を評価してDriver Scoreを 付与。 Copyright © Amelieff Corporation. All Rights Reserved. 19 公 開 デ ー タ ベ ー ス ・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム CanDrA: Cancer-Specific Driver Missense Mutation Annotation with Optimized Features Mao Y, et al., PLoS ONE 8(10): e77945. 2013.  missense driver mutationの predictionソフトウェア。  driver mutationを「腫瘍細胞にgrowth advantage を獲得させる体細胞変異」と定義。  COSMIC、TCGA、Cancer Cell Line Encyclopedia (CCLE)のデータから、 driver mutationとpassenger mutationのトレーニングデータを作成。  support vector machine (SMV) algorithmを用いて、3つのカテゴリ(driver、 passenger、non-call)に分類。 CanDrA DriverDB: an exome sequencing database for cancer driver gene identification Cheng et al., Nucleic Acids Research, 2013.DriverDB
  20. Copyright © Amelieff Corporation. All Rights Reserved. 20 公 開 デ ー タ ベ ー ス  実験医学増刊「個別化医療を拓くがんゲノム研究」の3章6の英語版  cancer mutationのインパクトの評価 ① non-synonymous mutationsを特定する。 SIFT, Polyphen-2, Mutation Assessor ,Condel, FATHMM, CHASM, transFIC ② driver mutationによって細胞は増殖優位性を獲得する。このようなpositive selectionのシグナルは、ドライバー遺伝子の推定にも用いられる。 MuSiC, MutSigCV , OncodriverFM , OncodriveCLUST , Active Driver Identification of oncogenic driver mutations (Chapter 3.6) Tamborero et al., Experimental Medicine, 2014 実験医学 ※引用 https://www.yodosha.co.jp/jikkenigaku/book/9784758103404/ 偶然よりも高い確率 で変異が蓄積される 機能的に影響を及ぼ す変異に偏っている 特定の領域に蓄積する タンパク質のリン酸化部 位に起きる傾向がある ・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
  21. Copyright © Amelieff Corporation. All Rights Reserved. 21 デ ー タ ベ ー ス 活 用 実 践 ① nsSNVとssSNVを検索 ② 1kgpとESPで、MAFが5%を超える変異を除外 ③ prediction scoreが高い順にランク付け ④ conservation scoreが高い順にランク付け ⑤ 疾患関連の組織で発現していない遺伝子の変異を除外 ⑥ Mendelian Inheritance in Man (MIM)に登録のある、または、 GWASで報告のある遺伝子の変異を強調 ⑦ 疾患を引き起こす遺伝子と相互作用する遺伝子の変異を強調 ⑧ 疾患関連のパスウェイにある遺伝子の変異を強調 dbNSFPが推奨しているフィルタリング方法 ・「疾患関連の既知変異探索と新規変異探索」の例
  22. Copyright © Amelieff Corporation. All Rights Reserved. 22 デ ー タ ベ ー ス 活 用 実 践 Variant classification Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders Yang et al., N Engl J Med 369, 2013. ・「疾患関連の既知変異探索と新規変異探索」の例
  23. Copyright © Amelieff Corporation. All Rights Reserved. 23 デ ー タ ベ ー ス 活 用 実 践 ・データベースは更新が必要 ClinVar dbSNP ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar /release_notes/ http://www.ncbi.nlm.nih.gov/projects /SNP/buildhistory.cgi Date Total Submissions 1-Feb-15 156,999 1-Jan-15 149,013 1-Dec-14 148,008 1-Nov-14 144,117 1-Oct-14 143,601 1-Sep-14 143,114 1-Aug-14 127,557 : : 1-Aug-13 45,901 1-Jul-13 39,170 1-Jun-13 39,047 1-May-13 30,386 5-Apr-13 30,333 Build Date 142 19-Sep-14 141 21-May-14 140 20-Mar-14 139 25-Oct-13 138 25-Apr-13 137 26-Jun-12 136 26-Jan-12 135 12-Oct-11 : : 4 16-Dec-98 3 15-Dec-98 2 10-Dec-98 1 1-Dec-98 ICGC Build Date  release_18 21-Jan-15  release_17 12-Sep-14  release_16 15-May-14  release_15.1 12-Feb-14  release_15 4-Feb-14  release_14 26-Sep-13 : :  release_06 7-Jul-11  release_05 5-Jun-11  release_04 1-May-11  release_03 6-Dec-10  release_02 12-Aug-10  release_01 13-Apr-10 https://dcc.icgc.org/repository /legacy_data_releases
  24. Copyright © Amelieff Corporation. All Rights Reserved. 24 デ ー タ ベ ー ス 活 用 実 践 ・解析アルゴリズムのブラッシュアップが必要 PROVEAN(Protein Variation Effect Analyzer)  タンパク質におけるアミノ酸配列の変異が当てる影響度合いを数値化  クエリは、アミノ酸配列(FASTA)とその変異パターン  WEBフォームからも利用可能 ※引用 http://provean.jcvi.org/about.php[5つのpredictionアルゴリズムと精度 ]
  25. Copyright © Amelieff Corporation. All Rights Reserved. 25 デ ー タ ベ ー ス 活 用 実 践 PROVEAN(Protein Variation Effect Analyzer)  複数の変異やサンプルを解析したい時は、Linuxで実行可能 ① 2つの入力ファイルを準備 ② コマンド(命令文)を入力して実行 $ provean.sh -q P04637.fasta -v P04637.var --save_supporting_set P04637.sss タンパク質のアミノ酸配列 ( ファイル名:P04637.fasta ) タンパク質のアミノ酸配列 (ファイル名:P04637.var) ・解析アルゴリズムのブラッシュアップが必要 LinuxというOSで 実行します。
  26. Copyright © Amelieff Corporation. All Rights Reserved. 26 デ ー タ ベ ー ス 活 用 実 践 PROVEAN(Protein Variation Effect Analyzer)  複数の変異やサンプルを解析したい時は、Linuxで実行可能 ③ 出力ファイル Supporting Sequence Set ( ファイル名:P04637.sss ) SSSファイルのシーケンス (ファイル名:P04637.sss.fasta) ・解析アルゴリズムのブラッシュアップが必要
  27. Copyright © Amelieff Corporation. All Rights Reserved. 27 本 日 の 内 容 • さまざまな公開データベース – Gene-based Annotation:シーケンスのターゲット領域や、 疾患関連遺伝子の情報。 – Region-based Annotation:染色体領域や遺伝子情報。 – Variant database:変異の頻度情報。 – Disease curation:疾患関連の変異情報。 – Prediction database:有害な変異を予測。 • 「必要なデータベースを選択し、組み合わせ、変異データを用途 によって分類して、活用または保存する」方法は、実際のデータ と目的に最適化することをおすすめします。 • データベースと解析アルゴリズムはブラッシュアップが必要です。
  28. Copyright © Amelieff Corporation. All Rights Reserved. 28 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク
Advertisement