NGS現場の会第2回_アメリエフ株式会社_がんExome解析

9,561 views

Published on

Published in: Health & Medicine
0 Comments
6 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
9,561
On SlideShare
0
From Embeds
0
Number of Embeds
1,840
Actions
Shares
0
Downloads
0
Comments
0
Likes
6
Embeds 0
No embeds

No notes for slide

NGS現場の会第2回_アメリエフ株式会社_がんExome解析

  1. 1. がんゲノムのエクソーム解析 2012年5月24日 アメリエフ株式会社 Copyright © Amelieff Co. Ltd. All Rights Reserved
  2. 2. 要旨次世代シーケンサー(NGS)から出力される膨大なデータから、生物学的意味付けまでの一連の解析を、常に最新の解析ツールにアップグレードできるフレキシブルなパイプラインの構築は、研究の効率化に有効である。我々は、GATK、SAMtools、VarScanなどを用いて、がん細胞と正常細胞から、ソマティックな変異を検出するための、解析パイプラインの構築を行った。 <ソマティック変異を検出する流れ>【方法1 】 SAMtoolsを用いて、がん細胞と正常細胞から intersectBedなどで 偽陽性を除外するために 各々のSNV/Indelを検出 → がん細胞特異的なSNV/Indelを抽出 → GATKでも検出されたSNV/Indelを検出 Tumor.vcf Normal.vcf Somatic? Somatic!【方法2】 偽陽性を除外するためにSAMtoolsを用いてpileupファイルを出力 → VarScanを用いてSNV/Indel検出 → GATKでも検出されたSNV/Indelを検出 Tumor.pileup Normal.pileup Somatic Germline Somatic LOH Unknown Somatic!※Pileupを入力することで、各々のマッピング情報を 比較しながらソマティックな変異を検出できる 方法1と2はどちらが有効なのか?? 考慮すべき問題点は? 2 Copyright © Amelieff Co. Ltd. All Rights Reserved
  3. 3. 方法■データNature Genetics Volume: 43, Pages: 875–878 Year published: (2011) DOI: doi:10.1038/ng.907 Received 13 May 2011 Accepted 15 July2011 Published online 07 August 2011Frequent mutations of chromatin remodeling genes in transitional cell carcinoma of thebladder ・移行上皮癌(TCC)は、膀胱癌の中で発生頻度が最も高い。 ・Discovery screenとして、患者9人のエキソーム解析を行った。 ・Prevalence Screenとして、発見された全ての変異遺伝子に対して、異なったステージとグレードの患者88人の試料を用いてスクリーニングを行った。 ・患者97人のうち59% にクロマチンリモデリングにかかわる遺伝子(UTX、MLL-MLL3、CREBBP-EP300、NCOR1、ARID1A、CHD6)に変異が認められた。 ・UTX は、ステージとグレードのより低い腫瘍において、はるかに高い頻度で変化しているため、膀胱癌における分類と診断において役に立つ可能性 がある。 ・クロマチン制御の異常が膀胱癌の特徴であることを示唆した。上記のデータのうち、下記の4検体8サンプルを使用した。 ・ Illumina Genome Analyzer IIを使用した。 ・NimbleGen Sequence Capture 2.1M Exome Array(SeqCap EZ Exome発売前の商品)を使用した。 num SRR SRX sample 1 SRR290592 SRX079167 B2_Blood 2 SRR290593 SRX079168 B2_Cancer 3 SRR290594 SRX079169 B8_Blood 4 SRR290597 SRX079172 B8_Cancer 5 SRR290595 SRX079170 B9_Blood 6 SRR290598 SRX079173 B9_Cancer 7 SRR290599 SRX079174 B10_Blood 8 SRR290600 SRX079175 B10_Cancer 3 Copyright © Amelieff Co. Ltd. All Rights Reserved
  4. 4. 方法■ソフトウェア 1. FastQC : FastqファイルのQC QC 2. FastX : Fastqファイルをフィルタリング 3. TagCleaner : 混入しているアダプターを予測 4. compfastq : ペアリードのうち片側のみのリードを除外 Mapping 1. BWA : アライメント&マッピング 2. Picard : 重複リードの除去 1. SAMtools : SNV/Indel検出、BAMファイル操作 SNV/Indel 2. VarScan : Tumor/Normal比較 3. GATK : SNV/Indel検出、カバレージ算出 4. QuickAnnotator :アノテーション付与 集計 1. snpEFF :アノテーション付与/集計 2. 弊社開発スクリプト 4 4 Copyright © Amelieff Co. Ltd. All Rights Reserved
  5. 5. 方法 ■エクソーム解析の手順 参考コマンド FASTQ形式チェック QC # FASTQデータのクオリティチェック htmlやサマリーが出力される データクオリティチェック(FastQC) $ fastqc -o FILE -f fastq FILE1.fastq # クオリティ20未満の塩基が80%以上のリードを除去 Illumina CASAVA filter [Y] を除去 $ fastq_quality_filter -i FILE1.fastq -oMapping FILE1.qual.fastq -q 20 -p 80 -Q 33 -v クオリティ20未満が80%以上の リードを除去 # クオリティ20未満の末端をトリム 弊社開発 スクリプト $ prinseq-lite.pl -fastq FILE1.qual.fastq - クオリティ20未満の末端をトリム Qcleaner使用 out_format 3 -log -trim_qual_right 20 - trim_qual_left 20SNV/Indel 未知の塩基(N)が多いリード除去 # 配列長が20未満のリード除去 $ prinseq-lite.pl -fastq 配列長が短いリード除去 FILE1_prinseq_good_Su1_.fastq - out_format 3 -min_len 20 集計 片側のみのリードを除外 データクオリティチェック(FastQC) ※Qcleanerの詳細につきましてはT38のポスター、または、アメリエフのブースへお越しください。 5 Copyright © Amelieff Co. Ltd. All Rights Reserved
  6. 6. 方法 参考コマンド ■エクソーム解析の手順 # アライメント $ bwa aln -t 4 hg19.fa FILE1.treated.fastq -f FILE1.sai アライメント QC # マッピング→BAMに変換→ソート BWA マッピング $ bwa sampe -r "@RG¥tID:FILE¥tSM:FILE¥tPL:Illumina" -n SAMファイルを 3 -N 10 -a 500 hg19.fa FILE1.sai FILE2.sai BAMファイルに変換 FILE1.treated.fastq FILE2.treated.fastq |Mapping samtools view -Sb - | samtools sort - SAMtools FILE.sorted BAMファイルをソート # Duplicated reads を除去 BAMファイルをインデキシング $ java -jar MarkDuplicates.jar I=FILE.sorted.bamSNV/Indel Duplicated reads を除去 Picard O=FILE.sorted.redup.bam METRICS_FILE=jeter.metrics カバレージを計算 BEDtools REMOVE_DUPLICATES=true ASSUME_SORTED=true SAMtools VALIDATION_STRINGENCY=SILENT 集計 SNV/Indel検出 # Duplicated reads を除去 $ samtools mpileup –Bgf hg19.fa FILE.sorted.redup.bam | bcftools view -vcg - > FILE.vcf 6 Copyright © Amelieff Co. Ltd. All Rights Reserved
  7. 7. 方法 ■エクソーム解析の手順 参考コマンド QC # ソマティックな変異検出 がん細胞特異的な多型検出 $ java -jar VarScan.v2.2.11.jar somatic ①ケースとコントロールでカバレージが b2_blood.pileup b2_cancer.pileup 10以上 ②Base Qualityの平均が15以上 b2.varscan.vcf --output-vcf ③癌のリードの10%が変異支持 VarScan ④癌のリードの5本以上が変異支持 # ソマティックな変異フィルタリングMapping ⑤コントロールと同じ変異 $ java -jar VarScan.v2.2.8.jar somaticFilter b2. varscan.vcf.snp --min-coverage 10 --min-avg- qual 15 --min-var-freq 0.1 --min-reads2 5 -- output-file b2.varscan.vcf.filterd.snp リアライメントして多型を再検出 GATKSNV/Indel # GATK入力用にBAMファイルを並び替え java -jar ReorderSam.jar I=FILE.sorted.redup.mapped.bam VarScanとGATKで BEDtools 共通するSNV/Indelを抽出 O=$FILE.karyotypic.bam REFERENCE=hg19.karyotypic.fa 集計 # GATKによるSNV検出 $ java –jar GenomeAnalysisTK.jar -T UnifiedGenotyper -R hg19.karyotypic.fa -I FILE.karyotypic.realigned.alnRecal.bam -o FILE.gatk.snv.vcf 7 Copyright © Amelieff Co. Ltd. All Rights Reserved
  8. 8. 方法 ■エクソーム解析の手順 参考コマンド SNV/ Indelをフィルタリング QC ① Mapping qualities ≧ 30 SAMtools # SNV/ Indelをフィルタリング ② SNV qualities ≧ 20 ③ Indel qualities ≧ 50 $ awk /^#/ || (/INDEL/&&$6>=50) || (!/INDEL/&&$6>=20) b2.snv.vcf > b2.filtered.snv.vcf Indelをフィルタリング ①一方の向きのリードのみが 支持するIndelは除外 #アノテーション付与/集計Mapping ②30base以内にSNVがある 弊社開発 $ java -Xmx4G -jar snpEff.jar eff -c Indelは除外 スクリプト snpEff.config -i vcf -o vcf hg19 b2.filtered.snv.vcf > b2.filtered. eff.snv.vcf 偽遺伝子と反復配列に含まれる場 合は、変異支持するリードの10%以 上がユニークなSNV/Indelを抽出SNV/Indel アノテーション付与/集計 snpEFF 情報付与 弊社開発 dbsnv135,1000 genomes スクリプト 集計 OMIM, GO QuickAnnotator ※QuickAnnotatorの詳細につきましては、アメリエフのブースへお越しください。 8 8 Copyright © Amelieff Co. Ltd. All Rights Reserved
  9. 9. 結果 ・QCおよびマッピングの結果 B2_Blood B2_Cancer B8_Blood B8_Cancer B9_Blood B9_Cancer B10_Blood B10_Cancer SRR290592 SRR290593 SRR290594 SRR290597 SRR290595 SRR290598 SRR290599 SRR290600フィルタリング率クリーニング前 271,286,968 259,326,348 286,222,172 259,677,208 282,187,548 254,273,550 258,459,568 265,407,220クリーニング後 260,322,476 248,161,648 274,677,306 248,021,142 273,326,192 244,913,382 252,955,308 257,523,242 95.96% 95.69% 95.97% 95.51% 96.86% 96.32% 97.87% 97.03%マッピング率マッピング前 260,322,476 248,161,648 274,677,306 248,021,142 273,326,192 244,913,382 252,955,308 257,523,242マッピング後 228,755,759 206,183,044 241,507,897 197,004,644 242,104,730 202,828,283 210,955,736 220,644,478 87.87% 83.08% 87.92% 79.43% 88.58% 82.82% 83.40% 85.68%カバレージAverage of Coverage 12.27 11.88 10.22 8.60 10.59 9.84 8.25 9.07Averageof Coverage (>=5) 72.88 67.36 42.67 27.06 48.11 41.53 27.08 54.83Averageof Coverage (>=10) 109.56 93.26 90.71 63.25 94.44 81.35 56.90 95.83 クリーニング前 クリーニング後 9 9 Copyright © Amelieff Co. Ltd. All Rights Reserved
  10. 10. 結果 B2サンプル ・方法2. VarScan出力例 ※VCFフォーマットも出力可能 QCMappingSNV/Indel 集計 Germline, Somatic, LOH, Unknownに分類 10 10 Copyright © Amelieff Co. Ltd. All Rights Reserved
  11. 11. 結果B2サンプル・集計/情報付与 方法1 . SAMTools 方法2 .VarScan 11 11 Copyright © Amelieff Co. Ltd. All Rights Reserved
  12. 12. 結果B2サンプル・集計/情報付与 方法1 . SAMTools 方法2 .VarScan Coverage Changes by chromosome 12 12 Copyright © Amelieff Co. Ltd. All Rights Reserved
  13. 13. 結果 B2サンプル ・方法1 SAMtoolsを用いて、がん細胞と正常細胞から intersectBedなどで 偽陽性を除外するために 各々のSNV/Indelを検出してフィルタリング → がん細胞特異的なSNV/Indelを抽出 → GATKでも検出されたSNV/Indelを検出 QC Tumor.vcf Normal.vcf Somatic? Somatic! 148,724 145,812 25,224 22,102Mapping 約17.0%ががん特異的 391,461 ・方法2 GATKと一致/がん特異的 偽陽性を除外するために 約87.6% VarScanを用いてSNV/Indel検出 → GATKでも検出されたSNV/Indelを検出SNV/Indel Somatic! Germline Somatic LOH Unknown 1,813 128,988 6,170 7,091 158 GATKと一致/がん特異的 TOTAL 154,748 約29.4% 集計 391,461 約3.99%ががん特異的 VarScanは偽陽性(はずれ)が多い? GATKおよびSAMtoolsは偽陰性(見落とし)が多い? 実験的に調べる必要 13 13 Copyright © Amelieff Co. Ltd. All Rights Reserved
  14. 14. お知らせ 「エクソーム解析パイプライン」を構築したサーバーを販売中! 研究目的に沿ったカスタマイズに対応いたします。 14 14 Copyright © Amelieff Co. Ltd. All Rights Reserved

×