Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
SNPデータ解析入門
Next
Download to read offline and view in fullscreen.

14

Share

Download to read offline

CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料

Download to read offline

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料

  1. 1. CBI学会チュートリアルセッション 2013-10-28 NGSデータ解析入門 ーSNP解析~癌ゲノム解析までー セッション2: 解析ツール編 株式会社ジナリス 上村 泰央
  2. 2. Outline セッション1:実験条件編 • 次世代シーケンシングのトレンド • 次世代シーケンシング解析に共通のステップ • シナリオ(癌ゲノムExome解析) → Wet解析担当者とのやりとり → データ解析に影響する実験条件 セッション2:解析ツール編 • NGSデータ解析の流れ • マッピング〜SNP解析まで → 実践をまじえたチュートリアル → ツール選びのポイント • NGSデータ蓄積・管理システムGenaGenomeManager
  3. 3. 本日のモデルケース:シナリオ “ 癌2サンプルのExomeデータ です。変異の比較解析をお 願いします! ” ERR035486_1.fastq.gz ERR035486_2.fastq.gz ERR035487_1.fastq.gz ERR035487_2.fastq.gz
  4. 4. どんなサンプルですか? 解析の目的は? • 同一患者由来のOvarian Cancer Cell line – ERR035486:Cisplatin sensitive (post-treatment) – ERR035487: Cisplatin resistant (relapse) • • • • SureSelect Human AllExon Kit (Agilent) Illumina Genome Analyzer IIx Paired End library 各サンプルのSNVをリ スト化し、既知SNPなどと Read length 72 bp x 2 “ – ERR035486:53.3 M reads (6.6 Gb) – ERR035487: 68.0 M reads (9.8 Gb) 照合しながらCisplatin sensitivityに関わる変異 を見つけ出したい ”
  5. 5. 実験条件のまとめ • Starting material: 5 mg gDNA from Cancer cell line (no WGA) • 1st PCR (library prep): 10 cycles • SureSelect Human AllExon Kit (Agilent) • Illumina GAIIx Paired-end library 2 x 72bp, insert size ~155 bp – ERR035486:53.3 M reads (6.6 Gb) – ERR035487: 68.0 M reads (9.8 Gb)
  6. 6. 本チュートリアルのねらい • NGSデータ解析のおおよその流れを理解する • データ解析の各ステップは何をしているのか、 なぜ必要なのかを直感的に理解する • NGSデータの標準フォーマットを理解する
  7. 7. 出発データ ファイル 検体 ファイルサイズ ERR035486_1.fastq ERR035486 13.8GB ERR035486_2.fastq ERR035486 ERR035487_1.fastq ERR035487 ERR035487_2.fastq ERR035487 13.8GB 17.6GB 17.6GB 合計60GB以上!
  8. 8. NGS解析の流れ(mapping) 生データ Base caller (機器付属) 一次配列データ(Fastq, sff) マッピング解析 機器付属 (CASAVA, Newbler, TMAP), Galaxy, DDBJ Read Annotation Pipeline, CLC Bio, etc. 二次解析データ(BAM) 変異解析 変異解析データ(VCF) 発現解析 発現解析データ(GFF)
  9. 9. はじめに準備するもの • 解析環境 – Linux, Mac, Windows (メモリ8GB以上、ディスク 300GB以上) – 二次解析クラウド • Read Annotation Pipeline (DDBJ) • galaxy
  10. 10. チュートリアルの流れ リードQC マッピング解析 マッピングQC 重複除去 リアラインメント リキャリブレーション 変異解析 変異アノテー ション
  11. 11. QC(予備解析) 目的: ・実験、データ取得に問題がなかったか? ・与えられたFASTQファイルから出発して、信頼 できる解析結果が得られるか? → 2次解析を行って初めて発見できる問題も ある。 read quality, mapping rates, duplicates, coverage bias -> FastQC, On target %, Coverage plot analysis
  12. 12. よく起こる問題 • • • • Per Base Quality Duplicate が多い。 マップ率があがらない。 カバレージが均一でない。
  13. 13. FASTQフォーマット (1) 塩基配列を各塩基のクウォリティスコアとともに記述するためのファイルフォーマット (2) NGSのリード生データを保存するフォーマットとして広く利用されている 定義: 4行で1リードを記述 @SEQ_ID [description (optional)] 塩基配列 +[SEQ_ID description(optional)] クウォリティ配列(ASCIIコード: クウォリティスコア+ 33) クウォリティスコアとしては、Phredスコアが用いられることが多い。 Illumina HiSeq2000 (CASAVA 1.8)の例 @HWI-ST818R:232:D22C7ACXX:5:1101:1669:1981 1:N:0:GTTTCG GACAAGGCGGGCAGCAAAAGCAAGAAAGGCAAAGGGACTAGGAATGCACGAAACTGAGCTCAAGT ACTGG + 4=DFDFFHFHHHADGIJJJJJJEFAHIGGIIEEEHHFFFFEEEEEDDDDDDDDDDDDDDDDDDD3@CA:: “4” : ASCIIコード 52 – 33 = クウォリティスコア 19 “=“ : ASCIIコード 61 – 33 = クウォリティスコア 28
  14. 14. Phred(Sanger)スコア Qphred = -10 log p p : そのベースコールが誤りである確率 Phred スコ ア 20 ベースコールの確からし さ 99% 30 99.9% 40 99.99%
  15. 15. チュートリアルの流れ リードQC マッピング解析 マッピングQC 重複除去 リアラインメント リキャリブレーション 変異解析 変異アノテー ション
  16. 16. FastQCによるリードQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) > fastqc -o fastqc_out ERR035486_1.fastq.gz ERR035486_2.fastq.gz > fastqc -o fastqc_out ERR035487_1.fastq.gz ERR035487_2.fastq.gz
  17. 17. FastQC: Per Base Quality ERR035486 リード1 リード2
  18. 18. FastQC: Per Sequence Quality Scores ERR035486 リード1 リード2
  19. 19. ゲノムブラウザ • Integrative Genomics Viewer http://www.broadinstitute.org/igv/
  20. 20. アラインメントの見方 A C G T
  21. 21. チュートリアルの流れ リードQC マッピング解析 マッピングQC 重複除去 リアラインメント リキャリブレーション 変異解析 変異アノテー ション
  22. 22. マッピング解析とは? リード配列がどの染色体のどの位置から得られたものであるかを推定する。 SNPやエラーを含んだリードを正しい場所に配置するのは一般に困難 ACGTTGCG AGGTTGCG C T リード ACGTTGTG T 最もミスマッチの数が少ない場所に配置するのが妥当 GCCATGTA リード GCCATGAA GTCATGAA C A ? 同じ確からしさで複数箇所にマップ可能な場合 ? (a) いずれかにランダムにマップ (b) 両方にマップ (c) どちらにもマップしない
  23. 23. RNA-Seqのマッピング RNA (total RNA/mRNA) 参照ゲノム配列 既知exon 既知exon 新規exon G cDNA合成 read配列 断片化 A A A A エキソンジャンクションを考慮したマッピング マッピング ライブラリー 作製〜配列決定 ATGCGG… GCGGCA… Short readでDeepに読むことにより ・発現量予測 ・新規exon予測 ・exon-intron構造予測 ・SNP検出 が可能
  24. 24. ChIP-Seqのマッピング cells DNA 参照ゲノム配列 gene protein 架橋・抽出・断片化 read配列 ピーク検出 免疫沈降・解離・精製 ライブラリー作製〜配 列決定 ATGCGG… マッピング GCGGCA… Short readでDeepに読むことにより ・標的proteinの結合部位の検出 が可能
  25. 25. マッピングプログラムの選択 paired mapping リード長 gapped alignment 用途 aln ○ 〜200bp ○ Genome-to-Genome, cDNA-to-cDNA マッピング bwasw × 350-1000bp ◎ Long readマッピング Bowtie 1 ○ 〜1024bp × Genome-to-Genome, cDNA-to-cDNA マッピング Bowtie 2 ○ 無制限 ◎ Genome-to-Genome, cDNA-to-cDNA マッピング Tophat 1 ○ Bowtie1に等しい △ RNA-seq(spliced mapping) Tophat 2 ○ Bowtie2に等しい ◎ RNA-seq(spliced mapping) プログラム BWA (v0.7以前)
  26. 26. BWA マッピング マッピングアルゴリズムの概略(デフォルト設定の場合) read配列 seed length (=32) ・5’側からseed length(=32)番目までの塩基配列をmax. seed differences(=2) のミ スマッチ、ギャップを許容した場合にマッピング可能な参照配列上の領域を探索 ・seedがマッチしたそれぞれの領域について、残りの塩基をアラインメントし、リード 長に応じた最大許容ミスマッチ数以下のアラインメントを求める ・以上で得られたアラインメントのうち、最もスコアの高い位置にマッピングする ・同一スコアで複数箇所にマップされる場合は、ランダムに1カ所を選ぶ ・PE リードの場合はすべてのヒットのペアのうち、最善の組み合わせを選ぶ
  27. 27. リファレンス配列 UCSC Genome Browser http://genome.ucsc.edu/cgi-bin/hgGateway Downloads → Genome Data
  28. 28. (1) hg19リファレンス配列の入手 染色体別に入手可能 (1) 1ファイルに結合したFASTAファイルを生成する場合の例(順番に注意!) > cat chr1.fa.gz chr2.fa.gz chr3.fa.gz ... chr22.fa.gz ¥ chrX.fa.gz chrY.fa.gz chrM.fa.gz | gzip –cd > hg19.fa
  29. 29. hg19リファレンス配列 (その他の入手先) (2) Broad Institute ftp://ftp.broadinstitute.org/pub/seq/references/Homo_sapiens_assembly19.fasta (3) 1000 Genomes ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.gz 染色体名 Um配列 ヘルペス ウィルス chr1, … , chrX, chrY, chrM 有 無 (2) Broad Institute 1, 2, … , X, Y, MT 含 有 (3) 1000 Genomes 含 無 参照配列入手先 (1) UCSC 1, 2, … , X, Y, MT
  30. 30. BWAによるマッピング 参照配列 hg19.fa (FASTAフォーマット)に PEリード ERR035486_1.fastq, ERR035486_2.fastq (FASTQフォーマット)をBWAでマッピングする場合の例: ① > bwa index -a bwtsw hg19.fa ② > bwa aln hg19.fa ERR035486_1.fastq > ERR035486.1.sai ③ > bwa aln hg19.fa ERR035486_2.fastq > ERR035486.2.sai ④ > bwa sampe hg19.fa ERR035486.1.sai ERR035486.2.sai ¥ ERR035486_1.fastq ERR035486_2.fastq > ERR035486.sam ① hg19.faを解析し、高速にマッピングを行うためのindexファイル群を作成 ②, ③ リード1, リード2をそれぞれ参照配列に対してアラインメント ④ リード1, リード2のアラインメントより、ペアリングを行い、最適なアラインメント結果 を求めSAMフォーマットで出力
  31. 31. SAMフォーマット (Sequence Alignment/Map Format) • • • リード配列の参照配列に対するアラインメント結果を記述するファイル形式 NGSのリード配列のマッピング結果を記録する際の事実上の標準フォーマット テキスト形式(SAM)とバイナリ形式(BAM)が存在 @HD @SQ VN:1.4 SO:coordinate SN:chr1 LN:249250621 (中略) @SQ SN:chrY LN:59373566 @SQ SN:chrM LN:16571 @RG ID:ERR035486 PL:Illumina PU:Illumina LB:ERR035486 SM:ERR035486 ERR035486.7 99 chr1 10005 14 53M1I14M4S = 10174 241 CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCAGAT CDCCFEHHHBEHGGHDFHGHIDDHIHIDGHIHIDG@FGGA;CAFD>EFGDIDHIIIIIDGIIHGACBA><:< XA:Z:chr5,+11529,72M,4; MD:Z:67 PG:Z:MarkDuplicates RG:Z:ERR035486 XG:i:1 AM:i:14 NM:i:1 SM:i:14 XM:i:0 XO:i:1 XT:A:M ERR035486.10 163 chr1 10032 0 72M = 10297 336 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAGCCT ?BCDFGDFGGGHDGHHHIE GHHHIDGGGHHEGH6DHDGFHHHCGHGHHCFC;7<CD5??############# X0:i:424 MD:Z:68C3 PG:Z:MarkDuplicates RG:Z:ERR035486 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 XT:A:R ヘッダ部 1. QNAME 2. FLAG 3. RNAME 4. POS 5. MAPQ 6. CIGAR クエリー名(リードID) ビットフラグ 参照配列名 第一塩基の開始位置 マッピングクウォリティ CIGAR string ERR035486.7 99 = 1100011 (2進数) => PEのリード1でリード2と正しい位置関係で共にマップされている。 chr1 10005 14 53M1I14M4S => 54番目の塩基が参照配列に対してinsertion、最後の4塩基はクリッピング
  32. 32. SAMtools http://samtools.sourceforge.net SAMフォーマットの仕様書も同サイトから入手可能 • SAM/BAMフォーマットに対するさまざまな操 作を行うプログラムツール samtoolsコマンドを用いて参照配列順にソートされたBAMファイルを作成し、さらにindexを作成する場合 > samtools sort unsorted.bam sorted.bam > samtools index sorted.bam unsorted.BAM リード1 リード2 リード3 リード4 リード5 リード6 chr22 chr1 chr4 chr1 chr3 chr2 1500 24000 100 8000 12000 7500 sorted.BAM sort リード4 リード2 リード6 リード5 リード3 リード1 chr1 chr1 chr2 chr3 chr4 chr22 8000 24000 7500 12000 100 1500 index sorted.bam.bai 参照配列の任意の領域に マップされたリードを高速に 検索することが可能
  33. 33. チュートリアルの流れ リードQC マッピング解析 マッピングQC 重複除去 リアラインメント リキャリブレーション 変異解析 変異アノテー ション
  34. 34. 重複除去 目的: • PCR duplicates 由来のリード重複を取り除き、変異 検出の際のバイアスを軽減し、偽陽性を減らす。 PCR重複とみなし、 4ではなく1とカウント されるべき PEリードのリード1、リード2の対が全く同じ場所 にマップされている。 注意: Amplicon ベースのTarget seqやRNA-seq など、本ステップを実施すべきでないこともある!
  35. 35. Picardによる重複除去 http://picard.sourceforge.net/index.shtml • SAM/BAM、FASTQ、VCFフォーマットなどに対 するさまざまな操作を行うプログラムツール > java -Xmx4G –jar picard-tools-1.93/MarkDuplicates.jar ¥ INPUT=ERR035486.sort.bam ¥ REMOVE_DUPLICATES=true VALIDATION_STRINGENCY=LENIENT ¥ METRICS_FILE=ERR035486.dup OUTPUT=ERR035486.rmdup.bam ERR035486 Before Total reads Mapped reads Duplicates After ERR035487 Before After 106,591,524 96,615,204 135,916,704 123,987,331 98,763,696 (92.66%) 88,787,376 (91.90%) 130,729,264 (96.18%) 118,799,891 (95.82%) 9,976,320 (9.3%) 11,929,373 (8.8%)
  36. 36. チュートリアルの流れ リードQC マッピング解析 マッピングQC 重複除去 リアラインメント リキャリブレーション 変異解析 変異アノテー ション
  37. 37. Picard: CollectInsertSizeMetrics >java -Xmx4G –jar picard-tools-1.93/CollectInsertSizeMetrics.jar ¥ INPUT=ERR035486.rmdup.bam ¥ OUTPUT=ERR035486.rmdup.insert_size_metrics ¥ HISTGRAM_FILE=ERR035486.rmdup.insert_size_metrics.pdf ¥ VALIDATION_STRINGENCY=LENIENT FR 0 2e+05 0e+00 1e+05 50000 100000 Count 200000 3e+05 300000 FR Count Insert Size Histogram for All_Reads in file ERR035487.rmdup.bam 4e+05 Insert Size Histogram for All_Reads in file ERR035486.rmdup.bam 0 100 200 Insert Size 300 400 500 0 100 200 300 Insert Size 400 500 600
  38. 38. ターゲット領域の定義 リピート リピート リピート エキソン ベイト ターゲット オンターゲット リード オフターゲット リード ポイント: ・ターゲット領域をどのように定義するか? ・何をオンターゲットリードとするか?
  39. 39. BEDフォーマット • ゲノム上の領域を記述する共通フォーマット • タブ区切りテキストファイル(4カラム目以降は任意) 染色体 chr1 chr1 chr1 chr1 開始位置 終了位置 721381 721530 721851 752916 721519 721806 721942 753035 (任意) mRNA|AK290103,mRNA|AK125248,ens|ENST00000358533,ens|ENST00000429505 mRNA|AK290103,mRNA|AK125248,ens|ENST00000358533,ens|ENST00000429505 mRNA|AK290103,mRNA|AK125248,ens|ENST00000358533,ens|ENST00000429505 ens|ENST00000435300,mRNA|AK097327,ens|ENST00000326734 SureSelect のターゲット領域のBEDファイルは以下より入手可能 ・Agilent SureDesign https://earray.chem.agilent.com/suredesign/
  40. 40. オンターゲット率 何%のリードがターゲット上にマップされたか? ・ターゲット濃縮率の評価(実験研究者へのフィードバック) ・シーケンシングコストに対するベネフィット評価にも有効 ERR035486 ERR035487 Total reads 96,615,204 123,987,331 Mapped reads 88,787,376 (91.90%) 118,799,891 (95.82%) On Target reads 54,898,505 (56.82%) 75,627,222 (61.00%)
  41. 41. カバレージプロットの作成 bedtools (http://code.google.com/p/bedtools/) を利用したカバレージプロットの作成 >coverageBed -abam -d -a ERR035486.rmdup.bam –b exome_target.bed 領域を1塩基ごとに 展開し、各塩基位置 のdepthを出力 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 chr1 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65509 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 65625 - 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 20行程度の簡単な スクリプトで処理することで カバレージプロットを作成 することが可能。 塩基位置 depth
  42. 42. カバレージプロット ERR035486 ERR035487 100.0% 90.0% 80.0% 70.0% 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% 0.0% 1 10 100 1000 depthいくつ以上でターゲット領域の何%がカバーされているか?変異解析の閾値決定にも有効
  43. 43. チュートリアルの流れ リードQC マッピング解析 マッピングQC 重複除去 リアラインメント リキャリブレーション 変異解析 変異アノテー ション
  44. 44. GATKによるリアラインメント ① ② > java -jar GenomeAnalysisTK.jar -T RealignerTargetCreator ¥ -R hg19.fa ¥ –I ERR035486.rmdup.bam ¥ –o ERR035486.rmdup.intervals > java –jar GenomeAnalysisTK.jar -T IndelRealigner ¥ -R hg19.fa ¥ –I ERR035486.rmdup.bam ¥ –targetIntervals ERR035486.rmdup.intervals ¥ –o ERR035486.rmdup.realigned.bam ① RealignerTargetCreator によりリアラインメントを実施すべき領域を抽出 ② ① で抽出した領域を指定し、リアラインメントを実行
  45. 45. GATK Lite(1.x) と 2.x http://gatkforums.broadinstitute.org/discussion/1720/what-is-gatk-lite-and-how-does-it-relate-to-full-gatk-2-x-retired
  46. 46. チュートリアルの流れ リードQC マッピング解析 マッピングQC 重複除去 リアラインメント リキャリブレーション 変異解析 変異アノテー ション
  47. 47. リキャリブレーションの必要性 http://www.broadinstitute.org/gatk/events/2038/GATKwh0-BP-3-Base_recalibration.pdf
  48. 48. 塩基クウォリティスコアの補正 http://www.broadinstitute.org/gatk/events/2038/GATKwh0-BP-3-Base_recalibration.pdf
  49. 49. GATKによるリキャリブレーション > java -jar GenomeAnalysisTK.jar -T CountCovariates ¥ -I ERR035486.rmdup.realigned.bam ¥ -R hg19.fa ¥ -S LENIENT ¥ -knownSites 00-All.chr.vcf ¥ -cov ReadGroupCovariate ¥ -cov QualityScoreCovariate ¥ -cov CycleCovariate ¥ -cov DinucCovariate ¥ -log ERR035486.rmdup.realigned.recal.log ¥ -recalFile ERR035486.rmdup.realigned.recal_data.csv > java -Xmx8g -jar $gatk_dir/GenomeAnalysisTK.jar -T TableRecalibration ¥ -I $sample.rmdup.realigned.bam ¥ -R hg19.fa ¥ -recalFile ERR035486.rmdup.realigned.recal_data.csv ¥ -log ERR035486.rmdup.realigned.Qual.log ¥ -o ERR035486.rmdup.realigned.recal.bam BAMファイルの各リードの塩基のクウォリティスコアが補正される。 全ゲノムや全エキソンなどの網羅的な解析でない場合は、十分なデータポイント が得られず効果は期待できないことに注意。
  50. 50. チュートリアルの流れ リードQC マッピング解析 マッピングQC 重複除去 リアラインメント リキャリブレーション 変異解析 変異アノテー ション
  51. 51. Variant Call / Genotype Call とは? G/T C/C
  52. 52. 変異検出プログラムの比較 プログラム SAMtools ライセンス SNP Indel Somatic SNV Somatic Indel ○ ○ ー ー 無償 GATK Unified Genotyper ○ ○ ー ー Lite版無償 2.X はアカデミックフリー VarScan ○ ○ ○ ○ アカデミックフリー MuTect ー ー ○ ? アカデミックフリー GATK Somatic Indel Detector ー ー ー ○ アカデミックフリー
  53. 53. Unified Genotyperによる変異検出 > java -jar GenomeAnalysisTK.jar –T UnifiedGenotyper ¥ -R hg19.fa ¥ -I ERR035486.rmdup.realigned.recal.bam ¥ -I ERR035487.rmdup.realigned.recal.bam ¥ -glm BOTH ¥ -nt 4 ¥ -o result.recal.gatk.var.vcf ¥ -metrics ug_recal_metrics ¥ -D 00-All.chr.vcf ¥ -S LENIENT ¥ -out_mode EMIT_VARIANTS_ONLY ¥ -L exome_target.bed ERR035486, ERR035487の両方のBAMファイルを与えてVariant Callを行うことで両方の サンプルの変異が比較可能な形でVCFファイルが出力される。 さらに上記オプションにより、少なくともいずれかのBAMファイルでターゲット領域上に 検出されたSNVまたはIndelについて出力される。 “-D” オプションでdbSNPの情報をアノテーションする場合は、参照配列のFASTAファイ ルに定義されている染色体名とdbSNPのVCFファイルに定義されている染色体名を一 致させておく必要があることに注意。
  54. 54. VCFフォーマット (Variant Call Format) • • • 変異・ジェノタイプを記述する共通フォーマット ポピュレーションごとにアレル頻度やリード数 テキスト形式(VCF)とバイナリ形式(BCF)が存在 ##fileformat=VCFv4.1 ##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Approximate read depth (reads with MQ=255 or with bad mates are filtered)"> ##FORMAT=<ID=GQ,Number=1,Type=Float,Description="Genotype Quality"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> (中略) #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT ERR035486 ERR035487 chr1 4772053 rs1061968 T C 40.42 . AC=2;AF=0.50;AN=4;BaseQRankSum=0.311;DB;DP=16;Dels=0.00;FS=2.522;HRun=0;HaplotypeScore=0.0000;MQ=57.05;MQ0=0;MQRankSum=0.778;QD=2.53;ReadPosRa nkSum=0.467;SB=-31.32 GT:AD:DP:GQ:PL 0/1:3,2:5:60.71:63,0,61 0/1:8,3:11:12.06:12,0,231 chr1 4772717 rs242056 G A 2547.13 . AC=4;AF=1.00;AN=4;DB;DP=78;Dels=0.00;FS=0.000;HRun=0;HaplotypeScore=0.0000;MQ=57.71;MQ0=0;QD=32.66;SB=-665.84 GT:AD:DP:GQ:PL 1/1:0,32:32:75.24:973,75,0 1/1:0,46:46:99:1610,123,0 chr1 5935162 rs1287637 A T 70.70 . AC=2;AF=1.00;AN=2;DB;DP=3;Dels=0.00;FS=0.000;HRun=0;HaplotypeScore=0.0000;MQ=51.77;MQ0=0;QD=23.57;SB=-39.86 GT:AD:DP:GQ:PL 1/1:0,3:3:9.02:103,9,0 ./. chr1 5987696 rs7520105 T C 42.36 . AC=4;AF=1.00;AN=4;DB;DP=4;Dels=0.00;FS=0.000;HRun=1;HaplotypeScore=0.0000;MQ=53.95;MQ0=0;QD=10.59;SB=-40.65 GT:AD:DP:GQ:PL 1/1:0,2:2:3.01:45,3,0 1/1:0,1:2:3.01:31,3,0 chr1 6027252 rs875573 A G 64.26 . AC=3;AF=0.75;AN=4;BaseQRankSum=0.727;DB;DP=4;Dels=0.00;FS=0.000;HRun=1;HaplotypeScore=0.0000;MQ=60.00;MQ0=0;MQRankSum=0.727;QD=16.06;ReadPosRankSum=0.727;SB=-36.47 GT:AD:DP:GQ:PL 1/1:0,1:1:3.01:41,3,0 0/1:1,2:3:27.10:58,0,27
  55. 55. チュートリアルの流れ リードQC マッピング解析 マッピングQC 重複除去 リアラインメント リキャリブレーション 変異解析 変異アノテー ション
  56. 56. 変異アノテーションプログラムの比較 プログラム ライセンス VCF 入力 VCF 出力 HTML レポート SnpEff ○ ○ ○ 無償 Variant Effect Predictor ○ ○ ○ 無償 ANNOVAR ○ ○ ー アカデミックフリー 検出された変異について、それらが遺伝子産物に与える影響をアノテーションする。
  57. 57. SnpEff:サマリーレポート
  58. 58. マイニング • VarSifter http://research.nhgri.nih.gov/software/VarSifter/index.shtml
  59. 59. レポーティング • QC結果(実験担当者へのフィードバック) • 解析データ – 最終のBAMファイル(サンプルごとに) – VCFファイル(アノテーション付き) 解析データは、IGV、VarSifterを使えば、GUI環境(パソコン上)で分析できます
  60. 60. さらに詳しく知りたい方へ
  61. 61. Outline セッション1:実験条件編 • 次世代シーケンシングのトレンド • 次世代シーケンシング解析に共通のステップ • シナリオ(癌ゲノムExome解析) → Wet解析担当者とのやりとり → データ解析に影響する実験条件 セッション2:解析ツール編 • NGSデータ解析の流れ • マッピング〜SNP解析まで → 実践をまじえたチュートリアル → ツール選びのポイント • NGSデータ蓄積・管理システムGenaGenomeManager
  62. 62. 1000サンプル規模のゲノム解析データを一元管理できる ハードウェア一体型システム FASTQ BAM 価格670万円〜
  63. 63. データ登録・管理
  64. 64. データQC解析
  65. 65. ゲノムビューワー
  66. 66. 基本機能: Variantレポート
  67. 67. 関連情報のカスタム定義(メタデータ)
  68. 68. ゲノムデータとメタデータの管理
  69. 69. メタデータを用いた変異のマイニング
  70. 70. 価格例
  • MitsuhoImaiSumidaMDP

    Jun. 25, 2019
  • totti-adaubelt

    Dec. 2, 2018
  • ryoushirotsuki

    Feb. 11, 2018
  • SayakaTanaka4

    Feb. 1, 2018
  • kentarorikimaru

    Nov. 4, 2017
  • MasamichiIsobe

    May. 16, 2016
  • HirokiMR

    Jan. 23, 2016
  • 100002229946413

    Oct. 5, 2015
  • YuichiroOno

    Sep. 9, 2015
  • ssuser062a26

    May. 27, 2015
  • KaeKoganebuchi

    May. 11, 2015
  • hkohjitani

    Apr. 18, 2015
  • KatsuhikoMurakami

    Feb. 4, 2015
  • gatapisi

    May. 5, 2014

Views

Total views

22,470

On Slideshare

0

From embeds

0

Number of embeds

1,851

Actions

Downloads

249

Shares

0

Comments

0

Likes

14

×