SlideShare a Scribd company logo
フ リ ー ソ フ ト で は じ め る
メ チ ル 化 デ ー タ 解 析 ⼊入 ⾨門
= S e q C a p    E p i デ ー タ 対 応 =
第 4 0 回 勉 強 会 資 料料
2014年年12⽉月18⽇日
上記はほんの⼀一部
⽇日々、多くのソフトが公開されている
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
2
N G S デ ー タ 解 析 の フ リ ー ソ フ ト
QC
•  cutadapt
•  FastQC
•  FastX-‐‑‒toolkit
•  Trimmomaic
      :
多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する
アライメント
•  bowtie
•  bwa
•  BSMAP
•  Tophat
                :
※Rなど、WindowsやMacでも動くものもある
メチル化解析・⽐比較
・アノテーション
•  BSMAP
•  methylKit
•  BisSNP
        :
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
3
L i n u x と は
UNIX互換のサーバー向けOS(オペレーティングシステム)
つまり、多⼈人数で同時に利利⽤用し、常時稼働していることを想定したコンピューター
UNIXは権利利問題などで、⼀一般⼈人の⼿手の届かない存在となったため、Linus⽒氏がUNIXを
参考にして、PCで動く独⾃自OSを開発
      Linux
⼤大多数の解析ツールを使⽤用することができる
新しいツールが出た時、すぐ⾃自分で試せる
次世代シーケンシングデータのように、⼤大
きなデータは、Excel等で⾒見見る事が難しい
⾃自分の思い通りにデータの可視化や加⼯工ができる
バイオインフォマティクスで使⽤用する解析ツールの
多くは、Linux⽤用に作成されている
「Primerを数百個作りたい」「数万個の配列列がどの遺伝⼦子に当たるの
か確認したい」という時、同じ作業を何度度も繰り返す事は、難しい
繰り返し作業を⾃自動化する事ができる
⼤大量量データの扱い
繰り返し操作の簡易易化
解析ツールの問題
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
4
L i n u x と は
Linuxにはさまざまなディストリビューション(配布形式)がある
Debian系・・・Ubuntuなど
Red  Hat系・・・Red  Hat  Enterprise  Linux(商⽤用)、CentOS(無償)など
⾒見見た⽬目やパッケージ管理理形式が異異なるが、基本的な操作コマンドは同じ
解析サーバにCentOSをお奨めする理理由
•  更更新⽅方針が保守的で、アップデートが頻発しない
•  枯れた技術を使っていて、安定している
弊社販売の
解析サーバで
使⽤用
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
5
解 析 ⼿手 法 の ご 紹 介
•  今回の解析で⽤用いたサーバ
OS CentOS6    64bit
CPU Intel  Corei7-‐‑‒3930K[3.2GHz/6Core]
メモリ 64GB
SSD 64GB(OS⽤用)
HDD 2TB  ×  4台
時間がかかる処理理については実⾏行行時間を⽰示します
バ イ サ ル フ ァ イ ト シ ー ケ ン ス に よ る
メ チ ル 化 解 析 で で き る こ と
次世代シーケンサによるメチル化解析は、⾼高解像度度に網羅羅的解析が可能  です。
•  全ゲノムバイサルファイトシーケンシング(WGBS)解析
•  ターゲットメチローム解析
SeqCap  Epi  CpGiant  Enrichment  Kit  (ロシュ)
•  ターゲットエンリッチメントされたライブラリー調整が可能
•  ターゲットはヒトゲノム上の550万以上のCpGサイト
代表的なビーズアレイ(HumanMethyla2on450	
  DNA	
  Analysis	
  Kit)が検出
できる  45	
  万箇所に対して  12	
  倍以上
•  SNVとメチル化を⾒見見分けることが可能
6Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
バ イ サ ル フ ァ イ ト シ ー ケ ン ス の 原 理理
メチル化 	
  が存在
⾮非メチル化 C	
  が 	
  に
シーケンス結果では	
  
	
   	
  が 	
  に
シーケンシング
バイサルファイト変換処理理
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
7
テストデータと解 析 概 要
•  使⽤用テストデータ(ゲノムDNA)
–  ヒト末梢⾎血単核球(PBMC)  
–  PBMC由来のiPS  細胞
•  SeqCap  Epi  CpGiant  Enrichment  
Kitを使⽤用してライブラリー調整
•  Illumina  Hiseq2000を使⽤用
–  150  bp
–  ペアエンド
フリーソフトによる解析を
コマンド例例と共に⼀一部紹介します
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
8
ク オ リ テ ィ コ ン ト ロ ー ル | F a s t Q C
•  FastQCを⽤用いて、シーケンスリードのクオリティを確認
•  FastQCの出⼒力力結果例例
$ fastqc –nogroup PBMC_R1.fastq PBMC_R2.fastq -o ./1_qc
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
9
低クオリティリードのトリミング| Trimmomatic
•  Trimmomaicを⽤用いて、  クオリティの低い  リードをトリミング
•  4種類のファイルを出⼒力力
PBMC_R1_trimmed.fq PBMC_R1_unpaired.fq
PBMC_R2_trimmed.fq PBMC_R2_unpaired.fq
•  Unpairedには、トリミングの結果、ペアのうち⽚片⽅方のリード⻑⾧長が
75  塩基未満となったリードが含まれる
$ java -Xms30g -Xmx30g –jar /home/amelieff/bin/ ¥
trimmomatic-0.32.jar PE -threads 4 -phred33 ¥
PBMC_R1.fastq PBMC_R2.fastq ¥
PBMC_R1_trimmed.fq PBMC_R1_unpaired.fq ¥
PBMC_R2_trimmed.fq PBMC_R2_unpaired.fq ¥
LEADING:20 TRAILING:20 SLIDINGWINDOW:5:20 MINLEN:75
リードのトリミング条件
    -‐‑‒  リードの両端のクオリティが  20(Phred-‐‑‒score)未満
    -‐‑‒  5  bpのウィンドウで塩基の平均クオリティが  20(Phred-‐‑‒score)未満
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
10
コマンドは¥を除いて1⾏行行で⼊入⼒力力してください
マ ッ ピ ン グ | B S M A P
•  BSMAPを⽤用いて、リードをリファレンスにマッピング
hg19および  λファージゲノム(NC_̲001416)をリファレンスとし
て⽤用いる。
•  Picardを⽤用いて、SAMをBAMに変換
$ bsmap -r 0 -s 16 -n 1 -a ../1_qc/PBMC_R1_trimmed.fq ¥
-b ../1_qc/PBMC_R2_trimmed.fq -d hg19.fa ¥
-p 4 –o PBMC.sam
$ java -Xmx30g -Xms30g -jar /home/amelieff/bin/ ¥
AddOrReplaceReadGroups.jar ¥
VALIDATION_STRINGENCY=LENIENT ¥
INPUT=PBMC.sam ¥
OUTPUT=PBMC.bam CREATE_INDEX=TRUE ¥
RGID=PBMC RGLB=PBMC RGPL=illumina ¥
RGSM=PBMC RGPU=platform_unit
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
11
メ チ ル 化 率率率 の 算 出 | B S M A P
•  BSMAP(methratio.py)を⽤用いて、メチル化率率率を算出
[-i skip]オプション
•  出⼒力力結果例例
$ python /home/amelieff/bin/methratio.py ¥
-d hg19.fa ¥
-s /home/amelieff/src/bsmap-2.74/samtools -m 1 ¥
-z -i skip –o PBMC.methylation_results.txt PBMC.bam
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
12
:C  の逆鎖が  A  になっている領領域は、SNPの可能性があるため出⼒力力しない
…	
…	
すべての  C  の領領域について(1塩基毎)メチル化した塩基数を算出
バ イ サ ル フ ァ イ ト 変 換 効 率率率 の 算 出 | BSMAP
•  λファージゲノムのメチル化率率率を算出
•  バイサルファイト変換効率率率を算出
–  LAMBDA_Cs: 2431 LAMBDA_METHYLATED_Cs: 10
LAMBDA_CONVERSION_EFFICIENCY: 99.5886
$ python /home/amelieff/bin/methratio.py ¥
-d hg19.fa ¥
-s /home/amelieff/src/bsmap-2.74/samtools ¥
-m 1 -z -i skip –c NC_001416 ¥
–o PBMC.NC_001416.methylation_results.txt PBMC.bam
$ awk ‘$2>=4500 && $2<=6500{c+=$7; ct+=$8}END ¥
{print "LAMBDA_Cs:", ct, "LAMBDA_METHYLATED_Cs:", ¥
c, "LAMBDA_CONVERSION_EFFICIENCY:", ¥
(1-(c/ct))*100}‘ ¥
PBMC.NC_001416.methylation_results.txt
⼀一般的に 99.5	
  %以上であれば実験に問題はないと判断
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
13
サ ン プ ル 間 で メ チ ル 化 率率率 を ⽐比 較 | methylKit
•  methylKitを⽤用いて、PBMCとPBMC由来iPS細胞のメチル化率率率を⽐比較
–  methylKitのFisherテストにおいて、qvalue<  0.01	
  、かつ
メチル化率率率に  25	
  %以上の差が⾒見見られた領領域を出⼒力力
•  出⼒力力ファイル(diff25pct.txt)の例例
R --vanilla --slave --args sample_num sample_list.tsv ¥
graph_output refseq.bed.txt cpgi.bed.txt < ¥
sce_methylkit.R
コントロールと⽐比較して、⾼高メチル化(+)低メチル化(­−)
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
14
ア ノ テ ー シ ョ ン | m e t h y l K i t
•  methylKitを⽤用いて、メチル化率率率の⽐比較と同時にUCSCのアノテー
ション情報を付加することも可能
メチル化程度度に差があった領領域を、アノテーションごとに分類して図を出⼒力力
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
15
ア ノ テ ー シ ョ ン | m e t h y l K i t
•  メチル化  C  の  TSS(翻訳開始点)からの距離離を算出
–  dist.to.feature(bp):  TSSとの距離離
–  feture.name        :  近傍の遺伝⼦子名
省
略	
ここで出⼒力力される領領域は、すべて
qvalue<  0.01	
  ,  メチル化率率率の差  25	
  %以上
TSSが  上流流  にある場合は(­−)
下流流  にある場合は(+)で表記
順鎖から⾒見見た時の
遺伝⼦子の向き
5’	
  →	
  3’(+)	
  
3’	
  →  5’(­−)	
  
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
16
S N P の 検 出 | B i s -‐‑‒ S N P
•  Bis-‐‑‒SNPを⽤用いて、既知のSNP情報を利利⽤用してSNPを検出
•  dbSNPに登録されているSNP情報を与える
•  SNPして検出された  C  が、VCFファイルに出⼒力力される
(PBMC.snp.raw.vcf)
$ java -Xmx30g -jar /home/amelieff/bin/ ¥
BisSNP-0.82.2.jar -R hg19.fa -I ¥
PBMC.recal.bam -T BisulfiteGenotyper ¥
–D dbsnp_135.hg19.sort.vcf ¥
-vfn1 PBMC.cpg.raw.vcf –vfn2 PBMC.snp.raw.vcf ¥
-L 130912_HG19_CpGiant_4M_EPI_CpG.bed ¥
-stand_call_conf 20 -stand_emit_conf 0 ¥
-mmq 30 -mbq 0 -nt 4
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
17
結 果 の 可 視 化 | I G V
順鎖のメチル化率率率:ピンク
逆鎖のメチル化率率率:ブルー
25	
  %以上差のある⾼高メチル化:レッド
25	
  %以上差のある低メチル化:グリーン
PBMC	
iPS	
diff25pct	
PBMC	
  
(BAM)	
iPS	
  
(BAM)	
SNP	
SNP情報
refSeq(ID)	
refSeq(name)	
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
18
(Integra2ve	
  Genomics	
  Viewer	
  -­‐	
  Broad	
  Ins2tute)
結 果 の 可 視 化 | I G V
PBMC	
iPS	
diff25pct	
PBMC	
  
(BAM)	
iPS	
  
(BAM)	
BAMファイルでマッピング結果を確認しなが
らメチル化率率率をチェック可能
Strand別に結果を確認可能
リファレンスが  C  の時には、
⾮非メチル化  C  が  T  としてBAMで確認される
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
19
(Integra2ve	
  Genomics	
  Viewer	
  -­‐	
  Broad	
  Ins2tute)
Copyright	
  ©	
  Amelieff	
  Corpora2on	
  All	
  Rights	
  Reserved.
20
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使⽤用するソフトや解析⼿手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。  
申込みフォーム  http://goo.gl/g3SOtU
ア メ リ ク

More Related Content

What's hot

RNA Sequencing from Single Cell
RNA Sequencing from Single CellRNA Sequencing from Single Cell
RNA Sequencing from Single CellQIAGEN
 
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料Amelieff
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正弘毅 露崎
 
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05 RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05 Masaru Tokuoka
 
Mplusの使い方 初級編
Mplusの使い方 初級編Mplusの使い方 初級編
Mplusの使い方 初級編Hiroshi Shimizu
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門Amelieff
 
Mplusの使い方 中級編
Mplusの使い方 中級編Mplusの使い方 中級編
Mplusの使い方 中級編Hiroshi Shimizu
 
scRNA-Seq Workshop Presentation - Stem Cell Network 2018
scRNA-Seq Workshop Presentation - Stem Cell Network 2018scRNA-Seq Workshop Presentation - Stem Cell Network 2018
scRNA-Seq Workshop Presentation - Stem Cell Network 2018David Cook
 
未出現事象の出現確率
未出現事象の出現確率未出現事象の出現確率
未出現事象の出現確率Hiroshi Nakagawa
 
Molecular diagnosis in breast cancer
Molecular diagnosis in breast cancerMolecular diagnosis in breast cancer
Molecular diagnosis in breast cancerAnkit Lalchandani
 
Kaggle days tokyo jin zhan
Kaggle days tokyo   jin zhanKaggle days tokyo   jin zhan
Kaggle days tokyo jin zhanJin Zhan
 
Gene expression profiling in breast carcinoma
Gene expression profiling in breast carcinomaGene expression profiling in breast carcinoma
Gene expression profiling in breast carcinomaghoshparthanrs
 
How to cluster and sequence an ngs library (james hadfield160416)
How to cluster and sequence an ngs library (james hadfield160416)How to cluster and sequence an ngs library (james hadfield160416)
How to cluster and sequence an ngs library (james hadfield160416)James Hadfield
 
Immunotherapy for Colorectal Cancer
Immunotherapy for Colorectal CancerImmunotherapy for Colorectal Cancer
Immunotherapy for Colorectal Cancerspa718
 
Dual index adapters with UMIs resolve index hopping and increase sensitivity ...
Dual index adapters with UMIs resolve index hopping and increase sensitivity ...Dual index adapters with UMIs resolve index hopping and increase sensitivity ...
Dual index adapters with UMIs resolve index hopping and increase sensitivity ...Integrated DNA Technologies
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料Amelieff
 
基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章hiro5585
 

What's hot (20)

Clinical Applications of Next Generation Sequencing
Clinical Applications of Next Generation SequencingClinical Applications of Next Generation Sequencing
Clinical Applications of Next Generation Sequencing
 
RNA Sequencing from Single Cell
RNA Sequencing from Single CellRNA Sequencing from Single Cell
RNA Sequencing from Single Cell
 
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
 
Overview of Single-Cell RNA-seq
Overview of Single-Cell RNA-seqOverview of Single-Cell RNA-seq
Overview of Single-Cell RNA-seq
 
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05 RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
 
Mplusの使い方 初級編
Mplusの使い方 初級編Mplusの使い方 初級編
Mplusの使い方 初級編
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門
 
Mplusの使い方 中級編
Mplusの使い方 中級編Mplusの使い方 中級編
Mplusの使い方 中級編
 
scRNA-Seq Workshop Presentation - Stem Cell Network 2018
scRNA-Seq Workshop Presentation - Stem Cell Network 2018scRNA-Seq Workshop Presentation - Stem Cell Network 2018
scRNA-Seq Workshop Presentation - Stem Cell Network 2018
 
未出現事象の出現確率
未出現事象の出現確率未出現事象の出現確率
未出現事象の出現確率
 
Molecular diagnosis in breast cancer
Molecular diagnosis in breast cancerMolecular diagnosis in breast cancer
Molecular diagnosis in breast cancer
 
Kaggle days tokyo jin zhan
Kaggle days tokyo   jin zhanKaggle days tokyo   jin zhan
Kaggle days tokyo jin zhan
 
Gene expression profiling in breast carcinoma
Gene expression profiling in breast carcinomaGene expression profiling in breast carcinoma
Gene expression profiling in breast carcinoma
 
How to cluster and sequence an ngs library (james hadfield160416)
How to cluster and sequence an ngs library (james hadfield160416)How to cluster and sequence an ngs library (james hadfield160416)
How to cluster and sequence an ngs library (james hadfield160416)
 
Immunotherapy for Colorectal Cancer
Immunotherapy for Colorectal CancerImmunotherapy for Colorectal Cancer
Immunotherapy for Colorectal Cancer
 
Dual index adapters with UMIs resolve index hopping and increase sensitivity ...
Dual index adapters with UMIs resolve index hopping and increase sensitivity ...Dual index adapters with UMIs resolve index hopping and increase sensitivity ...
Dual index adapters with UMIs resolve index hopping and increase sensitivity ...
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
 
基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章
 
Keeping Up With Advances in Cancer Immunotherapy and Biomarker Testing: Impli...
Keeping Up With Advances in Cancer Immunotherapy and Biomarker Testing: Impli...Keeping Up With Advances in Cancer Immunotherapy and Biomarker Testing: Impli...
Keeping Up With Advances in Cancer Immunotherapy and Biomarker Testing: Impli...
 

Viewers also liked

Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門Amelieff
 
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料Amelieff
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアルAmelieff
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングAmelieff
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinuxAmelieff
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析Amelieff
 
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entriesIcml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entriesTakami Sato
 

Viewers also liked (8)

Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門
 
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinux
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
 
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entriesIcml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
 

Similar to フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料

プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610HIDEOMI SUZUKI
 
Atc15_reading_networking_session
Atc15_reading_networking_sessionAtc15_reading_networking_session
Atc15_reading_networking_session紘也 金子
 
第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
云推送技术实现与敏捷开发
云推送技术实现与敏捷开发云推送技术实现与敏捷开发
云推送技术实现与敏捷开发kaerseng
 
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学Takuma SHIRAISHI
 
ABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組みABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組みYusuke Goto
 
MySQL Cluster でもフラッシュドライブを活用してみる
MySQL Cluster でもフラッシュドライブを活用してみるMySQL Cluster でもフラッシュドライブを活用してみる
MySQL Cluster でもフラッシュドライブを活用してみるTakahashi Tomoo
 
Klocwork C/C++解析チューニング 概要
Klocwork C/C++解析チューニング 概要Klocwork C/C++解析チューニング 概要
Klocwork C/C++解析チューニング 概要Masaru Horioka
 
Data Center TCP (DCTCP)
Data Center TCP (DCTCP)Data Center TCP (DCTCP)
Data Center TCP (DCTCP)kato_t1988
 
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2Computational Materials Science Initiative
 
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]David Buck
 
130329 04
130329 04130329 04
130329 04openrtm
 
20130329 rtm4
20130329 rtm420130329 rtm4
20130329 rtm4openrtm
 
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjugYahoo!デベロッパーネットワーク
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングYosuke Mizutani
 
CAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてCAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてKaneko Izumi
 
دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP
 دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP
دانلود مقاله سیستم تولید همزمان برق و حرارت CCHPnovin ghalam
 
Tuiningathonにいってみた
TuiningathonにいってみたTuiningathonにいってみた
TuiningathonにいってみたSuguru Shirai
 

Similar to フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料 (20)

プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610
 
Atc15_reading_networking_session
Atc15_reading_networking_sessionAtc15_reading_networking_session
Atc15_reading_networking_session
 
第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)
 
云推送技术实现与敏捷开发
云推送技术实现与敏捷开发云推送技术实现与敏捷开发
云推送技术实现与敏捷开发
 
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学
 
ABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組みABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組み
 
MySQL Cluster でもフラッシュドライブを活用してみる
MySQL Cluster でもフラッシュドライブを活用してみるMySQL Cluster でもフラッシュドライブを活用してみる
MySQL Cluster でもフラッシュドライブを活用してみる
 
Klocwork C/C++解析チューニング 概要
Klocwork C/C++解析チューニング 概要Klocwork C/C++解析チューニング 概要
Klocwork C/C++解析チューニング 概要
 
Data Center TCP (DCTCP)
Data Center TCP (DCTCP)Data Center TCP (DCTCP)
Data Center TCP (DCTCP)
 
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2
 
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]
 
CheckMATE introduction
CheckMATE introductionCheckMATE introduction
CheckMATE introduction
 
130329 04
130329 04130329 04
130329 04
 
20130329 rtm4
20130329 rtm420130329 rtm4
20130329 rtm4
 
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
CAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてCAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品について
 
دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP
 دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP
دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP
 
Tuiningathonにいってみた
TuiningathonにいってみたTuiningathonにいってみた
Tuiningathonにいってみた
 
Hadoop
HadoopHadoop
Hadoop
 

フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料

  • 1. フ リ ー ソ フ ト で は じ め る メ チ ル 化 デ ー タ 解 析 ⼊入 ⾨門 = S e q C a p   E p i デ ー タ 対 応 = 第 4 0 回 勉 強 会 資 料料 2014年年12⽉月18⽇日
  • 2. 上記はほんの⼀一部 ⽇日々、多くのソフトが公開されている Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 2 N G S デ ー タ 解 析 の フ リ ー ソ フ ト QC •  cutadapt •  FastQC •  FastX-‐‑‒toolkit •  Trimmomaic       : 多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する アライメント •  bowtie •  bwa •  BSMAP •  Tophat                : ※Rなど、WindowsやMacでも動くものもある メチル化解析・⽐比較 ・アノテーション •  BSMAP •  methylKit •  BisSNP        :
  • 3. Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 3 L i n u x と は UNIX互換のサーバー向けOS(オペレーティングシステム) つまり、多⼈人数で同時に利利⽤用し、常時稼働していることを想定したコンピューター UNIXは権利利問題などで、⼀一般⼈人の⼿手の届かない存在となったため、Linus⽒氏がUNIXを 参考にして、PCで動く独⾃自OSを開発       Linux ⼤大多数の解析ツールを使⽤用することができる 新しいツールが出た時、すぐ⾃自分で試せる 次世代シーケンシングデータのように、⼤大 きなデータは、Excel等で⾒見見る事が難しい ⾃自分の思い通りにデータの可視化や加⼯工ができる バイオインフォマティクスで使⽤用する解析ツールの 多くは、Linux⽤用に作成されている 「Primerを数百個作りたい」「数万個の配列列がどの遺伝⼦子に当たるの か確認したい」という時、同じ作業を何度度も繰り返す事は、難しい 繰り返し作業を⾃自動化する事ができる ⼤大量量データの扱い 繰り返し操作の簡易易化 解析ツールの問題
  • 4. Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 4 L i n u x と は Linuxにはさまざまなディストリビューション(配布形式)がある Debian系・・・Ubuntuなど Red  Hat系・・・Red  Hat  Enterprise  Linux(商⽤用)、CentOS(無償)など ⾒見見た⽬目やパッケージ管理理形式が異異なるが、基本的な操作コマンドは同じ 解析サーバにCentOSをお奨めする理理由 •  更更新⽅方針が保守的で、アップデートが頻発しない •  枯れた技術を使っていて、安定している 弊社販売の 解析サーバで 使⽤用
  • 5. Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 5 解 析 ⼿手 法 の ご 紹 介 •  今回の解析で⽤用いたサーバ OS CentOS6    64bit CPU Intel  Corei7-‐‑‒3930K[3.2GHz/6Core] メモリ 64GB SSD 64GB(OS⽤用) HDD 2TB  ×  4台 時間がかかる処理理については実⾏行行時間を⽰示します
  • 6. バ イ サ ル フ ァ イ ト シ ー ケ ン ス に よ る メ チ ル 化 解 析 で で き る こ と 次世代シーケンサによるメチル化解析は、⾼高解像度度に網羅羅的解析が可能  です。 •  全ゲノムバイサルファイトシーケンシング(WGBS)解析 •  ターゲットメチローム解析 SeqCap  Epi  CpGiant  Enrichment  Kit  (ロシュ) •  ターゲットエンリッチメントされたライブラリー調整が可能 •  ターゲットはヒトゲノム上の550万以上のCpGサイト 代表的なビーズアレイ(HumanMethyla2on450  DNA  Analysis  Kit)が検出 できる  45  万箇所に対して  12  倍以上 •  SNVとメチル化を⾒見見分けることが可能 6Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved.
  • 7. バ イ サ ル フ ァ イ ト シ ー ケ ン ス の 原 理理 メチル化  が存在 ⾮非メチル化 C  が  に シーケンス結果では      が  に シーケンシング バイサルファイト変換処理理 Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 7
  • 8. テストデータと解 析 概 要 •  使⽤用テストデータ(ゲノムDNA) –  ヒト末梢⾎血単核球(PBMC)   –  PBMC由来のiPS  細胞 •  SeqCap  Epi  CpGiant  Enrichment   Kitを使⽤用してライブラリー調整 •  Illumina  Hiseq2000を使⽤用 –  150  bp –  ペアエンド フリーソフトによる解析を コマンド例例と共に⼀一部紹介します Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 8
  • 9. ク オ リ テ ィ コ ン ト ロ ー ル | F a s t Q C •  FastQCを⽤用いて、シーケンスリードのクオリティを確認 •  FastQCの出⼒力力結果例例 $ fastqc –nogroup PBMC_R1.fastq PBMC_R2.fastq -o ./1_qc Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 9
  • 10. 低クオリティリードのトリミング| Trimmomatic •  Trimmomaicを⽤用いて、  クオリティの低い  リードをトリミング •  4種類のファイルを出⼒力力 PBMC_R1_trimmed.fq PBMC_R1_unpaired.fq PBMC_R2_trimmed.fq PBMC_R2_unpaired.fq •  Unpairedには、トリミングの結果、ペアのうち⽚片⽅方のリード⻑⾧長が 75  塩基未満となったリードが含まれる $ java -Xms30g -Xmx30g –jar /home/amelieff/bin/ ¥ trimmomatic-0.32.jar PE -threads 4 -phred33 ¥ PBMC_R1.fastq PBMC_R2.fastq ¥ PBMC_R1_trimmed.fq PBMC_R1_unpaired.fq ¥ PBMC_R2_trimmed.fq PBMC_R2_unpaired.fq ¥ LEADING:20 TRAILING:20 SLIDINGWINDOW:5:20 MINLEN:75 リードのトリミング条件     -‐‑‒  リードの両端のクオリティが  20(Phred-‐‑‒score)未満     -‐‑‒  5  bpのウィンドウで塩基の平均クオリティが  20(Phred-‐‑‒score)未満 Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 10 コマンドは¥を除いて1⾏行行で⼊入⼒力力してください
  • 11. マ ッ ピ ン グ | B S M A P •  BSMAPを⽤用いて、リードをリファレンスにマッピング hg19および  λファージゲノム(NC_̲001416)をリファレンスとし て⽤用いる。 •  Picardを⽤用いて、SAMをBAMに変換 $ bsmap -r 0 -s 16 -n 1 -a ../1_qc/PBMC_R1_trimmed.fq ¥ -b ../1_qc/PBMC_R2_trimmed.fq -d hg19.fa ¥ -p 4 –o PBMC.sam $ java -Xmx30g -Xms30g -jar /home/amelieff/bin/ ¥ AddOrReplaceReadGroups.jar ¥ VALIDATION_STRINGENCY=LENIENT ¥ INPUT=PBMC.sam ¥ OUTPUT=PBMC.bam CREATE_INDEX=TRUE ¥ RGID=PBMC RGLB=PBMC RGPL=illumina ¥ RGSM=PBMC RGPU=platform_unit Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 11
  • 12. メ チ ル 化 率率率 の 算 出 | B S M A P •  BSMAP(methratio.py)を⽤用いて、メチル化率率率を算出 [-i skip]オプション •  出⼒力力結果例例 $ python /home/amelieff/bin/methratio.py ¥ -d hg19.fa ¥ -s /home/amelieff/src/bsmap-2.74/samtools -m 1 ¥ -z -i skip –o PBMC.methylation_results.txt PBMC.bam Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 12 :C  の逆鎖が  A  になっている領領域は、SNPの可能性があるため出⼒力力しない … … すべての  C  の領領域について(1塩基毎)メチル化した塩基数を算出
  • 13. バ イ サ ル フ ァ イ ト 変 換 効 率率率 の 算 出 | BSMAP •  λファージゲノムのメチル化率率率を算出 •  バイサルファイト変換効率率率を算出 –  LAMBDA_Cs: 2431 LAMBDA_METHYLATED_Cs: 10 LAMBDA_CONVERSION_EFFICIENCY: 99.5886 $ python /home/amelieff/bin/methratio.py ¥ -d hg19.fa ¥ -s /home/amelieff/src/bsmap-2.74/samtools ¥ -m 1 -z -i skip –c NC_001416 ¥ –o PBMC.NC_001416.methylation_results.txt PBMC.bam $ awk ‘$2>=4500 && $2<=6500{c+=$7; ct+=$8}END ¥ {print "LAMBDA_Cs:", ct, "LAMBDA_METHYLATED_Cs:", ¥ c, "LAMBDA_CONVERSION_EFFICIENCY:", ¥ (1-(c/ct))*100}‘ ¥ PBMC.NC_001416.methylation_results.txt ⼀一般的に 99.5  %以上であれば実験に問題はないと判断 Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 13
  • 14. サ ン プ ル 間 で メ チ ル 化 率率率 を ⽐比 較 | methylKit •  methylKitを⽤用いて、PBMCとPBMC由来iPS細胞のメチル化率率率を⽐比較 –  methylKitのFisherテストにおいて、qvalue<  0.01  、かつ メチル化率率率に  25  %以上の差が⾒見見られた領領域を出⼒力力 •  出⼒力力ファイル(diff25pct.txt)の例例 R --vanilla --slave --args sample_num sample_list.tsv ¥ graph_output refseq.bed.txt cpgi.bed.txt < ¥ sce_methylkit.R コントロールと⽐比較して、⾼高メチル化(+)低メチル化(­−) Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 14
  • 15. ア ノ テ ー シ ョ ン | m e t h y l K i t •  methylKitを⽤用いて、メチル化率率率の⽐比較と同時にUCSCのアノテー ション情報を付加することも可能 メチル化程度度に差があった領領域を、アノテーションごとに分類して図を出⼒力力 Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 15
  • 16. ア ノ テ ー シ ョ ン | m e t h y l K i t •  メチル化  C  の  TSS(翻訳開始点)からの距離離を算出 –  dist.to.feature(bp):  TSSとの距離離 –  feture.name        :  近傍の遺伝⼦子名 省 略 ここで出⼒力力される領領域は、すべて qvalue<  0.01  ,  メチル化率率率の差  25  %以上 TSSが  上流流  にある場合は(­−) 下流流  にある場合は(+)で表記 順鎖から⾒見見た時の 遺伝⼦子の向き 5’  →  3’(+)   3’  →  5’(­−)   Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 16
  • 17. S N P の 検 出 | B i s -‐‑‒ S N P •  Bis-‐‑‒SNPを⽤用いて、既知のSNP情報を利利⽤用してSNPを検出 •  dbSNPに登録されているSNP情報を与える •  SNPして検出された  C  が、VCFファイルに出⼒力力される (PBMC.snp.raw.vcf) $ java -Xmx30g -jar /home/amelieff/bin/ ¥ BisSNP-0.82.2.jar -R hg19.fa -I ¥ PBMC.recal.bam -T BisulfiteGenotyper ¥ –D dbsnp_135.hg19.sort.vcf ¥ -vfn1 PBMC.cpg.raw.vcf –vfn2 PBMC.snp.raw.vcf ¥ -L 130912_HG19_CpGiant_4M_EPI_CpG.bed ¥ -stand_call_conf 20 -stand_emit_conf 0 ¥ -mmq 30 -mbq 0 -nt 4 Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 17
  • 18. 結 果 の 可 視 化 | I G V 順鎖のメチル化率率率:ピンク 逆鎖のメチル化率率率:ブルー 25  %以上差のある⾼高メチル化:レッド 25  %以上差のある低メチル化:グリーン PBMC iPS diff25pct PBMC   (BAM) iPS   (BAM) SNP SNP情報 refSeq(ID) refSeq(name) Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 18 (Integra2ve  Genomics  Viewer  -­‐  Broad  Ins2tute)
  • 19. 結 果 の 可 視 化 | I G V PBMC iPS diff25pct PBMC   (BAM) iPS   (BAM) BAMファイルでマッピング結果を確認しなが らメチル化率率率をチェック可能 Strand別に結果を確認可能 リファレンスが  C  の時には、 ⾮非メチル化  C  が  T  としてBAMで確認される Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 19 (Integra2ve  Genomics  Viewer  -­‐  Broad  Ins2tute)
  • 20. Copyright  ©  Amelieff  Corpora2on  All  Rights  Reserved. 20 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使⽤用するソフトや解析⼿手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。   申込みフォーム  http://goo.gl/g3SOtU ア メ リ ク