SlideShare a Scribd company logo
1 of 20
フ リ ー ソ フ ト で は じ め る
メ チ ル 化 デ ー タ 解 析 ⼊入 ⾨門
= S e q C a p    E p i デ ー タ 対 応 =
第 4 0 回 勉 強 会 資 料料
2014年年12⽉月18⽇日
上記はほんの⼀一部
⽇日々、多くのソフトが公開されている
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
2
N G S デ ー タ 解 析 の フ リ ー ソ フ ト
QC
•  cutadapt
•  FastQC
•  FastX-‐‑‒toolkit
•  Trimmomaic
      :
多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する
アライメント
•  bowtie
•  bwa
•  BSMAP
•  Tophat
                :
※Rなど、WindowsやMacでも動くものもある
メチル化解析・⽐比較
・アノテーション
•  BSMAP
•  methylKit
•  BisSNP
        :
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
3
L i n u x と は
UNIX互換のサーバー向けOS(オペレーティングシステム)
つまり、多⼈人数で同時に利利⽤用し、常時稼働していることを想定したコンピューター
UNIXは権利利問題などで、⼀一般⼈人の⼿手の届かない存在となったため、Linus⽒氏がUNIXを
参考にして、PCで動く独⾃自OSを開発
      Linux
⼤大多数の解析ツールを使⽤用することができる
新しいツールが出た時、すぐ⾃自分で試せる
次世代シーケンシングデータのように、⼤大
きなデータは、Excel等で⾒見見る事が難しい
⾃自分の思い通りにデータの可視化や加⼯工ができる
バイオインフォマティクスで使⽤用する解析ツールの
多くは、Linux⽤用に作成されている
「Primerを数百個作りたい」「数万個の配列列がどの遺伝⼦子に当たるの
か確認したい」という時、同じ作業を何度度も繰り返す事は、難しい
繰り返し作業を⾃自動化する事ができる
⼤大量量データの扱い
繰り返し操作の簡易易化
解析ツールの問題
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
4
L i n u x と は
Linuxにはさまざまなディストリビューション(配布形式)がある
Debian系・・・Ubuntuなど
Red  Hat系・・・Red  Hat  Enterprise  Linux(商⽤用)、CentOS(無償)など
⾒見見た⽬目やパッケージ管理理形式が異異なるが、基本的な操作コマンドは同じ
解析サーバにCentOSをお奨めする理理由
•  更更新⽅方針が保守的で、アップデートが頻発しない
•  枯れた技術を使っていて、安定している
弊社販売の
解析サーバで
使⽤用
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
5
解 析 ⼿手 法 の ご 紹 介
•  今回の解析で⽤用いたサーバ
OS CentOS6    64bit
CPU Intel  Corei7-‐‑‒3930K[3.2GHz/6Core]
メモリ 64GB
SSD 64GB(OS⽤用)
HDD 2TB  ×  4台
時間がかかる処理理については実⾏行行時間を⽰示します
バ イ サ ル フ ァ イ ト シ ー ケ ン ス に よ る
メ チ ル 化 解 析 で で き る こ と
次世代シーケンサによるメチル化解析は、⾼高解像度度に網羅羅的解析が可能  です。
•  全ゲノムバイサルファイトシーケンシング(WGBS)解析
•  ターゲットメチローム解析
SeqCap  Epi  CpGiant  Enrichment  Kit  (ロシュ)
•  ターゲットエンリッチメントされたライブラリー調整が可能
•  ターゲットはヒトゲノム上の550万以上のCpGサイト
代表的なビーズアレイ(HumanMethyla2on450	
  DNA	
  Analysis	
  Kit)が検出
できる  45	
  万箇所に対して  12	
  倍以上
•  SNVとメチル化を⾒見見分けることが可能
6Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
バ イ サ ル フ ァ イ ト シ ー ケ ン ス の 原 理理
メチル化 	
  が存在
⾮非メチル化 C	
  が 	
  に
シーケンス結果では	
  
	
   	
  が 	
  に
シーケンシング
バイサルファイト変換処理理
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
7
テストデータと解 析 概 要
•  使⽤用テストデータ(ゲノムDNA)
–  ヒト末梢⾎血単核球(PBMC)  
–  PBMC由来のiPS  細胞
•  SeqCap  Epi  CpGiant  Enrichment  
Kitを使⽤用してライブラリー調整
•  Illumina  Hiseq2000を使⽤用
–  150  bp
–  ペアエンド
フリーソフトによる解析を
コマンド例例と共に⼀一部紹介します
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
8
ク オ リ テ ィ コ ン ト ロ ー ル | F a s t Q C
•  FastQCを⽤用いて、シーケンスリードのクオリティを確認
•  FastQCの出⼒力力結果例例
$ fastqc –nogroup PBMC_R1.fastq PBMC_R2.fastq -o ./1_qc
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
9
低クオリティリードのトリミング| Trimmomatic
•  Trimmomaicを⽤用いて、  クオリティの低い  リードをトリミング
•  4種類のファイルを出⼒力力
PBMC_R1_trimmed.fq PBMC_R1_unpaired.fq
PBMC_R2_trimmed.fq PBMC_R2_unpaired.fq
•  Unpairedには、トリミングの結果、ペアのうち⽚片⽅方のリード⻑⾧長が
75  塩基未満となったリードが含まれる
$ java -Xms30g -Xmx30g –jar /home/amelieff/bin/ ¥
trimmomatic-0.32.jar PE -threads 4 -phred33 ¥
PBMC_R1.fastq PBMC_R2.fastq ¥
PBMC_R1_trimmed.fq PBMC_R1_unpaired.fq ¥
PBMC_R2_trimmed.fq PBMC_R2_unpaired.fq ¥
LEADING:20 TRAILING:20 SLIDINGWINDOW:5:20 MINLEN:75
リードのトリミング条件
    -‐‑‒  リードの両端のクオリティが  20(Phred-‐‑‒score)未満
    -‐‑‒  5  bpのウィンドウで塩基の平均クオリティが  20(Phred-‐‑‒score)未満
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
10
コマンドは¥を除いて1⾏行行で⼊入⼒力力してください
マ ッ ピ ン グ | B S M A P
•  BSMAPを⽤用いて、リードをリファレンスにマッピング
hg19および  λファージゲノム(NC_̲001416)をリファレンスとし
て⽤用いる。
•  Picardを⽤用いて、SAMをBAMに変換
$ bsmap -r 0 -s 16 -n 1 -a ../1_qc/PBMC_R1_trimmed.fq ¥
-b ../1_qc/PBMC_R2_trimmed.fq -d hg19.fa ¥
-p 4 –o PBMC.sam
$ java -Xmx30g -Xms30g -jar /home/amelieff/bin/ ¥
AddOrReplaceReadGroups.jar ¥
VALIDATION_STRINGENCY=LENIENT ¥
INPUT=PBMC.sam ¥
OUTPUT=PBMC.bam CREATE_INDEX=TRUE ¥
RGID=PBMC RGLB=PBMC RGPL=illumina ¥
RGSM=PBMC RGPU=platform_unit
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
11
メ チ ル 化 率率率 の 算 出 | B S M A P
•  BSMAP(methratio.py)を⽤用いて、メチル化率率率を算出
[-i skip]オプション
•  出⼒力力結果例例
$ python /home/amelieff/bin/methratio.py ¥
-d hg19.fa ¥
-s /home/amelieff/src/bsmap-2.74/samtools -m 1 ¥
-z -i skip –o PBMC.methylation_results.txt PBMC.bam
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
12
:C  の逆鎖が  A  になっている領領域は、SNPの可能性があるため出⼒力力しない
…	
…	
すべての  C  の領領域について(1塩基毎)メチル化した塩基数を算出
バ イ サ ル フ ァ イ ト 変 換 効 率率率 の 算 出 | BSMAP
•  λファージゲノムのメチル化率率率を算出
•  バイサルファイト変換効率率率を算出
–  LAMBDA_Cs: 2431 LAMBDA_METHYLATED_Cs: 10
LAMBDA_CONVERSION_EFFICIENCY: 99.5886
$ python /home/amelieff/bin/methratio.py ¥
-d hg19.fa ¥
-s /home/amelieff/src/bsmap-2.74/samtools ¥
-m 1 -z -i skip –c NC_001416 ¥
–o PBMC.NC_001416.methylation_results.txt PBMC.bam
$ awk ‘$2>=4500 && $2<=6500{c+=$7; ct+=$8}END ¥
{print "LAMBDA_Cs:", ct, "LAMBDA_METHYLATED_Cs:", ¥
c, "LAMBDA_CONVERSION_EFFICIENCY:", ¥
(1-(c/ct))*100}‘ ¥
PBMC.NC_001416.methylation_results.txt
⼀一般的に 99.5	
  %以上であれば実験に問題はないと判断
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
13
サ ン プ ル 間 で メ チ ル 化 率率率 を ⽐比 較 | methylKit
•  methylKitを⽤用いて、PBMCとPBMC由来iPS細胞のメチル化率率率を⽐比較
–  methylKitのFisherテストにおいて、qvalue<  0.01	
  、かつ
メチル化率率率に  25	
  %以上の差が⾒見見られた領領域を出⼒力力
•  出⼒力力ファイル(diff25pct.txt)の例例
R --vanilla --slave --args sample_num sample_list.tsv ¥
graph_output refseq.bed.txt cpgi.bed.txt < ¥
sce_methylkit.R
コントロールと⽐比較して、⾼高メチル化(+)低メチル化(­−)
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
14
ア ノ テ ー シ ョ ン | m e t h y l K i t
•  methylKitを⽤用いて、メチル化率率率の⽐比較と同時にUCSCのアノテー
ション情報を付加することも可能
メチル化程度度に差があった領領域を、アノテーションごとに分類して図を出⼒力力
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
15
ア ノ テ ー シ ョ ン | m e t h y l K i t
•  メチル化  C  の  TSS(翻訳開始点)からの距離離を算出
–  dist.to.feature(bp):  TSSとの距離離
–  feture.name        :  近傍の遺伝⼦子名
省
略	
ここで出⼒力力される領領域は、すべて
qvalue<  0.01	
  ,  メチル化率率率の差  25	
  %以上
TSSが  上流流  にある場合は(­−)
下流流  にある場合は(+)で表記
順鎖から⾒見見た時の
遺伝⼦子の向き
5’	
  →	
  3’(+)	
  
3’	
  →  5’(­−)	
  
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
16
S N P の 検 出 | B i s -‐‑‒ S N P
•  Bis-‐‑‒SNPを⽤用いて、既知のSNP情報を利利⽤用してSNPを検出
•  dbSNPに登録されているSNP情報を与える
•  SNPして検出された  C  が、VCFファイルに出⼒力力される
(PBMC.snp.raw.vcf)
$ java -Xmx30g -jar /home/amelieff/bin/ ¥
BisSNP-0.82.2.jar -R hg19.fa -I ¥
PBMC.recal.bam -T BisulfiteGenotyper ¥
–D dbsnp_135.hg19.sort.vcf ¥
-vfn1 PBMC.cpg.raw.vcf –vfn2 PBMC.snp.raw.vcf ¥
-L 130912_HG19_CpGiant_4M_EPI_CpG.bed ¥
-stand_call_conf 20 -stand_emit_conf 0 ¥
-mmq 30 -mbq 0 -nt 4
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
17
結 果 の 可 視 化 | I G V
順鎖のメチル化率率率:ピンク
逆鎖のメチル化率率率:ブルー
25	
  %以上差のある⾼高メチル化:レッド
25	
  %以上差のある低メチル化:グリーン
PBMC	
iPS	
diff25pct	
PBMC	
  
(BAM)	
iPS	
  
(BAM)	
SNP	
SNP情報
refSeq(ID)	
refSeq(name)	
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
18
(Integra2ve	
  Genomics	
  Viewer	
  -­‐	
  Broad	
  Ins2tute)
結 果 の 可 視 化 | I G V
PBMC	
iPS	
diff25pct	
PBMC	
  
(BAM)	
iPS	
  
(BAM)	
BAMファイルでマッピング結果を確認しなが
らメチル化率率率をチェック可能
Strand別に結果を確認可能
リファレンスが  C  の時には、
⾮非メチル化  C  が  T  としてBAMで確認される
Copyright	
  ©	
  Amelieff	
  Corpora2on.	
  All	
  Rights	
  Reserved.
19
(Integra2ve	
  Genomics	
  Viewer	
  -­‐	
  Broad	
  Ins2tute)
Copyright	
  ©	
  Amelieff	
  Corpora2on	
  All	
  Rights	
  Reserved.
20
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使⽤用するソフトや解析⼿手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。  
申込みフォーム  http://goo.gl/g3SOtU
ア メ リ ク

More Related Content

What's hot

機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれNGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれDNA Data Bank of Japan center
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutionsharmonylab
 
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA Japan
 
関数プログラマから見たPythonと機械学習
関数プログラマから見たPythonと機械学習関数プログラマから見たPythonと機械学習
関数プログラマから見たPythonと機械学習Masahiro Sakai
 
200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization 200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization 亮宏 藤井
 
Geometry Processingで学ぶSparse Matrix
Geometry Processingで学ぶSparse MatrixGeometry Processingで学ぶSparse Matrix
Geometry Processingで学ぶSparse MatrixJun Saito
 
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナーPFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナーMatlantis
 
公共交通オープンデータ第2幕:「静的データは出来た、次はリアルタイム」と決めつける前に考えること
公共交通オープンデータ第2幕:「静的データは出来た、次はリアルタイム」と決めつける前に考えること公共交通オープンデータ第2幕:「静的データは出来た、次はリアルタイム」と決めつける前に考えること
公共交通オープンデータ第2幕:「静的データは出来た、次はリアルタイム」と決めつける前に考えることMasaki Ito
 
汎用なNeural Network Potential「Matlantis」を使った新素材探索_2022応用物理学会_2022/3/22
汎用なNeural Network Potential「Matlantis」を使った新素材探索_2022応用物理学会_2022/3/22汎用なNeural Network Potential「Matlantis」を使った新素材探索_2022応用物理学会_2022/3/22
汎用なNeural Network Potential「Matlantis」を使った新素材探索_2022応用物理学会_2022/3/22Matlantis
 
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)Masato Mita
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE広樹 本間
 
猫でもわかる! モデル検査器 SPIN 入門
猫でもわかる! モデル検査器 SPIN 入門猫でもわかる! モデル検査器 SPIN 入門
猫でもわかる! モデル検査器 SPIN 入門y_taka_23
 
ハトでもわかる単純パーセプトロン
ハトでもわかる単純パーセプトロンハトでもわかる単純パーセプトロン
ハトでもわかる単純パーセプトロンtakosumipasta
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習Hitoshi Sato
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2Jiro Nishitoba
 
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全てOsamu Shimoda
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 

What's hot (20)

機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれNGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
 
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読み
 
関数プログラマから見たPythonと機械学習
関数プログラマから見たPythonと機械学習関数プログラマから見たPythonと機械学習
関数プログラマから見たPythonと機械学習
 
200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization 200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization
 
Geometry Processingで学ぶSparse Matrix
Geometry Processingで学ぶSparse MatrixGeometry Processingで学ぶSparse Matrix
Geometry Processingで学ぶSparse Matrix
 
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナーPFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
 
公共交通オープンデータ第2幕:「静的データは出来た、次はリアルタイム」と決めつける前に考えること
公共交通オープンデータ第2幕:「静的データは出来た、次はリアルタイム」と決めつける前に考えること公共交通オープンデータ第2幕:「静的データは出来た、次はリアルタイム」と決めつける前に考えること
公共交通オープンデータ第2幕:「静的データは出来た、次はリアルタイム」と決めつける前に考えること
 
汎用なNeural Network Potential「Matlantis」を使った新素材探索_2022応用物理学会_2022/3/22
汎用なNeural Network Potential「Matlantis」を使った新素材探索_2022応用物理学会_2022/3/22汎用なNeural Network Potential「Matlantis」を使った新素材探索_2022応用物理学会_2022/3/22
汎用なNeural Network Potential「Matlantis」を使った新素材探索_2022応用物理学会_2022/3/22
 
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
猫でもわかる! モデル検査器 SPIN 入門
猫でもわかる! モデル検査器 SPIN 入門猫でもわかる! モデル検査器 SPIN 入門
猫でもわかる! モデル検査器 SPIN 入門
 
ハトでもわかる単純パーセプトロン
ハトでもわかる単純パーセプトロンハトでもわかる単純パーセプトロン
ハトでもわかる単純パーセプトロン
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て
 
R高速化
R高速化R高速化
R高速化
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 

Viewers also liked

Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門Amelieff
 
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料Amelieff
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料Amelieff
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門Amelieff
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアルAmelieff
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングAmelieff
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinuxAmelieff
 
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料Amelieff
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料Genaris Omics, Inc.
 
フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析Amelieff
 
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entriesIcml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entriesTakami Sato
 

Viewers also liked (13)

Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門
 
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinux
 
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
 
フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
 
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entriesIcml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
 

Similar to フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料

プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610HIDEOMI SUZUKI
 
Atc15_reading_networking_session
Atc15_reading_networking_sessionAtc15_reading_networking_session
Atc15_reading_networking_session紘也 金子
 
第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
云推送技术实现与敏捷开发
云推送技术实现与敏捷开发云推送技术实现与敏捷开发
云推送技术实现与敏捷开发kaerseng
 
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学Takuma SHIRAISHI
 
ABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組みABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組みYusuke Goto
 
MySQL Cluster でもフラッシュドライブを活用してみる
MySQL Cluster でもフラッシュドライブを活用してみるMySQL Cluster でもフラッシュドライブを活用してみる
MySQL Cluster でもフラッシュドライブを活用してみるTakahashi Tomoo
 
Klocwork C/C++解析チューニング 概要
Klocwork C/C++解析チューニング 概要Klocwork C/C++解析チューニング 概要
Klocwork C/C++解析チューニング 概要Masaru Horioka
 
Data Center TCP (DCTCP)
Data Center TCP (DCTCP)Data Center TCP (DCTCP)
Data Center TCP (DCTCP)kato_t1988
 
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2Computational Materials Science Initiative
 
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]David Buck
 
130329 04
130329 04130329 04
130329 04openrtm
 
20130329 rtm4
20130329 rtm420130329 rtm4
20130329 rtm4openrtm
 
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjugYahoo!デベロッパーネットワーク
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングYosuke Mizutani
 
CAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてCAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてKaneko Izumi
 
دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP
 دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP
دانلود مقاله سیستم تولید همزمان برق و حرارت CCHPnovin ghalam
 
Tuiningathonにいってみた
TuiningathonにいってみたTuiningathonにいってみた
TuiningathonにいってみたSuguru Shirai
 

Similar to フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料 (20)

プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610
 
Atc15_reading_networking_session
Atc15_reading_networking_sessionAtc15_reading_networking_session
Atc15_reading_networking_session
 
第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)
 
云推送技术实现与敏捷开发
云推送技术实现与敏捷开发云推送技术实现与敏捷开发
云推送技术实现与敏捷开发
 
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学
継続的デリバリー読書会 第 5 章 デプロイメントパイプラインの解剖学
 
ABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組みABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組み
 
MySQL Cluster でもフラッシュドライブを活用してみる
MySQL Cluster でもフラッシュドライブを活用してみるMySQL Cluster でもフラッシュドライブを活用してみる
MySQL Cluster でもフラッシュドライブを活用してみる
 
Klocwork C/C++解析チューニング 概要
Klocwork C/C++解析チューニング 概要Klocwork C/C++解析チューニング 概要
Klocwork C/C++解析チューニング 概要
 
Data Center TCP (DCTCP)
Data Center TCP (DCTCP)Data Center TCP (DCTCP)
Data Center TCP (DCTCP)
 
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2
CCMSI計算科学技術特論A (2015) 第7回 線形代数演算ライブラリBLASとLAPACKの基礎と実践2
 
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]
Java SE 8におけるHotSpotの進化 [Java Day Tokyo 2014 C-2]
 
CheckMATE introduction
CheckMATE introductionCheckMATE introduction
CheckMATE introduction
 
130329 04
130329 04130329 04
130329 04
 
20130329 rtm4
20130329 rtm420130329 rtm4
20130329 rtm4
 
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
CAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてCAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品について
 
دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP
 دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP
دانلود مقاله سیستم تولید همزمان برق و حرارت CCHP
 
Tuiningathonにいってみた
TuiningathonにいってみたTuiningathonにいってみた
Tuiningathonにいってみた
 
Hadoop
HadoopHadoop
Hadoop
 

フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料

  • 1. フ リ ー ソ フ ト で は じ め る メ チ ル 化 デ ー タ 解 析 ⼊入 ⾨門 = S e q C a p   E p i デ ー タ 対 応 = 第 4 0 回 勉 強 会 資 料料 2014年年12⽉月18⽇日
  • 2. 上記はほんの⼀一部 ⽇日々、多くのソフトが公開されている Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 2 N G S デ ー タ 解 析 の フ リ ー ソ フ ト QC •  cutadapt •  FastQC •  FastX-‐‑‒toolkit •  Trimmomaic       : 多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する アライメント •  bowtie •  bwa •  BSMAP •  Tophat                : ※Rなど、WindowsやMacでも動くものもある メチル化解析・⽐比較 ・アノテーション •  BSMAP •  methylKit •  BisSNP        :
  • 3. Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 3 L i n u x と は UNIX互換のサーバー向けOS(オペレーティングシステム) つまり、多⼈人数で同時に利利⽤用し、常時稼働していることを想定したコンピューター UNIXは権利利問題などで、⼀一般⼈人の⼿手の届かない存在となったため、Linus⽒氏がUNIXを 参考にして、PCで動く独⾃自OSを開発       Linux ⼤大多数の解析ツールを使⽤用することができる 新しいツールが出た時、すぐ⾃自分で試せる 次世代シーケンシングデータのように、⼤大 きなデータは、Excel等で⾒見見る事が難しい ⾃自分の思い通りにデータの可視化や加⼯工ができる バイオインフォマティクスで使⽤用する解析ツールの 多くは、Linux⽤用に作成されている 「Primerを数百個作りたい」「数万個の配列列がどの遺伝⼦子に当たるの か確認したい」という時、同じ作業を何度度も繰り返す事は、難しい 繰り返し作業を⾃自動化する事ができる ⼤大量量データの扱い 繰り返し操作の簡易易化 解析ツールの問題
  • 4. Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 4 L i n u x と は Linuxにはさまざまなディストリビューション(配布形式)がある Debian系・・・Ubuntuなど Red  Hat系・・・Red  Hat  Enterprise  Linux(商⽤用)、CentOS(無償)など ⾒見見た⽬目やパッケージ管理理形式が異異なるが、基本的な操作コマンドは同じ 解析サーバにCentOSをお奨めする理理由 •  更更新⽅方針が保守的で、アップデートが頻発しない •  枯れた技術を使っていて、安定している 弊社販売の 解析サーバで 使⽤用
  • 5. Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 5 解 析 ⼿手 法 の ご 紹 介 •  今回の解析で⽤用いたサーバ OS CentOS6    64bit CPU Intel  Corei7-‐‑‒3930K[3.2GHz/6Core] メモリ 64GB SSD 64GB(OS⽤用) HDD 2TB  ×  4台 時間がかかる処理理については実⾏行行時間を⽰示します
  • 6. バ イ サ ル フ ァ イ ト シ ー ケ ン ス に よ る メ チ ル 化 解 析 で で き る こ と 次世代シーケンサによるメチル化解析は、⾼高解像度度に網羅羅的解析が可能  です。 •  全ゲノムバイサルファイトシーケンシング(WGBS)解析 •  ターゲットメチローム解析 SeqCap  Epi  CpGiant  Enrichment  Kit  (ロシュ) •  ターゲットエンリッチメントされたライブラリー調整が可能 •  ターゲットはヒトゲノム上の550万以上のCpGサイト 代表的なビーズアレイ(HumanMethyla2on450  DNA  Analysis  Kit)が検出 できる  45  万箇所に対して  12  倍以上 •  SNVとメチル化を⾒見見分けることが可能 6Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved.
  • 7. バ イ サ ル フ ァ イ ト シ ー ケ ン ス の 原 理理 メチル化  が存在 ⾮非メチル化 C  が  に シーケンス結果では      が  に シーケンシング バイサルファイト変換処理理 Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 7
  • 8. テストデータと解 析 概 要 •  使⽤用テストデータ(ゲノムDNA) –  ヒト末梢⾎血単核球(PBMC)   –  PBMC由来のiPS  細胞 •  SeqCap  Epi  CpGiant  Enrichment   Kitを使⽤用してライブラリー調整 •  Illumina  Hiseq2000を使⽤用 –  150  bp –  ペアエンド フリーソフトによる解析を コマンド例例と共に⼀一部紹介します Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 8
  • 9. ク オ リ テ ィ コ ン ト ロ ー ル | F a s t Q C •  FastQCを⽤用いて、シーケンスリードのクオリティを確認 •  FastQCの出⼒力力結果例例 $ fastqc –nogroup PBMC_R1.fastq PBMC_R2.fastq -o ./1_qc Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 9
  • 10. 低クオリティリードのトリミング| Trimmomatic •  Trimmomaicを⽤用いて、  クオリティの低い  リードをトリミング •  4種類のファイルを出⼒力力 PBMC_R1_trimmed.fq PBMC_R1_unpaired.fq PBMC_R2_trimmed.fq PBMC_R2_unpaired.fq •  Unpairedには、トリミングの結果、ペアのうち⽚片⽅方のリード⻑⾧長が 75  塩基未満となったリードが含まれる $ java -Xms30g -Xmx30g –jar /home/amelieff/bin/ ¥ trimmomatic-0.32.jar PE -threads 4 -phred33 ¥ PBMC_R1.fastq PBMC_R2.fastq ¥ PBMC_R1_trimmed.fq PBMC_R1_unpaired.fq ¥ PBMC_R2_trimmed.fq PBMC_R2_unpaired.fq ¥ LEADING:20 TRAILING:20 SLIDINGWINDOW:5:20 MINLEN:75 リードのトリミング条件     -‐‑‒  リードの両端のクオリティが  20(Phred-‐‑‒score)未満     -‐‑‒  5  bpのウィンドウで塩基の平均クオリティが  20(Phred-‐‑‒score)未満 Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 10 コマンドは¥を除いて1⾏行行で⼊入⼒力力してください
  • 11. マ ッ ピ ン グ | B S M A P •  BSMAPを⽤用いて、リードをリファレンスにマッピング hg19および  λファージゲノム(NC_̲001416)をリファレンスとし て⽤用いる。 •  Picardを⽤用いて、SAMをBAMに変換 $ bsmap -r 0 -s 16 -n 1 -a ../1_qc/PBMC_R1_trimmed.fq ¥ -b ../1_qc/PBMC_R2_trimmed.fq -d hg19.fa ¥ -p 4 –o PBMC.sam $ java -Xmx30g -Xms30g -jar /home/amelieff/bin/ ¥ AddOrReplaceReadGroups.jar ¥ VALIDATION_STRINGENCY=LENIENT ¥ INPUT=PBMC.sam ¥ OUTPUT=PBMC.bam CREATE_INDEX=TRUE ¥ RGID=PBMC RGLB=PBMC RGPL=illumina ¥ RGSM=PBMC RGPU=platform_unit Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 11
  • 12. メ チ ル 化 率率率 の 算 出 | B S M A P •  BSMAP(methratio.py)を⽤用いて、メチル化率率率を算出 [-i skip]オプション •  出⼒力力結果例例 $ python /home/amelieff/bin/methratio.py ¥ -d hg19.fa ¥ -s /home/amelieff/src/bsmap-2.74/samtools -m 1 ¥ -z -i skip –o PBMC.methylation_results.txt PBMC.bam Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 12 :C  の逆鎖が  A  になっている領領域は、SNPの可能性があるため出⼒力力しない … … すべての  C  の領領域について(1塩基毎)メチル化した塩基数を算出
  • 13. バ イ サ ル フ ァ イ ト 変 換 効 率率率 の 算 出 | BSMAP •  λファージゲノムのメチル化率率率を算出 •  バイサルファイト変換効率率率を算出 –  LAMBDA_Cs: 2431 LAMBDA_METHYLATED_Cs: 10 LAMBDA_CONVERSION_EFFICIENCY: 99.5886 $ python /home/amelieff/bin/methratio.py ¥ -d hg19.fa ¥ -s /home/amelieff/src/bsmap-2.74/samtools ¥ -m 1 -z -i skip –c NC_001416 ¥ –o PBMC.NC_001416.methylation_results.txt PBMC.bam $ awk ‘$2>=4500 && $2<=6500{c+=$7; ct+=$8}END ¥ {print "LAMBDA_Cs:", ct, "LAMBDA_METHYLATED_Cs:", ¥ c, "LAMBDA_CONVERSION_EFFICIENCY:", ¥ (1-(c/ct))*100}‘ ¥ PBMC.NC_001416.methylation_results.txt ⼀一般的に 99.5  %以上であれば実験に問題はないと判断 Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 13
  • 14. サ ン プ ル 間 で メ チ ル 化 率率率 を ⽐比 較 | methylKit •  methylKitを⽤用いて、PBMCとPBMC由来iPS細胞のメチル化率率率を⽐比較 –  methylKitのFisherテストにおいて、qvalue<  0.01  、かつ メチル化率率率に  25  %以上の差が⾒見見られた領領域を出⼒力力 •  出⼒力力ファイル(diff25pct.txt)の例例 R --vanilla --slave --args sample_num sample_list.tsv ¥ graph_output refseq.bed.txt cpgi.bed.txt < ¥ sce_methylkit.R コントロールと⽐比較して、⾼高メチル化(+)低メチル化(­−) Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 14
  • 15. ア ノ テ ー シ ョ ン | m e t h y l K i t •  methylKitを⽤用いて、メチル化率率率の⽐比較と同時にUCSCのアノテー ション情報を付加することも可能 メチル化程度度に差があった領領域を、アノテーションごとに分類して図を出⼒力力 Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 15
  • 16. ア ノ テ ー シ ョ ン | m e t h y l K i t •  メチル化  C  の  TSS(翻訳開始点)からの距離離を算出 –  dist.to.feature(bp):  TSSとの距離離 –  feture.name        :  近傍の遺伝⼦子名 省 略 ここで出⼒力力される領領域は、すべて qvalue<  0.01  ,  メチル化率率率の差  25  %以上 TSSが  上流流  にある場合は(­−) 下流流  にある場合は(+)で表記 順鎖から⾒見見た時の 遺伝⼦子の向き 5’  →  3’(+)   3’  →  5’(­−)   Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 16
  • 17. S N P の 検 出 | B i s -‐‑‒ S N P •  Bis-‐‑‒SNPを⽤用いて、既知のSNP情報を利利⽤用してSNPを検出 •  dbSNPに登録されているSNP情報を与える •  SNPして検出された  C  が、VCFファイルに出⼒力力される (PBMC.snp.raw.vcf) $ java -Xmx30g -jar /home/amelieff/bin/ ¥ BisSNP-0.82.2.jar -R hg19.fa -I ¥ PBMC.recal.bam -T BisulfiteGenotyper ¥ –D dbsnp_135.hg19.sort.vcf ¥ -vfn1 PBMC.cpg.raw.vcf –vfn2 PBMC.snp.raw.vcf ¥ -L 130912_HG19_CpGiant_4M_EPI_CpG.bed ¥ -stand_call_conf 20 -stand_emit_conf 0 ¥ -mmq 30 -mbq 0 -nt 4 Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 17
  • 18. 結 果 の 可 視 化 | I G V 順鎖のメチル化率率率:ピンク 逆鎖のメチル化率率率:ブルー 25  %以上差のある⾼高メチル化:レッド 25  %以上差のある低メチル化:グリーン PBMC iPS diff25pct PBMC   (BAM) iPS   (BAM) SNP SNP情報 refSeq(ID) refSeq(name) Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 18 (Integra2ve  Genomics  Viewer  -­‐  Broad  Ins2tute)
  • 19. 結 果 の 可 視 化 | I G V PBMC iPS diff25pct PBMC   (BAM) iPS   (BAM) BAMファイルでマッピング結果を確認しなが らメチル化率率率をチェック可能 Strand別に結果を確認可能 リファレンスが  C  の時には、 ⾮非メチル化  C  が  T  としてBAMで確認される Copyright  ©  Amelieff  Corpora2on.  All  Rights  Reserved. 19 (Integra2ve  Genomics  Viewer  -­‐  Broad  Ins2tute)
  • 20. Copyright  ©  Amelieff  Corpora2on  All  Rights  Reserved. 20 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使⽤用するソフトや解析⼿手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。   申込みフォーム  http://goo.gl/g3SOtU ア メ リ ク