フ リ ー ソ フ ト で は じ め る
C h I P - s e q 解 析
第 4 0 回 勉 強 会 資 料
2014年12月18日
上記はほんの一部
日々、多くのソフトが公開されている
Copyright © Amelieff Corporation. All Rights Reserved.
2
N G S デ ー タ 解 析 の フ リ ー ソ フ ト
QC
• cutadapt
• FastQC
• FastX-toolkit
• Trimmomaic
:
多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する
アライメント
• bowtie
• bwa
• BSMAP
• Tophat
:
ピーク検出
・アノテーション
• MACS
• QuEST
• ChIPpeakAnno
:
※Rなど、WindowsやMacでも動くものもある
メチル化解析・比較
・アノテーション
• BSMAP
• methylKit
• BisSNP
:
Copyright © Amelieff Corporation. All Rights Reserved.
3
L i n u x と は
UNIX互換のサーバー向けOS(オペレーティングシステム)
つまり、多人数で同時に利用し、常時稼働していることを想定したコンピューター
UNIXは権利問題などで、一般人の手の届かない存在となったため、Linus氏がUNIXを
参考にして、PCで動く独自OSを開発
Linux
大多数の解析ツールを使用することができる
新しいツールが出た時、すぐ自分で試せる
次世代シーケンシングデータのように、大
きなデータは、Excel等で見る事が難しい
自分の思い通りにデータの可視化や加工ができる
バイオインフォマティクスで使用する解析ツールの
多くは、Linux用に作成されている
「Primerを数百個作りたい」「数万個の配列がどの遺伝子に当たるの
か確認したい」という時、同じ作業を何度も繰り返す事は、難しい
繰り返し作業を自動化する事ができる
大量データの扱い
繰り返し操作の簡易化
解析ツールの問題
Copyright © Amelieff Corporation. All Rights Reserved.
4
L i n u x と は
Linuxにはさまざまなディストリビューション(配布形式)がある
Debian系・・・Ubuntuなど
Red Hat系・・・Red Hat Enterprise Linux(商用)、CentOS(無償)など
見た目やパッケージ管理形式が異なるが、基本的な操作コマンドは同じ
解析サーバにCentOSをお奨めする理由
• 更新方針が保守的で、アップデートが頻発しない
• 枯れた技術を使っていて、安定している
弊社販売の
解析サーバで
使用
Copyright © Amelieff Corporation. All Rights Reserved.
5
解 析 手 法 の ご 紹 介
• 今回の解析で用いたサーバ
OS CentOS6 64bit
CPU Intel Corei7-3930K[3.2GHz/6Core]
メモリ 64GB
SSD 64GB(OS用)
HDD 2TB × 4台
時間がかかる処理については実行時間を示します
Copyright © Amelieff Corporation. All Rights Reserved.
C h I P - s e q 解 析 で で き る こ と
• タンパク質結合部位の検出
• 結合モチーフの探索
6
ChIP-seqとChIP-chIPの比較
• ヒストン修飾や特定のタンパク質に結合するDNA断片を免疫
沈降・回収する点は同じ
• ChIP-seqは回収したDNAを断片化してからシーケンシング
するため、ChIP-chipよりピークの解像度が高い
Copyright © Amelieff Corporation. All Rights Reserved.
7
用 い た テ ス ト デ ー タ
• NCBI GEOに登録されているヒトのChIP-seqデータ
– GSM1295084: BF細胞(ヒト成人繊維芽細胞)のH3K27me3 ChIP-seq
• SRA ID:SRR1055695
– GSM1295086: BF細胞のH3 input(コントロール) ChipSeq
• SRA ID:SRR1055697
– すべてIllumina GAIIx、36bp Single-End
– URL:http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE40740
H3K27me3
• ヒストンH3の27番目のリジンのトリメチル化→転写抑制に関与
Copyright © Amelieff Corporation. All Rights Reserved.
8
解 析 手 法 の ご 紹 介
• GEOからダウンロードしたファイルはSRAフォーマットという独自形式に
なっており、そのままでは解析に使えない
• NCBI SRA Toolkitを使ってSRAフォーマットをFASTQフォーマットに変換
クオリティコントロール → マッピング→ピーク検出→アノテーション
$ fastq-dump SRR1055695.sra
$ fastq-dump SRR1055697.sra
拡張子が「.fastq」のFASTQファイルができる
• データのクオリティを集計して可視化する
$ fastqc -o 1_qc -f fastq SRR1055695.fastq
$ fastqc -o 1_qc -f fastq SRR1055697.fastq
Copyright © Amelieff Corporation. All Rights Reserved.
9
解 析 手 法 の ご 紹 介
• クオリティの低い塩基・リードを除去する
$ fastq_quality_trimmer -t 20 -l 30 -Q 33
-i SRR1055695.fastq | fastq_quality_filter -q 20 -p 80
-Q 33 -o 1_qc/SRR1055695.clean.fastq
3’末端からクオリティ20未満の塩基をトリミングし、長さが30塩基未満になった
リードを破棄する
80%以上の塩基がクオリティー20以上のリードのみを抽出する
約3分
他のFASTQファイルに対しても実施する
クオリティコントロール → マッピング→ピーク検出→アノテーション
Copyright © Amelieff Corporation. All Rights Reserved.
10
解 析 手 法 の ご 紹 介
• SRR1055695
クオリティコントロール → マッピング→ピーク検出→アノテーション
QCによりクオリティが改善された
Copyright © Amelieff Corporation. All Rights Reserved.
11
解 析 手 法 の ご 紹 介
• SRR1055697
クオリティコントロール → マッピング→ピーク検出→アノテーション
QCによりクオリティが改善された
$ samtools view 2_mapping/SRR1055695.sorted.bam |
awk '$3!="*"{print $1}' | sort | uniq | wc -l
Copyright © Amelieff Corporation. All Rights Reserved.
12
解 析 手 法 の ご 紹 介
• クリーニング後のデータをゲノムにマッピングする
$ bowtie2 -p 3 genomeファイルのBowtie2インデックス
-U 1_qc/SRR1055695.clean.fastq | samtools view -Sb -
| samtools sort - 2_mapping/SRR1055695.sorted
$ samtools index 2_mapping/SRR1055695.sorted.bam
約15分
もう一つのサンプルに対しても実施する
クオリティコントロール → マッピング→ピーク検出→アノテーション
• マッピング率を計算する
他のサンプルに対しても実施する26699307
マッピング率は
26283268 / 26699307 = 98.4 %
$ awk 'NR%4==1' 1_qc/SRR1055695.clean.fastq | wc -l
26283268
マッピング結果をソートしたBAMに直接出力
Copyright © Amelieff Corporation. All Rights Reserved.
13
解 析 手 法 の ご 紹 介
• マッピング結果をIGVで確認する
クオリティコントロール → マッピング→ピーク検出→アノテーション
(1)ゲノムを選択 (2)ChiP-seqの
マッピング結果
ゲノムポジション↓
(3)コントロールの
マッピング結果
Copyright © Amelieff Corporation. All Rights Reserved.
14
解 析 手 法 の ご 紹 介
• ピークを検出する
$ macs14 -t ../2_mapping/SRR1055695.sorted.bam
-c ../2_mapping/SRR1055697.sorted.bam -f bam
-g hs -n 出力名
コントロール(SRR1055697)と比較し、SRR1055695に特異的なピークを検出する
約30分
クオリティコントロール → マッピング→ピーク検出→アノテーション
-t ChIP-seqのマッピング結果
-c コントロールのマッピング結果
-f 入力ファイルのフォーマット(bamなど)
-g ゲノムサイズ(ヒトの場合は'hs')
-n 出力ファイルの頭につく文字列
Copyright © Amelieff Corporation. All Rights Reserved.
15
解 析 手 法 の ご 紹 介
• ピーク検出ソフト・MACSのアルゴリズム
クオリティコントロール → マッピング→ピーク検出→アノテーション
1. マッピング結果からポアソン分布に基づきピークを検出する。1つの結合部位につき、Forward
側とReverse側の2つのピークが検出される。
2. クオリティの高い1000ピークをランダムに取り出し、Forward側ピークとReverse側ピークの
距離(d)をモデル化する。
3. d/2をシフトし、2dをウィンドウサイズとして、その中の最大値を結合部位とする。
4. トリートメントのピークの数とインプットのピークの数からFDRを推定する。
d
Copyright © Amelieff Corporation. All Rights Reserved.
16
解 析 手 法 の ご 紹 介
• ピーク検出結果(xx_peaks.bed)
クオリティコントロール → マッピング→ピーク検出→アノテーション
1. 染色体名
2. ピーク開始ポジション(0スタート)
3. ピーク終了ポジション
4. ピーク名
5. スコア:ピークの -10*log10(pvalue)
Copyright © Amelieff Corporation. All Rights Reserved.
17
解 析 手 法 の ご 紹 介
• ピーク検出結果(xx_peaks.xls)
クオリティコントロール → マッピング→ピーク検出→アノテーション
1. 染色体名
2. ピーク開始ポジション
3. ピーク終了ポジション
4. ピーク領域長
5. ピーク開始ポジションから数えた
summitの位置
6. ピーク領域にマップされたリード数
7. ピークの -10*log10(pvalue) for
the peak region(pvalue=1e-10な
ら100)
8. fold enrichment for this region
against random Poisson
distribution with local lambda
9. トリートメントのピークの数とイン
プットのピークの数から推定した
FDR(%)
-10*LOG10(p)
↓
Copyright © Amelieff Corporation. All Rights Reserved.
18
解 析 手 法 の ご 紹 介
• ピーク検出結果(xx_MACS_wiggle)
クオリティコントロール → マッピング→ピーク検出→アノテーション
pileup結果をwiggleフォーマットで記載したファイル
wiggleフォーマット:http://genome.ucsc.edu/goldenPath/help/wiggle.html
ChIP-SeqのWiggle
検出されたピーク
ChIP-SeqのBAM
ControlのWiggle
ControlのBAM
18,520 429 76 0
Copyright © Amelieff Corporation. All Rights Reserved.
19
解 析 手 法 の ご 紹 介
• FDRの小さいものに絞り込む
クオリティコントロール → マッピング→ピーク検出→アノテーション
全結果 FDR<10% FDR<9% FDR<8%
[1] Zhang Y, Liu T, Meyer CA, Eeckhoute J, Johnson DS, Bernstein BE, Nusbaum C, Myers RM, Brown M, Li W, Liu XS.
Model-based analysis of ChIP-Seq (MACS). Genome Biol. 2008;9(9):R137. doi: 10.1186/gb-2008-9-9-r137. Epub 2008 Sep 17.
PubMed PMID: 18798982; PubMed Central PMCID: PMC2592715.
MACSの論文[1]ではFDR<1%に絞っていたが
今回のデータはFDRが大きかったため
FDR<9%に絞った
Copyright © Amelieff Corporation. All Rights Reserved.
20
ピ ー ク 検 出 ソ フ ト Q u E S T
• 他の検出ソフト(QuEST)でも実行
– QuESTの特徴:実行時に結合タンパクの種類を選べる
– 入力フォーマットはMAQ、ELAND、bowtieなど(BAMには未対応)
$ bowtie -p 3 genomeファイルのBowtieインデックス
1_qc/SRR1055695.clean.fastq 2_mapping/SRR1055695.bowtie
bowtieによるマッピング(bowtieフォーマットで出力)
$ bowtie -p 3 genomeファイルのBowtieインデックス
1_qc/SRR1055697.clean.fastq 2_mapping/SRR1055697.bowtie
各約5分
Copyright © Amelieff Corporation. All Rights Reserved.
21
ピ ー ク 検 出 ソ フ ト Q u E S T
• 他の検出ソフト(QuEST)でも実行
SRR1055695.3 YILLUMINA-B8EC94_105:4:1:1555:1140 length=36 - chr22 32873017
ACACATAGTTCATTTGAGGTGTTTTTGCTTTTTCTG FGDGEDGEFFGGGEGEGGDD>@HHHHHHHFHGEHHH 0
SRR1055695.4 YILLUMINA-B8EC94_105:4:1:1583:1139 length=36 - chr12 34846311
TGAAACACTCTGTTTGTAAAGTCTGCACGTGGATAT DGHGHHHHHHHHHHHHHHHHHGBGBEHHHHHHFHGH 0
SRR1055695.2 YILLUMINA-B8EC94_105:4:1:1226:1131 length=36 + chr12 5193061
TTTTCTCTTATCTTTTCTAAAANTCNTAAACTAGGT GGGG8EDGGDEDGGGDDDDD=:#;;#;:9<BEEE@D 0
22:T>N,25:C>N
:
bowtieフォーマット
Copyright © Amelieff Corporation. All Rights Reserved.
22
ピ ー ク 検 出 ソ フ ト Q u E S T
• 他の検出ソフト(QuEST)でも実行
QuESTを実行
$ generate_QuEST_parameters.pl
-rp 染色体Fastaのディレクトリ/
-gt genome.fa.faiのパス
-bowtie_align_ChIP SRR1055695.bowtie
-bowtie_align_RX_noIP SRR1055697.bowtie
-ap 出力ディレクトリ
• -rp リファレンスゲノムの染色体ごとのFastaを置いたディレクトリ
• -gt リファレンスゲノムの染色体名とサイズの組のリスト
• -bowtie_align_ChIP ChIP-seqのマッピング結果(bowtieフォーマット)
• -bowtie_align_RX_noIP Controlのマッピング結果(bowtieフォーマット)
• -ap 結果出力ディレクトリ
Copyright © Amelieff Corporation. All Rights Reserved.
23
ピ ー ク 検 出 ソ フ ト Q u E S T
• 他の検出ソフト(QuEST)でも実行
QuESTを実行
結合タンパクの種類
・転写因子→1
・ PolII-like factor→2
・ヒストン→3
・自分でパラメータを設定→4
「3」を選択
Copyright © Amelieff Corporation. All Rights Reserved.
24
ピ ー ク 検 出 ソ フ ト Q u E S T
• 他の検出ソフト(QuEST)でも実行
QuESTを実行
結合タンパクに応じた
パラメータ値の候補
(厳しめにするか緩めにするか)
「2(推奨値)」を選択
約20分
Copyright © Amelieff Corporation. All Rights Reserved.
25
ピ ー ク 検 出 ソ フ ト Q u E S T
• QuESTの結果:概要(module_outputs/QuEST.out)
bowtieフォーマット
## please cite:
## Valouev A, Johnson DS, Sundquist A, Medina C, Anton E, Batzoglou S,
## Myers RM, Sidow A
## Genome-wide analysis of transcription factor binding sites based
## on ChIP-Seq data.
## Nat Methods. 2008 Sep; 5:(9):829-35
ChIP peaks: 13
ChIP peaks accepted: 13
ChIP peaks rejected: 0
ChIP regions: 11
ChIP regions accepted: 11
ChIP regions rejected: 0
Copyright © Amelieff Corporation. All Rights Reserved.
26
ピ ー ク 検 出 ソ フ ト Q u E S T
• QuESTの結果:ピーク(calls/peak_caller.ChIP.out.accepted)
bowtieフォーマット
R-1 chr11 3674740-3676339 ChIP: 170.5 control: 22.6886 max_pos: 3675711 ef: 7.51476 ChIP_tags:
1572 background_tags: 118 tag_ef: 7.92329 ps: 17 cor: 0.485103 -log10_qv: 29914.9 -log10_pv:
29922.1 qv_rank: 1
P-1-1 chr11 3675169 ChIP: 123.088 control: 12.954 region: 3674740-3676340 ef: 9.50194 ps: 17 cor:
0.980156 -log10_qv: 231.8 -log10_pv: 238.99 qv_rank: 5
P-1-2 chr11 3675711 ChIP: 170.5 control: 22.6886 region: 3674740-3676340 ef: 7.51476 ps: 15 cor:
0.94687 -log10_qv: 238.543 -log10_pv: 245.732 qv_rank: 4
R-2 chr22 51081718-51084682 ChIP: 48.6881 control: 3.90919 max_pos: 51082255 ef: 12.4548
ChIP_tags: 430 background_tags: 22 tag_ef: 11.6247 ps: 13 cor: 0.171511 -log10_qv: 1053.29 -
log10_pv: 1059.78 qv_rank: 5
P-2-1 chr22 51082255 ChIP: 48.6881 control: 3.90919 region: 51081718-51084683 ef: 12.4548 ps: 13
cor: 0.875156 -log10_qv: 571.506 -log10_pv: 577.997 qv_rank: 1
:
ピークの位置、スコア、q-valueなどが記載されている
Copyright © Amelieff Corporation. All Rights Reserved.
27
ピ ー ク 検 出 ソ フ ト Q u E S T
• QuESTの結果:ピーク(tracks/ChIP_calls.filtered.bed)
track name=ChIP_filtered description=ChIP_filtered_regions itemRgb="On" priority=67 visibility=1
chr11 3674741 3676340 R-1 170.5 + 3674741 3676340 0,191,255
chr22 51081719 51084683 R-2 48.6881 + 51081719 51084683 0,191,255
chr17 153120 155470 R-3 43.6734 + 153120 155470 0,191,255
chr7 100547703 100553968 R-4 42.4881 + 100547703 100553968 0,191,255
chr20 46522428 46525209 R-5 35.9235 + 46522428 46525209 0,191,255
chr18 111978 112686 R-6 35.4676 + 111978 112686 0,191,255
chr20 62719779 62720414 R-7 34.2823 + 62719779 62720414 0,191,255
chr2 133021646 133031873 R-8 33.4617 + 133021646 133031873 0,191,255
chr7 944472 946396 R-9 32.6411 + 944472 946396 0,191,255
chr2 90448094 90454767 R-10 32.5499 + 90448094 90454767 0,191,255
chr1 17193078 17204129 R-11 30.6352 + 17193078 17204129 0,191,255
:
IGVで表示するために以下の処理が必要
・ピークとSummitの情報が混在しているので、分ける
・track行を除去しておく
Copyright © Amelieff Corporation. All Rights Reserved.
28
ピ ー ク 検 出 ソ フ ト Q u E S T
• QuESTの結果:ピーク(tracks/ChIP_calls.filtered.bed)
ChIP-SeqのBAM
ControlのBAM
QuESTで検出されたピーク
Copyright © Amelieff Corporation. All Rights Reserved.
29
ピ ー ク 検 出 ソ フ ト Q u E S T
• MACSとQuESTで共通するピークを探す
$ intersectBed -wa -a macsの.bed -b QuESTのbed
MACSのピークのうち、QuESTのピークとオーバーラップするものを探す
$ intersectBed -v -a macsの.bed -b QuESTのbed
MACSのピークのうち、QuESTのピークとオーバーラップしないものを探す
Copyright © Amelieff Corporation. All Rights Reserved.
30
解 析 手 法 の ご 紹 介
• ピークをアノテーション
クオリティコントロール → マッピング→ピーク検出→アノテーション
MACSで検出されたピークの読み込みと変換
> macs_bed = read.table("MACSのbed")
> macs = BED2RangedData(macs_bed)
Rを起動し、ChIPpeakAnnoパッケージを読み込む
$ R
> library(ChIPpeakAnno)
EBI Biomartからヒト遺伝子情報をダウンロードし、アノテーション
> mart = useMart(biomart="ensembl",
dataset="hsapiens_gene_ensembl")
> myAnno = getAnnotation(mart)
> annotatedPeak = annotatePeakInBatch(macs, AnnotationData=myAnno)
Copyright © Amelieff Corporation. All Rights Reserved.
31
解 析 手 法 の ご 紹 介
• ピークをアノテーション
クオリティコントロール → マッピング→ピーク検出→アノテーション
アノテーション結果をファイル出力
> write.table(as.data.frame(annotatedPeak),
file="annotatedPeakList.tsv", sep="¥t",
row.names=FALSE)
近傍遺伝子からの距離
Copyright © Amelieff Corporation. All Rights Reserved.
32
R N A - s e q の 結 果 と 併 せ た 考 察
• ChIP-seqで検出されたBF細胞のH3K27me3部位のピークと
RNA-seqのHs68-BF間で発現が異なる遺伝子の位置関係を比較
→SIM1遺伝子の上流2kbpのヒストンメチル化が検出されていた
→SIM1は、Hs68と比較して、BFで発現が有意に減少していた遺伝子
BFのChIP-seqで
検出されたピーク
RNA-seqで
BFで発現が
低い遺伝子
Copyright © Amelieff Corporation. All Rights Reserved.
33
R N A - s e q の 結 果 と 併 せ た 考 察
• SIM1は胎児の腎臓で特異的に発現することが報告されている
• メチル化と遺伝子発現の関係を検証するには、さらに以下のような解析が必要
(※本日は紹介しない)
→ Hs68のChIP-seq結果との比較
→ パスウェイ解析、Gene Ontology解析 など
成人由来BFで発現が低下している
のと関連している可能性がある
Copyright © Amelieff Corporation. All Rights Reserved.
34
共 通 モ チ ー フ 検 索
• MEME(http://meme.nbcr.net/meme/intro.html)などで、ピークに
共通するモチーフ配列を検索
ピーク領域の塩基配列を取得
$ samtools faidx genomeファイルのFasta
chr1:17193078-17204129
$ samtools faidx genomeファイルのFasta
chr2:90446939-90454767
:
(各ピークに対して実行)
上記の結果からFastaファイルを作成
Copyright © Amelieff Corporation. All Rights Reserved.
35
共 通 モ チ ー フ 検 索
• MEME(http://meme.nbcr.net/meme/intro.html)などで、ピークに
共通するモチーフ配列を検索
Copyright © Amelieff Corporation All Rights Reserved.
36
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使用するソフトや解析手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。
申込みフォーム http://goo.gl/g3SOtU
ア メ リ ク

フリーソフトではじめるChIP-seq解析_第40回勉強会資料

  • 1.
    フ リ ーソ フ ト で は じ め る C h I P - s e q 解 析 第 4 0 回 勉 強 会 資 料 2014年12月18日
  • 2.
    上記はほんの一部 日々、多くのソフトが公開されている Copyright © AmelieffCorporation. All Rights Reserved. 2 N G S デ ー タ 解 析 の フ リ ー ソ フ ト QC • cutadapt • FastQC • FastX-toolkit • Trimmomaic : 多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する アライメント • bowtie • bwa • BSMAP • Tophat : ピーク検出 ・アノテーション • MACS • QuEST • ChIPpeakAnno : ※Rなど、WindowsやMacでも動くものもある メチル化解析・比較 ・アノテーション • BSMAP • methylKit • BisSNP :
  • 3.
    Copyright © AmelieffCorporation. All Rights Reserved. 3 L i n u x と は UNIX互換のサーバー向けOS(オペレーティングシステム) つまり、多人数で同時に利用し、常時稼働していることを想定したコンピューター UNIXは権利問題などで、一般人の手の届かない存在となったため、Linus氏がUNIXを 参考にして、PCで動く独自OSを開発 Linux 大多数の解析ツールを使用することができる 新しいツールが出た時、すぐ自分で試せる 次世代シーケンシングデータのように、大 きなデータは、Excel等で見る事が難しい 自分の思い通りにデータの可視化や加工ができる バイオインフォマティクスで使用する解析ツールの 多くは、Linux用に作成されている 「Primerを数百個作りたい」「数万個の配列がどの遺伝子に当たるの か確認したい」という時、同じ作業を何度も繰り返す事は、難しい 繰り返し作業を自動化する事ができる 大量データの扱い 繰り返し操作の簡易化 解析ツールの問題
  • 4.
    Copyright © AmelieffCorporation. All Rights Reserved. 4 L i n u x と は Linuxにはさまざまなディストリビューション(配布形式)がある Debian系・・・Ubuntuなど Red Hat系・・・Red Hat Enterprise Linux(商用)、CentOS(無償)など 見た目やパッケージ管理形式が異なるが、基本的な操作コマンドは同じ 解析サーバにCentOSをお奨めする理由 • 更新方針が保守的で、アップデートが頻発しない • 枯れた技術を使っていて、安定している 弊社販売の 解析サーバで 使用
  • 5.
    Copyright © AmelieffCorporation. All Rights Reserved. 5 解 析 手 法 の ご 紹 介 • 今回の解析で用いたサーバ OS CentOS6 64bit CPU Intel Corei7-3930K[3.2GHz/6Core] メモリ 64GB SSD 64GB(OS用) HDD 2TB × 4台 時間がかかる処理については実行時間を示します
  • 6.
    Copyright © AmelieffCorporation. All Rights Reserved. C h I P - s e q 解 析 で で き る こ と • タンパク質結合部位の検出 • 結合モチーフの探索 6 ChIP-seqとChIP-chIPの比較 • ヒストン修飾や特定のタンパク質に結合するDNA断片を免疫 沈降・回収する点は同じ • ChIP-seqは回収したDNAを断片化してからシーケンシング するため、ChIP-chipよりピークの解像度が高い
  • 7.
    Copyright © AmelieffCorporation. All Rights Reserved. 7 用 い た テ ス ト デ ー タ • NCBI GEOに登録されているヒトのChIP-seqデータ – GSM1295084: BF細胞(ヒト成人繊維芽細胞)のH3K27me3 ChIP-seq • SRA ID:SRR1055695 – GSM1295086: BF細胞のH3 input(コントロール) ChipSeq • SRA ID:SRR1055697 – すべてIllumina GAIIx、36bp Single-End – URL:http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE40740 H3K27me3 • ヒストンH3の27番目のリジンのトリメチル化→転写抑制に関与
  • 8.
    Copyright © AmelieffCorporation. All Rights Reserved. 8 解 析 手 法 の ご 紹 介 • GEOからダウンロードしたファイルはSRAフォーマットという独自形式に なっており、そのままでは解析に使えない • NCBI SRA Toolkitを使ってSRAフォーマットをFASTQフォーマットに変換 クオリティコントロール → マッピング→ピーク検出→アノテーション $ fastq-dump SRR1055695.sra $ fastq-dump SRR1055697.sra 拡張子が「.fastq」のFASTQファイルができる • データのクオリティを集計して可視化する $ fastqc -o 1_qc -f fastq SRR1055695.fastq $ fastqc -o 1_qc -f fastq SRR1055697.fastq
  • 9.
    Copyright © AmelieffCorporation. All Rights Reserved. 9 解 析 手 法 の ご 紹 介 • クオリティの低い塩基・リードを除去する $ fastq_quality_trimmer -t 20 -l 30 -Q 33 -i SRR1055695.fastq | fastq_quality_filter -q 20 -p 80 -Q 33 -o 1_qc/SRR1055695.clean.fastq 3’末端からクオリティ20未満の塩基をトリミングし、長さが30塩基未満になった リードを破棄する 80%以上の塩基がクオリティー20以上のリードのみを抽出する 約3分 他のFASTQファイルに対しても実施する クオリティコントロール → マッピング→ピーク検出→アノテーション
  • 10.
    Copyright © AmelieffCorporation. All Rights Reserved. 10 解 析 手 法 の ご 紹 介 • SRR1055695 クオリティコントロール → マッピング→ピーク検出→アノテーション QCによりクオリティが改善された
  • 11.
    Copyright © AmelieffCorporation. All Rights Reserved. 11 解 析 手 法 の ご 紹 介 • SRR1055697 クオリティコントロール → マッピング→ピーク検出→アノテーション QCによりクオリティが改善された
  • 12.
    $ samtools view2_mapping/SRR1055695.sorted.bam | awk '$3!="*"{print $1}' | sort | uniq | wc -l Copyright © Amelieff Corporation. All Rights Reserved. 12 解 析 手 法 の ご 紹 介 • クリーニング後のデータをゲノムにマッピングする $ bowtie2 -p 3 genomeファイルのBowtie2インデックス -U 1_qc/SRR1055695.clean.fastq | samtools view -Sb - | samtools sort - 2_mapping/SRR1055695.sorted $ samtools index 2_mapping/SRR1055695.sorted.bam 約15分 もう一つのサンプルに対しても実施する クオリティコントロール → マッピング→ピーク検出→アノテーション • マッピング率を計算する 他のサンプルに対しても実施する26699307 マッピング率は 26283268 / 26699307 = 98.4 % $ awk 'NR%4==1' 1_qc/SRR1055695.clean.fastq | wc -l 26283268 マッピング結果をソートしたBAMに直接出力
  • 13.
    Copyright © AmelieffCorporation. All Rights Reserved. 13 解 析 手 法 の ご 紹 介 • マッピング結果をIGVで確認する クオリティコントロール → マッピング→ピーク検出→アノテーション (1)ゲノムを選択 (2)ChiP-seqの マッピング結果 ゲノムポジション↓ (3)コントロールの マッピング結果
  • 14.
    Copyright © AmelieffCorporation. All Rights Reserved. 14 解 析 手 法 の ご 紹 介 • ピークを検出する $ macs14 -t ../2_mapping/SRR1055695.sorted.bam -c ../2_mapping/SRR1055697.sorted.bam -f bam -g hs -n 出力名 コントロール(SRR1055697)と比較し、SRR1055695に特異的なピークを検出する 約30分 クオリティコントロール → マッピング→ピーク検出→アノテーション -t ChIP-seqのマッピング結果 -c コントロールのマッピング結果 -f 入力ファイルのフォーマット(bamなど) -g ゲノムサイズ(ヒトの場合は'hs') -n 出力ファイルの頭につく文字列
  • 15.
    Copyright © AmelieffCorporation. All Rights Reserved. 15 解 析 手 法 の ご 紹 介 • ピーク検出ソフト・MACSのアルゴリズム クオリティコントロール → マッピング→ピーク検出→アノテーション 1. マッピング結果からポアソン分布に基づきピークを検出する。1つの結合部位につき、Forward 側とReverse側の2つのピークが検出される。 2. クオリティの高い1000ピークをランダムに取り出し、Forward側ピークとReverse側ピークの 距離(d)をモデル化する。 3. d/2をシフトし、2dをウィンドウサイズとして、その中の最大値を結合部位とする。 4. トリートメントのピークの数とインプットのピークの数からFDRを推定する。 d
  • 16.
    Copyright © AmelieffCorporation. All Rights Reserved. 16 解 析 手 法 の ご 紹 介 • ピーク検出結果(xx_peaks.bed) クオリティコントロール → マッピング→ピーク検出→アノテーション 1. 染色体名 2. ピーク開始ポジション(0スタート) 3. ピーク終了ポジション 4. ピーク名 5. スコア:ピークの -10*log10(pvalue)
  • 17.
    Copyright © AmelieffCorporation. All Rights Reserved. 17 解 析 手 法 の ご 紹 介 • ピーク検出結果(xx_peaks.xls) クオリティコントロール → マッピング→ピーク検出→アノテーション 1. 染色体名 2. ピーク開始ポジション 3. ピーク終了ポジション 4. ピーク領域長 5. ピーク開始ポジションから数えた summitの位置 6. ピーク領域にマップされたリード数 7. ピークの -10*log10(pvalue) for the peak region(pvalue=1e-10な ら100) 8. fold enrichment for this region against random Poisson distribution with local lambda 9. トリートメントのピークの数とイン プットのピークの数から推定した FDR(%) -10*LOG10(p) ↓
  • 18.
    Copyright © AmelieffCorporation. All Rights Reserved. 18 解 析 手 法 の ご 紹 介 • ピーク検出結果(xx_MACS_wiggle) クオリティコントロール → マッピング→ピーク検出→アノテーション pileup結果をwiggleフォーマットで記載したファイル wiggleフォーマット:http://genome.ucsc.edu/goldenPath/help/wiggle.html ChIP-SeqのWiggle 検出されたピーク ChIP-SeqのBAM ControlのWiggle ControlのBAM
  • 19.
    18,520 429 760 Copyright © Amelieff Corporation. All Rights Reserved. 19 解 析 手 法 の ご 紹 介 • FDRの小さいものに絞り込む クオリティコントロール → マッピング→ピーク検出→アノテーション 全結果 FDR<10% FDR<9% FDR<8% [1] Zhang Y, Liu T, Meyer CA, Eeckhoute J, Johnson DS, Bernstein BE, Nusbaum C, Myers RM, Brown M, Li W, Liu XS. Model-based analysis of ChIP-Seq (MACS). Genome Biol. 2008;9(9):R137. doi: 10.1186/gb-2008-9-9-r137. Epub 2008 Sep 17. PubMed PMID: 18798982; PubMed Central PMCID: PMC2592715. MACSの論文[1]ではFDR<1%に絞っていたが 今回のデータはFDRが大きかったため FDR<9%に絞った
  • 20.
    Copyright © AmelieffCorporation. All Rights Reserved. 20 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 – QuESTの特徴:実行時に結合タンパクの種類を選べる – 入力フォーマットはMAQ、ELAND、bowtieなど(BAMには未対応) $ bowtie -p 3 genomeファイルのBowtieインデックス 1_qc/SRR1055695.clean.fastq 2_mapping/SRR1055695.bowtie bowtieによるマッピング(bowtieフォーマットで出力) $ bowtie -p 3 genomeファイルのBowtieインデックス 1_qc/SRR1055697.clean.fastq 2_mapping/SRR1055697.bowtie 各約5分
  • 21.
    Copyright © AmelieffCorporation. All Rights Reserved. 21 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 SRR1055695.3 YILLUMINA-B8EC94_105:4:1:1555:1140 length=36 - chr22 32873017 ACACATAGTTCATTTGAGGTGTTTTTGCTTTTTCTG FGDGEDGEFFGGGEGEGGDD>@HHHHHHHFHGEHHH 0 SRR1055695.4 YILLUMINA-B8EC94_105:4:1:1583:1139 length=36 - chr12 34846311 TGAAACACTCTGTTTGTAAAGTCTGCACGTGGATAT DGHGHHHHHHHHHHHHHHHHHGBGBEHHHHHHFHGH 0 SRR1055695.2 YILLUMINA-B8EC94_105:4:1:1226:1131 length=36 + chr12 5193061 TTTTCTCTTATCTTTTCTAAAANTCNTAAACTAGGT GGGG8EDGGDEDGGGDDDDD=:#;;#;:9<BEEE@D 0 22:T>N,25:C>N : bowtieフォーマット
  • 22.
    Copyright © AmelieffCorporation. All Rights Reserved. 22 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 QuESTを実行 $ generate_QuEST_parameters.pl -rp 染色体Fastaのディレクトリ/ -gt genome.fa.faiのパス -bowtie_align_ChIP SRR1055695.bowtie -bowtie_align_RX_noIP SRR1055697.bowtie -ap 出力ディレクトリ • -rp リファレンスゲノムの染色体ごとのFastaを置いたディレクトリ • -gt リファレンスゲノムの染色体名とサイズの組のリスト • -bowtie_align_ChIP ChIP-seqのマッピング結果(bowtieフォーマット) • -bowtie_align_RX_noIP Controlのマッピング結果(bowtieフォーマット) • -ap 結果出力ディレクトリ
  • 23.
    Copyright © AmelieffCorporation. All Rights Reserved. 23 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 QuESTを実行 結合タンパクの種類 ・転写因子→1 ・ PolII-like factor→2 ・ヒストン→3 ・自分でパラメータを設定→4 「3」を選択
  • 24.
    Copyright © AmelieffCorporation. All Rights Reserved. 24 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 QuESTを実行 結合タンパクに応じた パラメータ値の候補 (厳しめにするか緩めにするか) 「2(推奨値)」を選択 約20分
  • 25.
    Copyright © AmelieffCorporation. All Rights Reserved. 25 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:概要(module_outputs/QuEST.out) bowtieフォーマット ## please cite: ## Valouev A, Johnson DS, Sundquist A, Medina C, Anton E, Batzoglou S, ## Myers RM, Sidow A ## Genome-wide analysis of transcription factor binding sites based ## on ChIP-Seq data. ## Nat Methods. 2008 Sep; 5:(9):829-35 ChIP peaks: 13 ChIP peaks accepted: 13 ChIP peaks rejected: 0 ChIP regions: 11 ChIP regions accepted: 11 ChIP regions rejected: 0
  • 26.
    Copyright © AmelieffCorporation. All Rights Reserved. 26 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:ピーク(calls/peak_caller.ChIP.out.accepted) bowtieフォーマット R-1 chr11 3674740-3676339 ChIP: 170.5 control: 22.6886 max_pos: 3675711 ef: 7.51476 ChIP_tags: 1572 background_tags: 118 tag_ef: 7.92329 ps: 17 cor: 0.485103 -log10_qv: 29914.9 -log10_pv: 29922.1 qv_rank: 1 P-1-1 chr11 3675169 ChIP: 123.088 control: 12.954 region: 3674740-3676340 ef: 9.50194 ps: 17 cor: 0.980156 -log10_qv: 231.8 -log10_pv: 238.99 qv_rank: 5 P-1-2 chr11 3675711 ChIP: 170.5 control: 22.6886 region: 3674740-3676340 ef: 7.51476 ps: 15 cor: 0.94687 -log10_qv: 238.543 -log10_pv: 245.732 qv_rank: 4 R-2 chr22 51081718-51084682 ChIP: 48.6881 control: 3.90919 max_pos: 51082255 ef: 12.4548 ChIP_tags: 430 background_tags: 22 tag_ef: 11.6247 ps: 13 cor: 0.171511 -log10_qv: 1053.29 - log10_pv: 1059.78 qv_rank: 5 P-2-1 chr22 51082255 ChIP: 48.6881 control: 3.90919 region: 51081718-51084683 ef: 12.4548 ps: 13 cor: 0.875156 -log10_qv: 571.506 -log10_pv: 577.997 qv_rank: 1 : ピークの位置、スコア、q-valueなどが記載されている
  • 27.
    Copyright © AmelieffCorporation. All Rights Reserved. 27 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:ピーク(tracks/ChIP_calls.filtered.bed) track name=ChIP_filtered description=ChIP_filtered_regions itemRgb="On" priority=67 visibility=1 chr11 3674741 3676340 R-1 170.5 + 3674741 3676340 0,191,255 chr22 51081719 51084683 R-2 48.6881 + 51081719 51084683 0,191,255 chr17 153120 155470 R-3 43.6734 + 153120 155470 0,191,255 chr7 100547703 100553968 R-4 42.4881 + 100547703 100553968 0,191,255 chr20 46522428 46525209 R-5 35.9235 + 46522428 46525209 0,191,255 chr18 111978 112686 R-6 35.4676 + 111978 112686 0,191,255 chr20 62719779 62720414 R-7 34.2823 + 62719779 62720414 0,191,255 chr2 133021646 133031873 R-8 33.4617 + 133021646 133031873 0,191,255 chr7 944472 946396 R-9 32.6411 + 944472 946396 0,191,255 chr2 90448094 90454767 R-10 32.5499 + 90448094 90454767 0,191,255 chr1 17193078 17204129 R-11 30.6352 + 17193078 17204129 0,191,255 : IGVで表示するために以下の処理が必要 ・ピークとSummitの情報が混在しているので、分ける ・track行を除去しておく
  • 28.
    Copyright © AmelieffCorporation. All Rights Reserved. 28 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:ピーク(tracks/ChIP_calls.filtered.bed) ChIP-SeqのBAM ControlのBAM QuESTで検出されたピーク
  • 29.
    Copyright © AmelieffCorporation. All Rights Reserved. 29 ピ ー ク 検 出 ソ フ ト Q u E S T • MACSとQuESTで共通するピークを探す $ intersectBed -wa -a macsの.bed -b QuESTのbed MACSのピークのうち、QuESTのピークとオーバーラップするものを探す $ intersectBed -v -a macsの.bed -b QuESTのbed MACSのピークのうち、QuESTのピークとオーバーラップしないものを探す
  • 30.
    Copyright © AmelieffCorporation. All Rights Reserved. 30 解 析 手 法 の ご 紹 介 • ピークをアノテーション クオリティコントロール → マッピング→ピーク検出→アノテーション MACSで検出されたピークの読み込みと変換 > macs_bed = read.table("MACSのbed") > macs = BED2RangedData(macs_bed) Rを起動し、ChIPpeakAnnoパッケージを読み込む $ R > library(ChIPpeakAnno) EBI Biomartからヒト遺伝子情報をダウンロードし、アノテーション > mart = useMart(biomart="ensembl", dataset="hsapiens_gene_ensembl") > myAnno = getAnnotation(mart) > annotatedPeak = annotatePeakInBatch(macs, AnnotationData=myAnno)
  • 31.
    Copyright © AmelieffCorporation. All Rights Reserved. 31 解 析 手 法 の ご 紹 介 • ピークをアノテーション クオリティコントロール → マッピング→ピーク検出→アノテーション アノテーション結果をファイル出力 > write.table(as.data.frame(annotatedPeak), file="annotatedPeakList.tsv", sep="¥t", row.names=FALSE) 近傍遺伝子からの距離
  • 32.
    Copyright © AmelieffCorporation. All Rights Reserved. 32 R N A - s e q の 結 果 と 併 せ た 考 察 • ChIP-seqで検出されたBF細胞のH3K27me3部位のピークと RNA-seqのHs68-BF間で発現が異なる遺伝子の位置関係を比較 →SIM1遺伝子の上流2kbpのヒストンメチル化が検出されていた →SIM1は、Hs68と比較して、BFで発現が有意に減少していた遺伝子 BFのChIP-seqで 検出されたピーク RNA-seqで BFで発現が 低い遺伝子
  • 33.
    Copyright © AmelieffCorporation. All Rights Reserved. 33 R N A - s e q の 結 果 と 併 せ た 考 察 • SIM1は胎児の腎臓で特異的に発現することが報告されている • メチル化と遺伝子発現の関係を検証するには、さらに以下のような解析が必要 (※本日は紹介しない) → Hs68のChIP-seq結果との比較 → パスウェイ解析、Gene Ontology解析 など 成人由来BFで発現が低下している のと関連している可能性がある
  • 34.
    Copyright © AmelieffCorporation. All Rights Reserved. 34 共 通 モ チ ー フ 検 索 • MEME(http://meme.nbcr.net/meme/intro.html)などで、ピークに 共通するモチーフ配列を検索 ピーク領域の塩基配列を取得 $ samtools faidx genomeファイルのFasta chr1:17193078-17204129 $ samtools faidx genomeファイルのFasta chr2:90446939-90454767 : (各ピークに対して実行) 上記の結果からFastaファイルを作成
  • 35.
    Copyright © AmelieffCorporation. All Rights Reserved. 35 共 通 モ チ ー フ 検 索 • MEME(http://meme.nbcr.net/meme/intro.html)などで、ピークに 共通するモチーフ配列を検索
  • 36.
    Copyright © AmelieffCorporation All Rights Reserved. 36 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク