2019年第4回バイオインフォマティクス実習

2019年度
第4回バイオインフォマティクス実習
先端医科学研究センターバイオインフォマティクス解析室
中林潤

ATAC-seqデータ解析
• bed formatピークファイルをUCSC genome browserにアップロード
• ピーク領域の配列をTable Browserで取得
• MEME Suiteでピーク領域配列のモチーフ検索

カバー率 = (N × L) / G : 1塩基当りの断片数
リード数 : N
リード数 : L
ゲノム長 : G
…AGGTGCATGCCGCATCGATCGAGC…
AGGTGCATG
GCATGCCGCAT
GCATCGATCGAGC
paired end
single end
ゲノム
リード
Next Generation Sequencer (NGS)
DNAを断片化して配列を読む→参照ゲノムにマッピング→配列を再構成する
カバー率が十分でないと正確な配列情報が得られない。

ATAC-seq
Tn5 transposase
insertion
insertion sequence as a primer
PCR amplification
NGSmapped onto reference genome

文字の羅列？
thoughyetofhamletourdearbrothersdeaththememorybegreenandthati
tusbefittedtobearourheartsingriefandourwholekingdomtobecontracte
dinonebrowofwoeyetsofarhathdiscretionfoughtwithnaturethatwewith
wisestsorrowthinkonhimtogetherwithremembranceofourselvestheref
oreoursometimesisternowourqueentheimperialjointresstothiswarlikes
tatehaveweastwerewithadefeatedjoywithanauspiciousandadroppinge
yewithmirthinfuneralandwithdirgeinmarriageinequalscaleweighingdeli
ghtanddoletakentowifenorhavewehereinbarrdyourbetterwisdomswhi
chhavefreelygone15withthisaffairalongforallourthanks

ハムレットのせりふ
thoughyetofhamletourdearbrothersdeaththememorybegreenandthati
tusbefittedtobearourheartsingriefandourwholekingdomtobecontracte
dinonebrowofwoeyetsofarhathdiscretionfoughtwithnaturethatwewith
wisestsorrowthinkonhimtogetherwithremembranceofourselvestheref
oreoursometimesisternowourqueentheimperialjointresstothiswarlikes
tatehaveweastwerewithadefeatedjoywithanauspiciousandadroppinge
yewithmirthinfuneralandwithdirgeinmarriageinequalscaleweighingdeli
ghtanddoletakentowifenorhavewehereinbarrdyourbetterwisdomswhi
chhavefreelygone15withthisaffairalongforallourthanks

Motif
#1 GACAGAAAGGGCAAAGAGGAAGTGAAAGCTAAGAAGACT
#2 GTCCCCTGAAAGTAAGAGGAAGTGAAAGCTGTCTGCTGG
#3 TGCCAAACATGGAAAGGGGAAGTGAAAGAGACAGACGTA
#4 GGTCTCATGGGAAAACAGGAAGTGAAAGCACAACTAAGA
#5 TGGCCTGGCTGAAAGGGGGAAGTGAAAGCGAGGTGAACT
#6 TCTTAACCTGACAAACAGGAAGTGAAAGTACCTTTCGGG
specific sequence repeatedly observed in genome DNA
↓
functionally and biologically significant region
↓
motif

モチーフ解析
• 30億塩基対の配列から特定の配列を見つける
• 総当り
計算時間 → 30億の2乗
不可能
• MEME Suiteを用いたモチーフ検索

データのダウンロード
GEOデータベース
GSM2937018
GSM2937018_ATAseq-EGFP-1_peaks.narrowPeak.gz
http://ncbi.nlm.nih.gov/geo

Bed file format
染色体番号スタートポジションエンドポジションＩＤ数値ストランド
chr1 191423 191584 EGFP1_peak_1 71 +
chr1 629825 630062 EGFP1_peak_2 763 +
chr1 633909 634155 EGFP1_peak_3 764 +
・・・
ピークの位置を記述するフォーマット

UCSC genome browser
http://genome.ucsc.edu
Genomes項目から該当する
参照ゲノムを選択する
今回はhg38
add custom tracksボタンをクリック

custom trackのアップロード
ファイルを選択をクリック
bedファイルを選択
submitボタンをクリック

custom trackのアップロード
goをクリックして表示

custom trackの表示
custom track

Table Browser
Tools項目からTable Browserを選択

ピーク領域の配列を取得
group:Custom Tracks
Tracks:User Track
output format:sequence
output file:ファイル名
get outputボタンを
クリック

Table Browser
get sequenceをクリック

FASTA file format
>配列名、説明など
配列
>hg38_ct_UserTrack_3545_EGFP1_peak_270 range=chr1:36306876-36307119
5'pad=0 3'pad=0 strand=+ repeatMasking=none
CGCGGAGGCCGCGCTGTGCGCGCCGCCGAGGTGAGCGCAAGGGCGGGGAC
>hg38_ct_UserTrack_3545_EGFP1_peak_578 range=chr1:93847167-93847655
5'pad=0 3'pad=0 strand=+ repeatMasking=none
GCCTGGGCCTGCAACTCTGGGGTCCCGGCCGGGCTGGAGCGGCCGCCGGA

MEME Suite
https://meme-suite.org/index.html
MEMEをクリック

MEME Suite
upload sequenceのファイルを選択をクリックして
FASTAファイルを選択
Start Searchをクリック

MEME Suite
Recent Jobsに自分のjobが表示される

MEME Suite
MEME HTML outputをクリックして結果を表示

MEME Suite
検出された配列のロゴが表示される
得られた結果を他の解析へ
サブミットできる

MEME Suite TOMTOMで既知のモチーフのどれに該当するか検索

MEME Suite
Start Searchをクリック

MEME Suite
TOMTOM HTML outputをクリック

MEME Suite
データベースに登録されているモチーフの中から一致するものを検索してくれる

モンテカルロシミュレーションで円の面積を求める方法
面積=半径 ×半径 × 3.14
面積=(円内の点 / 点の総数)× 四角の面積
10cm
円の面積
10 cm

#1 GTAAAATCCGTCGTG
#2 GTTGTTCCCAAAAGC
#3 GTCTGTAAAAGGCTC
#4 GAAAATTGCCTCCGT
#1 AAAAAAAAAAAAAAA
#2 AAAAAAAAAAAAAAA
#3 AAAAAAAAAAAAAAA
#4 AAAAAAAAAAAAAAA
配列“AAAA”の持つ情報量
#1 GTCACATCAGTCGTG
#2 GTTGTTCACAGAAGC
#3 GTCTGTACATGGCAC
#4 GTAGATAGCCTCCGT
情報量+
情報量なし
情報量なし

#1 GTAAGTACAGATAGCCACAG
#2 GTATGTTCCCGATAAGTTTA
#3 GTATGTTCATGTCTGATACT
#4 GCATGATAGCTGCCCAAGTT
#5 GTATGTTGACGATATTACTT
#6 GTAAGTATCCAGATATTACT
問題
20 塩基 6 配列中に4塩基のモチーフ

Step 1
#1 GTAAGTACAGATAGCCACAG
#2 GTATGTTCCCGATAAGTTTA
#3 GTATGTTCATGTCTGATACT
#4 GCATGATAGCTGCCCAAGTT
#6 GTAAGTATCCAGATATTACT
配列を一つランダムに選択

Step 2
1 2 3 4
A G T A
T C C C
T G T C
C C A A
A T C C
GTAAGTACAGATAGCCACAG
GTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACT
GCATGATAGCTGCCCAAGTT
GTAAGTATCCAGATATTACT
#1
#2
#3
#4
#6
1 2 3 4
A 2 0 1 2
T 2 1 2 0
G 0 2 0 0
C 1 2 2 3
4塩基配列をランダムに選択

1 2 3 4
A 0.4 0 0.2 0.4
T 0.4 0.2 0.4 0
G 0 0.4 0 0
C 0.2 0.4 0.4 0.6
塩基の確率
最初の塩基がAの確率
T
G
C
二番目の塩基がAの確率
T
G
C

Step 3
 

K
i
M
j i
ij
p
p
F
1 1
2log4
最初に選んだ配列中の4塩基配列の確率
GTAT : -∞
TATG : -∞
…
TGAC : 4log2(0.4/0.342)+4log2(0.4/0.208)+4log2(0.2/0.283)+4log2(0.6/0.167)=10.055
1 2 3 4
A 0.4 0 0.2 0.4
T 0.4 0.2 0.4 0
G 0 0.4 0 0
C 0.2 0.4 0.4 0.6
pi
34/120=0.283
41/120=0.342
25/120=0.208
20/120=0.167

position-specific scoring matrix (PSSMs)










L
j CGTA
jCGTA
P
P
1 },,,{
},,,,{
2logPSSMs
pij : probability that jth bases is {A, T, G, C}
pi : frequency of {A,T,G,C}
長さL の塩基配列の確率
L base motif
1 2 3 4 … L
A G G C T

Step4
#1
#2
#3
#4
#5
#6
GTATGTTGACGATATTACTT
PSSMsが最大となる4塩基を選択

1 2 3 4
A 0 0.8 0.4 0.8
T 0 0 0.6 0.2
G 0.6 0.2 0 0
C 0.4 0 0 0
GTATGTTGACGATATTACTT
#1
#2
#3
#4
#5
#6
pi
34/120=0.283
41/120=0.342
25/120=0.208
20/120=0.167
PSSM最大となる配列を選択

モチーフが見つかる

• 宿題
GEOデータベースからGSM4073848のデータを取得し、モチーフ
解析を行ってみてください
• アンケートにご協力ください。「先端研バイオインフォマ
ティクス解析室」ホームページまたはQRコードにアクセスし
回答してください。
https://www.yokohama-
cu.ac.jp/amedrc/section/support/bioinfomatics2.html

2019年第4回バイオインフォマティクス実習

Recommended

Recommended

More Related Content

What's hot

What's hot (13)

More from Jun Nakabayashi

More from Jun Nakabayashi (20)

2019年第4回バイオインフォマティクス実習

Editor's Notes