3. カバー率 = (N × L) / G : 1塩基当りの断片数
リード数 : N
リード数 : L
ゲノム長 : G
…AGGTGCATGCCGCATCGATCGAGC…
AGGTGCATG
GCATGCCGCAT
GCATCGATCGAGC
paired end
single end
ゲノム
リード
Next Generation Sequencer (NGS)
DNAを断片化して配列を読む→参照ゲノムにマッピング→配列を再構成する
カバー率が十分でないと正確な配列情報が得られない。
33. Step 2
1 2 3 4
A G T A
T C C C
T G T C
C C A A
A T C C
GTAAGTACAGATAGCCACAG
GTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACT
GCATGATAGCTGCCCAAGTT
GTAAGTATCCAGATATTACT
#1
#2
#3
#4
#6
1 2 3 4
A 2 0 1 2
T 2 1 2 0
G 0 2 0 0
C 1 2 2 3
4塩基配列をランダムに選択
34. 1 2 3 4
A 0.4 0 0.2 0.4
T 0.4 0.2 0.4 0
G 0 0.4 0 0
C 0.2 0.4 0.4 0.6
塩基の確率
最初の塩基がAの確率
T
G
C
二番目の塩基がAの確率
T
G
C
35. Step 3
#5 GTATGTTGACGATATTACTT
K
i
M
j i
ij
p
p
F
1 1
2log4
最初に選んだ配列中の4塩基配列の確率
GTAT : -∞
TATG : -∞
…
TGAC : 4log2(0.4/0.342)+4log2(0.4/0.208)+4log2(0.2/0.283)+4log2(0.6/0.167)=10.055
1 2 3 4
A 0.4 0 0.2 0.4
T 0.4 0.2 0.4 0
G 0 0.4 0 0
C 0.2 0.4 0.4 0.6
pi
34/120=0.283
41/120=0.342
25/120=0.208
20/120=0.167
36. position-specific scoring matrix (PSSMs)
L
j CGTA
jCGTA
P
P
1 },,,{
},,,,{
2logPSSMs
pij : probability that jth bases is {A, T, G, C}
pi : frequency of {A,T,G,C}
長さL の塩基配列の確率
L base motif
1 2 3 4 … L
A G G C T