A coverage criterion for spaced seeds 
and its applications to SVM string-kernels and 
k-mer distances 
Laurent Noe, Donald E. K. Martin 
LIFL (UMR 8022 Lille 1/CNRS) - Inria Lille, Villeneuve d'Ascq, France 
Department of Statistics, North Carolina State University, Raleigh, NC, USA 
SeqBio 2014 
November 45, 2014 - Montpellier 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Outline 
1 Introduction to spaced seeds . . . 
2 Spaced seed coverage 
De
nition 
Associated automaton 
Possible use (as a seed quality measure). 
3 Experimental results 
SVM classi
ers 
Alignment-free distances 
4 Conclusion 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Spaced Seeds 
(PatternHunter 02, Burkhardt et al 01, . . . ) 
De
nition 
A spaced seed  is de
ned as a binary word over the alphabet f1; *g : 
1 : accepts only match symbol | , 
* : accepts all alignment symbols (joker) . 
s : span (length), w : weight (number of 1). 
Example 
 = 111*1*11 
ATCAGTGCGAATGCGCAAGA 
|||||:||:|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Spaced Seeds 
(PatternHunter 02, Burkhardt et al 01, . . . ) 
De
nition 
A spaced seed  is de
ned as a binary word over the alphabet f1; *g : 
1 : accepts only match symbol | , 
* : accepts all alignment symbols (joker) . 
s : span (length), w : weight (number of 1). 
Example 
 = 111*1*11 
111*1*11 
ATCAGTGCGAATGCGCAAGA 
|||||:||:|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Spaced Seeds 
(PatternHunter 02, Burkhardt et al 01, . . . ) 
De
nition 
A spaced seed  is de
ned as a binary word over the alphabet f1; *g : 
1 : accepts only match symbol | , 
* : accepts all alignment symbols (joker) . 
s : span (length), w : weight (number of 1). 
Example 
 = 111*1*11 
111*1*11 
ATCAGTGCGAATGCGCAAGA 
|||||:||:|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Spaced Seeds 
(PatternHunter 02, Burkhardt et al 01, . . . ) 
De
nition 
A spaced seed  is de
ned as a binary word over the alphabet f1; *g : 
1 : accepts only match symbol | , 
* : accepts all alignment symbols (joker) . 
s : span (length), w : weight (number of 1). 
Example 
 = 111*1*11 
111*1*11 
ATCAGTGCGAATGCGCAAGA 
|||||:||:|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Spaced Seeds 
(PatternHunter 02, Burkhardt et al 01, . . . ) 
De
nition 
A spaced seed  is de
ned as a binary word over the alphabet f1; *g : 
1 : accepts only match symbol | , 
* : accepts all alignment symbols (joker) . 
s : span (length), w : weight (number of 1). 
Example 
 = 111*1*11 
111*1*11 
ATCAGTGCGAATGCGCAAGA 
|||||:||:|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Spaced Seeds 
(PatternHunter 02, Burkhardt et al 01, . . . ) 
De
nition 
A spaced seed  is de
ned as a binary word over the alphabet f1; *g : 
1 : accepts only match symbol | , 
* : accepts all alignment symbols (joker) . 
s : span (length), w : weight (number of 1). 
Example 
 = 111*1*11 
111*1*11 
ATCAGTGCGAATGCGCAAGA 
|||||:||:|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Spaced Seeds 
(PatternHunter 02, Burkhardt et al 01, . . . ) 
De
nition 
A spaced seed  is de
ned as a binary word over the alphabet f1; *g : 
1 : accepts only match symbol | , 
* : accepts all alignment symbols (joker) . 
s : span (length), w : weight (number of 1). 
Example 
 = 111*1*11 
111*1*11 
ATCAGTGCGAATGCGCAAGA 
|||||:||:|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
ATCAGTGCAAATGCTCAAGA 
|||||||||||||||||||| 
ATCAGTGCAAATGCTCAAGA 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCAAATGCTCAAGA 
|||||||||||||||||||| 
ATCAGTGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCAAATGCTCAAGA 
|||||||||||||||||||| 
ATCAGTGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCAAATGCTCAAGA 
|||||||||||||||||||| 
ATCAGTGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCAAATGCTCAAGA 
|||||||||||||||||||| 
ATCAGTGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCAAATGCTCAAGA 
|||||.|||||||||||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCAAATGCTCAAGA 
|||||.|||||||||||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCAAATGCTCAAGA 
|||||.|||||||||||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCAAATGCTCAAGA 
|||||.|||||||||||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCAAATGCTCAAGA 
|||||.|||||||||||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCAAATGCTCAAGA 
|||||.|||||||||||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCAAATGCTCAAGA 
|||||.|||||||||||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCAAATGCTCAAGA 
|||||.|||||||||||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCAAATGCGCAAGA 
|||||.||||||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCAAATGCGCAAGA 
|||||.||||||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCAAATGCGCAAGA 
|||||.||||||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCAAATGCGCAAGA 
|||||.||||||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCAAATGCGCAAGA 
|||||.||||||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCAAATGCGCAAGA 
|||||.||||||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCAAATGCGCAAGA 
|||||.||||||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCAAATGCGCAAGA 
|||||.||||||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Example 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
... 
... 
... 
... 
... 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
111*1*11 
... 
.. .111*1*11 
111*1*11 
... 
.. .111*1*11 
.. .111*1*11 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
...... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... ... ... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
111111 
... 
... 
111111 
... 
... 
111111 
... 
... 
... 
111111 
... ... 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
... 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Recent work related to spaced seeds 
1 Alignment-free distances 
[Leimeister et al., 2014, Horwege et al., 2014, Boden et al., 2013] 
2 SVM classi
cation 
[Onodera and Shibuya, 2013, Ghandi et al., 2014] 
3 Read clustering 
[Bao et al., 2011, Chong et al., 2012, Hauser et al., 2013] 
4 Metagenomic classi
cation, . . . 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
New Uses for Old Things 
little boy 
)))) 
frying pan 
1 
1http://arch5541.wordpress.com/2012/11/16/and-then-there-was-teflon/ 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
New Uses for Old Things 
little boy 
)))) 
frying pan 
1 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
1http://arch5541.wordpress.com/2012/11/16/and-then-there-was-teflon/ 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
New Uses for Old Things 
little boy 
)))) 
frying pan 
1 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
)))) 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
111*1*11 
111*1*11 
1http://arch5541.wordpress.com/2012/11/16/and-then-there-was-teflon/ 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
New Uses for Old Things 
little boy 
)))) 
frying pan 
1 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
)))) 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
111*1*11 
111*1*11 
1http://arch5541.wordpress.com/2012/11/16/and-then-there-was-teflon/ 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
New Uses for Old Things 
little boy 
)))) 
frying pan 
1 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
)))) 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
111*1*11 
111*1*11 
1http://arch5541.wordpress.com/2012/11/16/and-then-there-was-teflon/ 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed 
De
nition 
Number of match symbols covered by at least one 1 symbol from any 
seed hit [Benson and Mak, 2008, Martin, 2013] 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed 
De
nition 
Number of match symbols covered by at least one 1 symbol from any 
seed hit [Benson and Mak, 2008, Martin, 2013] 
Example 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
111*1*11 
111*1*11 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed 
De
nition 
Number of match symbols covered by at least one 1 symbol from any 
seed hit [Benson and Mak, 2008, Martin, 2013] 
Example 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
ATCAGCGCAAATGCTCAAGA 
111*1*11 
111*1*11 
111*1*11 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed 
De
nition 
Number of match symbols covered by at least one 1 symbol from any 
seed hit [Benson and Mak, 2008, Martin, 2013] 
Example 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
A 
T 
C 
AG 
CG 
C 
AA 
A 
T 
G 
C 
TC 
A 
A 
G 
A 
111*1*11 
111*1*11 
111*1*11 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed 
De
nition 
Number of match symbols covered by at least one 1 symbol from any 
seed hit [Benson and Mak, 2008, Martin, 2013] 
Example 
ATCAGTGCGAATGCGCAAGA 
|||||.||.|||||.||||| 
A 
T 
C 
AG 
CG 
C 
AA 
A 
T 
G 
C 
TC 
A 
A 
G 
A 
111*1*11 
111*1*11 
111*1*11 
Coverage is of 15 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed 
alignment : x = 101111001011111 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed 
alignment : x = 101111001011111 
Example 
seed :  = 11*1 
x = 1 0 1 1 1 1 0 0 1 0 1 1 1 1 1 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed 
alignment : x = 101111001011111 
Example 
seed :  = 11*1 
... 
... 
... 
occ1 1 1 * 1 
... 
... 
... 
x = 1 0 1 
1 
1 1 
0 0 1 0 1 1 1 1 1 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed 
alignment : x = 101111001011111 
Example 
seed :  = 11*1 
... 
... 
...1 1 * 1 
occ1 1 1 * 1 
occ2 
... 
... 
... ... 
... 
... 
x = 1 0 1 
1 
1 1 
0 0 1 0 1 
1 
1 1 
1 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed 
alignment : x = 101111001011111 
Example 
seed :  = 11*1 
... 
... 
...1 1 * 1 
occ1 1 1 * 1 
occ2 
occ3 
... 
... 
... ... 
1 1 * 1 
x = 1 0 1 
1 
1 1 
0 0 1 0 1 
1 
1 
1 
1 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed / a set of seeds 
alignment : x = 101111001011111 
Example 
seed :  = 11*1 
... 
... 
...1 1 * 1 
occ1 1 1 * 1 
occ2 
occ3 
... 
... 
... ... 
1 1 * 1 
x = 1 0 1 
1 
1 1 
0 0 1 0 1 
1 
1 
1 
1 
set of seeds : f1; 2g = f11*1, 1*1*1g 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed / a set of seeds 
alignment : x = 101111001011111 
Example 
seed :  = 11*1 
... 
... 
...1 1 * 1 
occ1 1 1 * 1 
occ2 
occ3 
... 
... 
... ... 
1 1 * 1 
x = 1 0 1 
1 
1 1 
0 0 1 0 1 
1 
1 
1 
1 
set of seeds : f1; 2g = f11*1, 1*1*1g 
x = 1 0 1 1 1 1 0 0 1 0 1 1 1 1 1 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed / a set of seeds 
alignment : x = 101111001011111 
Example 
seed :  = 11*1 
... 
... 
...1 1 * 1 
occ1 1 1 * 1 
occ2 
occ3 
... 
... 
... ... 
1 1 * 1 
x = 1 0 1 
1 
1 1 
0 0 1 0 1 
1 
1 
1 
1 
set of seeds : f1; 2g = f11*1, 1*1*1g 
... 
2 occ1 1 * 1 * 1 
1 occ2 
1 1 * 1 
2 occ3 
... 
... 
... 
... 
... 
1 * 1 * 1 
1 occ4 
... 
... 
... 
... 
... 
... 
1 1 * 1 
2 occ5 
... 
... 
... 
... 
... 
... 
1 * 1 * 1 
1 occ6 
... 
... 
... 
... 
... 
... 
... 
1 1 * 1 
x = 1 
0 1 
1 
1 
1 
0 0 1 
0 1 
1 
1 
1 
1 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed / a set of seeds 
f1; 2g = f11*1, 1*1*1g
Coverage measure for a seed / a set of seeds 
f1; 2g = f11*1, 1*1*1g
Coverage measure for a seed / a set of seeds 
f1; 2g = f11*1, 1*1*1g
Coverage measure for a seed / a set of seeds 
f1; 2g = f11*1, 1*1*1g
Coverage measure for a seed / a set of seeds 
f1; 2g = f11*1, 1*1*1g
Coverage measure for a seed / a set of seeds 
f1; 2g = f11*1, 1*1*1g
Coverage measure for a seed / a set of seeds 
f1; 2g = f11*1, 1*1*1g
Coverage measure for a seed / a set of seeds 
f1; 2g = f11*1, 1*1*1g
Coverage measure for a seed / a set of seeds 
f1; 2g = f11*1, 1*1*1g
Coverage measure for a seed / a set of seeds 
That's how coverage can be measured, 
estimated, computed on several models. . . 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Coverage measure for a seed / a set of seeds 
That's how coverage can be measured, 
estimated, computed on several models. . . 
But, . . . is coverage useful? 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
Experimental results 
1 SVM classi
ers 
2 Alignment-free distances 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
SVM classi
ers 
Are spaced seeds better with string kernels classi
ers? 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
SVM classi
ers 
Are spaced seeds better with string kernels classi
ers? 
Yes: see [Onodera and Shibuya, 2013, Ghandi et al., 2014] 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
SVM classi
ers 
Are spaced seeds better with string kernels classi
ers? 
Yes: see [Onodera and Shibuya, 2013, Ghandi et al., 2014] 
Which spaced seed patterns are better? Does coverage 
help here? 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
SVM classi
ers 
1 RFAM 11.0 database (50% training, 50% testing) 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
SVM classi
ers 
1 RFAM 11.0 database (50% training, 50% testing) 
2 Single/double seeds of weight w = 3 : : : 4, span up to 
w + 4 
Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
SVM classi

A coverage criterion for spaced seeds and its applications to SVM string-kernels and k-mer distances - presentation

  • 1.
    A coverage criterionfor spaced seeds and its applications to SVM string-kernels and k-mer distances Laurent Noe, Donald E. K. Martin LIFL (UMR 8022 Lille 1/CNRS) - Inria Lille, Villeneuve d'Ascq, France Department of Statistics, North Carolina State University, Raleigh, NC, USA SeqBio 2014 November 45, 2014 - Montpellier Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 2.
    Outline 1 Introductionto spaced seeds . . . 2 Spaced seed coverage De
  • 3.
    nition Associated automaton Possible use (as a seed quality measure). 3 Experimental results SVM classi
  • 4.
    ers Alignment-free distances 4 Conclusion Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 5.
    Spaced Seeds (PatternHunter02, Burkhardt et al 01, . . . ) De
  • 6.
    nition A spacedseed is de
  • 7.
    ned as abinary word over the alphabet f1; *g : 1 : accepts only match symbol | , * : accepts all alignment symbols (joker) . s : span (length), w : weight (number of 1). Example = 111*1*11 ATCAGTGCGAATGCGCAAGA |||||:||:|||||.||||| ATCAGCGCAAATGCTCAAGA Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 8.
    Spaced Seeds (PatternHunter02, Burkhardt et al 01, . . . ) De
  • 9.
    nition A spacedseed is de
  • 10.
    ned as abinary word over the alphabet f1; *g : 1 : accepts only match symbol | , * : accepts all alignment symbols (joker) . s : span (length), w : weight (number of 1). Example = 111*1*11 111*1*11 ATCAGTGCGAATGCGCAAGA |||||:||:|||||.||||| ATCAGCGCAAATGCTCAAGA Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 11.
    Spaced Seeds (PatternHunter02, Burkhardt et al 01, . . . ) De
  • 12.
    nition A spacedseed is de
  • 13.
    ned as abinary word over the alphabet f1; *g : 1 : accepts only match symbol | , * : accepts all alignment symbols (joker) . s : span (length), w : weight (number of 1). Example = 111*1*11 111*1*11 ATCAGTGCGAATGCGCAAGA |||||:||:|||||.||||| ATCAGCGCAAATGCTCAAGA Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 14.
    Spaced Seeds (PatternHunter02, Burkhardt et al 01, . . . ) De
  • 15.
    nition A spacedseed is de
  • 16.
    ned as abinary word over the alphabet f1; *g : 1 : accepts only match symbol | , * : accepts all alignment symbols (joker) . s : span (length), w : weight (number of 1). Example = 111*1*11 111*1*11 ATCAGTGCGAATGCGCAAGA |||||:||:|||||.||||| ATCAGCGCAAATGCTCAAGA Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 17.
    Spaced Seeds (PatternHunter02, Burkhardt et al 01, . . . ) De
  • 18.
    nition A spacedseed is de
  • 19.
    ned as abinary word over the alphabet f1; *g : 1 : accepts only match symbol | , * : accepts all alignment symbols (joker) . s : span (length), w : weight (number of 1). Example = 111*1*11 111*1*11 ATCAGTGCGAATGCGCAAGA |||||:||:|||||.||||| ATCAGCGCAAATGCTCAAGA Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 20.
    Spaced Seeds (PatternHunter02, Burkhardt et al 01, . . . ) De
  • 21.
    nition A spacedseed is de
  • 22.
    ned as abinary word over the alphabet f1; *g : 1 : accepts only match symbol | , * : accepts all alignment symbols (joker) . s : span (length), w : weight (number of 1). Example = 111*1*11 111*1*11 ATCAGTGCGAATGCGCAAGA |||||:||:|||||.||||| ATCAGCGCAAATGCTCAAGA Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 23.
    Spaced Seeds (PatternHunter02, Burkhardt et al 01, . . . ) De
  • 24.
    nition A spacedseed is de
  • 25.
    ned as abinary word over the alphabet f1; *g : 1 : accepts only match symbol | , * : accepts all alignment symbols (joker) . s : span (length), w : weight (number of 1). Example = 111*1*11 111*1*11 ATCAGTGCGAATGCGCAAGA |||||:||:|||||.||||| ATCAGCGCAAATGCTCAAGA Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 26.
    Example Laurent Noe,Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 27.
    Example ATCAGTGCAAATGCTCAAGA |||||||||||||||||||| ATCAGTGCAAATGCTCAAGA Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 28.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCAAATGCTCAAGA |||||||||||||||||||| ATCAGTGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCAAATGCTCAAGA |||||||||||||||||||| ATCAGTGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 29.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCAAATGCTCAAGA |||||||||||||||||||| ATCAGTGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCAAATGCTCAAGA |||||||||||||||||||| ATCAGTGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 30.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCAAATGCTCAAGA |||||.|||||||||||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCAAATGCTCAAGA |||||.|||||||||||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 31.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCAAATGCTCAAGA |||||.|||||||||||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCAAATGCTCAAGA |||||.|||||||||||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 32.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCAAATGCTCAAGA |||||.|||||||||||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCAAATGCTCAAGA |||||.|||||||||||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 33.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCAAATGCTCAAGA |||||.|||||||||||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCAAATGCTCAAGA |||||.|||||||||||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 34.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCAAATGCGCAAGA |||||.||||||||.||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCAAATGCGCAAGA |||||.||||||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 35.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCAAATGCGCAAGA |||||.||||||||.||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCAAATGCGCAAGA |||||.||||||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 36.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCAAATGCGCAAGA |||||.||||||||.||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCAAATGCGCAAGA |||||.||||||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 37.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCAAATGCGCAAGA |||||.||||||||.||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCAAATGCGCAAGA |||||.||||||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 38.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 39.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 40.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 41.
    Example ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .111*1*11 ... ... ... ... ... ... .. .111*1*11 .. .111*1*11 111*1*11 ... .. .111*1*11 111*1*11 111*1*11 ... .. .111*1*11 111*1*11 ... .. .111*1*11 .. .111*1*11 111*1*11 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 111111 111111 111111 111111 111111 111111 111111 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... ... ... ... ... ... ... ... ... 111111 ... ... 111111 ... ... 111111 ... ... ... 111111 ... ... ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 ... ... ... ... ... ... ... ... ... ... ... Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 42.
    Recent work relatedto spaced seeds 1 Alignment-free distances [Leimeister et al., 2014, Horwege et al., 2014, Boden et al., 2013] 2 SVM classi
  • 43.
    cation [Onodera andShibuya, 2013, Ghandi et al., 2014] 3 Read clustering [Bao et al., 2011, Chong et al., 2012, Hauser et al., 2013] 4 Metagenomic classi
  • 44.
    cation, . .. Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 45.
    New Uses forOld Things little boy )))) frying pan 1 1http://arch5541.wordpress.com/2012/11/16/and-then-there-was-teflon/ Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 46.
    New Uses forOld Things little boy )))) frying pan 1 ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 1http://arch5541.wordpress.com/2012/11/16/and-then-there-was-teflon/ Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 47.
    New Uses forOld Things little boy )))) frying pan 1 ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 )))) ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 111*1*11 111*1*11 1http://arch5541.wordpress.com/2012/11/16/and-then-there-was-teflon/ Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 48.
    New Uses forOld Things little boy )))) frying pan 1 ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 )))) ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 111*1*11 111*1*11 1http://arch5541.wordpress.com/2012/11/16/and-then-there-was-teflon/ Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 49.
    New Uses forOld Things little boy )))) frying pan 1 ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 )))) ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 111*1*11 111*1*11 1http://arch5541.wordpress.com/2012/11/16/and-then-there-was-teflon/ Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 50.
  • 51.
    nition Number ofmatch symbols covered by at least one 1 symbol from any seed hit [Benson and Mak, 2008, Martin, 2013] Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 52.
  • 53.
    nition Number ofmatch symbols covered by at least one 1 symbol from any seed hit [Benson and Mak, 2008, Martin, 2013] Example ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 111*1*11 111*1*11 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 54.
  • 55.
    nition Number ofmatch symbols covered by at least one 1 symbol from any seed hit [Benson and Mak, 2008, Martin, 2013] Example ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| ATCAGCGCAAATGCTCAAGA 111*1*11 111*1*11 111*1*11 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 56.
  • 57.
    nition Number ofmatch symbols covered by at least one 1 symbol from any seed hit [Benson and Mak, 2008, Martin, 2013] Example ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| A T C AG CG C AA A T G C TC A A G A 111*1*11 111*1*11 111*1*11 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 58.
  • 59.
    nition Number ofmatch symbols covered by at least one 1 symbol from any seed hit [Benson and Mak, 2008, Martin, 2013] Example ATCAGTGCGAATGCGCAAGA |||||.||.|||||.||||| A T C AG CG C AA A T G C TC A A G A 111*1*11 111*1*11 111*1*11 Coverage is of 15 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 60.
    Coverage measure fora seed alignment : x = 101111001011111 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 61.
    Coverage measure fora seed alignment : x = 101111001011111 Example seed : = 11*1 x = 1 0 1 1 1 1 0 0 1 0 1 1 1 1 1 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 62.
    Coverage measure fora seed alignment : x = 101111001011111 Example seed : = 11*1 ... ... ... occ1 1 1 * 1 ... ... ... x = 1 0 1 1 1 1 0 0 1 0 1 1 1 1 1 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 63.
    Coverage measure fora seed alignment : x = 101111001011111 Example seed : = 11*1 ... ... ...1 1 * 1 occ1 1 1 * 1 occ2 ... ... ... ... ... ... x = 1 0 1 1 1 1 0 0 1 0 1 1 1 1 1 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 64.
    Coverage measure fora seed alignment : x = 101111001011111 Example seed : = 11*1 ... ... ...1 1 * 1 occ1 1 1 * 1 occ2 occ3 ... ... ... ... 1 1 * 1 x = 1 0 1 1 1 1 0 0 1 0 1 1 1 1 1 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 65.
    Coverage measure fora seed / a set of seeds alignment : x = 101111001011111 Example seed : = 11*1 ... ... ...1 1 * 1 occ1 1 1 * 1 occ2 occ3 ... ... ... ... 1 1 * 1 x = 1 0 1 1 1 1 0 0 1 0 1 1 1 1 1 set of seeds : f1; 2g = f11*1, 1*1*1g Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 66.
    Coverage measure fora seed / a set of seeds alignment : x = 101111001011111 Example seed : = 11*1 ... ... ...1 1 * 1 occ1 1 1 * 1 occ2 occ3 ... ... ... ... 1 1 * 1 x = 1 0 1 1 1 1 0 0 1 0 1 1 1 1 1 set of seeds : f1; 2g = f11*1, 1*1*1g x = 1 0 1 1 1 1 0 0 1 0 1 1 1 1 1 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 67.
    Coverage measure fora seed / a set of seeds alignment : x = 101111001011111 Example seed : = 11*1 ... ... ...1 1 * 1 occ1 1 1 * 1 occ2 occ3 ... ... ... ... 1 1 * 1 x = 1 0 1 1 1 1 0 0 1 0 1 1 1 1 1 set of seeds : f1; 2g = f11*1, 1*1*1g ... 2 occ1 1 * 1 * 1 1 occ2 1 1 * 1 2 occ3 ... ... ... ... ... 1 * 1 * 1 1 occ4 ... ... ... ... ... ... 1 1 * 1 2 occ5 ... ... ... ... ... ... 1 * 1 * 1 1 occ6 ... ... ... ... ... ... ... 1 1 * 1 x = 1 0 1 1 1 1 0 0 1 0 1 1 1 1 1 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 68.
    Coverage measure fora seed / a set of seeds f1; 2g = f11*1, 1*1*1g
  • 69.
    Coverage measure fora seed / a set of seeds f1; 2g = f11*1, 1*1*1g
  • 70.
    Coverage measure fora seed / a set of seeds f1; 2g = f11*1, 1*1*1g
  • 71.
    Coverage measure fora seed / a set of seeds f1; 2g = f11*1, 1*1*1g
  • 72.
    Coverage measure fora seed / a set of seeds f1; 2g = f11*1, 1*1*1g
  • 73.
    Coverage measure fora seed / a set of seeds f1; 2g = f11*1, 1*1*1g
  • 74.
    Coverage measure fora seed / a set of seeds f1; 2g = f11*1, 1*1*1g
  • 75.
    Coverage measure fora seed / a set of seeds f1; 2g = f11*1, 1*1*1g
  • 76.
    Coverage measure fora seed / a set of seeds f1; 2g = f11*1, 1*1*1g
  • 77.
    Coverage measure fora seed / a set of seeds That's how coverage can be measured, estimated, computed on several models. . . Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 78.
    Coverage measure fora seed / a set of seeds That's how coverage can be measured, estimated, computed on several models. . . But, . . . is coverage useful? Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 79.
  • 80.
    ers 2 Alignment-freedistances Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 81.
  • 82.
    ers Are spacedseeds better with string kernels classi
  • 83.
    ers? Laurent Noe,Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 84.
  • 85.
    ers Are spacedseeds better with string kernels classi
  • 86.
    ers? Yes: see[Onodera and Shibuya, 2013, Ghandi et al., 2014] Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 87.
  • 88.
    ers Are spacedseeds better with string kernels classi
  • 89.
    ers? Yes: see[Onodera and Shibuya, 2013, Ghandi et al., 2014] Which spaced seed patterns are better? Does coverage help here? Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 90.
  • 91.
    ers 1 RFAM11.0 database (50% training, 50% testing) Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 92.
  • 93.
    ers 1 RFAM11.0 database (50% training, 50% testing) 2 Single/double seeds of weight w = 3 : : : 4, span up to w + 4 Laurent Noe, Donald E. K. Martin A coverage criterion for spaced seeds and its applications
  • 94.