l'Algorithme Shuffle-LAGAN

Algorithmes pour l'alignement des
séquences génomiques
Présenté par
Skander Ben Ahmed et Perrault Saintilmon
Alignement glocal : Trouver des réarrangements pendant l'alignement
Auteurs : Michael Brudno, Sanket Malde, Alexander Poliakov, Chuong B. Do, Olivier Couronne, Inna Dubchak and
Serafim Batzoglou

Plan
• Alignement Local (CHAOS)
• Alignement Global (LAGAN)
• Alignement Glocal (Shuffle-LAGAN)
• Conclusion (Comparaison)

Alignement Local
AGTGCCCTGGAACCCTGACGGTGGGTCACAAAACTTCTGGA
AGTGACCTGGGAAGACCCTGAACCCTGGGTCACAAAACTC
- Quelles sont les régions de forte
similarité entre les 2 séquences ?
- Quel est le segment de séquence
de score maximal ?
Temps O( n2 ) pour 2 seqs,
O( nk ) pour k seqs

Alignment Local Heuristique
BLAST FASTA

CHAOS:
CHAins Of Seeds
• Trouver des mots courts qui match (seeds)
• Enchaîner les grains (seeds)
• Rescorer les chaines

• Trouver les seeds à l'emplacement
actuel dans seq1.
location
in seq1
seed
seq1
seq2
CHAOS: Chaining the Seeds

location
in seq1
distance
cutoff seed
seq1
seq2
actuel dans seq1.

location
in seq1
distance
cutoff
gap
cutoff
seed
seq1
seq2
actuel dans seq1.

location
in seq1
distance
cutoff
gap
cutoff
seed
Search
box
seq1
seq2
actuel dans seq1.
• Trouvez les seeds précédents qui se
trouve dans la search box.
- Variation de stockage de données
dans l’arbre avec “T-trie”

location
in seq1
distance
cutoff
gap
cutoff
seed
Search
box
seq1
seq2
Range of
search
actuel dans seq1.
trouve dans la seach box.
• Faites une range query : les seeds
sont indexées par leur diagonale.

Position
dans seq1
Critère de
distance
Critère d’
écart (gap)
graine
Boite de
recherche
seq1
seq2
Intervalle de
recherche
actuel dans seq1.
trouve dans la seach box.
• Faites une range query : les seeds
sont indexées par leur diagonale.
• Choisissez un seed précédent qui
maximise le score de la chaîne.
Temps O(n log n), où n est le nombre de seeds.

• Score initial = # matching bp – gaps
• Rapid rescoring: étendre tous les seeds pour
trouver l'emplacement optimal pour les gaps
CHAOS Scoring

Alignement Global
AGTGACCTGGGAAGACCCTGACCCTGGGTCACAAAACTC
x
y
z

1. Trouver les
alignements locaux
2. Chaîner les
alignements locaux
3. Calcul d'alignement
global
LAGAN: 1. Trouver les alignements locaux

LAGAN: 2. Chaîner les alignements locaux
1. Trouver les
alignements locaux
2. Chaîner les
alignements locaux
global

1. Trouver les
alignements locaux
2. Chaîner les
alignements locaux
global
LAGAN: 3. Calcul d'alignement global

Évolution au niveau de l'ADN
…ACGGTGCAGTTACCA…
…AC----CAGTCCACCA…
Mutation
MODIFICATIONS DE SÉQUENCE
RÉARANGEMENTS
Deletion
Inversion
Translocation
Duplication

Alignement local & global
Local Global

Caractéristiques d'alignement glocal
• Trouver la transformation au moindre coût d'une séquence en une
autre à l'aide de nouvelles opérations
•Modifications de sequence
•Inversions
•Translocations
•Duplications
•Combinaisons de ceux-ci

S-LAGAN: 1.Trouver les alignements locaux
1. Trouver les alignements
locaux
2. Construire la carte de
conservation 1-monotone
3. Alignement de sous-
segments consistents

locaux
S-LAGAN: 2. Construire la carte de conservation 1-monotone
Seq2 sans restrictions
Seq1
non
décroissante

Chaque alignement local L généré dans la section précédent;
L = (start1, end1, start2, end2, score, strand)
Un vecteur à six champs :
• Les positions de début et de fin de l'alignement local dans les deux séquences.
• Le score de l'alignement.
• le brin sur lequel l'alignement se produit dans la deuxième séquence;
• Les alignements locaux sur le brin positif comme ayant les deux positions de départ
inférieures à leurs positions finales respectives (L1.start1 < L1.end1 & L1.start2 < L1.end2 )
• Sur le brin négatif si la position finale dans la séquence 2 est plus petite que la
position de départ. (L2.end2 < L2.start2)
Considérons deux alignements locaux, L1 et L2;
• On appelle L1 et L2 1-monotones si L2.start1 > L1.end1.
• Nous appelons ces alignements consistants si;
• (1) ils sont 1-monotones
• (2) ils sont tous les deux sur le même brin
• (3) L2.start2 > L1.end2 pour les alignements sur le brin positif ou
L2.start2 < L1. end2 pour les alignements sur le brin négatif.
• Une liste ordonnée d'alignements locaux [L1 . . . Lk] est 1-monotone ou consistant
si pour toute paire d'alignements locaux Li et Lj si i < j alors Li et Lj sont
respectivement 1-monotone ou consistant.
S-LAGAN: 2. Construire la carte de conservation 1-monotone
L1= (10, 20, 12, 22, score, strand+)
L2= (22, 32, 25, 35, score, strand+)
L3= (35, 45, 55, 45, score, strand-)
1-monotones:
 L1 et L2 (L2.start1 > L1.end1)
Consistant:
 L1 et L2 (1-monotones, même brin et
L2.start2 > L1.end2)
 L3 et L4 (1-monotones, même brin et
L4.start2 < L3.end2)
X L2 et L3 ne respecte pas la 2ème condition
Seq1
non
décroissante
L4

Construction de la carte de conservation 1-monotone
d
a b
c
Chaîne utilisant Eppstein Galil O(n log n);
• Chaque alignement obtient un score qui est MAX sur 4 chaînes possibles.
• Les pénalités sont affines (composantes événement et distance)
Pénalités :
a) Régulière (+ + + et − − −)
b) Translocation ( + − + et − + −)
c) Inversion (− − + et + + − )
d) Translocation inverse (− + + et + − − )
Ex: Si les deux brins sont positifs et enchaînés dans le sens
positif (+ + +)
• La pénalité de gap pour toutes les transitions se compose en trois parties ;
1. La pénalité de l’ouverture de gap est chargé pour les cas consistent (+ + + et − − −)
si les deux segments sont sur des diagonales différentes (L1.end1–L1.end2 ≠
L2.start1–L2.start2), et est toujours chargé pour les autres cas.
2. La pénalité d'extension de gap est égale à |(L1.end1–L1.end2)–(L2.start1–
L2.start2)| × constante
3. La distance entre deux alignements est définie comme étant min(|L1.end1–
L2.start1|, |L1.end2– L2.start2|), et elle est également pénalisée comme (distance
× constante).
*Constante dépend de la transition
• Lors du chaînage de l'alignement local L2 à une sous-chaîne se terminant
par L1; - L1 peut être sur le brin positif ou négatif
- L1 peut venir soit avant soit après L2 dans la séquence 2
- L2 peut être sur le brin positif ou négatif.
Seq1
non
décroissante
L2
L1
L1
L1
L1

locaux
S-LAGAN: 3.Alignement global

(A) L'alignement local entre les deux séquences est généré à l'aide de CHAOS.
(B) La carte 1-monotone la plus élevée (indiquée en gras) est trouvée.
(C) Les sous-segments consistents maximaux de la carte 1-monotone (boîtes en pointillés) sont
alignés à l'aide de LAGAN.
Vue d'ensemble de l'algorithme SLAGAN

Principaux défauts de l'algorithme SLAGAN

Comparaison et Qualité des alignements SLAGAN
Sensibilité; Fraction des positions orthologues qu'il aligne.
Spécificité; Fraction des positions alignées qui sont orthologues.
Conclusions préliminaires sur les réarrangements chez l'homme contre la souris:
• Les réarrangements sont de toutes tailles
• Duplications moins bien conservées que les autres régions réarrangées
• Les inversions simples ont tendance à être les plus courantes et les plus conservées
Sensibilité
Spécificité

Vue d'ensemble de l'algorithme BLASTZ
1- Supprimez les répétitions intercalées spécifiques à la lignée des deux séquences.
2- Pour toutes les paires de 12-mers espacés (un de chaque séquence) qui sont identiques sauf peut-
être pour une transition, procédez comme suit ;
2.1 -Prolonger l'alignement induit dans chaque direction, sans laisser d'espace.
-Arrêtez de prolonger lorsque le score diminue de plus d'un certain seuil.
2.2 Si l'alignement sans espace marque plus de 3000 (par exemple), alors ;
2.2.1. Répétez l'étape d'extension, mais laissez des espaces.
2.2.2. Conservez l'alignement s'il obtient un score supérieur à 5000 (par exemple).
3- Entre chaque paire d'alignements adjacents de l'étape 2, répétez l'étape 2, mais en utilisant une
procédure d'ensemencement plus sensible (par exemple, des correspondances exactes 7-mer) et des
seuils de score inférieurs pour les alignements sans espace (disons, 2000 au lieu de 3000) et pour les
alignements espacés (disons, 2000 au lieu de 5000).
4- Ajuster les positions des séquences dans les alignements résultants pour les faire se référer aux
séquences d'origine (c'est-à-dire tenir compte de l'étape 1).
5- Filtrer les alignements selon les besoins à des fins particulières. Pour de nombreuses utilisations,
nous appliquons axtBest, qui trouve le meilleur moyen d'aligner chaque position humaine alignée.

Sensibilité et spécificité
•Par exemple : on regarde si des séquences sont membres d’une famille de protéine en fonction d’un certain
seuil
⇒ Capacité à rejeter les fausses instances (FP) = capacité à ne détecter que la réalité biologique et rien de plus
au risque de ne pas retenir certaines bonnes informations
⇒ Minimiser les faux positifs.
⇒ Capacité à détecter les vraies instances de l’objet recherché (VP) = capacité à détecter tout ce qui est
intéressant/vrai sur le plan biologique au risque d’avoir beaucoup d’intrus
⇒ Minimiser les faux négatifs.

l'Algorithme Shuffle-LAGAN

Recommended

Recommended

More Related Content

Featured

Featured (20)

l'Algorithme Shuffle-LAGAN

Editor's Notes