0
Alignment-freesequence comparison     A review (1)   Seminario di Franco Chiavetta           sull’articolo (1) di  Susana ...
Introduzione• In biologia, i primi metodi di confronto fra sequenze sono stati  derivati dai criteri di string-matching ut...
Introduzione• I metodi di allineamento trattano le molecole biologiche come  sequenze lineari secondo un approccio spesso ...
Introduzione• La dinamica evolutiva è dovuta a  – fenomeni su “piccola scala” (o “puntuali”):     • Mutazioni, inserzioni,...
Introduzione                         Mutazioni (di singoli nucleotidi, spesso)                       Inserzioni o cancella...
Introduzione• La ricombinazione genetica ed in particolare il  rimescolamento genetico, sono in contrasto con i  criteri d...
Introduzione• Per rimediare alle limitazioni dei criteri di confronto  mediante allineamenti sono stati sviluppati vari  m...
Notazione• Una sequenza X di lunghezza n, è una successione di n simboli  presi da un alfabeto finito A con cardinalità r....
Notazione• La ricerca di L-tuple in una sequenza X consiste nel effettuare  un conteggio delle occorrenze (con overlapping...
Notazione• Analogamente, è possibile calcolare il vettore fXL delle  frequenze delle L-tuple in X              fXL = {fXL,...
Overlapping• La valutazione della significatività statistica delle misure di  similarità, presenta il problema di ricavare...
Esempio per sequenze di DNA•   A = {A, T, G, C}                    : r=4•   X = ATATAC                          : n=6•   C...
Confronti alignment-free• In letteratura sono stati presentati:   – metodi basati sul conteggio/frequenza di L-tuple     a...
Distanza euclidea• Il primo articolo in cui viene sistematizzato l’uso dei conteggi  delle L-tuple per il confronto tra se...
Distanza euclidea• Per una data possibile “risoluzione“ o “lunghezza di parola”  L, la distanza quadratica euclidea tra du...
Distanza euclidea• Tale metrica è stata validata applicandola al confronto di  lunghe sequenze relative ad organismi in re...
Distanza euclidea• Studi successivi (Pevzner, 1992) hanno ricavato deduzioni su  alcune caratteristiche statistiche quali:...
Distanza euclidea• Interessanti lavori hanno studiato le relazioni di dipendenza tra  le misurazioni della distanza quadra...
Distanza euclidea pesata• Gli studi sulle sequenze biologiche dimostrano che alcuni  segmenti (L-tuple) sono normalmente p...
Distanza euclidea pesata• La metrica pesata d2 proposta da Torney et al. 1990, utilizza  pesi ρi per ogni possibile parola...
Distanza euclidea pesata• La metrica d2 si è dimostrata abbastanza efficace ed  implementabile efficientemente.• I confron...
Distanze basate su              coefficienti statistici• Covarianza   – In teoria della probabilità la covarianza di due v...
Distanze basate su               coefficienti statistici• Correlazione   – In statistica per correlazione si intende una r...
Distanze basate su               coefficienti statistici• Indice di correlazione di Pearson   – Date due variabili statist...
Distanza basata sulla                 correlazione• Alcune metriche alignment free si basano sul calcolo del vettore delle...
Distanza basata sulla               correlazione• Il formalismo adottato è quello dell’  indice di correlazione di Pearson
Distanza basata sulla                   correlazione• Il formalismo adottato è quello dell’   Covarianza  indice di correl...
Distanza basata sulla               correlazione• Tale metrica è stata usata per queries su database di sequenze  lunghe e...
Distanze basata sulla covarianza• Questi metodi si basano sull’uso   – della matrice di covarianza,   – della distanza di ...
Distanze basata sulla covarianza• Distanza di Mahalanobis• S = [sij] rappresenta la matrice di covarianza dei  vettori wor...
Distanze basata sulla covarianza• Distanza Euclidea Standard• Si pone cov(ci,cj)=0 per i≠j ignorando la covarianza tra le ...
Distanze basata sulla covarianza• In un articolo del 1997, Wu ha proposto sia la dLM che  la dLSE per il confronto fra seq...
Distanze basata sulla covarianza• Tali metriche hanno problemi implementativi in quanto S ha  determinante normalmente pro...
Misure basate sulla          teoria dell’informazione• L’Information Theory si basa sui lavori di C. Shannon (1948),  sull...
Misure basate sulla         teoria dell’informazione• Il criterio utilizzato per il confronto tra sequenze si basa sul  co...
Misure basate sulla         teoria dell’informazione• Ad esempio, se X e Y sono indipendenti, allora la conoscenza  di X n...
Misure basate sulla         teoria dell’informazione• Formalmente, linformazione mutua di due variabili casuali  discrete ...
Misure basate sulla           teoria dell’informazione• Tale concetto può essere applicato quindi per misurare la  dissimi...
Confronti• Nei lavori di Wu si è riscontrato che:   – in termini di sensibilità, selettività, la migliore metrica è la    ...
Metrica basata sugli angoli• In un report del 2002, Stuart et al. propongono una funzione  distanza fra due sequenze X e Y...
Metrica basata sugli angoli• Poiché tali vettori sono considerati in un spazio ad un elevato  numero di dimensioni (K = rL...
Metrica basata sugli angoli• Tale metrica è insensibile ai pattern “ricorrenti”:   – la distanza tra X ed XX risulta = 0 i...
Metrica basata sugli angoli• Nello stesso report, Stuart et al, ricorrono alla misura degli  angoli per proporre una funzi...
Metodi resolution-free• Le metriche precedenti si basano sull’uso di L-tuple a  risoluzioni fissate, o su combinazioni di ...
Kolmogorov Complexity• Ci si basa sul concetto di “complessità algoritmica” delle  sequenze.• La complessità algoritmica, ...
Kolmogorov Complexity• La distanza proposta in Li and Vitanyi (1997) si basa sul  concetto di complessità di Kolmogorov,  ...
Kolmogorov Complexity• Esiste un teorema che dimostra che K(X) non è una funzione  computabile nel senso di Turing.• Dal p...
Kolmogorov Complexity• Li and Vitanyi (1997) dimostrano che dKC è effettivamente una  funzione distanza• E’ stata testata ...
Chaos Theory• L’idea di fondo è che ad ogni sequenza biologica si può far  corrispondere biettivamente una rappresentazion...
Chaos Theory• Nel 1990 Jeffrey propose sistemi  di funzioni iterative chiamate  Chaos Game Representation  (CGR) per mappa...
USM Algorithm• Mapping of a sequence X into a continuous space• Extension of Chaos Game Representation (CGR) procedure for...
USM AlgorithmUSM construction is based on a Iterative Function, where USMi is the pointin the USM map after ith iteration ...
USM Algorithm
Fine
Upcoming SlideShare
Loading in...5
×

Alignment free sequence comparison—a review

345

Published on

Metodi per il confronto alignment-free di sequenze biologiche

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
345
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Alignment free sequence comparison—a review"

  1. 1. Alignment-freesequence comparison A review (1) Seminario di Franco Chiavetta sull’articolo (1) di Susana Vinga and Jonas Almeida per il corso di Bioinformatica
  2. 2. Introduzione• In biologia, i primi metodi di confronto fra sequenze sono stati derivati dai criteri di string-matching utilizzati nella Computer Science.• La nozione di similarità si è fino a poco tempo fa basata prevalentemente su metodi per l’allineamento di sequenze, tipicamente basati sulla programmazione dinamica.• Obiettivi di tali metodi sono l’allineamento globale o locale di sequenze
  3. 3. Introduzione• I metodi di allineamento trattano le molecole biologiche come sequenze lineari secondo un approccio spesso di tipo “linguistico”• Hanno dei limiti in quanto prescindono da: • la natura fisica e chimica di tali molecole, • la loro struttura tridimensionale, • la loro dinamicità evolutiva.
  4. 4. Introduzione• La dinamica evolutiva è dovuta a – fenomeni su “piccola scala” (o “puntuali”): • Mutazioni, inserzioni, delezioni di singoli nucleotidi – mutano, scompaiono o compaiono singole basi – fenomeni su “media scala” • Cambiamenti nella struttura di un gene: – comparsa/scomparsa di introni • “Fusioni” di geni, o viceversa, divisione di geni in geni più piccoli – fenomeni su “larga scala” • Riarrangiamenti della sequenza genomica: una o più regioni cambiano di posto • Duplicazione: si possono duplicare INTERE regioni genomiche
  5. 5. Introduzione Mutazioni (di singoli nucleotidi, spesso) Inserzioni o cancellazioni di più nucleotidiScala dei fenomeni Eventi su larga scala: riarrangiamenti, duplicazioni inserzioni, cancellazioni di ampie regioni Eventi “epici”: duplicazioni di interi genomi
  6. 6. Introduzione• La ricombinazione genetica ed in particolare il rimescolamento genetico, sono in contrasto con i criteri di confronto di sequenze mediante allineamenti i quali presuppongono la conservazione della contiguità fra segmenti omologhi e sono sensibili solo a modifiche locali
  7. 7. Introduzione• Per rimediare alle limitazioni dei criteri di confronto mediante allineamenti sono stati sviluppati vari metodi di confronto alignment-free basati su diversi impalcati teorici.
  8. 8. Notazione• Una sequenza X di lunghezza n, è una successione di n simboli presi da un alfabeto finito A con cardinalità r.• Un segmento di L simboli, con L<=n, viene detto L-tupla (o L-word)• Con WL denotiamo l’insieme di tutte le K possibili L-tuple, con K = rL. WL = {wL,1, wL,2, … , wL,K}
  9. 9. Notazione• La ricerca di L-tuple in una sequenza X consiste nel effettuare un conteggio delle occorrenze (con overlapping) degli elementi di WL• Si effettua facendo scorrere lungo X una “finestra” di larghezza L, dalla posizione 1 alla posizione n – L +1 per ricavare il vettore word-count CXL = {cXL,1, cXL,2, … , cXL,K} dove cXL,i è il numero di occorrenze di wL,i in X
  10. 10. Notazione• Analogamente, è possibile calcolare il vettore fXL delle frequenze delle L-tuple in X fXL = {fXL,1, fXL,2, … , fXL,K} dove:• Da fXL si possono poi stimare le probabilità frequentistiche di trovare ogni possibile L-tupla in X, ricavando il vettore PXL = {pXL,1, pXL,2, … , pXL,K} dove pXL,i è la probabilità di wL,i in X
  11. 11. Overlapping• La valutazione della significatività statistica delle misure di similarità, presenta il problema di ricavare formule per la stima dei valori attesi per i conteggi, per la varianza e la covarianza fra le frequenze di L-tuple, cioè la distribuzione di PXL.• Per una corretta stima delle covarianze di PXL è necessario che tali misure prevedano la cosidetta “overlapping capability”, ossia la capacità conteggiare correttamente L-tuple che si susseguono condividendo prefissi e suffissi.• Tali problema si ha ad esempio nelle metriche basate sulla distanza di Mahalanobis.
  12. 12. Esempio per sequenze di DNA• A = {A, T, G, C} : r=4• X = ATATAC : n=6• Consideriamo “trinucleotidi” : L=3• Calcoliamo le frequenze di tutti i possibili trinucleotidi ottenibili facendo scorrere una finestra larga 3 per n – L + 1 = 6 - 3 + 1 = 4 volte: W3 = {ATA, TAT, TAC, AAA,…} CX3 = {2, 1, 1, 0, …} fX3 = {0.5, 0.25, 0.25, 0, …} dove i vettori CX3 e fX3 hanno lunghezza K = rL = 43 = 64
  13. 13. Confronti alignment-free• In letteratura sono stati presentati: – metodi basati sul conteggio/frequenza di L-tuple ad una specifica risoluzione (scale dependent) • metriche definite nello spazio dei vettori word-count come la distanza Euclidea e l’entropia relativa della distribuzione delle frequenze – metodi non basati sul conteggio/frequenza di L-tuple a lunghezza fissa (scale independent) • rappresentazioni scale-indipendent delle sequenze mediante teoria della complessità di Kolmogorov, e mappe iterative.
  14. 14. Distanza euclidea• Il primo articolo in cui viene sistematizzato l’uso dei conteggi delle L-tuple per il confronto tra sequenze è dovuto a Blaisdell (1986)• Nell’articolo le sequenze sono modellate come catene di Markov, e la differenza tra due sequenze viene vista come la distanza quadratica euclidea tra le rispettive matrici di transizione.• Il fatto che la matrice di transizione di una catena di Markov potesse essere identificata con la frequenza delle possibili L- tuple, portò l’autore a formulare ulteriori metodi di confronto in articoli seguenti.
  15. 15. Distanza euclidea• Per una data possibile “risoluzione“ o “lunghezza di parola” L, la distanza quadratica euclidea tra due sequenze X e Y è data da:
  16. 16. Distanza euclidea• Tale metrica è stata validata applicandola al confronto di lunghe sequenze relative ad organismi in relazione filogenetica ampiamente documentata.• Inoltre, è stata usata per effettuare il riconoscimento di relazioni filogenetiche tra coppie di sequenze supportando i risultati ottenuti con metodi convenzionali basati sull’allineamento totale• E’ stato osservato che i valori di dissimilarità ottenuti con tale metrica hanno andamento direttamente proporzionale al conteggio dei mismatch dei metodi di allineamento convenzionali.
  17. 17. Distanza euclidea• Studi successivi (Pevzner, 1992) hanno ricavato deduzioni su alcune caratteristiche statistiche quali: il valore atteso per la distanza e la varianza per confronti mediante L-tuple.• Le proprietà statistiche della distanza quadratica Euclidea sono state documentate ampiamente attraverso l’uso di test statistici sulla non unformità delle corrispondenti distribuzioni (Zharkikh and Rzhetsky, 1993).
  18. 18. Distanza euclidea• Interessanti lavori hanno studiato le relazioni di dipendenza tra le misurazioni della distanza quadratica euclidea a diverse scale o risoluzioni (i.e. al variare di L) – i.e. come il conteggio delle 3-tuple dipende da quello delle 2-tuple.
  19. 19. Distanza euclidea pesata• Gli studi sulle sequenze biologiche dimostrano che alcuni segmenti (L-tuple) sono normalmente più frequenti di altri.• Ciò ha quindi un impatto sul calcolo della d.e.• Per tenere conto di tale fatti oggettivi, sono state proposte metriche pesate che tenessero dessero maggiore “peso” al conteggio di determinate parole piuttosto che ad altre.
  20. 20. Distanza euclidea pesata• La metrica pesata d2 proposta da Torney et al. 1990, utilizza pesi ρi per ogni possibile parola e combina inoltre diverse risoluzioni da l ad u.
  21. 21. Distanza euclidea pesata• La metrica d2 si è dimostrata abbastanza efficace ed implementabile efficientemente.• I confronti su sequenze omologhe mescolate o con inserzioni/delezioni danno valori di distanza comunque bassi.• Per tali proprietà tale metrica è stata inclusa in package come STACK (Sequence Tag Alignment and Consensus Knowledgebase)• Le metriche euclidee sono spesso usate come filtro di preprocessing per isolare da larghi database le migliori sequenze candidate per l’applicazione successiva di algoritmi FASTA/BLAST
  22. 22. Distanze basate su coefficienti statistici• Covarianza – In teoria della probabilità la covarianza di due variabili aleatorie è un numero Cov(X,Y) che fornisce una misura di quanto le due varino assieme, ovvero della loro dipendenza. – La covarianza di due variabili aleatorie X e Y è il valore atteso dei prodotti delle loro distanze dalla media: Cov(X,Y)=E[(X - E(X)) * (Y - E(Y)] – La covarianza di X e Y può anche essere espressa come la differenza tra il valore atteso del loro prodotto e il prodotto dei loro valori attesi Cov(X,Y)=E[XY] – E[X]E[Y]
  23. 23. Distanze basate su coefficienti statistici• Correlazione – In statistica per correlazione si intende una relazione tra due variabili casuali tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda. – Il grado di correlazione fra due variabili viene espresso mediante i cosiddetti indici di correlazione. • Questi assumono valori compresi tra - 1 (variabili inversamente correlate) e + 1 (correlazione assoluta cioè quando alla variazione di una variabile corrisponde una variazione rigidamente dipendente dallaltra) • Un indice di correlazione pari a 0 indica unassenza di correlazione. – Due variabili indipendenti hanno sicuramente un indice di correlazione pari a 0, ma al contrario un valore pari a 0 non implica necessariamente che le due variabili siano indipendenti.
  24. 24. Distanze basate su coefficienti statistici• Indice di correlazione di Pearson – Date due variabili statistiche X e Y è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili: ρXY = σXY/(σX * σY ) dove • σXY , è la covarianza tra X e Y • σX e σY , sono le due deviazioni standard
  25. 25. Distanza basata sulla correlazione• Alcune metriche alignment free si basano sul calcolo del vettore delle frequenze delle L-tuple in X e Y fXL = {fXL,1, fXL,2, … , fXL,K} fYL = {fYL,1, fYL,2, … , fYL,K} e sul successivo calcolo dei coefficienti di correlazione lineare (LCC)
  26. 26. Distanza basata sulla correlazione• Il formalismo adottato è quello dell’ indice di correlazione di Pearson
  27. 27. Distanza basata sulla correlazione• Il formalismo adottato è quello dell’ Covarianza indice di correlazione di Pearson tra f XL e f YL Deviazione standard di f XLDeviazionestandard dif YL
  28. 28. Distanza basata sulla correlazione• Tale metrica è stata usata per queries su database di sequenze lunghe e di strutture proteiche (Petrilli and Tonukari,1997).• L’applicazione di tale metrica ha permesso di ricavare conclusioni semplificative di grande utilità pratica, come il fatto che per classificare correttamente famiglie di proteine sono necessarie solo le frequenze di 25 peptidi su 400 possibili (Solovyev and Makarova, 1993)
  29. 29. Distanze basata sulla covarianza• Questi metodi si basano sull’uso – della matrice di covarianza, – della distanza di Mahalanobis – o della distanza Euclidea standardizzata
  30. 30. Distanze basata sulla covarianza• Distanza di Mahalanobis• S = [sij] rappresenta la matrice di covarianza dei vettori word-count CXL e CYL• S-1 è l’inversa di S (con K × K elementi)
  31. 31. Distanze basata sulla covarianza• Distanza Euclidea Standard• Si pone cov(ci,cj)=0 per i≠j ignorando la covarianza tra le stesse parole, considerando solo la varianza delle parole.• Si riduce alla distanza quadratica Euclidea se si considera sii = 1, per i =1,…,K
  32. 32. Distanze basata sulla covarianza• In un articolo del 1997, Wu ha proposto sia la dLM che la dLSE per il confronto fra sequenze• Nello stesso articolo si proponeva inoltre di combinare misure a diverse risoluzioni
  33. 33. Distanze basata sulla covarianza• Tali metriche hanno problemi implementativi in quanto S ha determinante normalmente prossimo a zero (matrice quasi singolare) ed è quindi di difficile inversione.• Diventano comunque inefficienti per risoluzioni L>4• Hanno avuto qualche successo nelle ricerche in database di lipoproteine lipasi umane.• In tali metriche è di particolare rilievo l’overlapping capability
  34. 34. Misure basate sulla teoria dell’informazione• L’Information Theory si basa sui lavori di C. Shannon (1948), sulla trasmissione delle informazioni su canali disturbati.• Solomon Kullback, l’ha reinquadrata rigorosamente nell’ambito della Statistica (1968)• Tra i concetti più importanti della I.T. vi sono il concetto di entropia e di entropia relativa e di mutua informazione.• Le metriche basate sull’I.T. sono applicate, come le precedenti, al conteggio/frequenza di L-tuple viste come variabili casuali.
  35. 35. Misure basate sulla teoria dell’informazione• Il criterio utilizzato per il confronto tra sequenze si basa sul concetto di informazione mutua, una quantità che misura la mutua dipendenza delle due variabili.• Intuitivamente, linformazione mutua misura linformazione che X e Y condividono: essa misura quanto la conoscenza di una di queste variabili riduce la nostra incertezza riguardo allaltra …
  36. 36. Misure basate sulla teoria dell’informazione• Ad esempio, se X e Y sono indipendenti, allora la conoscenza di X non dà alcuna informazione riguardo a Y e viceversa, perciò la loro mutua informazione è zero.• Allaltro estremo, se X e Y sono identiche allora tutte le informazioni trasmesse da X sono condivise con Y: la conoscenza di X determina il valore di Y e viceversa.• Come risultato, nel caso di identità, linformazione mutua è la stessa contenuta in un una sola delle due (Y o X), vale a dire lentropia di X (o di Y), perchè chiaramente se X e Y sono identiche, hanno identica entropia.
  37. 37. Misure basate sulla teoria dell’informazione• Formalmente, linformazione mutua di due variabili casuali discrete X e Y può essere definita come: dove p(x,y) è ora la funzione di "densità" di probabilità congiunta di X e Y, e p1(x) e p2(y) sono le funzioni di densità di probabilità marginale rispettivamente di X e Y.
  38. 38. Misure basate sulla teoria dell’informazione• Tale concetto può essere applicato quindi per misurare la dissimilarità tra due sequenze biologiche come proposto nei lavori di Wu et al. (2001).• In questo caso la mutua informazione è stata formulata in termini di “divergenza di Kullback-Leibler”, computandola dai vettori delle frequenze delle L-tuple. – Per evitare valori infiniti quando fXL,1 è 0 l’autore ha riformulato l’espressione aggiungendo 1 a numeratore e denominatore nel rapporto
  39. 39. Confronti• Nei lavori di Wu si è riscontrato che: – in termini di sensibilità, selettività, la migliore metrica è la dLM , seguita da dLSE ed infine dalla dLKL viceversa, – in termini di efficienza computazionale la migliore metrica è dLKL , seguita da dLSE ed infine dalla dLM
  40. 40. Metrica basata sugli angoli• In un report del 2002, Stuart et al. propongono una funzione distanza fra due sequenze X e Y considerando il coseno dell’angolo formato dai due vettori word-count.
  41. 41. Metrica basata sugli angoli• Poiché tali vettori sono considerati in un spazio ad un elevato numero di dimensioni (K = rL), viene applicato un algoritmo di tipo SVD prima del calcolo del coseno, utilizzando solo le dimensioni corrispondenti agli autovalori più alti (Truncated SVD) (dimensionality reduction).• L’uso della SVD viene visto dagli autori come un modo per portare la misurazione in uno spazio di caratteristiche differenti da quello delle L-tuple.
  42. 42. Metrica basata sugli angoli• Tale metrica è insensibile ai pattern “ricorrenti”: – la distanza tra X ed XX risulta = 0 in quanto i due vector count su X e XX risultano avere norma diversa ma uguale direzione poiché CXX = 2CX.• Questa proprietà è fondamentale in quanto “filtra” automaticamente le ripetizioni, distinquendo le sequenze solo per il diverso bilanciamento del “contenuto” in L-tuple.• dCOS presenta inoltre similarità con la ”correlation distance” dLCC .
  43. 43. Metrica basata sugli angoli• Nello stesso report, Stuart et al, ricorrono alla misura degli angoli per proporre una funzione per misurare la distanza evolutiva tra due sequenze.• La dLEVOL è stata usata nello studio del genoma mitocondriale e le distanze evolutive osservate sono risultate in corrispondenza con valori ottenuti in precedenza con altri metodi.
  44. 44. Metodi resolution-free• Le metriche precedenti si basano sull’uso di L-tuple a risoluzioni fissate, o su combinazioni di misurazioni a diverse risoluzioni• Esistono però altri metodi di misurazione che non sono dipendenti dalla scala/risoluzione e che risultano quindi assolutamente indipendenti dall’assunzione della conservazione di contiguità.• Tale obiettivo viene raggiunto in due modi: – Mediante uso di algoritmi di compressione delle sequenze, – Mediante uso di mappe iterative
  45. 45. Kolmogorov Complexity• Ci si basa sul concetto di “complessità algoritmica” delle sequenze.• La complessità algoritmica, o di Kolmogorov, di una sequenza X, indicata con K(X), rappresenta la lunghezza del più piccolo programma P in grado di generarla, vedendo quindi P come descrizione della sequenza X in un certo linguaggio di programmazione L• Si dimostra che, se K1(X) e K2(X) sono le complessità relative a due dati linguaggi L1 ed L2, esiste una costante c tale che ∀X |K1(X) - K2(X)| ≤ c
  46. 46. Kolmogorov Complexity• La distanza proposta in Li and Vitanyi (1997) si basa sul concetto di complessità di Kolmogorov, dove K(X|Y) è la complessità condizionale, e K(XY) è la complessità della concatenazione delle due sequenze XY.• La complessità condizionale K(X|Y) di due stringhe X e Y è la lunghezza del più breve programma P che calcola X dato in input Y.• K(X|Y) rappresenta quindi la quantità minima di informazioni necessarie per generare X da qualsiasi calcolo effettivo quando Y è dato come input per il calcolo
  47. 47. Kolmogorov Complexity• Esiste un teorema che dimostra che K(X) non è una funzione computabile nel senso di Turing.• Dal punto di vista pratico, ci si basa quindi su una approssimazione del suo limite superiore alla lunghezza |C(X)| della versione “compressa” di X, ottenuta mediante un opportuno algoritmo di compressione C, come ad es. Lempel-Ziv LZ77.• |C(XY)| approssima analogamente K(X|Y) dKC(X,Y) = max{|C(XY) | - |C(X)|, |C(YX) | - |C(Y)|} / max{|C(X)|, |C(Y)|}
  48. 48. Kolmogorov Complexity• Li and Vitanyi (1997) dimostrano che dKC è effettivamente una funzione distanza• E’ stata testata sul genoma mitocondriale di mammiferi e le distanze ottenute sono risultate consistenti con le relazioni filogenetiche note.• Le sue caratteristiche ne consentono l’applicabilità anche a sequenze su alfabeti di ordine più elevato, come le sequenze proteiche.
  49. 49. Chaos Theory• L’idea di fondo è che ad ogni sequenza biologica si può far corrispondere biettivamente una rappresentazione sotto forma di traiettoria in uno spazio di coordinate continuo multidimensionale, mantenendo le proprietà statistiche delle sequenze originali.• La corrispondenza biunivoca (mapping) è ottenuta mediante funzioni iterative caotiche,• Il mapping ha la proprietà di portare sequenze simili su traiettorie “vicine” (la metrica si sposta nello spazio multidimensionale), permettendo l’analisi di sequenze di lunghezza arbitraria in modo scale-indipendent
  50. 50. Chaos Theory• Nel 1990 Jeffrey propose sistemi di funzioni iterative chiamate Chaos Game Representation (CGR) per mappare sequenze nucleotidiche su uno spazio continuo bidimensionale corrispondente ad un quadrato unitario. Recentemente Almeida and Vinga hanno proposto una estensione di questo metodo, chiamato Universal Sequence Maps (USM), che fornisce una tecnica scale-independent per rappresentare e confrontare qualsiasi sequenza di unità discrete, come sequenze genomiche, proteomiche, e anche testi.
  51. 51. USM Algorithm• Mapping of a sequence X into a continuous space• Extension of Chaos Game Representation (CGR) procedure for higher order alphabets using a n-dimensional hypercube → all CGR properties are maintained.• Dimension needed for a m-symbol alphabet: log2(m) . Sequence X, length k, from m-symbol alphabet A Each symbol s is represented by a unique binary number u corresponding to a corner of the n-hypercube.
  52. 52. USM AlgorithmUSM construction is based on a Iterative Function, where USMi is the pointin the USM map after ith iteration and ui are the coordinates of the vertex ofthe ith symbol in the sequence.
  53. 53. USM Algorithm
  54. 54. Fine
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×