0
Upcoming SlideShare
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Standard text messaging rates apply

# 2011 04 (seku panasumu paieskos algoritmai)

261

Published on

se

se

0 Likes
Statistics
Notes
• Full Name
Comment goes here.

Are you sure you want to Yes No
• Be the first to comment

• Be the first to like this

Views
Total Views
261
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
1
0
Likes
0
Embeds 0
No embeds

No notes for slide
• Word above threshold deemed to be similar RDQ matched with REQ Next the BLAST algorithm now attempts to extend this alignment in both directions Cumulative score kept, results from tallying the matches, mismatches, and gaps Keeps going until optimal local alignment found
• How does the algorithm know when an optimal local alignment has been found. Initial seed hit is extended All starts initially if the original “word” match is above the cutoff (T&gt;11 – RDQ – REQ in our earlier example) The algorithm keeps a cumulative score (left axis) – addition for matches Once the mininum score S is reached a result will be returned – this result makes it to the BLAST output Algorithm keeps extending the alignment – addition for matches, negative for mismatches, gaps (dip in graph) Keeps extending alignment At some point, mismatches and gaps will outweigh matches and the cumulative score will drops off Another cutoff comes into play here to detect the lack of good alignment. (X) HSP trimmed back Resulting alignment is called the HSP – high scoring segment pair more than one HSP per sequence possible Show the length of the HSP on the graph
• ### Transcript

• 1. Panašių s ek ų paieškos algoritmai
• 2. Algoritmų taikymo sritis
• Apribota abėcėlė:
• Baltymų sekos sudarytos iš 20 amino rūgščių
• Nukleotidų sekos turi 4 (5) nukleotidus
• 3.
• Sekos paieškos rezultatas gali būti:
• Tikslus sutapimas:
• ABCTUV ABUV ABCTUV AB----UV
• Netikslus sutapimas:
• GARUIPPRST GARVVBUIEEYST GAR------UIPPRST GARVVBUIEEYST
• 4. Globalūs ir lokalūs palyginiai
• ABQRTASGGBV
• ABRRRASGVBB
• ABQRTASGGBV
• ABQ------SGGBV
• 5. Amino rūgčių pakeitimo matricos
• Amino rūgštys pasižymi tam tikromis, savitomis fizikinėmis ir cheminėmis savybėmis.
• Ortologiniuose baltymuose amino rūgštys keičiamos viena į kitą skirtingais dažnumais.
• Pakeitimo lengvumą (dažnumą) leidžia įvertinti A.A. pakeitimo matricos.
• 6. Amino rūgščių pakeitimo matricos pavyzdys
• 7. Amino rūgčių pakeitimo matricos
• BLOSUM ir PAM matricos.
• PAM –Point accepted mutation.
• Gautos lyginant 1572 mutacijas iš 71 baltymų šeimų.
• PAM1 – PAM30 – PAM70 – PAM250
• Netinka evoliuciškai nutolusiems baltymams
• 8. BLOSUM
• BLOSUM - BLOcks of Amino Acid SUbstitution Matrix
• Sudaromas daugybinis palyginys iš mažai pakitusių baltymų sekų regionų
• Tinka evoliuciškai labiau nutolusiems baltymams
• BLOSUM40-BLOSUM62-BLOSUM80
• 9. Sekų sulyginimo algoritmai
• Taškinės matricos (dot matrix)
• Dinaminis programavimas
• FASTA
• BLAST
• 10. Dinaminis programavimas
• DP yra vienas iš algoritmų, taikomų optimizavimo problemoms spręsti
• DP veikia skaidant didelę užduotį į mažesnes sub-užduotis.
• 11. Dinaminis programavimas
• Kiekviena subužduotis vykdoma tik vieną kartą, o jos rezultatas išsaugomas
• DP pasirenka sprendinį su didžiausiu (mažiausiu) įverčiu
• 12. Dinaminis programavimas
• Gali būti taikomas globalių ir lokalių palyginių paieškai.
• Palyginių įvertinimui gali būti naudojamos pakeitimo matricos
• Reikia įvesti tarpo buvimo palyginyje “baudą”
• 13. Dinaminis programavimas
• Tikslas – surasti optimalų globalų palyginį tarp dviejų sekų leidžiant atsirasti tarpams.
• Sudaroma matrica F, kurios elementai F(i,j) turi geriausio palyginio įverčio reikšmę kai naudojamos i ir j ilgio subsekos
• 14. Dinaminis programavimas
• F(i,j) = max { F(i-1, j-1) + s(xi , yj ); F(i-1,j) – d; F(i, j-1) – d }
• s(a,b) yra panašumo įvertis, gaunamas iš panašumo matricos.
• d yra tarpo įvedimo bauda
• 15. Dinaminis programavimas
• Sukonstravus matricą galima nesunkiai surasti palyginį.
• 16. Didžiausios bendros sekos paieška
• 17. Didžiausios bendros sekos paieška
• 18. Didžiausios bendros sekos paieška
• 19. Didžiausios bendros sekos paieška
• 20. Didžiausios bendros sekos paieška
• 21. Needleman-Wunsch algorit mas
• S1' = GCCCTAGCG
• S2' = GCGC-AATG
Query: 1 gccctagcg 9 || | | | Target: 1 gcgc-aatg 8
• 22. Lokalių palyginių paieška
• Neigiamos reikšmės paverčiamos į 0
• Surandama didžiausia įverčio reikšmė visoje matricoje ir nuo jos atsekamas palyginys
• 23. Dinaminis programavimas
• Garantuoja optimalaus palyginio radimą (naudojant tam tikrą įverčių schemą)
• Lėtas - sudėtingumas O(n 2 )
• Kompiuterio atminties reikalavimai auga kvadratiškai nuo sekos ilgio
• Netinka ilgų sekų palyginimui
• 24. Smith-Waterman algorit mas
• Geriausias lokalus palyginys:
• gcg
• 25. FASTA algoritmas
• DP algoritmas atlieka daug skaičiavimų bereikšmėje srityje
• FASTA sutelkia paiešką į įstrižainių sritį
6 5 5 5 5 4 3 3 3 2 1 A 5 5 5 5 4 4 3 3 2 2 1 G 4 4 4 4 4 4 3 3 2 2 1 C 3 3 3 3 3 3 3 3 2 2 1 T 2 2 2 2 2 2 2 2 2 2 1 A 2 2 2 2 1 1 1 1 1 1 1 G 1 1 1 1 1 1 1 1 1 1 1 G A T T G A C T T A A G
• 26. FASTA
• Naudojami artiniai (“heuristika”):
• geras lokalus palyginys turi tam tikrą visiškos sutapimo subseką.
• 27. FASTA algoritmas
• Surasti visus “karštus taškus” (ilgio k sekos, kuirios idealiai sutampa)
• Galima naudoti “hash” arba “look-up” lenteles
• Atrinkti N geriausių sekų
• 28. FASTA algoritmas
• Apjungti sub-palyginius atsižvelgiant į tarpus
Vienas iš lokalių palyginių Tarpai
• 29. FASTA algoritmas
• Konstruojamas svorinis kryptinis grafas
• Mazgai yra sub-palyginiai
• Kraštinė (u,v) egzistuoja, jei u yra prieš v
• Kiekviena kraštinė turi tarpo baudą (neigiamas svoris)
• Ieškoma maksimalaus svorio kelio
Sub-se ka Kraštinė
• 30. FASTA algoritmas
• Apribotoje srityje naudojamas dinaminio programavimo algoritmas
Juostos plotis parametrizuotas
• 31. BLAST algoritmas
• Kitas heuristinis algoritmas
• Rezultatai įvertinami statistiškai
• Remiasi prielaida, kad homologinės sekos turi trumpų sekų porų su dideliais įverčiais.
• Šiuos trumpus segmentus algoritmas praplečia į abi puses kad būtų gautas optimalus palyginys
• 32. BLAST algoritmas
• Paruošiamieji darbai:
• 1 žingsnis – paruošti daugiausiai taškų turinčius žodžius iš užklausos sekos
• 33. BLAST Algorit mas
• 34. BLAST algoritmas Query Word Neighborhood words
• 35. BLAST algoritmas
• 2 žingsnis – paieška sekų duomenų bazėje. Kiekvienam žodžiui iš sąrašo randami tikslūs radiniai DB
Užklausos žodis Panašūs žodžiai DB sekos 1 žingsnis 2 žingsnis 1 seka 2 seka
• 36. BLAST algoritmas
• Galima naudotis hash-lentelėmis
žodžiai Hash lentelė
• 37. Pradinio High Scoring Segment Pair (HSP) praplėtimas Neighborhood Score Threshold Minimum Score Significance Decay
• 38. BLAST algoritmas
• 3 žingsnis – optimalaus palyginio paieška. Kiekviena rasta seka praplečiama į abi puses
• 4 žingsnis – palyginio statistinio reikšmingumo įvertinimas. Palyginio plėtimas stabdomas, kai E-reikšmė būna didesnė nei ribinė. Toks rastas segmentas vadinamas didelio įverčio segmentu ( High Scoring Segment Pair , HSSP, HSP)
• 39. BLAST algoritmas
• E- reikšmės apibrėžimas:
• Tikėtinas HSP, kurių įvertis didesnis nei S, skaičius
• E = K*n*m*e - λS
• K, λ nuo modelio priklausančios konstantos
• n, m užklausos ir sekos ilgiai
• 40. BLAST algoritmas
• Sekų įverčiai pasiskirstę pagal ekstremalių verčių dėsnį.
• 41. Algoritmų palyginimas
• Užklausos ilgis – 153
• DB dydis – 5997 sekos
0.118 [s] BLAST 0.618 [s] FASTA 16.989 [s] D.P Trukmė Algori tmas
• 42. Algoritmų palyginimas
• Dinaminis programavimas:
• Jautriausias algoritmas
• Panaudojama visa informacija
• Algoritmas lėtas
• Naudojamos ir bereikšmės sritys
• 43. Algoritmų palyginimas
• FASTA
• Mažiau jautrus nei DP ir BLAST
• Naudojama dalinė informacija pagreitinant skaičiavimus
• Rezultatai nevertinami statistiškai
• Žymiai greitesnis nei DP
• 44. Algoritmų palyginimas
• BLAST
• Jautresnis nei FASTA
• Rezultatai įvertinami statistiškai
• Greitesnis nei FASTA. Atsižvelgiant į rezultatų patikimumą atmetamas triukšmas ir tokiu būdu sutrumpėja skaičiavimo laikas