• Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
336
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Curs de Formació UEB Eines bioinformàtiques per a la investigació biomèdica 1r bloc: Introducció a la Bioinformàtica i les bases de dades Aplicacions guiades: 3ª sessió: Blast. Genome Browsers. Ferran Briansó (tècnic UEB) ferran.brianso@vhir.org https://ueb.ir.vhebron.netVall dHebron Institut de Recerca 21/06/2011
  • 2. Sesión 3 – Índice de contenidos BLAST - Motivación: predicción funcional - Similaridad vs Homología - Alineamiento por parejas – Sistemas de puntuación – Sistemas de puntuación para proteínas – Matrices de substitución (PAM, BLOSUM) - BLAST (Alineamiento contra BD) – Blast en NCBI – ¿Cómo funciona? – Parámetros, criterios, Bit-scores, E-values – ¿Dónde cortar? – ¿Existe homología? GENOME BROWSERS - Ensembl - NCBI Map Viewer - UCSC - VEGAVall dHebron Institut de Recerca 21/06/2011
  • 3. BLAST Búsqueda de homologíasVall dHebron Institut de Recerca 21/06/2011
  • 4. Predicción funcional de una proteína/gen - Secuencia problema: Queremos averiguar sus posibles propiedades. - La evolución es un proceso conservativo Cambian los residuos en una secuencia pero se conservan las propiedades bioquímicas y los procesos fisiológicos - Si somos capaces de encontrar secuencias homólogas a la secuencia problema podemos inferir que ésta “debe de tener” propiedades similares a las de la secuencia conocida. - La búsqueda (el hallazgo, de hecho) de secuencias homólogas puede ser una vía para predecir la función de una proteína o un gen.Vall dHebron Institut de Recerca 21/06/2011
  • 5. Similaridad vs Homología - Homología: - Descendencia de un ancestro común - Medida cualitativa: dos secuencias son homólogas o no lo son - Similaridad - Medida cuantitativa para determinar el grado de relación entre dos secuencias - Podemos usar una medida de similaridad para inferir homologíaVall dHebron Institut de Recerca 21/06/2011
  • 6. Sistemas de puntuación - Queremos medir el grado de similaridad de dos secuencias - Es necesario definir un criterio(sistema de puntuación) que evalue esta similaridad Ejemplo: - Match=1 - Mismatch=0 S= A T G C A G T T= A T A A G TVall dHebron Institut de Recerca 21/06/2011
  • 7. Sistemas de puntuación - El alineamiento de las secuencias puede aumentar la puntuación: - Match=1 S= A T G C A G T - Mismatch=0 T= A T A A G T - Gap=-1 p(s,t) 1 1 0 0 0 0 Σ= 2 S= A T G C A G T T= A T A A ▬ G T p(s,t) 1 1 0 0 -1 1 1 Σ= 3 S= A T G C A G T T= A T ▬ A A G TVall dHebron Institut de Recerca 21/06/2011
  • 8. Sistemas de puntuación - Match=1 S= A T G C A G T T= A T A A G T - Mismatch=-1 p(s,t) 1 1 -1 -1 -1 -1 Σ= -2 - Gap Open=-3 - Gap Ext.=-2 S= A T G C A G T T= A T A A ▬ G T p(s,t) 1 1 -1 -1 -5 1 1 Σ= -3 S= A T G C A G T T= A T ▬ A A G T p(s,t) 1 1 -5 -1 1 1 1 Σ= -1Vall dHebron Institut de Recerca 21/06/2011
  • 9. Sistemas de puntuación para proteínas - Match=1 - Mismatch=0 - Gap=-1 S= T T Y G A P P W C S T= − T G Y A P P P W S p(s,t) -1 1 0 0 1 1 1 0 0 1 Σ= 4 S= T T Y G A P P W C S T= T G Y A P P P W S −Vall dHebron Institut de Recerca 21/06/2011
  • 10. Sistemas de puntuación para proteínas  Los AA tienen distintas propiedades  posibilidades distintas de ser sustituidos unos por otros en la evolucion tiny P aliphatic C S+S small G I A G S V CSH N L T D hydrophobic M Y K E F Q W H R positive aromatic polar chargedVall dHebron Institut de Recerca 21/06/2011
  • 11. Matrices de substituciónA 4RN -1 5 -2 0 6 Pairwise alignment scoresD -2 -2 1 6 are determined using aC 0 -3 -3 -3 9 scoring matrix such asQ -1 1 0 0 -3 5E -1 0 0 2 -4 2 5 Blosum62G 0 -2 0 -1 -3 -2 -2 6H -2 0 1 -1 -3 0 0 -2 8I -1 -3 -3 -3 -1 -3 -3 -4 -3 4L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 A R N D C Q E G H I L K M F P S T W Y VVall dHebron Institut de Recerca 21/06/2011
  • 12. Matrices de substitución BLOSUM62 S= T T Y G A P P W C S T= − T G Y A P P P W S p(s,t) -1 5 -3 -3 4 7 7 -4 -2 4 Σ= 14 S= T T Y G A P P W C S T= T G Y A P P P W − SVall dHebron Institut de Recerca 21/06/2011
  • 13. Matrices de substitución - No hay una matriz única que se pueda usar siempre - Según la familia de proteínas y el grado de similitud esperado se usará una u otra - Las más utilizadas PAM y BLOSUM - PAM: Percent Accepted Mutation Matrix - Derivadas de alineamientos globales de secuencias próximas - PAM40  PAM250. A mayor nº, mayor distancia evolutiva - BLOSUM: BLOcks of amino acid SUbstitution Matrix - Derivadas de alineamientos locales de secuencias distantes - BLOSUM90  BLOSUM45 El nº representa porcentaje de identidadVall dHebron Institut de Recerca 21/06/2011
  • 14. Matrices de substitución - Generalmente, la matrices BLOSUM funcionan mejor que las PAM para búsquedas de similaridad local(Henikoff & Henikoff, 1993). - Cuando comparamos proteinas cercanas deberíamos usar matrices PAM mas bajas o BLOSUM mas altas, mientras que para proteinas distantes sería mas conveniente el uso de matrices PAM mas altas o BLOSUM mas bajas. - Para búsquedas en BBDD sin información previa es bastante comun el uso de una BLOSUM62.Vall dHebron Institut de Recerca 21/06/2011
  • 15. Alineamiento contra BD Supongamos que buscamos secuencias homólogas a nuestra secuencia problema. - Una estrategia posible es hacer alineamientos contra una base de datos de secuencias. - El algoritmo de Smith-Waterman obtiene un alineamiento local óptimo, dado un sistema de puntuacion dado - Demasiado lento para buscar contra una BBDDVall dHebron Institut de Recerca 21/06/2011
  • 16. Alineamiento vs BD - El algoritmo BLAST(Basic Local Alignment Search Tool) permite un rápida comparación(alineamiento) de una secuencia problema contra una BBDD - Es rápido y preciso (ademas, accesible via web) - Algoritmo heurístico: puede obviar alineamientos óptimosVall dHebron Institut de Recerca 21/06/2011
  • 17. Blast en NCBIVall dHebron Institut de Recerca 21/06/2011
  • 18. Blast en NCBIVall dHebron Institut de Recerca 21/06/2011
  • 19. EjemploVall dHebron Institut de Recerca 21/06/2011
  • 20. EjemploVall dHebron Institut de Recerca 21/06/2011
  • 21. ¿Cómo funciona Blast? - Fase 1: compilar una lista de palabras (w=3) con score por encima de un threshold T (high- scoring segment pairs (HSPs)) - Ejemplo: búsqueda para “human RBP” …FSGTWYA… Lista de palabras (w=3): FSG SGT GTW TWY WYA YSG TGT ATW SWY WFA FTG SVT GSW TWF WYSVall dHebron Institut de Recerca 21/06/2011
  • 22. ¿Cómo funciona Blast? Fase 2: - Escaneo de la base de datos para buscar entradas que coincidan con la lista compilada. - Esto es relativamente rápido y fácil.Vall dHebron Institut de Recerca 21/06/2011
  • 23. ¿Cómo funciona Blast? - Fase 3: cuando encontramos un hit (es decir, una coincidencia entre una palabra y una entrada de la BBDD), extender el hit en ambas direcciones. - Calcular los “scores” a cada paso (usando la matriz de substitución) - Parar cuando la puntuación cae por debajo de cierto “cutoff”. KENFDKARFSGTWYAMAKKDPEG RBP (query) MKGLDIQKVAGTWYSLAMAASD lactoglobulin (hit) extender extender Hit!Vall dHebron Institut de Recerca 21/06/2011
  • 24. Parámetros del algoritmoVall dHebron Institut de Recerca 21/06/2011
  • 25. Criterios de selecciónVall dHebron Institut de Recerca 21/06/2011
  • 26. Bit-scores - El valor de la puntuaciones obtenidas por un emparejamiento carecen de sentido si no se tiene en cuenta el tamaño de la base de datos y el sistema de puntuación - Los Bit-scores normalizan las puntuaciones para independizarlas de ambos factores de forma que podamos compararlasVall dHebron Institut de Recerca 21/06/2011
  • 27. E-values E = Kmn e-λS - Dada una secuencia que ha obtenido una puntuacion E- value es el número esperado de puntuaciones iguales o superiores a las de dicha secuencia atribuibles al azar. - Un E-value de 10 para una coincidencia significa, que, en una base de datos de secuencias aleatorias del mismo tamaño en la que se ha realizado la búsqueda, se podría esperar encontrar hasta 10 coincidencias con la misma puntuación o similar. - El E-value es la medida de corte más utilizada en las búsquedas en bases de datos. Sólo se informa de las coincidencias que superan un nivel mínimo - El E-value oscila entre 0 y cualquier valorVall dHebron Institut de Recerca 21/06/2011
  • 28. ¿Dónde cortar? - Valores bajos de E se pueden interpretar como un p- valor (probabilidad de encontrar por azar una secuencia con la misma puntuación o superior) - Si queremos seguridad de que las seqs. que encontramos son realmente homologas (mas especificidad), tomaremos valores de corte pequeños (E=0.05, 0.1 + Bit scores altos + Alto porcentaje de identidad) - Si, en cambio, nos interesa explorar y priorizamos no perder información por delante de la seguridad (mas sensibilidad), podemos relajar el punto de corte (E=1, 10 + Bit scores normales + Alto porcentaje de identidad)Vall dHebron Institut de Recerca 21/06/2011
  • 29. ¿Existe homología? >gb|AAA60147.1| placental protein 14 [Homo sapiens] Length=162 Score = 33.9 bits (76), Expect = 0.34 Identities = 24/107 (22%), Positives = 46/107 (42%), Gaps = 11/107 (10%) Query 28 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 86 + K++ + + +GTW++MA + L + A V T + +L+ W+ Sbjct 5 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEIVLHRWEN 63 Query 87 -VCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTY 132 C + T +P KFK+ Y ++ ++DTDYD + Sbjct 64 NSCVEKKVLGEKTGNPKKFKINYTVA--------NEATLLDTDYDNF 102 - RBP4 y PAEP: Bit-score bajo, E-value 0.34, 22% identidad (“zona gris”). - Pero son, en efecto, homólogas. Se puede comprovar con una búsqueda BLAST con PAEP como secuencia “query”, y se encuentran muchas lipocalinas.Vall dHebron Institut de Recerca 21/06/2011
  • 30. Genome browsersVall dHebron Institut de Recerca 21/06/2011
  • 31. Sesión 3 – Índice de contenidos BLAST - Motivación: predicción funcional - Similaridad vs Homología - Alineamiento por parejas – Sistemas de puntuación – Sistemas de puntuación para proteínas – Matrices de substitución (PAM, BLOSUM) - BLAST (Alineamiento contra BD) – Blast en NCBI – ¿Cómo funciona? – Parámetros, criterios, Bit-scores, E-values – ¿Dónde cortar? – ¿Existe homología? GENOME BROWSERS - Ensembl - NCBI Map Viewer - UCSC - VEGAVall dHebron Institut de Recerca 21/06/2011
  • 32. Genome Browsers Ensembl http://www.ensembl.org NCBI Map Viewer http://www.ncbi.nlm.nih.gov/projects/mapview UCSC Genome Browser http://genome.ucsc.edu/ VEGA Genome Browser http://vega.sanger.ac.ukVall dHebron Institut de Recerca 21/06/2011