Curs de Formació UEB        Eines bioinformàtiques per a la            investigació biomèdica                   1r bloc: I...
Sesión 3 – Índice de contenidos          BLAST          - Motivación: predicción funcional          - Similaridad vs Homol...
BLAST        Búsqueda de homologíasVall dHebron Institut de Recerca   21/06/2011
Predicción funcional de una                        proteína/gen      - Secuencia problema:          Queremos averiguar sus...
Similaridad vs Homología      - Homología:          - Descendencia de un ancestro común          - Medida cualitativa: dos...
Sistemas de puntuación      - Queremos medir el grado de similaridad de dos secuencias      - Es necesario definir un crit...
Sistemas de puntuación       - El alineamiento de las secuencias puede aumentar        la puntuación:        - Match=1    ...
Sistemas de puntuación       - Match=1                    S=       A   T   G    C    A    G    T                          ...
Sistemas de puntuación                     para proteínas       - Match=1       - Mismatch=0       - Gap=-1               ...
Sistemas de puntuación                     para proteínas               Los AA tienen distintas propiedades           po...
Matrices de substituciónA    4RN    -1 5    -2 0 6                              Pairwise alignment scoresD   -2 -2 1 6    ...
Matrices de substitución       BLOSUM62             S=        T    T   Y    G    A   P   P   W    C    S             T=   ...
Matrices de substitución      - No hay una matriz única que se pueda usar siempre      - Según la familia de proteínas y e...
Matrices de substitución      - Generalmente, la matrices BLOSUM funcionan mejor que         las PAM para búsquedas de sim...
Alineamiento contra BD      Supongamos que buscamos secuencias homólogas a nuestra        secuencia problema.      - Una e...
Alineamiento vs BD      - El algoritmo BLAST(Basic Local Alignment Search Tool)         permite un rápida comparación(alin...
Blast en NCBIVall dHebron Institut de Recerca        21/06/2011
Blast en NCBIVall dHebron Institut de Recerca        21/06/2011
EjemploVall dHebron Institut de Recerca        21/06/2011
EjemploVall dHebron Institut de Recerca        21/06/2011
¿Cómo funciona Blast?      - Fase 1: compilar una lista de palabras (w=3) con         score por encima de un threshold T (...
¿Cómo funciona Blast?     Fase 2:     - Escaneo de la base de datos para buscar       entradas que coincidan con la lista ...
¿Cómo funciona Blast?     -   Fase 3: cuando encontramos un hit     (es decir, una coincidencia entre una palabra y una en...
Parámetros del algoritmoVall dHebron Institut de Recerca     21/06/2011
Criterios de selecciónVall dHebron Institut de Recerca        21/06/2011
Bit-scores     - El valor de la puntuaciones obtenidas por un        emparejamiento carecen de sentido si no se        tie...
E-values         E = Kmn e-λS     - Dada una secuencia que ha obtenido una puntuacion E-        value es el número esperad...
¿Dónde cortar?     - Valores bajos de E se pueden interpretar como un p-        valor (probabilidad de encontrar por azar ...
¿Existe homología?     >gb|AAA60147.1| placental protein 14 [Homo sapiens]     Length=162      Score = 33.9 bits (76), Exp...
Genome browsersVall dHebron Institut de Recerca   21/06/2011
Sesión 3 – Índice de contenidos          BLAST          - Motivación: predicción funcional          - Similaridad vs Homol...
Genome Browsers     Ensembl                 http://www.ensembl.org     NCBI Map Viewer         http://www.ncbi.nlm.nih.gov...
Upcoming SlideShare
Loading in...5
×

Curs einesbioinformatiques juny2011_bloc1_sessio3

420
-1

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
420
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Curs einesbioinformatiques juny2011_bloc1_sessio3

  1. 1. Curs de Formació UEB Eines bioinformàtiques per a la investigació biomèdica 1r bloc: Introducció a la Bioinformàtica i les bases de dades Aplicacions guiades: 3ª sessió: Blast. Genome Browsers. Ferran Briansó (tècnic UEB) ferran.brianso@vhir.org https://ueb.ir.vhebron.netVall dHebron Institut de Recerca 21/06/2011
  2. 2. Sesión 3 – Índice de contenidos BLAST - Motivación: predicción funcional - Similaridad vs Homología - Alineamiento por parejas – Sistemas de puntuación – Sistemas de puntuación para proteínas – Matrices de substitución (PAM, BLOSUM) - BLAST (Alineamiento contra BD) – Blast en NCBI – ¿Cómo funciona? – Parámetros, criterios, Bit-scores, E-values – ¿Dónde cortar? – ¿Existe homología? GENOME BROWSERS - Ensembl - NCBI Map Viewer - UCSC - VEGAVall dHebron Institut de Recerca 21/06/2011
  3. 3. BLAST Búsqueda de homologíasVall dHebron Institut de Recerca 21/06/2011
  4. 4. Predicción funcional de una proteína/gen - Secuencia problema: Queremos averiguar sus posibles propiedades. - La evolución es un proceso conservativo Cambian los residuos en una secuencia pero se conservan las propiedades bioquímicas y los procesos fisiológicos - Si somos capaces de encontrar secuencias homólogas a la secuencia problema podemos inferir que ésta “debe de tener” propiedades similares a las de la secuencia conocida. - La búsqueda (el hallazgo, de hecho) de secuencias homólogas puede ser una vía para predecir la función de una proteína o un gen.Vall dHebron Institut de Recerca 21/06/2011
  5. 5. Similaridad vs Homología - Homología: - Descendencia de un ancestro común - Medida cualitativa: dos secuencias son homólogas o no lo son - Similaridad - Medida cuantitativa para determinar el grado de relación entre dos secuencias - Podemos usar una medida de similaridad para inferir homologíaVall dHebron Institut de Recerca 21/06/2011
  6. 6. Sistemas de puntuación - Queremos medir el grado de similaridad de dos secuencias - Es necesario definir un criterio(sistema de puntuación) que evalue esta similaridad Ejemplo: - Match=1 - Mismatch=0 S= A T G C A G T T= A T A A G TVall dHebron Institut de Recerca 21/06/2011
  7. 7. Sistemas de puntuación - El alineamiento de las secuencias puede aumentar la puntuación: - Match=1 S= A T G C A G T - Mismatch=0 T= A T A A G T - Gap=-1 p(s,t) 1 1 0 0 0 0 Σ= 2 S= A T G C A G T T= A T A A ▬ G T p(s,t) 1 1 0 0 -1 1 1 Σ= 3 S= A T G C A G T T= A T ▬ A A G TVall dHebron Institut de Recerca 21/06/2011
  8. 8. Sistemas de puntuación - Match=1 S= A T G C A G T T= A T A A G T - Mismatch=-1 p(s,t) 1 1 -1 -1 -1 -1 Σ= -2 - Gap Open=-3 - Gap Ext.=-2 S= A T G C A G T T= A T A A ▬ G T p(s,t) 1 1 -1 -1 -5 1 1 Σ= -3 S= A T G C A G T T= A T ▬ A A G T p(s,t) 1 1 -5 -1 1 1 1 Σ= -1Vall dHebron Institut de Recerca 21/06/2011
  9. 9. Sistemas de puntuación para proteínas - Match=1 - Mismatch=0 - Gap=-1 S= T T Y G A P P W C S T= − T G Y A P P P W S p(s,t) -1 1 0 0 1 1 1 0 0 1 Σ= 4 S= T T Y G A P P W C S T= T G Y A P P P W S −Vall dHebron Institut de Recerca 21/06/2011
  10. 10. Sistemas de puntuación para proteínas  Los AA tienen distintas propiedades  posibilidades distintas de ser sustituidos unos por otros en la evolucion tiny P aliphatic C S+S small G I A G S V CSH N L T D hydrophobic M Y K E F Q W H R positive aromatic polar chargedVall dHebron Institut de Recerca 21/06/2011
  11. 11. Matrices de substituciónA 4RN -1 5 -2 0 6 Pairwise alignment scoresD -2 -2 1 6 are determined using aC 0 -3 -3 -3 9 scoring matrix such asQ -1 1 0 0 -3 5E -1 0 0 2 -4 2 5 Blosum62G 0 -2 0 -1 -3 -2 -2 6H -2 0 1 -1 -3 0 0 -2 8I -1 -3 -3 -3 -1 -3 -3 -4 -3 4L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 A R N D C Q E G H I L K M F P S T W Y VVall dHebron Institut de Recerca 21/06/2011
  12. 12. Matrices de substitución BLOSUM62 S= T T Y G A P P W C S T= − T G Y A P P P W S p(s,t) -1 5 -3 -3 4 7 7 -4 -2 4 Σ= 14 S= T T Y G A P P W C S T= T G Y A P P P W − SVall dHebron Institut de Recerca 21/06/2011
  13. 13. Matrices de substitución - No hay una matriz única que se pueda usar siempre - Según la familia de proteínas y el grado de similitud esperado se usará una u otra - Las más utilizadas PAM y BLOSUM - PAM: Percent Accepted Mutation Matrix - Derivadas de alineamientos globales de secuencias próximas - PAM40  PAM250. A mayor nº, mayor distancia evolutiva - BLOSUM: BLOcks of amino acid SUbstitution Matrix - Derivadas de alineamientos locales de secuencias distantes - BLOSUM90  BLOSUM45 El nº representa porcentaje de identidadVall dHebron Institut de Recerca 21/06/2011
  14. 14. Matrices de substitución - Generalmente, la matrices BLOSUM funcionan mejor que las PAM para búsquedas de similaridad local(Henikoff & Henikoff, 1993). - Cuando comparamos proteinas cercanas deberíamos usar matrices PAM mas bajas o BLOSUM mas altas, mientras que para proteinas distantes sería mas conveniente el uso de matrices PAM mas altas o BLOSUM mas bajas. - Para búsquedas en BBDD sin información previa es bastante comun el uso de una BLOSUM62.Vall dHebron Institut de Recerca 21/06/2011
  15. 15. Alineamiento contra BD Supongamos que buscamos secuencias homólogas a nuestra secuencia problema. - Una estrategia posible es hacer alineamientos contra una base de datos de secuencias. - El algoritmo de Smith-Waterman obtiene un alineamiento local óptimo, dado un sistema de puntuacion dado - Demasiado lento para buscar contra una BBDDVall dHebron Institut de Recerca 21/06/2011
  16. 16. Alineamiento vs BD - El algoritmo BLAST(Basic Local Alignment Search Tool) permite un rápida comparación(alineamiento) de una secuencia problema contra una BBDD - Es rápido y preciso (ademas, accesible via web) - Algoritmo heurístico: puede obviar alineamientos óptimosVall dHebron Institut de Recerca 21/06/2011
  17. 17. Blast en NCBIVall dHebron Institut de Recerca 21/06/2011
  18. 18. Blast en NCBIVall dHebron Institut de Recerca 21/06/2011
  19. 19. EjemploVall dHebron Institut de Recerca 21/06/2011
  20. 20. EjemploVall dHebron Institut de Recerca 21/06/2011
  21. 21. ¿Cómo funciona Blast? - Fase 1: compilar una lista de palabras (w=3) con score por encima de un threshold T (high- scoring segment pairs (HSPs)) - Ejemplo: búsqueda para “human RBP” …FSGTWYA… Lista de palabras (w=3): FSG SGT GTW TWY WYA YSG TGT ATW SWY WFA FTG SVT GSW TWF WYSVall dHebron Institut de Recerca 21/06/2011
  22. 22. ¿Cómo funciona Blast? Fase 2: - Escaneo de la base de datos para buscar entradas que coincidan con la lista compilada. - Esto es relativamente rápido y fácil.Vall dHebron Institut de Recerca 21/06/2011
  23. 23. ¿Cómo funciona Blast? - Fase 3: cuando encontramos un hit (es decir, una coincidencia entre una palabra y una entrada de la BBDD), extender el hit en ambas direcciones. - Calcular los “scores” a cada paso (usando la matriz de substitución) - Parar cuando la puntuación cae por debajo de cierto “cutoff”. KENFDKARFSGTWYAMAKKDPEG RBP (query) MKGLDIQKVAGTWYSLAMAASD lactoglobulin (hit) extender extender Hit!Vall dHebron Institut de Recerca 21/06/2011
  24. 24. Parámetros del algoritmoVall dHebron Institut de Recerca 21/06/2011
  25. 25. Criterios de selecciónVall dHebron Institut de Recerca 21/06/2011
  26. 26. Bit-scores - El valor de la puntuaciones obtenidas por un emparejamiento carecen de sentido si no se tiene en cuenta el tamaño de la base de datos y el sistema de puntuación - Los Bit-scores normalizan las puntuaciones para independizarlas de ambos factores de forma que podamos compararlasVall dHebron Institut de Recerca 21/06/2011
  27. 27. E-values E = Kmn e-λS - Dada una secuencia que ha obtenido una puntuacion E- value es el número esperado de puntuaciones iguales o superiores a las de dicha secuencia atribuibles al azar. - Un E-value de 10 para una coincidencia significa, que, en una base de datos de secuencias aleatorias del mismo tamaño en la que se ha realizado la búsqueda, se podría esperar encontrar hasta 10 coincidencias con la misma puntuación o similar. - El E-value es la medida de corte más utilizada en las búsquedas en bases de datos. Sólo se informa de las coincidencias que superan un nivel mínimo - El E-value oscila entre 0 y cualquier valorVall dHebron Institut de Recerca 21/06/2011
  28. 28. ¿Dónde cortar? - Valores bajos de E se pueden interpretar como un p- valor (probabilidad de encontrar por azar una secuencia con la misma puntuación o superior) - Si queremos seguridad de que las seqs. que encontramos son realmente homologas (mas especificidad), tomaremos valores de corte pequeños (E=0.05, 0.1 + Bit scores altos + Alto porcentaje de identidad) - Si, en cambio, nos interesa explorar y priorizamos no perder información por delante de la seguridad (mas sensibilidad), podemos relajar el punto de corte (E=1, 10 + Bit scores normales + Alto porcentaje de identidad)Vall dHebron Institut de Recerca 21/06/2011
  29. 29. ¿Existe homología? >gb|AAA60147.1| placental protein 14 [Homo sapiens] Length=162 Score = 33.9 bits (76), Expect = 0.34 Identities = 24/107 (22%), Positives = 46/107 (42%), Gaps = 11/107 (10%) Query 28 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 86 + K++ + + +GTW++MA + L + A V T + +L+ W+ Sbjct 5 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEIVLHRWEN 63 Query 87 -VCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTY 132 C + T +P KFK+ Y ++ ++DTDYD + Sbjct 64 NSCVEKKVLGEKTGNPKKFKINYTVA--------NEATLLDTDYDNF 102 - RBP4 y PAEP: Bit-score bajo, E-value 0.34, 22% identidad (“zona gris”). - Pero son, en efecto, homólogas. Se puede comprovar con una búsqueda BLAST con PAEP como secuencia “query”, y se encuentran muchas lipocalinas.Vall dHebron Institut de Recerca 21/06/2011
  30. 30. Genome browsersVall dHebron Institut de Recerca 21/06/2011
  31. 31. Sesión 3 – Índice de contenidos BLAST - Motivación: predicción funcional - Similaridad vs Homología - Alineamiento por parejas – Sistemas de puntuación – Sistemas de puntuación para proteínas – Matrices de substitución (PAM, BLOSUM) - BLAST (Alineamiento contra BD) – Blast en NCBI – ¿Cómo funciona? – Parámetros, criterios, Bit-scores, E-values – ¿Dónde cortar? – ¿Existe homología? GENOME BROWSERS - Ensembl - NCBI Map Viewer - UCSC - VEGAVall dHebron Institut de Recerca 21/06/2011
  32. 32. Genome Browsers Ensembl http://www.ensembl.org NCBI Map Viewer http://www.ncbi.nlm.nih.gov/projects/mapview UCSC Genome Browser http://genome.ucsc.edu/ VEGA Genome Browser http://vega.sanger.ac.ukVall dHebron Institut de Recerca 21/06/2011
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×