PREDICCION DE GENES CON GENSCAN José María Hidalgo Utrera Joan Miquel Fuster Mollá Ana Isabel Martínez García
ÍNDICE <ul><li>Introducción </li></ul><ul><li>Problemas </li></ul><ul><li>Conocimientos básicos </li></ul><ul><li>Objetivo...
Introducción <ul><li>GENSCAN: modelo probabilístico capaz de encontrar múltiples genes o genes parciales en una secuencia....
Problemas <ul><li>Al principio, encontrar elementos funcionales, promotores, splice, regiones codificadas (por métodos bio...
Conocimientos básicos exon exon start donor acceptor intron CDS UTR UTR Región reguladora  EXON 1  EXON 2  EXON 3  EXON 4 ...
Splice Sites
Objetivos <ul><li>Intenta encontrar, mediante métodos computacionales, la localización de zonas importantes, como: </li></...
Objetivos <ul><li>Algunas características del modelo: </li></ul><ul><ul><li>Capturar diferencias en la estructura de genes...
Objetivos <ul><li>Genscan puede ser usado para detectar genes noveles (genes que no se encuentran en la BD). </li></ul><ul...
Modelo general <ul><li>Modelos de Markov: </li></ul><ul><ul><li>Modelo probabilístico basado en la estadística. </li></ul>...
Modelo general <ul><li>Aquí usamos un modelo de Markov de 5º Orden: </li></ul>
Modelo general Signal Models State length  distributions Transcriptional  Translational signals Splice Signals MDD Accepto...
Modelo general <ul><li>Estados: representan una unidad funcional de un gen eukariota (exón, intrón,etc...) </li></ul><ul><...
Modelo general <ul><li>Fase k (+):  </li></ul><ul><ul><li>k= 0. Aceptador </li></ul></ul><ul><ul><li>k = 1. Región codific...
Método: Conjunto de secuencias <ul><li>Proceso para elegir las secuencias de genes: </li></ul><ul><ul><li>GenBank: Conjunt...
Método: Conjunto de secuencias <ul><ul><li>Borrado de genes con más de 25% igualdad a nivel de aminoácidos (PROSET). </li>...
Método: Algorithmic issues <ul><li>Dado una secuencia S de longitud L, la probabilidad de unión de generar el parse  Φ i :...
Método: Probabilidades inicial y de transición
Método: State length distributions <ul><li>Importante: longitud en los exones internos.  </li></ul><ul><ul><li>Pueden prod...
Método: State length distributions <ul><li>Poner figura 4 </li></ul>
Método: Signal models <ul><li>Modelo weight matrix method WMM de Staden. </li></ul><ul><ul><li>Frecuencia pij de cada nucl...
Método: Transcriptional and translational signals <ul><li>Señal polyA: 6 bp WMM (consensus: AATAAA) model. </li></ul><ul><...
Método: Splice signals <ul><li>Señales de donante y aceptador son las más críticas para la buena predicción de genes. </li...
Método: Splice signals
Método: MDD <ul><li>Estudio sobre un conjunto de zonas de corte y empalme. </li></ul><ul><li>Subdividir el conjunto hasta ...
Método: MDD
Método: Aceptor splice site model <ul><li>Consiste en el modelado de la región de splice utilizando una ventana WAM. </li>...
Método: Exon Models <ul><li>Utilizado cuando es mayor la concentración A+T. </li></ul><ul><li>No es posible utilizar proba...
Método: Reserve-strand states <ul><li>Depende del sentido en el que se lea la hebra. </li></ul><ul><li>Ej: </li></ul><ul><...
Limitaciones <ul><li>Número de genes </li></ul><ul><li>Organismo </li></ul><ul><li>Tests no representativos </li></ul><ul>...
Resultados <ul><li>Test con conjunto Burset/Guigó: 570 vertebrados (multiexones). </li></ul><ul><li>La evaluación del conj...
Resultados <ul><li>Nivel de Base (Nucleótido).  </li></ul><ul><ul><li>Fiabilidad de la predicción por base </li></ul></ul>...
Resultados <ul><li>Nivel de Base (Nucleótido) </li></ul><ul><li>TP : verdadero positivo </li></ul><ul><li>TN : verdadero n...
Resultados <ul><li>Nivel de Base (Nucleótido).  </li></ul><ul><ul><li>Sn : Sensibilidad = TP/(TP+FN) </li></ul></ul><ul><u...
Resultados <ul><li>Nivel de Exón (Estructura del exón) </li></ul><ul><ul><li>Sn : Sensibilidad =Num exones correctos/Num e...
Resultados <ul><li>Nivel de Proteína (Proteína). </li></ul><ul><ul><li>% Sim : porcentaje de similaridad entre la secuenci...
Resultados: Nivel de estructuras completas <ul><li>No por homología: los de arriba: </li></ul><ul><ul><li>FGENEH: Para sec...
Resultados: Nivel de gen <ul><li>Resultados a nivel de gen  (GA) para un conjunto de secuencias: proporción de genes que r...
Resultados: Nivel de gen <ul><li>Relativamente insensible al contenido C+G (CC) </li></ul><ul><li>Similar a AC. </li></ul>
Resultados: Nivel de Gen <ul><li>Factor p  (Probabilidad adelante-atrás) =  Probabilidad de que un exon predicho sea corre...
Resultados: Entrenamiento <ul><li>Uso de un conjunto independiente. </li></ul><ul><li>Por solapamiento: Eliminación genes ...
Resultados: Entrenamiento <ul><li>Fueron los mismos que con el conjunto Burset/Guigó. </li></ul><ul><li>Pero sí hay difere...
Resultados: Entrenamiento <ul><li>Conjunto I: 28 secuencias. </li></ul><ul><li>Conjunto II: 34 secuencias </li></ul>
Resultados: Notas <ul><li>Ninguno de los resultados son verdaderamente significativos de la realidad. Aquí usamos secuenci...
Resultados: Secuencias largas <ul><li>Los dos encuentran exones conocidos, pero con diferencias </li></ul>
Resultados: Secuencias largas <ul><li>GENSCAN predice genes. </li></ul><ul><li>GRAIL predice exones en la secuencia. </li>...
Conclusión <ul><li>GENSCAN es lo “mejor” </li></ul>
Upcoming SlideShare
Loading in …5
×

FusterMolla.PPT

571 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
571
On SlideShare
0
From Embeds
0
Number of Embeds
18
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • splice site determination is a crucial part of determining gene structure. All good programs take these short motifs into account. INTRON: RNASPL: A V. Solovyev program ( h ttp://dot.imgen.bcm.tmc.edu:9331/gene-finder/gf.html) Recognition of exon-exon junctions in cDNA. Prediction is performed by linear discriminant function combining characteristics describing tipical sequences around exon-exon junctions. SPLICEVIEW: The program is based on prediction of splice signals by classification approach (a set of consensuses). It is based on two main assumptions: 1) The high frequency of some nucleotides in definite site positions reflects a functional importance to preserve the nucleotide in this position. 2) Nucleotides of different site positions are considered to be mutually dependent, thus forming the structure which might be recognised by some particle. (http://l25.itba.mi.cnr.it/~webgene/wwwspliceview_help.html)
  • FusterMolla.PPT

    1. 1. PREDICCION DE GENES CON GENSCAN José María Hidalgo Utrera Joan Miquel Fuster Mollá Ana Isabel Martínez García
    2. 2. ÍNDICE <ul><li>Introducción </li></ul><ul><li>Problemas </li></ul><ul><li>Conocimientos básicos </li></ul><ul><li>Objetivos </li></ul><ul><li>Modelo general. Métodos </li></ul><ul><li>Limitaciones </li></ul><ul><li>Resultados </li></ul><ul><li>Conclusión </li></ul>
    3. 3. Introducción <ul><li>GENSCAN: modelo probabilístico capaz de encontrar múltiples genes o genes parciales en una secuencia. </li></ul><ul><li>( http ://genes.mit.edu/GENSCAN.html ) </li></ul><ul><li>Tipos de predicción </li></ul><ul><ul><li>Por Homología </li></ul></ul><ul><ul><li>Por uso de Señales </li></ul></ul><ul><ul><li>Por análisis Estadístico </li></ul></ul>
    4. 4. Problemas <ul><li>Al principio, encontrar elementos funcionales, promotores, splice, regiones codificadas (por métodos biológicos). </li></ul><ul><li>Después, predicción de genes completos (por métodos informáticos) con limitaciones: </li></ul><ul><ul><li>Algoritmo suponen las secuencias contienen genes completos. </li></ul></ul><ul><ul><li>Sólo 50% de exones identificados. </li></ul></ul>
    5. 5. Conocimientos básicos exon exon start donor acceptor intron CDS UTR UTR Región reguladora EXON 1 EXON 2 EXON 3 EXON 4 EXON n Región reguladora PROMOTOR 3` Intrón 1 Intrón 2 Intrón 3 Secuencia que no se traduce Secuencia que no se traduce 5`
    6. 6. Splice Sites
    7. 7. Objetivos <ul><li>Intenta encontrar, mediante métodos computacionales, la localización de zonas importantes, como: </li></ul><ul><ul><li>Actividad transcripcional. </li></ul></ul><ul><ul><li>Las zonas de corte y empalme (splicing). </li></ul></ul><ul><li>Utiliza un modelo probabilístico para la predicción de la localización de exones/genes en secuencias genómicas. </li></ul>
    8. 8. Objetivos <ul><li>Algunas características del modelo: </li></ul><ul><ul><li>Capturar diferencias en la estructura de genes entre distintas regiones C + G. </li></ul></ul><ul><ul><li>Capacidad de predecir múltiples genes de una secuencia, genes parciales y completos. </li></ul></ul><ul><ul><li>Modelos estadísticos para las zonas de splicing del donante y del aceptador que capturan dependencias importantes entre las posiciones de la señal. </li></ul></ul>
    9. 9. Objetivos <ul><li>Genscan puede ser usado para detectar genes noveles (genes que no se encuentran en la BD). </li></ul><ul><li>En la práctica se suelen utilizar distintos programas a la vez que usamos Genscan: </li></ul><ul><ul><li>1. CENSOR : identifica y enmascara secuencias repetidas. </li></ul></ul><ul><ul><li>2. Uso de Genscan y las secuencias obtenidas buscarlas en bases de datos de proteínas con BLASTP para detectar posibles homólogos. </li></ul></ul><ul><ul><li>3.1 Si homólogos detectados, refinar la predicción sometiendo la región del genoma correspondiente junto con la proteína homologa usando Procrustes (algoritmo ”spliced alignment”). </li></ul></ul><ul><ul><li>3.2 Sino, se podría usar la base de datos Expressed Sequence Tags para precisar terminos 3’. </li></ul></ul><ul><ul><li>4. RT-PCR y 3’ RACE : para precisar las posiciones exactas de los exones/intrones y posibles zonas de unión (splice). </li></ul></ul>
    10. 10. Modelo general <ul><li>Modelos de Markov: </li></ul><ul><ul><li>Modelo probabilístico basado en la estadística. </li></ul></ul><ul><ul><li>Toma información adicional de los residuos de los vecinos. </li></ul></ul><ul><ul><li>Hay órdenes: </li></ul></ul><ul><ul><ul><li>Primer orden: Toma la información del nucleótido adyacente (precedencias y sucesores) </li></ul></ul></ul><ul><ul><ul><li>Orden N: Toma la información de los N nucleótidos más cercanos. </li></ul></ul></ul>
    11. 11. Modelo general <ul><li>Aquí usamos un modelo de Markov de 5º Orden: </li></ul>
    12. 12. Modelo general Signal Models State length distributions Transcriptional Translational signals Splice Signals MDD Acceptor splice Site model Exon models Reverse-strand states Algorithmic issues Initial, transition probabilities HMM
    13. 13. Modelo general <ul><li>Estados: representan una unidad funcional de un gen eukariota (exón, intrón,etc...) </li></ul><ul><li>N = región intergénica </li></ul><ul><li>P = promotor </li></ul><ul><li>F = región no traducida 5’ E sngl = gen de exon único </li></ul><ul><li>E init = exon inicial </li></ul><ul><li>E term = exon final </li></ul><ul><li>T = región no traducida 3’ </li></ul><ul><li>I k = intron de fase k (0<=k<=2) </li></ul><ul><li>A = señal polyadenylation </li></ul><ul><li>E k = Exon interno de fase k (0<=k<=2) </li></ul>
    14. 14. Modelo general <ul><li>Fase k (+): </li></ul><ul><ul><li>k= 0. Aceptador </li></ul></ul><ul><ul><li>k = 1. Región codificante </li></ul></ul><ul><ul><li>k = 2. Donador. </li></ul></ul><ul><li>Fase k (-) </li></ul><ul><ul><li>Al revés. </li></ul></ul><ul><li>Donadores, aceptadores y señales de inicio y fin se consideran dentro del exon correspondiente. </li></ul>
    15. 15. Método: Conjunto de secuencias <ul><li>Proceso para elegir las secuencias de genes: </li></ul><ul><ul><li>GenBank: Conjunto inicial no redundante (Kulp/Reese): </li></ul></ul><ul><ul><ul><li>Secuencias completas (ATG a stop por lo menos)  </li></ul></ul></ul><ul><ul><ul><li>Inclusión regiones 5’ 3’ no traducidas X </li></ul></ul></ul><ul><ul><ul><li>Uso BLASP: elimina redundancia </li></ul></ul></ul><ul><ul><li>Limpieza genes: </li></ul></ul><ul><ul><ul><li>CDS </li></ul></ul></ul><ul><ul><ul><li>Exones inciertos o putativos </li></ul></ul></ul><ul><ul><ul><li>Genes solapados </li></ul></ul></ul><ul><ul><ul><li>Pseudogenes </li></ul></ul></ul><ul><ul><ul><li>De origen viral </li></ul></ul></ul><ul><ul><li>Quedan 428 secuencias </li></ul></ul>
    16. 16. Método: Conjunto de secuencias <ul><ul><li>Borrado de genes con más de 25% igualdad a nivel de aminoácidos (PROSET). </li></ul></ul><ul><ul><li>Quedan 238 secuencias multi-exón y 142 de exón único = 2,580,965 pbs. </li></ul></ul><ul><li>Todos los parámetros en los métodos se basan en estos datos, salvo: </li></ul><ul><ul><li>Modelo promotor: basado en las fuentes publicadas </li></ul></ul><ul><ul><li>Modelo de región codificante: sustitución por otro conjunto de proteinas humanas de 100 aminoácidos de longitud mínimo (también PROSET). </li></ul></ul>
    17. 17. Método: Algorithmic issues <ul><li>Dado una secuencia S de longitud L, la probabilidad de unión de generar el parse Φ i : </li></ul><ul><ul><li>Uso del agortimo recursivo de Viterbi modificado porque aquí usamos un modelo semi-Markov. </li></ul></ul><ul><ul><li>P{S} se calcula con el algoritmo hacia delante; hacia atrás para el evento E (exon): </li></ul></ul>
    18. 18. Método: Probabilidades inicial y de transición
    19. 19. Método: State length distributions <ul><li>Importante: longitud en los exones internos. </li></ul><ul><ul><li>Pueden producir fallos al incluir el exon en el mRNA final. </li></ul></ul><ul><ul><li>Pueden producir interferencias en los factores que reconocen los splicing y podría hacer la unión de exones pequeños más difícil. </li></ul></ul><ul><ul><li>Idea “medium-sized” entre 50 y 300 bp, todo más fácil. </li></ul></ul>
    20. 20. Método: State length distributions <ul><li>Poner figura 4 </li></ul>
    21. 21. Método: Signal models <ul><li>Modelo weight matrix method WMM de Staden. </li></ul><ul><ul><li>Frecuencia pij de cada nucleótido j a cada posición i de una señal de longitud n. </li></ul></ul><ul><ul><li>: probabilidad de generar una secuencia particular (X=x1,x2,…,xn). </li></ul></ul><ul><ul><li>Modelo más simple usado para cierto tipo de señales. </li></ul></ul><ul><li>Modelo weight array (WAM)de Zhang & Marr </li></ul><ul><ul><li>Considera las dependencias entre las posiciones adyacentes </li></ul></ul><ul><ul><li>: probabilidad de generar una secuencia particular. </li></ul></ul><ul><ul><li>Deriva al modelo MDD. </li></ul></ul>
    22. 22. Método: Transcriptional and translational signals <ul><li>Señal polyA: 6 bp WMM (consensus: AATAAA) model. </li></ul><ul><li>Señal de iniciación de la traducción: (“CDS”). 12 bp WMM model. </li></ul><ul><li>Señal de terminación de la traducción: codón de parada (UAA, UAG, UGA) y siguientes tres nucleótidos usamos modelo WMM. </li></ul>
    23. 23. Método: Splice signals <ul><li>Señales de donante y aceptador son las más críticas para la buena predicción de genes. </li></ul><ul><li>Significantes dependencias tanto en posiciones no adyacentes como en las adyacentes en la señal del donante. </li></ul><ul><li>La región de consenso del donante se encuentra en los últimos 3 bp del exón (posiciones -3 a -1) y los primeros 6 bp del siguiente intrón (1 a 6). </li></ul>
    24. 24. Método: Splice signals
    25. 25. Método: MDD <ul><li>Estudio sobre un conjunto de zonas de corte y empalme. </li></ul><ul><li>Subdividir el conjunto hasta encontrar la secuencia modelo, basándonos en la tabla de dependencias creada. </li></ul>
    26. 26. Método: MDD
    27. 27. Método: Aceptor splice site model <ul><li>Consiste en el modelado de la región de splice utilizando una ventana WAM. </li></ul><ul><li>Objetivo: calcular probabilidades condicionales de todas y cada una de las posiciones. </li></ul>
    28. 28. Método: Exon Models <ul><li>Utilizado cuando es mayor la concentración A+T. </li></ul><ul><li>No es posible utilizar probabilidades calculadas. </li></ul><ul><li>Utiliza una matriz derivada de C+G < 43%. </li></ul>
    29. 29. Método: Reserve-strand states <ul><li>Depende del sentido en el que se lea la hebra. </li></ul><ul><li>Ej: </li></ul><ul><ul><li>se predice TAG – TAA – TGA </li></ul></ul><ul><ul><li>se generan CTA – TTA - TCA </li></ul></ul>
    30. 30. Limitaciones <ul><li>Número de genes </li></ul><ul><li>Organismo </li></ul><ul><li>Tests no representativos </li></ul><ul><li>Tipo de exón </li></ul><ul><li>Señales de Splice </li></ul>
    31. 31. Resultados <ul><li>Test con conjunto Burset/Guigó: 570 vertebrados (multiexones). </li></ul><ul><li>La evaluación del conjunto de Burset/Guigó consiste en tres pasos: </li></ul><ul><ul><li>Extraer un conjunto de secuencia de vertebrados de los que se conoce su estructura génica (Conjunto de Test); </li></ul></ul><ul><ul><li>Definición de un número de medidas de exactitud de predicción; y </li></ul></ul><ul><ul><li>Evaluación de un número de programas con el conjunto de test usando las medidas. </li></ul></ul>
    32. 32. Resultados <ul><li>Nivel de Base (Nucleótido). </li></ul><ul><ul><li>Fiabilidad de la predicción por base </li></ul></ul><ul><li>Nivel de Exón (Estructura del exón). </li></ul><ul><ul><li>Fiabilidad de la predicción con respecto a la predicción exacta del comienzo y fin del exón. </li></ul></ul><ul><li>Nivel de Proteína (Proteína). </li></ul><ul><ul><li>Fiabilidad de la predicción con respecto a la proteina codificada por el gen predicho </li></ul></ul>
    33. 33. Resultados <ul><li>Nivel de Base (Nucleótido) </li></ul><ul><li>TP : verdadero positivo </li></ul><ul><li>TN : verdadero negativo </li></ul><ul><li>FP : falso positivo </li></ul><ul><li>FN : falso negativo </li></ul>
    34. 34. Resultados <ul><li>Nivel de Base (Nucleótido). </li></ul><ul><ul><li>Sn : Sensibilidad = TP/(TP+FN) </li></ul></ul><ul><ul><li>Sp : Especificidad = TN/(TN+FP) </li></ul></ul><ul><ul><li>AC : Correlación aproximada </li></ul></ul><ul><ul><li>CC: Coeficiente de correlación </li></ul></ul>
    35. 35. Resultados <ul><li>Nivel de Exón (Estructura del exón) </li></ul><ul><ul><li>Sn : Sensibilidad =Num exones correctos/Num exones reales </li></ul></ul><ul><ul><li>Sp : Especificidad =Num exones correctos/Numero exones predichos </li></ul></ul><ul><ul><li>ME = Numero exones perdidos/Numero exones reales </li></ul></ul><ul><ul><li>WE = Numero exones erroneos/Numero exones predichos </li></ul></ul>
    36. 36. Resultados <ul><li>Nivel de Proteína (Proteína). </li></ul><ul><ul><li>% Sim : porcentaje de similaridad entre la secuencia de aminoácidos codificada por el gen predicho y la secuencia de aminoácidos codificada por el gen real </li></ul></ul>
    37. 37. Resultados: Nivel de estructuras completas <ul><li>No por homología: los de arriba: </li></ul><ul><ul><li>FGENEH: Para secuencias de genes único </li></ul></ul><ul><ul><li>GeneID: Utiliza matrices de posición y un modelo de Markov </li></ul></ul><ul><ul><li>Genie: Solo para genes multiexon. Secuencias de un solo gen. </li></ul></ul><ul><li>GeneID+ y GeneParser3: incorporan resultados de búsqueda de aminoácidos en base de datos para hacer la predicción de genes (homología). </li></ul>Superado por GeneID+
    38. 38. Resultados: Nivel de gen <ul><li>Resultados a nivel de gen (GA) para un conjunto de secuencias: proporción de genes que realmente son predichos exactamente. </li></ul><ul><li>Resultados: 0.43 (243/570) => es posible predecir estructuras multi-exón con un resultado razonable. </li></ul><ul><li>Ejemplo: Gen gástrico humano con 22 exones codificantes </li></ul>
    39. 39. Resultados: Nivel de gen <ul><li>Relativamente insensible al contenido C+G (CC) </li></ul><ul><li>Similar a AC. </li></ul>
    40. 40. Resultados: Nivel de Gen <ul><li>Factor p (Probabilidad adelante-atrás) = Probabilidad de que un exon predicho sea correcto y pueda ser usado para señalar regiones de una predicción que son más o menos ciertos. </li></ul><ul><li>Total: 2678 exones predichos en el conjunto Burset/Guigó </li></ul>30% 248 [0.00,0.50] 54% 362 [0.50,0.75] 75% 337 [0.75,0.90] 88% 263 [0.90,0.95] 92% 551 [0.95,0.99] 98% 917 >0.99 Porcentaje correctos Número exones p
    41. 41. Resultados: Entrenamiento <ul><li>Uso de un conjunto independiente. </li></ul><ul><li>Por solapamiento: Eliminación genes con más de 25% idénticos a los genes del conjunto de test GeneParser a nivel de aminoácidos </li></ul>
    42. 42. Resultados: Entrenamiento <ul><li>Fueron los mismos que con el conjunto Burset/Guigó. </li></ul><ul><li>Pero sí hay diferencia entre proporciones de C+G </li></ul>
    43. 43. Resultados: Entrenamiento <ul><li>Conjunto I: 28 secuencias. </li></ul><ul><li>Conjunto II: 34 secuencias </li></ul>
    44. 44. Resultados: Notas <ul><li>Ninguno de los resultados son verdaderamente significativos de la realidad. Aquí usamos secuencias cortas. </li></ul><ul><li>Sólo GRAIL ha conseguido resultados aceptables en secuencias grandes, e incluso se encontraron dificultades </li></ul>
    45. 45. Resultados: Secuencias largas <ul><li>Los dos encuentran exones conocidos, pero con diferencias </li></ul>
    46. 46. Resultados: Secuencias largas <ul><li>GENSCAN predice genes. </li></ul><ul><li>GRAIL predice exones en la secuencia. </li></ul>
    47. 47. Conclusión <ul><li>GENSCAN es lo “mejor” </li></ul>

    ×