Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

2,431 views

Published on

I Jornadas de Bioinformatica de Granada

Published in: Technology, Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,431
On SlideShare
0
From Embeds
0
Number of Embeds
23
Actions
Shares
0
Downloads
43
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

  1. 1. Inteligencia Artificial en Bioinformática. Algunas Aplicaciones. Carlos Cano Gutiérrez Fernando García Alcalde Fco. Javier López Domingo Marta Cuadros Celorrio Armando Blanco Moron Genome Alhambra Group http://genome.ugr.es Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Granada
  2. 2. Contenidos <ul><li>Extracción de módulos de regulación genética mediante análisis de microarrays con Clustering y Biclustering . </li></ul><ul><li>Text-mining para extraer relaciones de la literatura biomédica </li></ul>
  3. 3. Microarrays: Background biológico <ul><li>Células de un organismo: </li></ul><ul><ul><li>Comparten mismo ADN. </li></ul></ul><ul><ul><li>Muestran distinto comportamiento. </li></ul></ul><ul><li>Causa: expresión-represión genes </li></ul>Measure the expression level of gene G Measure the mRNA abundance of gene G Measure the amount of protein P
  4. 4. Hibridación de un Microarray
  5. 5. Hibridación de un Microarray (II)‏ <ul><li>Excitar microarray con láser </li></ul><ul><li>Medir fluorescencia emitida por cada spot : </li></ul><ul><ul><ul><li>gen expresado en cels. Tipo A. </li></ul></ul></ul><ul><ul><ul><li>gen expresado en cels. Tipo B. </li></ul></ul></ul><ul><ul><ul><li>gen expresado en ambos tipos. </li></ul></ul></ul><ul><ul><ul><li>gen no expresado en ningun tipo. </li></ul></ul></ul><ul><li>Intensidad de la fluorescencia = nivel de expresión del gen. </li></ul>
  6. 6. Matriz de expresión génica <ul><li>Resultado de la Tecnología de Microarrays </li></ul><ul><li>Matriz de expresión A : n genes x m condiciones </li></ul><ul><li>A(i,j)  nivel de expresión gen i bajo condición j </li></ul>
  7. 7. Clustering sobre matriz de expresión <ul><li>Identificar grupos de genes (condiciones) con el mismo comportamiento a lo largo de las condiciones (genes) --> genes coexpresados. </li></ul><ul><li>Genes pertenecientes al mismo grupo probablemente compartirán una misma función biológica. </li></ul><ul><li>Como un gen puede desempeñar varios papeles en distintos procesos biológicos, se requieren algoritmos de clustering no exclusivo. </li></ul>
  8. 8. Objetivo <ul><li>Clustering no exclusivo (permite solapamiento entre clusters) . </li></ul><ul><li>Identificar clusters coherentes de genes con alta varianza entre muestras. </li></ul><ul><li>Criterio: </li></ul><ul><ul><li>Clusers coherentes (genes similares se agrupan conjuntamente). </li></ul></ul><ul><ul><li>Máxima varianza de los valores de los genes para las distintas condiciones. </li></ul></ul>
  9. 9. Objetivo (II)
  10. 10. Máxima varianza para las muestras <ul><li>Objetivo: </li></ul><ul><ul><li>Clusters ayudan a identificar distintos tipos de muestras. </li></ul></ul><ul><ul><li>Identificar grupos de genes cuya variación en los niveles de expresión pudiera estar relacionada con propiedades biológicas de las muestras. </li></ul></ul><ul><li>Medida variabilidad: varianza </li></ul><ul><li>Sea el valor de expresion para la muestra j del gen promedio del cluster : </li></ul><ul><li>La varianza del gen promedio es: </li></ul><ul><li> </li></ul><ul><li>donde </li></ul>
  11. 11. Algoritmo ‘Gene Shaving’ (Hastie, 2001) <ul><li>Obtener un cluster: </li></ul><ul><ul><li>Encontrar una secuencia anidada de clusters: </li></ul></ul><ul><ul><li>Elegir un cluster de la secuencia: función GAP </li></ul></ul><ul><li>Calcular la 1ª CP de los genes restantes </li></ul><ul><li>Eliminar α% genes con menor correlación con la 1ª CP. </li></ul>
  12. 12. Nuestra propuesta <ul><li>Selección de genes : </li></ul><ul><ul><li>≈ Problema Selección Características (FSS) </li></ul></ul><ul><ul><ul><li>Algoritmos Evolutivos: </li></ul></ul></ul><ul><ul><ul><li>Algoritmos Genéticos (GA) </li></ul></ul></ul><ul><ul><ul><li>Algoritmos de Estimación de Distribuciones de Probabilidad (EDA) </li></ul></ul></ul>
  13. 13. <ul><li>Medida fitness : función GAP </li></ul><ul><ul><li>Criterios (ANOVA): </li></ul></ul><ul><ul><li>MAX Between Variance MIN Within Variance </li></ul></ul><ul><ul><li>Calidad Cluster (percent of variance explained) </li></ul></ul><ul><ul><li>Elegir el cluster de la secuencia que: </li></ul></ul><ul><ul><li>donde es el promedio de </li></ul></ul>Calidad del Cluster
  14. 14. Biclustering sobre matriz de expresión <ul><li>El clustering identifica grupos de genes con el mismo comportamiento para TODAS las condiciones </li></ul><ul><li>Un bicluster es una submatriz cuyos valores están relacionados de acuerdo a un criterio establecido. </li></ul><ul><li>Criterio: GAP </li></ul><ul><ul><li>Valores Coherentes (genes similares en un mismo bicluster) </li></ul></ul><ul><ul><li>Máxima varianza para las columnas del bicluster </li></ul></ul>
  15. 15. Biclustering utilizando CP: Gene & Sample Shaving <ul><li>Gene & Sample Shaving: Eliminar genes y muestras </li></ul><ul><ul><li>MAX VARIANZA MUESTRAS: Eliminar filas menos correladas con la 1ª CP de las filas de X. </li></ul></ul><ul><ul><li>MIN VARIANZA GENES: Eliminar columnas más correladas con la 1ª CP de las columnas de X </li></ul></ul>
  16. 16. Clustering. Comparativa resultados. <ul><li>Cho et al. 1998. Ciclo celular de la levadura. </li></ul><ul><li>2879 genes x 17 condiciones </li></ul><ul><li>Comparación resultados (10ejec. x 10clusters/ejec.) </li></ul><ul><ul><li>Medias y desv. típicas de GAP y tamaño: </li></ul></ul>35.53 (10.1) 72.64 (4.6) EDA-Clustering (single-step shaving)‏ 15.3 (6.4) 81.87 (4.8) EDA-Clustering (multiple-step shaving)‏ 14.56 (4.01) 79.92 (3.8) GA-Clustering 13.26 (10.3) 61.89 (23.8) Gene-Shaving Nº. Genes GAP Algoritmo
  17. 17. Biclustering. Comparativa resultados. <ul><li>Alizadeh et al. 2000. Tipos de linfoma humano. </li></ul><ul><li>4026 genes x 96 condiciones (agrupadas en 9 tipos de linfoma y muestras sanas). </li></ul><ul><li>Comparativa resultados (10 ejecs. x 50 biclusters/ejec. )‏ </li></ul>96 13.28 (96.6) 52.13 (17.3) Gene Shaving 17.92 (4.5) 20.24 (6.6) 68.56 (8.3) EDA Biclustering 14.89 (14.2) 10.98 (7.3) 83.99 (7) Gene & Sample Shaving Avg. No. Cols. Avg. No. Genes Avg. GAP Algoritmo
  18. 18. Interpretación biológica de los resultados. <ul><li>Single-step EDA-Clustering. </li></ul><ul><li>DNA metabolism. P-value 18e-13. GAP: 83.38. size: 50 genes. </li></ul><ul><li>Multiple-step EDA-Clustering. </li></ul><ul><li>Sulfur metabolism . P-value 7,2e-15. GAP: 83. 4. size: 14 genes. </li></ul>Asignación de términos más significativos de Gene Ontology:
  19. 19. Biclustering. Interpretación biológica. <ul><li>Columnas 84 a 94 representan CLL (10/11 muestras de CLL) </li></ul><ul><li>La expresión de los genes de este bicluster discrimina el CLL respecto a otros tipos de tejidos sanos y cancerígenos. </li></ul>EDA Biclustering. GAP:90.22. tamaño: 39 genes, 24 condiciones
  20. 20. Trabajo futuro en Análisis de Microarrays. <ul><li>Integrar información de otras fuentes de datos biológicas: Gene Ontology, TRANSFAC, literatura </li></ul>
  21. 21. Publicaciones <ul><li>&quot;Possibilistic approach for biclustering microarray data&quot; </li></ul><ul><ul><li>Computers in Biology and Medicine . 37(10), 2007 </li></ul></ul><ul><li>&quot;Intelligent system for the analysis of microarray data using principal components and estimation of distribution algorithms&quot; </li></ul><ul><ul><li>Expert Systems with Applications. 36(3), 2009 </li></ul></ul>
  22. 22. Contenidos <ul><li>Extracción de módulos de regulación genética mediante análisis de microarrays con Clustering y Biclustering . </li></ul><ul><li>Text-mining para extraer relaciones de la literatura biomédica </li></ul>
  23. 23. Text Mining de la literatura biomédica <ul><ul><li>Hunter & Cohen, Mol Cell. 21(5), 589-94, 2006. </li></ul></ul><ul><ul><li>“ tp53”: 45.000 artículos // “autism”:11.000 artículos </li></ul></ul>
  24. 24. Objetivo: Extracción de relaciones <ul><li>The action of SCPA enzymatically inhibits the chemotactic activity of C5a by cleaving its neutrophil binding site. [PMID: 12964111] </li></ul><ul><ul><li>Keyword: inhibits </li></ul></ul><ul><ul><li>Argument 1: SCPA </li></ul></ul><ul><ul><li>Argument 2: C5a </li></ul></ul><ul><ul><li>Type: repression </li></ul></ul><ul><ul><li>Role Arg. 1: agent </li></ul></ul><ul><ul><li>Role Arg. 2: patient </li></ul></ul>
  25. 25. Enfoque: Análisis sintáctico + ML <ul><li>Patrones en árbol sintáctico: </li></ul>... NP NP
  26. 26. Corpora disponible <ul><li>Escaso tamaño </li></ul><ul><li>Heterogeneidad </li></ul><ul><ul><li>Objetos </li></ul></ul><ul><ul><li>Niveles de anotación </li></ul></ul><ul><ul><li>Formatos </li></ul></ul><ul><li>Ejemplos positivos/negativos </li></ul><ul><li>Palabras clave / estructura sintáctica </li></ul>
  27. 27. Esfuerzo propio de Anotación: BioNotate <ul><li>Herramienta web colaborativa de código abierto: esfuerzo distribuido. </li></ul><ul><li>Presentar al anotador un snippet con dos entidades biológicas (gen, proteina, enfermedad)‏ </li></ul><ul><li>Proceso anotación : </li></ul><ul><ul><li>Indicar Si/No en función de si el snippet constata una interacción entre las entidades marcadas. </li></ul></ul><ul><ul><li>Marcar la frase mínima (si la hay) que justifique la respuesta anterior. </li></ul></ul><ul><ul><li>Al menos k anotadores deben alcanzar un grado mínimo de acuerdo para que un snippet se considere anotado. </li></ul></ul><ul><li>BioNotate: http://bionotate.sourceforge.net </li></ul>
  28. 28. Esfuerzo propio de Anotación: BioNotate
  29. 29. Gracias… <ul><li>Preguntas? </li></ul>Contacto: Carlos Cano Gutiérrez, D16 Dept. CCIA. ETSIIT. [email_address] http://genome.ugr.es

×