Data mining difuso para  el estudio de características estructurales y funcionales  del genoma de la Levadura F.J. López, ...
<ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFAR <...
1. Introducción <ul><li>Secuenciación de genomas </li></ul><ul><li>Nuevas tecnologías: microarrays </li></ul><ul><li>Canti...
<ul><li>Datos biológicos dispersos por muchas bases de datos: </li></ul><ul><ul><li>Necesidad de análisis integrativos </l...
<ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFar <...
2. Conjunto de datos:  levadura <ul><li>Genoma “simple” </li></ul><ul><li>Organismo muy estudiado: mucha información preci...
2. Conjunto de datos:  levadura <ul><li>Información estructural: </li></ul><ul><ul><li>Longitud de los genes </li></ul></u...
<ul><li>Información funcional: </li></ul><ul><ul><li>Abundancia de proteínas  ( Huh et. al.  2003) </li></ul></ul><ul><ul>...
<ul><li>Datos de expresión génica: </li></ul><ul><ul><li>A genome-wide transcriptional analysis of the mitotic cell cycle ...
<ul><li>Datos de expresión génica: </li></ul><ul><ul><li>Algoritmos de bicluster sobre la matriz de expresión  </li></ul><...
<ul><li>Gene Ontology (GO) </li></ul><ul><ul><li>Lista con los términos en los que está anotado el gen </li></ul></ul><ul>...
2. Conjunto de datos:  levadura Orf_name chr length Int lenght … GOannotations YAL002W 1 3825 546 … GO:0016197, GO:0050875...
<ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFAR <...
3.  Reglas de asociación <ul><li>Regla de asociación : </li></ul><ul><li>A      C </li></ul><ul><ul><li>A, C : conjuntos ...
3.  Reglas de asociación <ul><li>Algoritmos: </li></ul><ul><ul><li>Agrawal  1994, Apriori </li></ul></ul><ul><ul><li>Savas...
<ul><li>Algoritmo muy eficiente </li></ul><ul><li>Solo dos escaneos de la BDs </li></ul><ul><li>Utiliza una estructura de ...
<ul><li>Necesidad de manejar conjuntos difusos </li></ul><ul><li>Algoritmo Fuzzy TD FP-Growth </li></ul><ul><li>( Lopez et...
<ul><li>Generar reglas de asociacion difusas que cumplan unos umbrales de calidad mínimos: Soporte, Confianza y Factores d...
<ul><li>Fusionar reglas que contienen nodos GO </li></ul><ul><ul><li>Reglas que comparten todos sus items menos el término...
<ul><li>Fusionar reglas que contienen nodos GO </li></ul><ul><ul><li>Todos los nodos GO incluidos en el análisis son relev...
<ul><li>Calcular un False Discovery Rate: </li></ul><ul><ul><li>Se generan 100 conjuntos de datos aleatorios independiente...
<ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFAR <...
<ul><li>http://genome.ugr.es/biofar </li></ul><ul><li>Biological Data Analysis by Fuzzy Association Rule Mining: BioFar </...
4.  Aplicación web:  BioFAR
<ul><li>Salida: fichero de texto </li></ul>4.  Aplicación web:  BioFar
<ul><li>Software para el filtrado de reglas: </li></ul>4.  Aplicación web:  BioFar
<ul><li>Salida del filtrado: fichero html </li></ul>4.  Aplicación web:  BioFar
<ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFar <...
5. Resultados:  experimentos Variables Umbrales Número total de reglas FDR Conf. & CF Soporte Variables estructurales 0.1 ...
5. Resultados REGLA Confianza Soporte CF gct = HIGH      length = LOW   0.41   0.15 0.12 length = LOW     gct  = HIGH   ...
5. Resultados <ul><li>Negative correlation between length and G+C content  (Spearman’s  r  =  − 0 . 25,  p <  0 . 0001) </...
5. Resultados <ul><li>B. Dujon,  “The yeast genome project: what did we learn” , Trends Genet. 12, 263- 270, 1996. </li></...
5. Resultados <ul><li>A. Marin, et al.,  “Short-range compositional correlation in the yeast genome depends on transcripti...
5. Resultados <ul><li>A. Marin, et al.,  “ Relationship between G+C content, ORF-length and mRNA concentration in Saccharo...
5. Resultados <ul><li>GHPM Bollen et al.,  “Small-Size mRNAs Code for Ribosomal Proteins in Yeast”,  Godfried H. P. Eur. J...
5. Resultados REGLA Confianza Soporte CF bicluster = 1    GO = non-membrane-bound organelle 0.54   0.0029   0.45 bicluste...
5. Resultados Bicluster 1 Bicluster 2
5. Resultados REGLA Confianza Soporte CF bicluster = 3    GO = nucleus 0.65 0.0039   0.50 bicluster = 3    GO = DNA meta...
5. Resultados Bicluster 3 Bicluster 4
<ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFar <...
6. Conclusiones <ul><li>Metodología difusa efectiva para la integración y el análisis de datos biológicos </li></ul><ul><l...
6. Conclusiones <ul><li>Definición de otras medidas de calidad de las reglas </li></ul><ul><li>Incluir otros tipos de info...
 
Upcoming SlideShare
Loading in …5
×

Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

1,327 views

Published on

Javier Lopez

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,327
On SlideShare
0
From Embeds
0
Number of Embeds
9
Actions
Shares
0
Downloads
17
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

  1. 1. Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura F.J. López, A. Blanco, F. Garcia, C. Cano, M. Cuadros Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Granada
  2. 2. <ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFAR </li></ul><ul><li>RESULTADOS </li></ul><ul><li>CONCLUSIONES </li></ul>
  3. 3. 1. Introducción <ul><li>Secuenciación de genomas </li></ul><ul><li>Nuevas tecnologías: microarrays </li></ul><ul><li>Cantidades ingentes de datos biológicos </li></ul>
  4. 4. <ul><li>Datos biológicos dispersos por muchas bases de datos: </li></ul><ul><ul><li>Necesidad de análisis integrativos </li></ul></ul><ul><ul><li>Extracción de reglas de asociación </li></ul></ul><ul><li>Datos imprecisos y con ruido: </li></ul><ul><ul><li>Conjuntos difusos  Extracción de reglas de asociación difusas </li></ul></ul>1. Introducción
  5. 5. <ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFar </li></ul><ul><li>RESULTADOS </li></ul><ul><li>CONCLUSIONES </li></ul>
  6. 6. 2. Conjunto de datos: levadura <ul><li>Genoma “simple” </li></ul><ul><li>Organismo muy estudiado: mucha información precisa  contrastar resultados </li></ul><ul><li>Tipos de datos incluidos en el análisis: </li></ul><ul><ul><li>Información estructural </li></ul></ul><ul><ul><li>Información funcional </li></ul></ul><ul><ul><li>Expresión de los genes: microarrays </li></ul></ul><ul><ul><li>Gene Ontology (GO) </li></ul></ul>
  7. 7. 2. Conjunto de datos: levadura <ul><li>Información estructural: </li></ul><ul><ul><li>Longitud de los genes </li></ul></ul><ul><ul><li>Proporción de G+C </li></ul></ul><ul><ul><li>Coordenadas de los genes </li></ul></ul><ul><ul><li>Longitud de los intergénicos </li></ul></ul><ul><ul><li>Proporción de G+C en los intergénicos etc. </li></ul></ul>
  8. 8. <ul><li>Información funcional: </li></ul><ul><ul><li>Abundancia de proteínas ( Huh et. al. 2003) </li></ul></ul><ul><ul><li>Respuesta de cada gen a condiciones cambiantes ( Tirosh et. al. 2006) </li></ul></ul><ul><ul><li>Presencia de la caja TATA ( Tirosh et. al. 2006) </li></ul></ul><ul><li>Definir conjuntos difusos en dominios continuos </li></ul>2. Conjunto de datos: levadura
  9. 9. <ul><li>Datos de expresión génica: </li></ul><ul><ul><li>A genome-wide transcriptional analysis of the mitotic cell cycle </li></ul></ul><ul><ul><li>( Cho et. al. 1998) </li></ul></ul><ul><ul><li>Resultados de experimentos con microarrays de gran relevancia </li></ul></ul><ul><ul><li>2879 genes en 17 instantes de tiempo del ciclo celular que cubren aproximadamente 2 ciclos completos. </li></ul></ul>2. Conjunto de datos: levadura
  10. 10. <ul><li>Datos de expresión génica: </li></ul><ul><ul><li>Algoritmos de bicluster sobre la matriz de expresión </li></ul></ul><ul><ul><li>(EDA Biclustering, Gene&Sample Shaving) </li></ul></ul><ul><ul><ul><li>Se agrupan los genes que se comportan de forma similar bajo ciertas condiciones experimentales. </li></ul></ul></ul><ul><ul><ul><li>Se permiten biclusters solapados: un gen puede pertenecer a más de un bicluster </li></ul></ul></ul><ul><ul><li>Una columna indicando el bicluster(s) al q pertenece el gen </li></ul></ul>2. Conjunto de datos: levadura
  11. 11. <ul><li>Gene Ontology (GO) </li></ul><ul><ul><li>Lista con los términos en los que está anotado el gen </li></ul></ul><ul><ul><li>Se descartan los términos que no aportan información (‘molecular_function’ etc.) </li></ul></ul><ul><ul><li>Information Content Theory </li></ul></ul>2. Conjunto de datos: levadura
  12. 12. 2. Conjunto de datos: levadura Orf_name chr length Int lenght … GOannotations YAL002W 1 3825 546 … GO:0016197, GO:0050875,GO:0016192,… YAL003W 1 621 742 … GO:0003746,GO:0006414, GO:0005840, GO:0005853, … YAL008W 1 597 280 … GO:0005741,GO:0005739, GO:0005737, GO:0031968,GO:0031967, … YAL009W 1 780 188 … GO:0042175,GO:0016021, GO:0030437, GO:0007126,GO:0006997…
  13. 13. <ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFAR </li></ul><ul><li>RESULTADOS </li></ul><ul><li>CONCLUSIONES </li></ul>
  14. 14. 3. Reglas de asociación <ul><li>Regla de asociación : </li></ul><ul><li>A  C </li></ul><ul><ul><li>A, C : conjuntos de pares atributo-valor o itemsets </li></ul></ul><ul><li>Soporte: probabilidad de que ocurran A y C </li></ul><ul><li>Confianza: probabilidad de que ocurra C dado que ha ocurrido A. </li></ul>
  15. 15. 3. Reglas de asociación <ul><li>Algoritmos: </li></ul><ul><ul><li>Agrawal 1994, Apriori </li></ul></ul><ul><ul><li>Savasere et. al. 1995, Partition </li></ul></ul><ul><ul><li>Wang et. al. 2002, TD FP-Growth </li></ul></ul><ul><ul><li>Zaki et. al. 1998, Eclat </li></ul></ul><ul><ul><li>… </li></ul></ul>
  16. 16. <ul><li>Algoritmo muy eficiente </li></ul><ul><li>Solo dos escaneos de la BDs </li></ul><ul><li>Utiliza una estructura de datos: </li></ul><ul><li>FP-tree </li></ul>3. Reglas de asociación
  17. 17. <ul><li>Necesidad de manejar conjuntos difusos </li></ul><ul><li>Algoritmo Fuzzy TD FP-Growth </li></ul><ul><li>( Lopez et al. 2008) </li></ul><ul><ul><li>Adaptar la forma en que se calculan el soporte y la confianza  Soporte y confianzas difusas </li></ul></ul><ul><ul><li>Adaptar el contenido de los nodos del FP-tree </li></ul></ul>3. Reglas de asociación
  18. 18. <ul><li>Generar reglas de asociacion difusas que cumplan unos umbrales de calidad mínimos: Soporte, Confianza y Factores de certeza (CFs) </li></ul><ul><li>( Delgado et al. 2003) </li></ul><ul><li>Certainty Factor: </li></ul>3. Reglas de asociación
  19. 19. <ul><li>Fusionar reglas que contienen nodos GO </li></ul><ul><ul><li>Reglas que comparten todos sus items menos el término GO </li></ul></ul>3. Reglas de asociación
  20. 20. <ul><li>Fusionar reglas que contienen nodos GO </li></ul><ul><ul><li>Todos los nodos GO incluidos en el análisis son relevantes (suficientemente informativos), ya que todos superan el umbral de IC </li></ul></ul><ul><ul><li>Cada nodo GO hereda las propiedades de todos sus ancestros </li></ul></ul><ul><ul><li>Dado un conjunto de nodos, si hay uno del que descienden todos los demás, éste parece ser el término más descriptivo e intuitivo </li></ul></ul>3. Reglas de asociación
  21. 21. <ul><li>Calcular un False Discovery Rate: </li></ul><ul><ul><li>Se generan 100 conjuntos de datos aleatorios independientes (desordenando el conjunto de datos original) </li></ul></ul><ul><ul><li>Se calcula el número medio de reglas obtenidas con cada conjunto de datos aleatorio </li></ul></ul>3. Reglas de asociación
  22. 22. <ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFAR </li></ul><ul><li>RESULTADOS </li></ul><ul><li>CONCLUSIONES </li></ul>
  23. 23. <ul><li>http://genome.ugr.es/biofar </li></ul><ul><li>Biological Data Analysis by Fuzzy Association Rule Mining: BioFar </li></ul><ul><li>Entradas: </li></ul><ul><ul><li>Conjunto de datos: fichero delimitado por tabulaciones, .csv </li></ul></ul><ul><ul><li>Umbrales </li></ul></ul><ul><ul><li>Definiciones de los conjuntos difusos: percentiles, fuzzy cmeans, manual, valores de expresión génica </li></ul></ul>4. Aplicación web: BioFAR
  24. 24. 4. Aplicación web: BioFAR
  25. 25. <ul><li>Salida: fichero de texto </li></ul>4. Aplicación web: BioFar
  26. 26. <ul><li>Software para el filtrado de reglas: </li></ul>4. Aplicación web: BioFar
  27. 27. <ul><li>Salida del filtrado: fichero html </li></ul>4. Aplicación web: BioFar
  28. 28. <ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFar </li></ul><ul><li>RESULTADOS </li></ul><ul><li>CONCLUSIONES </li></ul>
  29. 29. 5. Resultados: experimentos Variables Umbrales Número total de reglas FDR Conf. & CF Soporte Variables estructurales 0.1 0.01 24 0.093 Abundancia proteínas & Variables estructurales 0.1 0.002 4 0.040 Responsiveness & Variables estructurales 0.1 0.002 10 0.044 Variables estructurales & Molecular Function 0.4 0.004 20 0.042 Variables estructurales & Biological Process 0.5 0.004 7 0.050 Variables estructurales & Cellular Component 0.5 0.004 12 0.011 Cell Cycle - EDA 1 & rest 0.4 0.001 23 0.318 Cell Cycle - EDA 2 & rest 0.4 0.001 6 0.115 Cell Cycle - G&S SHAVING 1 & rest 0.6 0.001 45 0.006 Cell Cycle - G&S SHAVING 2 & rest 0.6 0.002 36 0.003
  30. 30. 5. Resultados REGLA Confianza Soporte CF gct = HIGH  length = LOW 0.41 0.15 0.12 length = LOW  gct = HIGH 0.40 0.15 0.12 gct = LOW  length = HIGH 0.38 0.13 0.12 length = HIGH  gct = LOW 0.40 0.14 0.12
  31. 31. 5. Resultados <ul><li>Negative correlation between length and G+C content (Spearman’s r = − 0 . 25, p < 0 . 0001) </li></ul><ul><li>A Marin et al. , “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20, 703-711, 2003 </li></ul>REGLA Confianza Soporte CF gct = HIGH  length = LOW 0.41 0.15 0.12 length = LOW  gct = HIGH 0.40 0.15 0.12 gct = LOW  length = HIGH 0.38 0.13 0.12 length = HIGH  gct = LOW 0.40 0.14 0.12
  32. 32. 5. Resultados <ul><li>B. Dujon, “The yeast genome project: what did we learn” , Trends Genet. 12, 263- 270, 1996. </li></ul><ul><li>A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation” , Gene 333: 151-155, 2004. </li></ul>REGLA Confianza Soporte CF Intergenic GC = LOW  Orientation = TANDEM 0.68 0.20 0.37 Intergenic GC = HIGH  Orientation = DIVERGENT 0.65 0.19 0.18 Intergenic length = HIGH  Orientation = DIVERGENT 0.62 0.18 0.23 Intergenic length = MEDIUM  Orientation = TANDEM 0.56 0.22 0.14
  33. 33. 5. Resultados <ul><li>A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation” , Gene 333: 151-155, 2004. </li></ul>REGLA Confianza Soporte CF Intergenic GC = LOW  gct = LOW 0.68 0.20 0.37 gct = LOW  Intergenic GC = LOW 0.65 0.19 0.18 gct = HIGH  Intergenic GC = HIGH 0.62 0.18 0.23 Intergenic GC = HIGH  gct = HIGH 0.56 0.22 0.14
  34. 34. 5. Resultados <ul><li>A. Marin, et al., “ Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae ” , Yeast 20: 703-711, 2003. </li></ul><ul><li>Coghlan A, Wolfe KH, “ Relationship of codon bias to mRNA concentration and protein length in Saccharomyces cerevisiae ” , Yeast 16:1131-1145, 2000. </li></ul><ul><li>Warringer J, Blomberg A, “ Evolutionary constraints on yeast protein size ” , BMC Evol Biol 15:6-51, 2006. </li></ul>REGLA Confianza Soporte CF Protein abundance = HIGH  length = MEDIUM 0.748 0.092 0.12 Protein abundance = LOW  length = HIGH 0.45 0.087 0.22 Protein abundance = HIGH  G+C = HIGH 0.40 0.074 0.15
  35. 35. 5. Resultados <ul><li>GHPM Bollen et al., “Small-Size mRNAs Code for Ribosomal Proteins in Yeast”, Godfried H. P. Eur. J. Biochem. 105, 75 - 80, 1980. </li></ul><ul><li>J. Warringer, A. Blomberg, “Evolutionary constraints on yeast protein size”, BMC Evol Biol, 15;6:61, 2006. </li></ul>REGLA Confianza Support CF structural constituent of ribosome  length = LOW 0.77 0.028 0.67 plasma membrane  length = HIGH 0.57 0.023 0.39 helicase activity  length = HIGH 0.78 0.01 0.69
  36. 36. 5. Resultados REGLA Confianza Soporte CF bicluster = 1  GO = non-membrane-bound organelle 0.54 0.0029 0.45 bicluster = 1  GO = nucleus 0.61 0.0033 0.45 bicluster = 2  length = MEDIUM 0.68 0.0018 0.46 bicluster = 2  responsiveness = HIGH 0.80 0.0022 0.74 bicluster = 2  GO = oxidoreductase activity 0.43 0.0012 0.40
  37. 37. 5. Resultados Bicluster 1 Bicluster 2
  38. 38. 5. Resultados REGLA Confianza Soporte CF bicluster = 3  GO = nucleus 0.65 0.0039 0.50 bicluster = 3  GO = DNA metabolism 0.48 0.0029 0.44 bicluster = 4  length = LOW 0.81 0.0033 0.73 bicluster = 4  G+C = HIGH 0.89 0.0036 0.85 bicluster = 4  GO = non-membrane-bound organelle 0.90 0.0037 0.89 bicluster = 4  GO = biosynthesis 0.90 0.0037 0.89 bicluster = 4  GO = protein complex 0.90 0.0037 0.87 bicluster = 4  GO = organelle part 0.86 0.0035 0.78 bicluster = 4  GO = cytosol 0.86 0.0035 0.85 bicluster = 4  GO = structural molecule activity 0.86 0.0035 0.85
  39. 39. 5. Resultados Bicluster 3 Bicluster 4
  40. 40. <ul><li>INTRODUCCIÓN </li></ul><ul><li>CONJUNTO DE DATOS </li></ul><ul><li>REGLAS DE ASOCIACIÓN </li></ul><ul><li>BioFar </li></ul><ul><li>RESULTADOS </li></ul><ul><li>CONCLUSIONES </li></ul>
  41. 41. 6. Conclusiones <ul><li>Metodología difusa efectiva para la integración y el análisis de datos biológicos </li></ul><ul><li>Se obtienen asociaciones interesantes: muchas corroboradas por estudios previos </li></ul><ul><li>Las reglas de asociación difusas son una herramienta útil que describe estas asociaciones de forma intuitiva </li></ul>
  42. 42. 6. Conclusiones <ul><li>Definición de otras medidas de calidad de las reglas </li></ul><ul><li>Incluir otros tipos de información en el análisis </li></ul><ul><li>Aplicar la metodología a otras especies </li></ul><ul><li>Combinar con otras técnicas </li></ul>

×