Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    1 Favorite & 1 Event

    Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura - Presentation Transcript

    1. Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura F.J. López, A. Blanco, F. Garcia, C. Cano, M. Cuadros Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Granada
      • INTRODUCCIÓN
      • CONJUNTO DE DATOS
      • REGLAS DE ASOCIACIÓN
      • BioFAR
      • RESULTADOS
      • CONCLUSIONES
    2. 1. Introducción
      • Secuenciación de genomas
      • Nuevas tecnologías: microarrays
      • Cantidades ingentes de datos biológicos
      • Datos biológicos dispersos por muchas bases de datos:
        • Necesidad de análisis integrativos
        • Extracción de reglas de asociación
      • Datos imprecisos y con ruido:
        • Conjuntos difusos  Extracción de reglas de asociación difusas
      1. Introducción
      • INTRODUCCIÓN
      • CONJUNTO DE DATOS
      • REGLAS DE ASOCIACIÓN
      • BioFar
      • RESULTADOS
      • CONCLUSIONES
    3. 2. Conjunto de datos: levadura
      • Genoma “simple”
      • Organismo muy estudiado: mucha información precisa  contrastar resultados
      • Tipos de datos incluidos en el análisis:
        • Información estructural
        • Información funcional
        • Expresión de los genes: microarrays
        • Gene Ontology (GO)
    4. 2. Conjunto de datos: levadura
      • Información estructural:
        • Longitud de los genes
        • Proporción de G+C
        • Coordenadas de los genes
        • Longitud de los intergénicos
        • Proporción de G+C en los intergénicos etc.
      • Información funcional:
        • Abundancia de proteínas ( Huh et. al. 2003)
        • Respuesta de cada gen a condiciones cambiantes ( Tirosh et. al. 2006)
        • Presencia de la caja TATA ( Tirosh et. al. 2006)
      • Definir conjuntos difusos en dominios continuos
      2. Conjunto de datos: levadura
      • Datos de expresión génica:
        • A genome-wide transcriptional analysis of the mitotic cell cycle
        • ( Cho et. al. 1998)
        • Resultados de experimentos con microarrays de gran relevancia
        • 2879 genes en 17 instantes de tiempo del ciclo celular que cubren aproximadamente 2 ciclos completos.
      2. Conjunto de datos: levadura
      • Datos de expresión génica:
        • Algoritmos de bicluster sobre la matriz de expresión
        • (EDA Biclustering, Gene&Sample Shaving)
          • Se agrupan los genes que se comportan de forma similar bajo ciertas condiciones experimentales.
          • Se permiten biclusters solapados: un gen puede pertenecer a más de un bicluster
        • Una columna indicando el bicluster(s) al q pertenece el gen
      2. Conjunto de datos: levadura
      • Gene Ontology (GO)
        • Lista con los términos en los que está anotado el gen
        • Se descartan los términos que no aportan información (‘molecular_function’ etc.)
        • Information Content Theory
      2. Conjunto de datos: levadura
    5. 2. Conjunto de datos: levadura Orf_name chr length Int lenght … GOannotations YAL002W 1 3825 546 … GO:0016197, GO:0050875,GO:0016192,… YAL003W 1 621 742 … GO:0003746,GO:0006414, GO:0005840, GO:0005853, … YAL008W 1 597 280 … GO:0005741,GO:0005739, GO:0005737, GO:0031968,GO:0031967, … YAL009W 1 780 188 … GO:0042175,GO:0016021, GO:0030437, GO:0007126,GO:0006997…
      • INTRODUCCIÓN
      • CONJUNTO DE DATOS
      • REGLAS DE ASOCIACIÓN
      • BioFAR
      • RESULTADOS
      • CONCLUSIONES
    6. 3. Reglas de asociación
      • Regla de asociación :
      • A  C
        • A, C : conjuntos de pares atributo-valor o itemsets
      • Soporte: probabilidad de que ocurran A y C
      • Confianza: probabilidad de que ocurra C dado que ha ocurrido A.
    7. 3. Reglas de asociación
      • Algoritmos:
        • Agrawal 1994, Apriori
        • Savasere et. al. 1995, Partition
        • Wang et. al. 2002, TD FP-Growth
        • Zaki et. al. 1998, Eclat
      • Algoritmo muy eficiente
      • Solo dos escaneos de la BDs
      • Utiliza una estructura de datos:
      • FP-tree
      3. Reglas de asociación
      • Necesidad de manejar conjuntos difusos
      • Algoritmo Fuzzy TD FP-Growth
      • ( Lopez et al. 2008)
        • Adaptar la forma en que se calculan el soporte y la confianza  Soporte y confianzas difusas
        • Adaptar el contenido de los nodos del FP-tree
      3. Reglas de asociación
      • Generar reglas de asociacion difusas que cumplan unos umbrales de calidad mínimos: Soporte, Confianza y Factores de certeza (CFs)
      • ( Delgado et al. 2003)
      • Certainty Factor:
      3. Reglas de asociación
      • Fusionar reglas que contienen nodos GO
        • Reglas que comparten todos sus items menos el término GO
      3. Reglas de asociación
      • Fusionar reglas que contienen nodos GO
        • Todos los nodos GO incluidos en el análisis son relevantes (suficientemente informativos), ya que todos superan el umbral de IC
        • Cada nodo GO hereda las propiedades de todos sus ancestros
        • Dado un conjunto de nodos, si hay uno del que descienden todos los demás, éste parece ser el término más descriptivo e intuitivo
      3. Reglas de asociación
      • Calcular un False Discovery Rate:
        • Se generan 100 conjuntos de datos aleatorios independientes (desordenando el conjunto de datos original)
        • Se calcula el número medio de reglas obtenidas con cada conjunto de datos aleatorio
      3. Reglas de asociación
      • INTRODUCCIÓN
      • CONJUNTO DE DATOS
      • REGLAS DE ASOCIACIÓN
      • BioFAR
      • RESULTADOS
      • CONCLUSIONES
      • http://genome.ugr.es/biofar
      • Biological Data Analysis by Fuzzy Association Rule Mining: BioFar
      • Entradas:
        • Conjunto de datos: fichero delimitado por tabulaciones, .csv
        • Umbrales
        • Definiciones de los conjuntos difusos: percentiles, fuzzy cmeans, manual, valores de expresión génica
      4. Aplicación web: BioFAR
    8. 4. Aplicación web: BioFAR
      • Salida: fichero de texto
      4. Aplicación web: BioFar
      • Software para el filtrado de reglas:
      4. Aplicación web: BioFar
      • Salida del filtrado: fichero html
      4. Aplicación web: BioFar
      • INTRODUCCIÓN
      • CONJUNTO DE DATOS
      • REGLAS DE ASOCIACIÓN
      • BioFar
      • RESULTADOS
      • CONCLUSIONES
    9. 5. Resultados: experimentos Variables Umbrales Número total de reglas FDR Conf. & CF Soporte Variables estructurales 0.1 0.01 24 0.093 Abundancia proteínas & Variables estructurales 0.1 0.002 4 0.040 Responsiveness & Variables estructurales 0.1 0.002 10 0.044 Variables estructurales & Molecular Function 0.4 0.004 20 0.042 Variables estructurales & Biological Process 0.5 0.004 7 0.050 Variables estructurales & Cellular Component 0.5 0.004 12 0.011 Cell Cycle - EDA 1 & rest 0.4 0.001 23 0.318 Cell Cycle - EDA 2 & rest 0.4 0.001 6 0.115 Cell Cycle - G&S SHAVING 1 & rest 0.6 0.001 45 0.006 Cell Cycle - G&S SHAVING 2 & rest 0.6 0.002 36 0.003
    10. 5. Resultados REGLA Confianza Soporte CF gct = HIGH  length = LOW 0.41 0.15 0.12 length = LOW  gct = HIGH 0.40 0.15 0.12 gct = LOW  length = HIGH 0.38 0.13 0.12 length = HIGH  gct = LOW 0.40 0.14 0.12
    11. 5. Resultados
      • Negative correlation between length and G+C content (Spearman’s r = − 0 . 25, p < 0 . 0001)
      • A Marin et al. , “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20, 703-711, 2003
      REGLA Confianza Soporte CF gct = HIGH  length = LOW 0.41 0.15 0.12 length = LOW  gct = HIGH 0.40 0.15 0.12 gct = LOW  length = HIGH 0.38 0.13 0.12 length = HIGH  gct = LOW 0.40 0.14 0.12
    12. 5. Resultados
      • B. Dujon, “The yeast genome project: what did we learn” , Trends Genet. 12, 263- 270, 1996.
      • A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation” , Gene 333: 151-155, 2004.
      REGLA Confianza Soporte CF Intergenic GC = LOW  Orientation = TANDEM 0.68 0.20 0.37 Intergenic GC = HIGH  Orientation = DIVERGENT 0.65 0.19 0.18 Intergenic length = HIGH  Orientation = DIVERGENT 0.62 0.18 0.23 Intergenic length = MEDIUM  Orientation = TANDEM 0.56 0.22 0.14
    13. 5. Resultados
      • A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation” , Gene 333: 151-155, 2004.
      REGLA Confianza Soporte CF Intergenic GC = LOW  gct = LOW 0.68 0.20 0.37 gct = LOW  Intergenic GC = LOW 0.65 0.19 0.18 gct = HIGH  Intergenic GC = HIGH 0.62 0.18 0.23 Intergenic GC = HIGH  gct = HIGH 0.56 0.22 0.14
    14. 5. Resultados
      • A. Marin, et al., “ Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae ” , Yeast 20: 703-711, 2003.
      • Coghlan A, Wolfe KH, “ Relationship of codon bias to mRNA concentration and protein length in Saccharomyces cerevisiae ” , Yeast 16:1131-1145, 2000.
      • Warringer J, Blomberg A, “ Evolutionary constraints on yeast protein size ” , BMC Evol Biol 15:6-51, 2006.
      REGLA Confianza Soporte CF Protein abundance = HIGH  length = MEDIUM 0.748 0.092 0.12 Protein abundance = LOW  length = HIGH 0.45 0.087 0.22 Protein abundance = HIGH  G+C = HIGH 0.40 0.074 0.15
    15. 5. Resultados
      • GHPM Bollen et al., “Small-Size mRNAs Code for Ribosomal Proteins in Yeast”, Godfried H. P. Eur. J. Biochem. 105, 75 - 80, 1980.
      • J. Warringer, A. Blomberg, “Evolutionary constraints on yeast protein size”, BMC Evol Biol, 15;6:61, 2006.
      REGLA Confianza Support CF structural constituent of ribosome  length = LOW 0.77 0.028 0.67 plasma membrane  length = HIGH 0.57 0.023 0.39 helicase activity  length = HIGH 0.78 0.01 0.69
    16. 5. Resultados REGLA Confianza Soporte CF bicluster = 1  GO = non-membrane-bound organelle 0.54 0.0029 0.45 bicluster = 1  GO = nucleus 0.61 0.0033 0.45 bicluster = 2  length = MEDIUM 0.68 0.0018 0.46 bicluster = 2  responsiveness = HIGH 0.80 0.0022 0.74 bicluster = 2  GO = oxidoreductase activity 0.43 0.0012 0.40
    17. 5. Resultados Bicluster 1 Bicluster 2
    18. 5. Resultados REGLA Confianza Soporte CF bicluster = 3  GO = nucleus 0.65 0.0039 0.50 bicluster = 3  GO = DNA metabolism 0.48 0.0029 0.44 bicluster = 4  length = LOW 0.81 0.0033 0.73 bicluster = 4  G+C = HIGH 0.89 0.0036 0.85 bicluster = 4  GO = non-membrane-bound organelle 0.90 0.0037 0.89 bicluster = 4  GO = biosynthesis 0.90 0.0037 0.89 bicluster = 4  GO = protein complex 0.90 0.0037 0.87 bicluster = 4  GO = organelle part 0.86 0.0035 0.78 bicluster = 4  GO = cytosol 0.86 0.0035 0.85 bicluster = 4  GO = structural molecule activity 0.86 0.0035 0.85
    19. 5. Resultados Bicluster 3 Bicluster 4
      • INTRODUCCIÓN
      • CONJUNTO DE DATOS
      • REGLAS DE ASOCIACIÓN
      • BioFar
      • RESULTADOS
      • CONCLUSIONES
    20. 6. Conclusiones
      • Metodología difusa efectiva para la integración y el análisis de datos biológicos
      • Se obtienen asociaciones interesantes: muchas corroboradas por estudios previos
      • Las reglas de asociación difusas son una herramienta útil que describe estas asociaciones de forma intuitiva
    21. 6. Conclusiones
      • Definición de otras medidas de calidad de las reglas
      • Incluir otros tipos de información en el análisis
      • Aplicar la metodología a otras especies
      • Combinar con otras técnicas
    22.  

    + Alberto LabargaAlberto Labarga, 8 months ago

    custom

    601 views, 1 favs, 0 embeds more stats

    Javier Lopez

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 601
      • 601 on SlideShare
      • 0 from embeds
    • Comments 0
    • Favorites 1
    • Downloads 4
    Most viewed embeds

    more

    All embeds

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories