Your SlideShare is downloading. ×
Medidas difusas para comparación de TFBSs.
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Medidas difusas para comparación de TFBSs.

943
views

Published on

Fernando Garcia

Fernando Garcia

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
943
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Transcript

    • 1. Medidas Difusas para Motivos de ADN Fernando García Alcalde
    • 2. ¿Qué es la transcripción?
      • Proceso por el cual se transforma el DNA en RNA
      • Cuando la célula necesita una proteína una región del DNA de un cromosoma se copia en a RNA
      • Primera etapa del dogma central de la biología molecular:
        • Transcripción: De DNA a RNA
        • Traducción: De RNA a proteína
    • 3. ¿Qué se transcribe?
      • Cambio de “lenguaje”
      • Pocas propiedades químicas cambian:
        • Nucleótidos son ribonucleótidos (ribosa)
        • Las bases se mantienen pero la Timina (T) se transcribe como Uracilo (U)
      • Gran cambio en la estructura global:
        • RNA se presenta como una cadena sencilla
        • Se pliega en diferentes formas
    • 4. ¿Cómo se transcribe?
      • Se abre y desenrolla una zona de la doble hélice de DNA
      • Se toma como molde una de las hebras que se deja al descubierto
      • Mediante una reacción encimática (RNA polimerasa), se traduce nucleótido a nucleótido de forma que se obtiene una cadena complementaria (A<->U, G<->C)
    • 5. Transcripción en eucariotas
      • Descubrimiento de diferencias: Imposibilidad de conseguir la transcripción in vitro
      • Se necesitan factores generales de transcripción (TFIIA, TFIIB,…)
      • Se combinan entre ellas y/o se unen a la secuencia promotora para permitir la transcripción.
    • 6. Transcripción en eucariotas
      • Tres tipos de RNA polimerasas:
        • RNA polimerasa I: Genes de los rRNA 5, 8S, 18S, 28S
        • RNA polimerasa II : todos los genes codificadores de proteínas más algunos de snRNA
        • RNA polimerasa III: genes de los tRNA, algunos de snRNA y los genes de otro RNA’s pequeños
    • 7. RNA polimerasa II. Necesidades
      • Factores generales de transcripción (TFIIA, TFIIB,…)
      • Proteínas externas que ayudan/dificultan la trascripción -> TF
      • Consecuentemente es necesario secuencias en el gen reconocible por las proteínas externas -> TFBS
    • 8. Cómo actúan los TF
      • Activan la transcripción:
        • Se unen al DNA por un lado y al mediador por otro para hacerlo más estable (Incluso distancias muy largas: doblado de la hélice)
        • Se unen al DNA para modificar la cromatina y hacer la transcripción más “fácil”
        • Se unen a otros TF’s y después al DNA (probable gap en medio) para modificar las propiedades de la cromatina.
      • Reprimen la transcripción:
        • Se unen al DNA por un lado y al mediador por otro para hacerlo menos estable
        • Se unen al “sitio” donde puede unirse un activador
        • Se unen al DNA y después a un activador por la parte con la que podría activar la transcripción
        • Se unen al DNA para modificar la cromatina y hacer la transcripción más “difícil”
    • 9. Qué es un TFBS
      • TFBS: Transcription Factor Binding Site
      • Zona del gen donde se une un TF
      • En definitiva una sucesión de aminoácidos (A,C,G,T) que proporcionan unas propiedades químicas adecuadas
      • Es muy frecuente que un mismo TF se una a distintas secuencias parecidas de aminoacidos: motivos.
    • 10. Representación de motivos
      • Secuencia de consenso
      • PFM -> Position Frequency Matrix ->
        • Cuántas ocurrencias de cada base
      • PWM -> Position Weighted Matrix ->
        • weight i,j = ln (ni,j+pi)/(N+1) ~ ln fi,j pi pi
      • Logos -> Representación gráfica
    • 11. Representación de motivos
    • 12. Ejemplo de motivo
      • TATA Box:
    • 13. Descubrimiento de TFBSs. Hipótesis
      • Los genes que se comportan de forma parecida ante las mismas circunstancias son candidatos a compartir mecanismos regulatorios.
      • Se intenta arrojar luz en el complejo “mundo” de la transcripción. No resuelve todo.
    • 14. Esquema general Genes relacionados Genes con el motivo en su secuencia promotora All Genes on the Microarray Considerar la contribución de cada TFBS Construir un nuevo motivo basado en su contribución a la significatividad del motivo Buscar las 100 semillas más prometedoras (bajo p-value) Degenerar cada semilla Calcular el p-value de la intersección mediante la distribución hipergeométrica 41 … 21 12 5 All Genes 1.0 1 CCCACTCCCG … … … 1e-5 7 TTTCTCTTTC 1e-7 10 TTTCAGTTTC 1e-10 12 TTTCACTTTC P-value Induced Genes Sequence
    • 15. Algoritmos
      • Gibbs Motif : Basado en el Gibbs sampling
      • MEME : Maximización de la expectación del TFBS
      • AlignACE : Basado en técnicas de alineamiento del genoma
      • WebMOTIFS : Aplica varios algoritmos y “mezcla” los resultados.
      • Salida: Lista de motivos. MUCHOS falsos positivos
    • 16. Medidas de comparación entre Motivos
      • ¿Cómo de parecidos son dos TFBS degenerados?
    • 17. Utilidades
      • Aplicación directa en métodos de detección de TFBS -> A la hora de degenerar se puede hacer de forma más precisa.
      • Filtrar las salidas de los algoritmos y obtener una común.
      • Matching con TFBSs conocidos
      • Eliminación de redundancias en las bases de datos
      • Construcción de familias de TFBSs
      • Otras…
    • 18. Medidas existentes
      • Distancia Euclidea
      • Correlación de Pearson
      • Average log-likelihood ratio: Media de los PWM
      • Kullback-Leibler divergence (KLD): Mide la diferencia entre dos distribuciones
      • Pearson Chi-cuadrado -> Columnas estadísticamente independientes
    • 19. Teoría difusa
      • Zadeh (1965) -> Modelar la imprecisión inherente a algunos conceptos
      • Se permite a un objeto pertenecer a un conjunto con un valor de pertenencia entre 0 y 1
      • Lógica clásica -> restringe los valores a 0 ó 1
    • 20. Tecnología difusa ¿Por qué?
      • Manejo de la incertidumbre
      • Tolerancia al ruido típicamente presente en los datos biólogicos
    • 21. Interpretación difusa de motivos
      • En una PFM, cada posición se puede ver como los grados de pertenencia difusa a los conjuntos de los 4 nucleótidos (A,C,G,T)
      • Ejemplo:
        • A C G T
        • 1 0.1 0.2 0.3 0.6
        • 2 0.9 0 0.1 0
    • 22. Medidas difusas (I)
      • Teoría de conjuntos: Jaccard coefficient
      • Proximidad: Minkowsky r-métrica
    • 23. Medidas difusas (II)
      • Coeficiente angular: distancia de Bhattacharyya
      • Fuzzy polynucleotide space measure (FPSM)
        • Mapear la matriz en un punto en el hipercubo unitario de 12 dimensiones [0,1] 12
    • 24. Datos sintéticos (I)
      • Generar columnas aleatorias de distribuciones conocidas
      • Generar columnas aleatorias de distribuciones aleatorias.
      • Comparar la discriminación de las medidas en función del IC
    • 25. Datos sintéticos (II)
    • 26. Clustering de JASPAR (I)
      • JASPAR -> 71 motivos, 11 familias
      • Computar FBPs (Familial Binding Profiles)
      • Medir la similitud entre cada motivo y su FBP
    • 27. Clustering de JASPAR (II) 0.48 0.08 0.41 0.65 0.55 0.57 Media 0.92 0.26 0.09 0.77 0.69 0.70 CREB 0.07 0.01 0.91 0.53 0.44 0.45 Nuclear 0.37 0.02 0.73 0.59 0.47 0.47 HOM 0.50 0.05 0.90 0.68 0.54 0.55 HMG 0.17 0.03 0.26 0.58 0.49 0.50 TRP 0.77 0.19 0.27 0.76 0.68 0.70 REL 0.70 0.01 0.04 0.69 0.61 0.62 MADS 0.62 0.11 0.25 0.72 0.63 0.64 EBP 0.43 0.02 0.24 0.64 0.54 0.57 bHLH 0.05 0.01 0.02 0.55 0.45 0.46 Fork 0.71 0.19 0.75 0.71 0.62 0.63 ETS ALLR Chi 2 Ang Mink FPSM Jac Fam
    • 28. Mejoras
      • Bonificar la similitud entre posiciones bien conservadas
      • Bonificar matrices que siguen la misma distribución
    • 29. Conclusiones
      • El estudio de la detección y comparación de TFBSs es un problema que permanece abierto.
      • La tecnología difusa es aplicable a este tipo de problemas
      • Se necesita profundizar en el tema:
        • Aplicación a genes relacionados
        • Incoporación a algoritmos de detección de TFBSs
    • 30. Ideas futuras
      • Los TF no sólo se unen en función de los nucleótidos que se encuentran: aplicar reglas que además consideren características estructurales del cromosoma, lugares donde se encuentra el promotor, etc.
      • Permitir gaps para hallar conjuntos de TF relacionados entre sí