Bioinformática y RNAs pequeños

1,291 views

Published on

Presentacion LCG, Selene Fernández-Valverde
4 de Noviembre 2011

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,291
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Bioinformática y RNAs pequeños

  1. 1. La bioinformática y los RNAs pequeños Selene Lizbeth Fernandez Valverde University of QueenslandINTRODUCCION A LA BIOINFORMATICA OCTUBRE 27, 2012
  2. 2. Brisbane, Australia Brisbane!
  3. 3. ¿Quíen soy?Soy egresada de la primera generación de la LCG (Septiembre2007)Realicé mi doctorado en la Universidad de Queensland enAustralia, en el laboratorio del Profesor John MattickActualmente soy postdoc en el laboratorio del Profesor BernieDegnan - School of Biological Sciences UQ
  4. 4. ¿Por qué Australia?Profesor John MattickOcupación - RNA-nómanoPensó en porque la célula producetanto RNA “basura” (junk - empezandopor los intrones)*Probablemente es detrimental para unorganismo tener una enorme cantidadde RNA desperdiciado. De realmenteno ser funcional, sería eliminado oreducido durante el proceso evolutivo, amenos que tuviese una funcióndesconocidaHasta el momento todo parece indicarque tiene razón*Mattick. Introns: evolution and function. Current Opinion in Genetics & Development (1994)
  5. 5. Número de genes en eucariontes 35,000 30,000 30,000Número de genes codificantes 25,000 25,000 25,000 23,000 20,000 19,000 18,000 15,000 14,000 10,000 6,000 5,000 5,000 0 Organismo
  6. 6. El tamaño del genoma en eucariontes 3 billion 2,900,000,000 2,500,000,000 2.5 billion 2,400,000,000Tamaño del genoma (bp) 2 billion 1.5 billion 1,000,000,000 1 billion 500 million 170,000,000 95,500,000 125,000,000 12,000,000 23,000,000 0 Organismo
  7. 7. La mayor parte del genoma eucarionte se transcribe Se calcula que solo el 1.2 % de los genomas de mamíferos codifican para proteínas1 Resultados de ENCODE indican más del 90% del genoma humano se transcribe2 El RNA no ribosomal y no mitocondrial constituye del 50 al 65% del contenido total de RNA de la célula (sin considerar exones)3 Recientemente se demostró que al menos 5.5 % del genoma humano esta bajo presión selectiva4 Las ultimas observaciones del proyecto ENCODE demuestran que ~75% del genome se transcribe5 1Cheng. Transcriptional ‘ maps of 10 human chromosomes at 5-nucleotide resolution. Science (2005) 2ENCODE Project Consortium et al. Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature (2007) 3Kapranov et al. The majority of total nuclear-encoded non-ribosomal RNA in a human cell is dark matter un- annotated RNA. BMC Biol (2010) 4Lindblad-Toh et al. A high-resolution map of human evolutionary constraint using 29 mammals. Nature (2011) Djebali et al. Landscape of transcription in human cells. Nature. (2012)
  8. 8. Sólo el 1.2% de nuestro DNA codifica proteínas pero ~75% se transcribe a RNA!?? ¿Qué hace todo el resto del RNA?
  9. 9. El dogma central de la biología molecular DNA RNA Proteína
  10. 10. El dogma central de la biología molecular DNA RNA Proteína
  11. 11. Mismos materiales, estructuras diversasDNA ProteínaRNA
  12. 12. Proteínas homólogas, organismos diversos DNA Proteína RNA
  13. 13. Proteínas homólogas, organismos diversos DNA Proteína Es posible construir distintas estructuras utilizando los mismos RNA componentes pero ensamblandolos de forma diferente
  14. 14. Más datos que corroboran esta teoríaLos RNAs no codificantes son expresados en tejidos, regiones yprocesos específicosMercer et al. Specific expression of long noncoding RNAs in the mouse brain. PNAS USA (2008)Se ha demostrado que varios RNAs no codificantes desempeñanfunciones regulatorias en la célula (pe enhancers, Xist)La mayor parte de la variabilidad en los organismos se concentra enáreas que no codifican para proteínasLa variaciones en secuencias de RNA son mejor toleradas, menosdeletéreas y evolucionan más rapidamente que en secuencias protéicas
  15. 15. Procesos en los que el RNA está involucrado Modificaciones epigenéticas Establecimiento de dominios de heterocromatina Organización de dominios en el DNA Transcripción antisentido Splicing Traducción y regulación de mRNAs Regulación a nivel chromosomal Activación de transcripción Figura adaptada de Amaral et al. Science, 2008
  16. 16. ¿Qué implica esto? Que una gran parte del RNA presente en la célula es funcional y esta involucrado en procesos de regulación (incluidos diferenciación y desarrollo)
  17. 17. The rise of the sequencing machines ! 2005 20092007 2011 2011
  18. 18. The rise of the sequencing machines ! 2005 Estas nuevas tecnologías nos permiten 2009 detectar la mayor parte de los RNAs pequeños presentes en una muestra biológica2007 en un 2011 experimento! solo 2011
  19. 19. La explosión de la secuenciación
  20. 20. La explosión de la secuenciación
  21. 21. ¿Por qué usamos bioinformática?
  22. 22. ¿Por qué usamos bioinformática?La bioinformática es el uso y desarrollo de herramientas computacionalespara analizar datos biológicosLa cantidad de información contenida en la célula en forma de DNA, RNA,proteínas y metabolitos es enorme (miles de millones)Las nuevas tecnologías nos permiten obtener esta información en paraleloLa bioinformática nos permite analizar esta enorme cantidad de informacióne identificar patrones puntuales o globales en este tipo de datos de maneraautomatizada, medible y reproducible
  23. 23. ¿Por qué estudiar RNAs pequeños? Pequeños pero poderosos (menos de 40 nt) Reguladores maestros de los niveles de mRNA en la célula (miRNAs) “ G u a rd i a n e s ” d e l g e n o m a ( re p re s i ó n d e transposones por piRNAs y protección anti-viral por siRNAs) Ajustan de forma dinámica una gran variedad de procesos biológicos (desarrollo, cáncer, diabetes, etc) Definitivamente no codificantes Debido a su tamaño, generalmente funcionan a través de complementariedad de bases Son fáciles de detectar usando secuenciación masiva Se han encontrado distintas clases de estos RNAs en todos los organismos vivos (miRNAs, siRNAs, CRISPR’s etc)Luigi N’ Titi Arts
  24. 24. Primeros ejemplos de miRNAsYa se sabía que los siRNAs actuaban como represores de secuencias complementariasSe encontró que el gen lin-4 codificaba para un RNA pequeño (C. elegans)Después se observó que se originaban de secuencias con hairpins, además de queestaban conservados e involucrados en el desarrollo (como let-7)
  25. 25. Los miRNAs regulan la expresión génica mRNA target site 5’ 3’ 5’ miRNA “seed” (2-8 nt) 3’ microRNA Hutvagner and Simard. NRMCB (2008)
  26. 26. Todo empieza con una pregunta ... O varias ... (enero 2008) ¿Porqué muchas de los RNAs pequeños que secuenciamos no mapean al genoma? ¿Porqué a veces vemos colas de nucleótidos en ciertos microRNAs? ¿Son errores o son señales de un proceso biológico? ¿Cómo lo probamos?
  27. 27. ¿Qué puede ser?1. Errores de secuenciación2. Artefactos generados durante la preparación de librerías3. Variaciones biológicas de los microRNAs (isomiRs)
  28. 28. ¿Qué es un IsomiR?Término acuñado por Morin et. al en 2008Es una variante de un microRNA que tiene cambios o adiciones denucleótidosEl tipo mas común son adiciones de mononucleótidos (generalmenteadenosinas o uracilos) en el extremo 3’ del microRNAAunque menos comunes, también puede haber variaciones en el extremo 5’del microRNA y cambios internos, generalmente causados por conversión deadenosinas a inosinas 
  29. 29. ¿Qué se ha hecho? (isomiRs) Existían reportes de adición de adeninas y uridinas en el extremo 3’ en plantas y animales*, este tipo de adiciones ocurren después de ser procesados por Dicer en Arabidopsis thaliana (Li et al. 2005), y vuelven a los miRNAs menos susceptibles a degradación en Populus trichocarpa (Lu et al. 2009) Se ha demostrado que la proteína GLD-2 adenila miR-122 en células humanas y en hígado de ratón, lo que también incrementa la estabilidad de este miRNA (Katoh et al. 2009) Zcchc-11 uridila miR-26 en células epiteliales de ratón, impidiendo así la represión de IL-6 (Jones et al. 2009)* Li et al. 2005, Landgraf et al. 2007, Ruby et al. 2007, Azuma-Mukai et al. 2008, Morin et al. 2008,Seitz et al. 2008, Ebhardt et al. 2009, Lu et al. 2009
  30. 30. ¿Qué se ha hecho?En este momento ya se sabía que las distintas tecnología desecuenciación tenían distintas fuentes de erroresLa mayoría de estos errores se concentran en el extremo 3’de la secuenciaCiertas tecnologías, particularmente 454, tienen tendencia atener regiones extendidas de mononucleótidos que no estánpresentes en la secuencia originalLas tasas de error en estas tecnologías son mayores a lasreportadas por las compañías que las generan
  31. 31. ¿Cómo lo investigamos?Buscar este tipo de variaciones en diferentes grupos de datosde secuenciación (en este caso públicos)Tratar de dicernir entre errores de secuenciación y posiblesseñales biológicasBuscar si el patrón es similar en distintas réplicas (técnicas ybiológicas)Analizar si estas modificaciones están presentes en libreríassintéticas
  32. 32. ¿Cómo buscar? acinú renam ed )x5( roiretna osap rareti senoicida e raepam noreidup Remover adaptadores Mapear al genoma sin naepam saicneucesExtraer datos de Gene sus a odreuca ed es on euq saicneuces y limpiar datos de permitir bases no sal sadot selauc sol Expression Omnibus saicneuces racifisalC ed 3 omertxe le secuencias apareadasne sANRim racifitnedI ne oditóelcun nu ratroC (NCBI) irrelevantes (mismatches) setnavelerri )sehctamsim( )IBCN(Identificar miRNAs en saicneuces Cortar un nucleótido en sadaerapa Clasificar secuencias el extremo 3 de subinmO noisserpxE los cuales todas las ed sotad raipmil y on sesab ritimrep de acuerdo a sus secuencias que no seeneG ed sotad reartxE secuencias mapean serodatpada revomeR nis amoneg la raepaM adiciones pudieron mapear e de maner única iterar paso anterior (5x)Calcular porcentaje de Extraer y graficar la librería resultados arriba de Interpretar resultadosrepresentado por cada nuestro límite tipo de isomiR
  33. 33. ¿Cómo buscar? acinú renam ed )x5( roiretna osap rareti senoicida e raepam noreidup Remover adaptadores Mapear al genoma sin naepam saicneucesExtraer datos de Gene sus a odreuca ed es on euq saicneuces y limpiar datos de permitir bases no sal sadot selauc sol Expression Omnibus saicneuces racifisalC ed 3 omertxe le secuencias apareadasne sANRim racifitnedI ne oditóelcun nu ratroC (NCBI) irrelevantes (mismatches) setnavelerri )sehctamsim( )IBCN(Identificar miRNAs en saicneuces Cortar un nucleótido en sadaerapa Clasificar secuencias el extremo 3 de subinmO noisserpxE los cuales todas las ed sotad raipmil y on sesab ritimrep de acuerdo a sus secuencias que no seeneG ed sotad reartxE secuencias mapean serodatpada revomeR nis amoneg la raepaM adiciones pudieron mapear e de maner única iterar paso anterior (5x)Calcular porcentaje de Extraer y graficar la librería resultados arriba de Interpretar resultadosrepresentado por cada nuestro límite tipo de isomiR
  34. 34. Predicción de genes regulados por miRNAsDe#aquí#obtuve#las# Este#programa#predice# Esta#herramienta#genera# anotaciones# que#genes#son# estadís9cas#de#un#grupo# reprimidos#por#ciertos# de#genes#en#Drosophila,# canónicas#de#los# microRNAs,#lo#u9licé# y#reporta#aquellos#microRNAs#para#así# para#iden9ficar#genes# terminos#funcionales#poder#iden9ficar#a# regulados#por# que#estan#enriquecidos# los#isomiRs# microRNAs#que#9ene#un# significa9vamente#en# gran#número#de#isomiRs# este#grupo#de#genes#en# par9cular# mRNA target site 5’ 3’ 5’ 3’ microRNA
  35. 35. ¿Cómo buscar?En breve utilicé una serie de herramientas disponibles, junto conscripts en perl, bash y grafiqué los datos en R, además de otrasherramientas como Bowtie, FlyMine y TargetScanLa manera de cuantificar los datos es solo porcentaje de expresiónde cada isomiR o miRNA canónicoArtículos recientes que estudian isomiR en otros organismos utilizanesta misma métrica, probablemente debido a que hasta esemomento existian pocos estudios de referencia en esta área
  36. 36. Adiciones en microRNAs de DrosophilaFemale/male headsFemale/male bodies Embryo 0-1 hrs Embryo 2-6 hrs Embryo 6-10 hrs Imaginal discs
  37. 37. Breve recordatorio de isomiRs
  38. 38. d oogen- Los IsomiR-As son abundantes en etapas tempranas del ing that dditionsment. desarrollo de Drosophila melanogaster templateologically her such espect toopmental how that ange dy-pment innner, and ast eightnd devel-ilable D.sequenc- e Roche/ llumina he latter eplicatesused our
  39. 39. Cálculo del porcentaje de expresión por miRNA loci isomiR-A Secuencias con una o más adenosinas en su extremo 3’ isomiR-C Secuencias con una o más citosinas en su extremo 3’ isomiR-G Secuencias con una o más guanosinas en su extremo 3’ canónico Secuencias iguales a las anotadas en miRBase isomir-U Secuencias con una o más uracilos en su extremo 3’ Porcentaje de # de secuencias de interés expresión de = cierta variante en # Ca + # A + # U + # C + # G cierto microRNA
  40. 40. Los IsomiRs-As son específicos de ciertos miRNAs yrg on October 2, 2010 - Published by Cold Spring Harbor Laboratory Press abundantes en etapas tempranas del desarrollo en Drosophila IsomiR regulation in Drosophila developmentFIGURE 2. miRNAs with abundant isomiR-As. MicroRNAs with >15% of their totalexpression driven by a single isomiR-A tag in at least one time point are shown. Data are
  41. 41. Adiciones en el miRNA miR-282
  42. 42. Los genes reprimidos por los miRNAs ricos en IsomiR-As actúan en etapas tardías del desarrollo Downloaded from rnajournal.cshlp.org on October 2, 2010 - Published by Cold Spring Harbor IsomiR regulatio De#aquí#obtuve#las# Este#programa#predice# Esta#herramienta#genera# anotaciones# que#genes#son# estadís9cas#de#un#grupo# canónicas#de#los# reprimidos#por#ciertos# de#genes#en#Drosophila,# TABLE 1. Target site Gene Ontology enrichment for miRNAs with abundant isomiR-As naute comp microRNAs,#lo#u9licé# y#reporta#aquellos# microRNAs#para#así# para#iden9ficar#genes# terminos#funcionales# to subcellul poder#iden9ficar#a# GO ID GO description regulados#por# Number of genes (%*) P-value que#estan#enriquecidos# choice or th los#isomiRs# microRNAs#que#9ene#un# significa9vamente#en# À4 Overall, the GO:0007435 Salivary glandgran#número#de#isomiRs# morphogenesis este#grupo#de#genes#en# 4(19) 4.28 3 10 GO:0022612 Gland morphogenesis 4(19) par9cular# 3 10À4 4.28 ations in m GO:0007431 Salivary gland development 4(19) 7.59 3 10À4 be depend GO:0035272 Exocrine system development 4(19) 7.59 3 10À4 anatomic cu GO:0048732 Gland development 4(19) 1.27 3 10À3 GO:0009653 Anatomical structure morphogenesis 9(43) 1.93 3 10À3 miRNA exp GO:0002165 Instar larval or pupal development 5(24) 3.61 3 10À3 mRNA alter GO:0009791 Post-embryonic development 5(24) 4.39 3 10À3 The fact GO:0009888 Tissue development 5(24) 6.62 3 10À3 adenylation GO:0045449 Regulation of transcription 6(29) 7.17 3 10À3 of different (*) Percentage calculated over the 21 genes that have Gene Ontology term annotation. single geno the possibil
  43. 43. Un momento ... ¿y los posibles errores?Librería públicaPlataforma - Illumina473 RNAs humanossintéticosSi estas adiciones soncausadas por erroresen la preparación de lalibrería o por erroresde secuenciación,deberíamos detecterlosaquí también¡Esto significa que lasmodificaciones sonbiológicas! ! Figure S6. Counts of unmodified and isomiR tags of 473 synthetic human miRNA libraries. The raw tag counts (abundance) of unmodified (blue), isomiR-As (red), isomiR-Us (purple), isomiR-Cs
  44. 44. Conclusiones de este estudioLos isomiRs con colas de adenosinas (isomiR-As) son másabundantes en etapas tempranas el desarrollo de DrosophilamelanogasterHay un subgrupo específico de microRNAs que tiene una grancantidad de isomiR-As en etapas tempranas del desarrollo deDrosophilamiRNAs que tiene un gran número de isomiR-As reprimengenes activos durante etapas tardías del desarrollo
  45. 45. ¿Que necesito saber para investigar RNAs?Una preguntaConocimiento previo (que se sabe?)Genomas (si los hay!)Datos de secuenciaciónProgramas de mapeoProgramas de conteoProgramas de ensamblajeMetodo de visualización (genome browser)Habilidades de programaciónConocimientos estadísticos
  46. 46. A dónde te puede llevar la genómica 1ra generación: Azul 2da generación: Rojo 3ra generación: Verde 4ta generación: Cian 5ta generación: Amarillo
  47. 47. Miembros previos Mattick Lab Agradecimientos Martin Hansen Ryan Taft John MattickA todos y cada uno de los miembros del Mattick lab

×