Introduccion a la bioinformatica

3,015 views
2,891 views

Published on

Introduccion a la bioinformatica -
Marta Cuadros -
Massive sequencing data analysis workshop -
Granada 2011

Published in: Technology
1 Comment
4 Likes
Statistics
Notes
No Downloads
Views
Total views
3,015
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
181
Comments
1
Likes
4
Embeds 0
No embeds

No notes for slide

Introduccion a la bioinformatica

  1. 1. Introducción a la Bioinformática Marta Cuadros, Carlos CanoDepartamento de Ciencias de la Computación e Inteligencia Artificial Universidad de Granada
  2. 2. De la Biología y la Informática a laBioinformática…… Historia de la Informatica Historia de la Biología Molecular
  3. 3. De la Biología y la Informática a la Bioinformática……Bioinformática
  4. 4. ¿Que es Bioinformática? La bioinformática es un campo de la ciencia donde se integran con la biología diferentes disciplinas como: Matemáticas Estadística Bioinformática Teoría Físca-química de Control Ciencias de Biología Biología la Computación Molecular estructural…. para poder abordar el descubrimiento de nuevo conocimientobiológico. Source: http://ccb.wustl.edu/
  5. 5. Interdisciplinaridad y problemas decomunicaciónEl ADN es un polímero denucleótidos. Cada nucleótido estáformado por un grupo fosfato, Es una cadena / “string” deuna desoxiribosa y una base longitud variable y con unnitrogenada. alfabeto de cuatro caracteres A, T, C, GLos nucleótidos se diferencianpor sus bases nitrogenadasdivididas en dos grupos: dospurínicas denominadas adenina GCCACATGTAGATAATTGAAACTGGATCCTCA(A) y guanina (G) y dos TCCCTCGCCTTGTACAAAAATCAACTCCAGATpirimidínicas denominadas GGATCTAAGATTTAAATCTAACACCTGAAACC ATAAAAATTCTAGGAGATAACACTGGCAAAGCcitosina (C) y timina (T). TATTCTAGACATTGGCTTAGGCAAAGAGTTCG TGACCAAGAACCCAAAAGCAAATGCAACAAAA ACAAAAATAAATAGGTGGGACCTGATTAAACT GAAAAGCCTCTGCACAGCAAAAGAAATAATCA GCAGAGTAAACAGACAACCCACAGAATGAGAG AAAATATTTGCAAACCATGCATCTGATGACAA AG
  6. 6. Bioinformatica: convergencia de dosrevoluciones El crecimiento exponencial de datos y la era de la información 10 Enero 2011: 225,047,396,161 bases
  7. 7. Hoy en día… ...las nuevas tecnologías en biología están cambiando la forma de abordar los problemas debido a: -la gran cantidad de datos - y las multiples tipologías de estos Ninguna persona o grupo puede tiene Se hace necesaria la aparición de una visión general de todo lo conocido ciencias interdisciplinares como la Bioinformatica
  8. 8. Ámbito de aplicación de la Bioinformática Dogma Central de la Biología Replicacion ADN Trascripción ARN ncRNAs Traducción Proteína Modificaciones post-transduccionales Fenotipo
  9. 9. Bioinformatica: Omas y OmicasGenomica Secuencias primarias (DNA, RNA) Replicacion ADN Bases de datos (BD), algoritmos Genomas Estudios de evolución molecular TrascripciónTranscriptomica(Genomica Funcional) Datos de expresion (Microarray data) ARN BDs, herramientas de analisis TraducciónProteomica Secuencias de proteina y estructuras espectometría de masas, rayos-X, Proteína cristalografia Modificaciones post-transduccionalesBiologia de sistemas Fenotipo(metabolòmica) flujos metabólicos Interactómica redes de interacción
  10. 10. Genómica y genomas Es el estudio de la secuencia estructura y funcion del genomaEspecies Conocidas Evolución de los genomas secuenciados en los últimos años Año Numero de Geomas secuenciados 1994 0 1995 1 Enero 2011 1780 Eucariotas 272 (41 mamiferos) Bacterias 1518 Arqueobacterias 81
  11. 11. Projecto: Genoma Humano Projecto Internacional 15 Febrero 2001 Determinar la secuencia genomica humana y de otros oganismos modelo Tiempo y coste han sido los factores limitantes
  12. 12. Etapas en el proyecto genoma 1991..Human Genome Project begins 1994-1996..genetic maps 1995-1998..physical maps 1998..DNA sequencing begins 2000...Rough draft DNA sequence 2003…Complete DNA sequence 2005…...Gene map complete
  13. 13. Evolución del Coste y tiempo necesario para la Secuenciación 2001: Human de Genomas Genome Project 2.7G$, 11 years 10 2007: 454 8Log10(price) 1M$, 3 months 2008: ABI SOLiD 6 60.000$, 2 weeks 2010: 5000$, 2001: Celera a few days? 4 2009: Illumina, 100M$, 3 years Helicos 40-50000$ 2 2012: 100$, <24 hrs? 2000 2005 2010 Year 13
  14. 14. Transcriptomica Desde la caracterización del genoma humano, han surgido nuevas vías de investigación sobre el análisis global del material genético. Es evidente que NO todo el genoma es transcrito y traducido finalmente a proteínas Transcriptoma surge para representar todo el mRNA transcrito bajo unas circunstancias, de forma global. Cada organismo tiene infinidad de transcriptomas dependiendo del tipo tisular o las condiciones ambientales que se estudien.
  15. 15. Transcriptomica Muestra 1 Muestra 2 DNA chip technology sano enfermo Extracción de ARN RNA RNA Sintesis de cDNA cDNA cDNA fluorescente Interpretación amarillo No especificoDNA chip rojo Especifico Muestra 1 verde Especifico muestra 2 Source: deRisi et al., Science 1997
  16. 16. Proteoma y ProteomicaProteoma. Es el set completo de proteinas y otrosproductos génicos producidos por el genoma.Proteomica. Es el estudio de las interacciones entreproteinas, incluyendo diferencias en los distintosestados del desarrollo, tejidos y organos.
  17. 17. Datos y ciencias utilizadas actualmente en estudios Bioinformáticos
  18. 18. ¿Para qué es necesaria la Bioinformática? …. para poder abordar el descubrimiento de nuevo conocimiento biológico. Lo cual facilita la integración de información y una mejor comprensión de los sistemas Biológicos Establece puentes entre distintas áreas de conocimiento
  19. 19. Tipos de estudios que han utilizado laBioinformática Medicina Molecular  Agricultura ◦ Nuevos medicamentos ◦ Cultivos ◦ Medicina personalizada ◦ Resistencia a los insectos ◦ Medicina preventiva ◦ Mejorar la calidad nutricional ◦ Terapia génica ◦ cultivos en suelos más pobres y que son resistentes a la sequía Aplicaciones genomas microbiano  Animales ◦ Residuos de limpieza ◦ El cambio climático  Estudios comparativos ◦ Fuentes alternativas de energía ◦ Biotecnología ◦ Resistencia a los antibióticos ◦ Análisis forense de los microbios ◦ Estudios evolutivos
  20. 20. Bases de Datos Biológicas ¿Qué es una base de datos? ¿Qué tipos de datos hay disponibles? ¿Qué es el esquema Genbank ? ¿Cómo es una entrada de datos en una BD biologica? ¿Cómo se usan?
  21. 21. ¿Que es una base de datos? Es una colección de datos que tiene que ser: ◦ estructurada ◦ buscable ◦ actualizaciones regulares ◦ links y referencias a otras colecciones de datos
  22. 22. Algunas Bases de datos BiológicasAATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, ARR, AsDb, BBDB, BCGD, Beanref, PatBase, PDB, Biolmage, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD BioMagResBank, BIOMDB, BLOCKS, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, BovGBASE, PROSITE,BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase DictyDb, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2DPicty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, ECDC, SWISS- ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, MODEL Repository, SWISS-PROT, TelDB, TGN, EMD db, tmRDB,ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, TOPS, TRANSFAC, TRR, UniGene, URNADB, VGCRDB, GDB, GENATLAS, Genbank, GeneCards, BASE, Genline, GenLink, GENOTK, GenProtEC, VDRR,VectorDB, WDCM, WIT, WormPep,YEPD GIFTS, YPD,Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol- YPM, etc .................. !!!! R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0- lycBase,
  23. 23. Tipos de Bases de Datos Database Types Other  Hay muchas BD de Genomas Gene Nucleotide Expression Sequence RNA Sequence Disease  La mayoria no son de secuencias ProteinGenome Sequence  Hay muchas bases de datos especificas(human)Pathways  Bases de datos especializadas en Structure enfermedades Genome (non- human)
  24. 24. • Actualizaciones diarias entre NIH (USA) Entrez • los paises DDBJ, GenBank and EMBL. NCBI•Submissions GenBank •Submissions•Updates •Updates EMBL DDBJ CIB EBI •Submissions •Updates SRS EMBL(Europa) getentry NIG (JAPON)
  25. 25. Tipos de Bases de Datos Biologicas Primarias (almacenamiento) GenBank/EMBL/DDB UniProt (proteinas) PDB (estructuras) Medline (PubMed) Articulos Secondary (curadas) RefSeq Taxon (taxonomia) SwissProt (proteinas curadas) OMIM (genes-enfermedades)
  26. 26. Formatos frecuentes de secuenciasde ADN y Proteinas Genbank ASN1 FASTA GCG>gi|1345098|gb|U30791.1|PCU30791TGAATTCTAAATTTTATATTTCTAATTGCATTTTATATTTTTGATAA IG(Intelligenetics)TACTAGATTTATTCCTGGAAACTTAAATTAGTTATTTTAAGTTATG TextGGATGTTGTTTTTCTGCTACATATAACCAAGATACACTTCGTTCCAA
  27. 27. ¿Cómo averiguar si una secuencia ya existeen una Base de datos?¿Cómo averiguar si hay una secuenciasimilar a la mia en otro genoma?¿Cómo averiguar cual es la funcion de misecuencia desconocida?
  28. 28. La respuesta:Busquedas de similaridad Por homología (similaridad en la secuencia)Requiere unasecuencia para Un Algoritmo para buscar con mibuscar Una base de datos secuencia en la Base de secuencias>Mi_Secuencia_desconocida de datosTGAATTCTAAATTTTATATT donde BUSCARTCTAATTGCATTTTATATTTTTGATAATACTAGATTTATTCCTGGAAACTTAAATTAGTTATTTTAAGTTATGGGATGTTGTTTTTCTGCTACATATAACCAAGATACACTTCGTTCCAA
  29. 29. BLAST (Basic Local Alignment Search Tool) http://blast.ncbi.nlm.nih.gov/Blast.cgi Encuentra las regiones de similitud entre secuencias locales.El programa compara secuencias de nucleótidos o proteínas con bases de datos desecuencias y calcula la significancia estadística de concordancias. BLAST puede serusado para inferir relaciones funcionales y evolutivas entre las secuencias, así comoayudar a identificar a miembros de familias de genes.
  30. 30. BLAST
  31. 31. Distintos Tipos de BLAST Tipo de Base Secuencia Tipo de Programa de datos desconocida Alineamiento BLASTP Proteina Proteina Gapped ADN ADN BLASTN Gapped (Nucleic) (Nucleic) ADN Frame BLASTX Proteina Traducido a Gapped Proteina BD de ADN Frame TBLASTN Traducida a Protein Gapped Proteina BD de ADN Trans. TBLASTX Traducida a Ungapped Nucleic Proteina
  32. 32. Basic BLAST
  33. 33. Specialized BLAST
  34. 34. Regís presentó a Henry Wu, un hombre tranquilo, esbelto, de unos treinta años. Eldoctor Wu es nuestro genetista jefe. Dejaré que les explique lo que hacemos aquí.Por lo menos lo intentaré, sonrió Wu. La genética es un poco complicada. Pero esprobable que ustedes se estén preguntando de donde viene nuestro ADN dedinosaurio.Es algo que me pasó por la cabeza, dijo Grant.A decir verdad, empezó Wu, existen, dos fuentes posibles. Mediante la técnica deanticuerpos de Loy, a veces podemos obtener ADN directamente de huesos dedinosaurio.¿Con qué rendimiento?, preguntó Grant.Bueno, la mayoría de las proteínas solubles se lixivia durante la fosilización, pero elveinte por ciento de las proteínas es aún recuperable a través de la pulverización delos huesos y del posterior uso del procedimiento de Loy. El mismo doctor Loy loempleó para obtener proteína de marsupiales australianos extinguidos, así comocélulas sanguíneas de antiguos de restos humanos. La técnica de Loy es tan refinadaque puede funcionar con una cantidad tan ínfima como cincuenta nanogramos dematerial, es decir, cincuenta mil millonésimas de gramo.¿Y ustedes adaptaron esta técnica aquí? , preguntó Grant.
  35. 35. Sólo como respaldo. Como podrán imaginar, un rendimiento del veinte por ciento esinsuficiente para nuestro trabajo. Necesitamos toda la cadena de ADN de dinosauriopara poder hacer clones. Y lo obtenemos aquí. Sostuvo en alto una de las piedrasamarillas de ámbar, la resina fosilizada de savia de árboles prehistóricos. Grant miró aEllie y, después, a Malcolm. Eso es muy inteligente en verdad , dijo Malcolm, asintiendocon la cabeza.Sigo sin entenderlo , admitió Grant.La savia de árbol , explicó Wu, a menudo fluye sobre los insectos y los atrapa.Entonces, los insectos quedan perfectamente conservados dentro del fósil. Seencuentra toda clase de insectos dentro del ámbar... ..incluyendo insectos picadoresque succionaron sangre de animales más grandes.Succionaron la sangre —repitió Grant. Quedó con la boca abierta—: Usted quieredecir «succionaron la sangre de los dinosaurios».Con suerte, sí.Y entonces los insectos se conservan en ámbar... ,Grant sacudió la cabeza, ¡Quién lohubiera pensado! Podría funcionar.Se lo aseguro, sí que funciona , dijo Wu. Fue hacia uno de los microscopiosestereoscópicos, en el cual uno de los técnicos ponía en posición un trozo de ámbarque contenía una mosca bajo los objetivos dobles.
  36. 36. Sobre la pantalla del monitor observaron cómo el técnico insertaba una aguja larga através del ámbar, hasta penetrar en el tórax de la mosca prehistórica. Si este insectotiene células sanguíneas no pertenecientes a él, puede que consigamos extraerlas yobtener ADN, el ADN de un ser extinguido. No lo sabremos con seguridad, claro está,hasta que extraigamos lo que sea que haya ahí dentro, hagamos réplicas y losometamos a ensayos. Eso es lo que llevamos haciendo desde hace cinco años. Ha sidoun proceso largo y lento, pero que rindió buenos resultados.Tim vio que el doctor Grant mantenía su aire de escepticismo, y Dennis Nedry, elgordo desaliñado, parecía carecer por completo de interés, como si ya supiera todoeso. Pero lo que sí hacía era seguir mirando con impaciencia la sala siguiente.Veo que el señor Nedry descubrió la fase siguiente de nuestro trabajo , dijo Wu, cómoidentificamos el ADN que extraemos. Para eso, utilizamos ordenadores potentes.Por unas puertas corredizas pasaron a una sala muy refrigerada. Se oía un fuertezumbido. Dos torres redondas de un metro ochenta de alto se erguían en el centro dela sala y, a lo largo de las paredes, había hileras de cajas de acero cuya altura llegaba a lacintura de un hombre:Ésta es nuestra lavandería automática de alta tecnología , explicó el doctor Wu. Todaslas cajas que hay a lo largo de las paredes son secuenciadores automáticos de genesHimachi-Hood. Los superordenadores «Cray XMP» trabajan a una velocidad muy alta ,que son las torres que hay en el centro de la sala. En esencia, ustedes se encuentran enel centro de una fábrica increíblemente poderosa de productos genéticos.
  37. 37. Intentemos ayudar al Dr. Wu a identificarsu secuencia>LostWorld DNAgaattccgga agcgagcaag agataagtcc tggcatcaga tacagttgga gataaggacggacgtgtggc agctcccgca gaggattcac tggaagtgca ttacctatcc catgggagccatggagttcg tggcgctggg ggggccggat gcgggctccc ccactccgtt ccctgatgaagccggagcct tcctggggct gggggggggc gagaggacgg aggcgggggg gctgctggcctcctaccccc cctcaggccg cgtgtccctg gtgccgtggg cagacacggg tactttggggaccccccagt gggtgccgcc cgccacccaa atggagcccc cccactacct ggagctgctgcaaccccccc ggggcagccc cccccatccc tcctccgggc ccctactgcc actcagcagcgggcccccac cctgcgaggc ccgtgagtgc gtcatggcca ggaagaactg cggagcgacggcaacgccgc tgtggcgccg ggacggcacc gggcattacc tgtgcaactg ggcctcagcctgcgggctct accaccgcct caacggccag aaccgcccgc tcatccgccc caaaaagcgcctgcgggtga gtaagcgcgc aggcacagtg tgcagccacg agcgtgaaaa ctgccagacatccaccacca ctctgtggcg tcgcagcccc atgggggacc ccgtctgcaa caacattcacgcctgcggcc tctactacaa actgcaccaa gtgaaccgcc ccctcacgat gcgcaaagacggaatccaaa cccgaaaccg caaagtttcc tccaagggta aaaagcggcg ccccccgggggggggaaacc cctccgccac cgcgggaggg ggcgctccta tggggggagg gggggacccctctatgcccc ccccgccgcc ccccccggcc gccgcccccc ctcaaagcga cgctctgtacgctctcggcc ccgtggtcct ttcgggccat tttctgccct ttggaaactc cggagggttttttggggggg gggcgggggg ttacacggcc cccccggggc tgagcccgca gatttaaataataactctga cgtgggcaag tgggccttgc tgagaagaca gtgtaacata ataatttgcacctcggcaat tgcagagggt cgatctccac tttggacaca acagggctac tcggtaggaccagataagca ctttgctccc tggactgaaa aagaaaggat ttatctgttt gcttcttgctgacaaatccc tgtgaaaggt aaaagtcgga cacagcaatc gattatttct cgcctgtgtgaaattactgt gaatattgta aatatatata tatatatata tatatctgta tagaacagcctcggaggcgg catggaccca gcgtagatca tgctggattt gtactgccgg aattc
  38. 38. ¿Existe una proteína similar? Vamos a hacer un Blastx con esta secuencia ADN Frame BLASTx Proteina Traducido a Gapped Proteina
  39. 39. Selecciona el algoritmo adecuado Copiar y pegar la secuencia en el cuadro Seleccionar la Base de DatosPincha en Blast
  40. 40. Resultados: ¿como interpetarlos?
  41. 41. Resultados: ¿cómo interpretarlos?
  42. 42. Resultados: ¿como interpetarlos?
  43. 43. Resultados: ¿como interpretarlos?
  44. 44. 2.Haz un Blastx. Busca proteínas usando la secuencia de nucleótidosSi seguimos el link La secuencia publicada en el libro de Michael Crichton “El mundo perdido” ( The Lost World) la generó Mark Boguski, el experto en biología molecular con el que trabajo Mr. Crichton para escribir la clonación de los dinosaurios. Mark gastó una broma cuando hizo esta secuencia.
  45. 45. ¿Como conseguimos másinformacion?¿que podemos deducir?1- Existe una proteinaque se parece mucho a lanuestra, pero no tiene lamisma longitud 2- La proteina es un factor de transcripcion de eritrocitos, es decir una proteina que activa la expresion del un gen para la produccion de globulos rojos en pollo (Gallus gallus)
  46. 46. ¿Y si buscamos en una base de datos desecuencias nucleotidicas?Vamos a hacer un Blastn con esta secuencia para buscar si hayalguna/s secuencias de ADN similares ADN ADN BLASTN Gapped (Nucleic) (Nucleic)
  47. 47. Selecciona el algoritmo adecuado Copiar y pegar la secuencia en el cuadroOthers Seleccionar la Base de Datos Pincha en Blast
  48. 48. Resultados: ¿como interpetarlos? Gallus gallus GATA binding protein 1 (globin transcription factor 1) Chicken erythroid-specific transcription factor eryf1 mRNA, complete cds Xenopus laevis GATA-binding proteinXenopus laevis (XGATA-2) gene,GATA binding complete cdsprotein 1 (globintranscription factor1) (gata1-b), mRNA Nuestra secuencia de Dinosaurio esta compuesta de 3 secuencias actuales
  49. 49. ¿Que significa lo que hemos encontrado? Nuestra secuencia desconocida capturada en el ámbar hace millones de años está compuesta de 3 secuencias actuales de dos especies distintas 1 de Gallus gallus (pollo) 2 de Xenopus laevis (la rana) Podemos concluir que nuestra secuencia es de Dinosaurio
  50. 50. ¿Qué es Ensembl? •Es un repositorio de genomas completos e información adicional. •Tiene múltiples niveles de acceso con una gran flexibilidad.  Da acceso tanto al genoma humano como a otros 50 genomas.  Permite la realización de búsquedas de homología  Permite descargarse regiones completas del genoma, genes, proteínas, ect..  Permite extraer todas las SNPs en un gen concreto, así como sus consecuencias.http://www.ensembl.org
  51. 51. ¿Existen otros navegadores genómicos?  NCBI Map Viewer http://www.ncbi.nlm.nih.gov/mapview/  UCSC Genome Browser http://genome.ucsc.edu
  52. 52. ¿Cuál es la diferencia de estosnavegadores comparados conEnsembl?• Ensembl basa su anotación en evidencias experimentales: mRNA y proteínas (más fiable)• Permite realizar análisis comparativos de genes• Permite la integración de datos procedentes de otras bases de datos (DAS)• Permite realizar minería de datos: BioMart (Data-mining tool)
  53. 53. Genomas disponibles en Ensembl 50 especies la mayoría son vertebrados
  54. 54. ¿Qué datos podemos encontrar? • ARNs (genes no codificadores de proteínas) • Referencias a bases de datos externas • Genes, proteínas, variaciones de un gen • Otras características del genoma: elementos repetitivos, islas CpG • Secuencias similares y alineamientos de secuencias al genoma completo • Datos de regulación: promotores • Datos de otras fuentes o usuarios(DAS)
  55. 55. Integración de la información Exon Exon Exon Untranslated+Coding Coding Untranslated GenomacDNAs alineado y proteínas …. demasiada información y poco interpretable
  56. 56. Ensembl muestra sólo transcritostipo con evidencia subyacente
  57. 57. ¿Qué significa una ID enEnsembl?  ENSG### Ensembl Gen ID  ENST### Ensembl Transcrito ID  ENSP### Ensembl Proteína ID  ENSE### Ensembl Exon ID  Para las demás especies, se añade un código de tres letras que la representa: MUS (Mus musculus) for mouse: ENSMUSG### DAR (Danio rerio) for zebrafish: ENSDARG###, etc.
  58. 58. ¿Cómo está organizada toda lainformación?¿Cómo accedo?  Ensembl Views • BioMart „DataMining tool‟ (Website)
  59. 59. Vamos a pasear por el genoma… Nuestro ejemplo: el gen de la rodopsina humana (RHO)• Vamos a obtener el resumen de datos para el gen y sus enlacesrelaccionados: (Gene Tab) • ¿Cuántas variantes tiene el gen? • Vamos a ver las secuencias genómicas para esas variaciones • Vamos a encontrar secuencias con la misma función en otros organismos• Vamos a obtener los datos para cada transcrito: (Transcript Tab) • ¿Cuál es la secuencia de la proteína que codifica? • ¿Qué informaciones podemos encontrar en otras bases de datos?•¿En qué región del genoma, en qué cromosoma se encuentra el gen?:(Location Tab)
  60. 60. Vamos a empezar… Ve al navegador y accede a www.ensembl.org
  61. 61. Vamos a buscar con el nombre delgenEscribe „gene RHO‟ en la barra de búsqueda como se muestra en la imagen ypresiona el botón „Go‟ .
  62. 62. ¿Cómo encuentro lo que busco? Selecciona el primer resultado
  63. 63. Location Tab o ¿dónde está mi gen? Genes que rodean a RHO Variaciones conocidas del gen RhoTodas las visualizaciones se pueden personalizar, añadiendo o retirando información. Para ello usa el enlace Configure a tu izquierda.
  64. 64. ¿Qué son los enlaces en la ventanade la izquierda? Selecciona Gene Tab ¿Cómo veo la secuencia en el genoma?
  65. 65. ¿Cómo defino lo que quiero ver? Para configurar la página haz click aquíSelecciona: Display variationsDetermina el númerode líneas: Number of lines
  66. 66. ¿Cómo puedo extraer la secuencia?Después de investigar las ventanas: Location/Gene display,nos gustaría conseguir la secuencia genómica en la que seencuentra el gen RHO.Para ello ve a “Export data option” y haz click en “Next”
  67. 67. Genómica Comparativa: Alineamientosgenómicos Para ver el alineamiento genómico a nivel de nucleótidos Selecciona “12 eutherian mammals ¿Cómo puedo ver los EPO”. EPO se refiere al flujo de alineamientos genómicos programas detrás de los alineamientos que hay de esta region? de genomas completos Los residuos idénticos están marcados
  68. 68. Tipos de secuencias Homólogas Secuencias homólogas son secuencias muy parecidas• Ortólogas: Son secuencias muy parecidas que realizan la misma función en distintos organismos. Normalmente comparten un ancestro común y se identifican en los árboles por eventos de especiación.• Parálogas: Cualquier secuencia parecida que proviene de un proceso de duplicación. Normalmente terminan desempeñando otra función.
  69. 69. Cómo ver secuencias Homológas en Ensembl: Tree ViewHaz click en Gene tree (image). Esta imagen te muestra todos los genesparecidos a tu secuencia en el contexto de un árbol filogenético.Este árbol sirve para identificar secuencias ortólogas y parálogas Click en Orthologues para ver las secuencias ortólogas identificadas por el árbolClick en cualquier nodo para extender o reducir el árbol.
  70. 70. Tabla de secuencias ortólogas ¿Qué es „1 to 1‟? one-to-one ortólogo: En ambas especies sólo hay un ortológo.¿Qué es „1 to many‟? one-to-many or many-to-many ortólogos: en al menos una de las dos especies hay una duplicación después de la separación de ambas especies (especiación)
  71. 71. Cómo interpretar los árboles Un cuadrado azul es un proceso de especiación (Orthologos) Un cuadrado rojo es un proceso de duplicación (Paralogos)
  72. 72. Gene Tab: Información de un genVuelve al Gene Tab.Vamos a concentrarnos en el transcrito (mRNA, es el gen sólo con la parteinformativa).Selecciona el transcrito más largo de la tabla (ENST00000296271).Esto te llevará al resumen del transcrito Transcript Tab En el menú de la izquierda en Configure puedes seleccionar qué y cómo lo quieres ver.
  73. 73. Exones de un TranscritoSelecciona Exons en el menú de la izquierda para visualizar las secuencias delos exones. Esta vista te muestra flancos(exones, intrones y las secuencias que flanquean al gen). (verde) UTRs (morado) Intrones (azul) Secuencias codificadoras de proteínas (CDS) Configure para cambiar la vista: (negro) enseñar las secuencias de los intrones enteras, mostrar sólo exones, ect..
  74. 74. ¿Hay información sobre misecuencia en otras bases de datosbiológicas? Aquí podrás ver todas las referencias a bases de datos externas que se conocen sobre tu secuencia. General identifiers
  75. 75. ¿Cómo es la proteína que codifica m gen? Ensembl proteína Motivos mapeados a la secuenciaHaciendoclick enDomains &features semuestrantodos losmotivosque se hanencontradoen laproteína.
  76. 76. Variaciones Genómicas: SNP • Polymorfismo: Es una variación del ADN que está presente en al menos un 1% de la población • El 90% de los polimorfismos son SNPs (Single Nucleotide Polymorphisms). Es decir variaciones de un solo nucleótido (símbolo) en el ADN Type Description Consequence non-synonymous SNP SNPs en el ADN altera un Fibrosis cística(CFTR) aa de la proteína Hemofilia (F8) synonymous SNP SNPs en el ADN no altera Pero puede afectar a la la secuencia de la proteína correcta producción del transcrito regulatory SNP SNPs está en una región Puede afectar el nivel de reguladora de la expresión expresión SNPs en otras regiones Útiles como marcadores “No tiene impacto”
  77. 77. Tabla de Variaciones Genómica Mira la tabla de variaciones para RHO a partir de la Gene Tab
  78. 78. Imagen de Variaciones GenómicaMuestra de una forma gráfica las variaciones sobre la secuencia del Transcrito Selecciona en Configure “Consequence Type” Selecciona sólo Non_Synonimo us SNPs
  79. 79. Conceptos básicos antes de empezar
  80. 80. GCCACATGTAGATAATTGAAACTGGATCCTCATCCCTCGCCTTGTACAAAAATCAACTCCAGATGGATCTAA ¿Qué es el ADN?GATTTAAATCTAACACCTGAAACCATAAAAATTCTAGGAGATAACACTGGCAAAGCTATTCTAGACATTGGCTTAGGCAAAGAGTTCGTGACCAAGAACCCAAAAGCAAATGCAACAAAAACAAAAATAAATAGGTGGGACCTGATTAAACTGAAAAGCCTCTGCACAGCAAAAGAAATAATCAGCAGAGTAAACAGACAACCCACAGAATGAGAGAAAATATTTGCAAACCATGCATCTGATGACAAAGGACTAATATCCAGAATCTACAAGGAACTCAAACAAATCAGCAAGAAAAAAATAACCCCATCAAAAAGTGGGCAAAGGAATGAATAGACAATTCTCAAAATATACAAATGGCCAATAAACATACGAAAAACTGTTCAACATCACTAATTATCAGGGAAATGCAAATTAAAACCACAATGAGAT Es un alfabeto de 4 caracteresGCCACCTTACTCCTGCAAGAATGGCCATAATAAAAAAAAATCAAAAAAGAATAAATGTTGGTGTGAATGTGGTGAAAAGAGAACACTTTGACACTGCTGGTGGGAATGGAAACTAGTACAACCACTGTGGAAAACAGTACCGAGATTTCTTAAAGAACTACAAGTAGAACTACCATTTGATCCAGCAATCCCACTACTGGGTATCTACCCAGAGGA Este alfabeto de 4 caracteres contiene suficiente información paraAAAGAAGTCATTATTTGAAAAAGACACTTGTACATACATGTTTATAGCAGCACAATTTGCAATTGCAAAGATATGGAACCAGTCTAAATGCCCATCAACCAACAAATGGATAAAGAAAATATGGTATATATACACCATGGAACA crear organismos complejos, mediante el uso de largas palabrasCTACTCAGCCATAAAAAGGAACAAAATAATGGCAACTCACAGATGGAGTTGGAGACCACTATTCTAAGTGAAATAACTCAGGAATGGAAAACCAAATATTGTATGTTCTCACTTATAAGTGGGAGCTAAGCTATGAGGACAAAAGGCATAAGAATTATACTATGGACTTTGGGGACTCGGGGGAAAGGGTGGGAGGGGGATGAGGGACAAAAGACT Similitud con el código binarioACACATTGGGTGCAGTGTACACTGCTGAGGTGATGGGTGCACCAAAATCTCAGAAATTACCACTAAAGAACTTATCCATGTAACTAAAAACCACCTCTACCCAAATAATTTTGAAATAAAAAATAAAAATATTTTAAAAAGAACTCTTTAAAATAAATAATGAAAAGCACCAACAGACTTATGAACAGGCAATAGAAAAAATGAGAAATAGAAAGGAATACAAATAAAAGTACAGAAAAAAAATATGGCAAGTTATTCAACCAAACTGGTAATTTGAAATCCAGATTGAAATAATGCAAAAAAAAGGCAATTTCTGGCACCATGGCAGACCAGGTACCTGGATGATCTGTTGCTGAAAACAACTGAAAATGCTGGTTAAAATATATTAACACATTCTTGAATACAGTCATGGCCAAAGGAAGTCACATGACTAAGCCCACAGTCAAGGAGTGAGAAAGTATTCTCTACCTACCATGAGGCCAGGGCAAGGGTGTGCACTTTTTTTTTTCTTCTGTTCATTGAATACAGTCACTGTGTATTTTACATACTTTCATTTAGTCTTATGACAATCCTATGAAACAAGTACTTTTAAAAAAATTGAGATAACAGTTGCATACCGTGAAATTCATCCATTTAAAGTGAGCAATTCACAGGTGCAGCTAGCTCAGTCAGCAGAGCATAAGACTCTTAAAGTGAACAATTCAGTGCTTTTTAGTATATTCACAGAGTTGTGCAACCATCACCACTATCTAATTGGTCTTAGTCTGTTTGGGCTGCCATAACAAAATACCACAAACTGGATAGCTCATAAACAACAGGCATTTATTGCTCACAGTTCTAGAGGCTGGAAGTGCAAGATTAAGA
  81. 81. ¿Qué es el ADN? Fosfato Base nitrogenada• ADN: Deoxyribonucleic Acid (ácido dexosiribonucleíco)• 4 nucleotidos: – Adenosina (A) – Citosina (C) – Guanina (G) – Timina (T) Azúcar Nucleótido
  82. 82. Un Gen es un segmento de DNA que da lugar a una proteína
  83. 83. Adenina (A) Citosina (C) Siempre se une a Siempre se une a Timina (T) Guanina (G)A G T A C T G C GT C A T G A C G C Ser Stop Arg Proteína
  84. 84. Estructura de un gen
  85. 85. Esquema de la transcripción
  86. 86. Código genéticoUn codón tiene 3 bases Adenina Timina Guanina Citosina4 * 4 * 4 = 64 combinaciones posibles (codon)Codón de inicio: AUGCodónes de parada o Stop: UAA, UAG, UGA61 codones codifican el resto de los 20 amino ácidos (AUG también 20 aminoácidos Metionina)
  87. 87. Organización del genoma humano  Distribución no uniforme de genes y repeticiones a lo largo del GH.  5% es codificante  50% es copia única  50% DNA repetitivo
  88. 88. Organización del genoma humano Cariotipo normal: 46, XX
  89. 89. Organización del genoma humano
  90. 90. Ejemplo de organización de unaregión del GH
  91. 91. Organización del genoma humano
  92. 92. Organización del genoma humano Introducción 93
  93. 93. MutaciónCambios permanentes/heredables producidos durante la replicación de DNAProbabilidad de mutación en células humanas: 1 de cada 105
  94. 94. Mecanismos celulares de reparaciónDURANTE LA REPLICACIÓN:-Roturas de una de las hebras de DNA (DNA polimerasaI/DNA Ligasa)-Inserción de un nucleótido (DNA polimerasa(exonucleasa3’-5’, actividad correctora de errores)POR EXPOSICIÓN A RADIACIONES EXTERNAS:-Formación de dimeros de timina (DNA polimerasaI/endomnucleasa 5’-3’
  95. 95. Mecanismos de mutación A C T G C T DELECION SUSTITUCION A C G CA C C G C T T INSERCION -T TxC A C T T G C T +T
  96. 96. Mutación neutra His Lys Tyr His C A C A A G U A U C A C MUTACIÓN C A C A A G U A G C A C His Lys Tyr His
  97. 97. Mutación sin significado(nonsense mutation) His Lys Tyr His C A C A A G U A U C A C MUTACIÓN His Lys C A C A A G U A A TRIPLETE DE PARADA
  98. 98. Mutación de significado erróneo(missense mutation) His Lys Tyr His C A C A A G U A U C A C MUTACION C A C A A G U G U C A C His Lys Cis His
  99. 99. Métodos de detección demutacionesLa detección de mutaciones es esencial para la caracterizaciónmolecular, diagnostico, prevención y tratamiento de enfermedades.Los cambios en el DNA son responsables de fenotipos particularesMÉTODO DE DETECCIÓN: - SECUENCIACIÓN DIRECTA - ANÁLISIS FRAGMENTOS DE RESTRICCIÓN (RFLP) - SSCP (Single-Strand Conformational Polymorphism) - HA (Heterodúplex Analysis) - CSGE (Conformation Sensitive Gel Electrophoresis)
  100. 100. Qué son los SNPs? La secuencia nucleotídica de dos personas difiere en un punto determinado de ésta GAGAC Transitiones: pu/pu (A y G) py/py (T y C) (~70%) Transversiones: py/pu GATACOcurre muchas veces?Es la variación genética más abundante en los genomasy en especial en el Genoma HumanoComo media hablamos de 1 cambio cada 500 ó 1000 pares de basesActualmente se conocen más 2.25x106 validados
  101. 101. Qué son los SNPs? Allele frecuency (1%)Frecuencia alélica o frecuencia génica es la proporción que seobserva de un alelo específico respecto al conjunto de los quepueden ocupar un locus determinado en la población.
  102. 102. Qué es un alelo? Alelo es cada una de las formas alternativas que puede tener un gen que se diferencian en su secuencia y que se puede manifestar en modificaciones concretas de la función de ese gen.
  103. 103. Qué es un locus/loci? Locus (plural loci) es una posición fija sobre un cromosoma, como la posición de un gen o de un biomarcador (marcador genético). El locus cromosómico de un gen podría ser anotado, por ejemplo, como 22p11.2:
  104. 104. Haplotipos Combinación de alelos en diferente loci a lo largo de un cromosoma los cuales son transmitidos juntos de una generación a la siguiente CG CG TG CG TG TG C/T G/A CG CG CA TG CG TA TG CA CA TA TG TA CA CA TA TA TA CA haplotipos diplotiposEn general, en las diferentes regiones cromosómicas se observanpocos haplotiposEstos pocos haplotipos representan la mayoría de variaciónexistente entre distintas personas de una población
  105. 105. Qué es un haplotipo Alelos posibles o = LD Gen + disease Haplotipo de Uno de los posibles haplotipos riesgo
  106. 106. Qué son los SNPs?• Polimorfismo: coexistencia de variante en la población sin repercusión fenotípica.• Presentes en un porcentaje superior al 1% de la población general.• Lo que hace que todo el mundo sea portador de varios cambios respecto a sus vecinos.• Diferentes tipos: genéticos, cromosómicos, proteínicos.• Ejemplo de polimorfismos: Grupos sanguíneos, Rh, HLA.....• Responsables de la variabilidad humana.
  107. 107. Tipos de Polimorfismos SNP = single nucleotide polymorphism Cambio simple de una base por otra Pequeñas delecciones e insercionesLarge-scale copy-number variation/polymorphism(LCV/CNP):Delecciones e inserciones grandes que llevan avariación en el número de repeticiones de unasecuenciaAlteraciones estructurales: inversiones,translocaciones y aneuploidías
  108. 108. Papel de los SNPs en lasenfermedades compleja Environmental Common multifactorial complex diseases Cause Independently from genetic input Genetic Disease Mendelian diseases
  109. 109. Papel de los SNPs Gen A Gen D Gen A Enfermedad monogénica Gen B Gen C Enfermedad compleja Herencia dominante, recesiva o Caso esporádico ligada al X 100 100 30 Riesgo genético poblacional Riesgo genético poblacional 100 30 Riesgo genético en distintas familias Riesgo genético en distintos individuos
  110. 110. Modelo multilocus interactuando con factores ambientalesGen principal Genes modificadores AmbienteGen 1 Gen 2 Gen 3 Gen 4 Amb1 Amb 2 Fenotipo
  111. 111. Para qué sirven SNPs?1. Como variación directamente asociada a fenotipo/enfermedad SNPs causales (con función y efecto fenotípico)Farmacogenética (enzimas con cambios funcionales en proteína opromotor. Influyendo en la actividad o expresión y por tanto en la capacidadde metabolizar) SNPs que afectan la terapia contra leucemias a | La mercaptopurina (MP) se convierte en nucleotido tioguanina mediante (HPRT) (metabolito activo), Otro enzima, la TPMT convierte la MP en (MeMP), el metabolito inactivo. b | La frecuencia en la población de la actividad de TPMT muestra un patrón trimodal. --0.3% (mut/mut) for mutations in TPMT, --10% (wt/mut) for mutations in TPMT, -- 90% (wt/wt) TPMT. c | TPMT genotipo esta correlacionado con el fenotipo.
  112. 112. Para qué sirven SNPs? 2. Como marcadores genéticos en estudios de: 2.1. Asociación: Casos vs Controles no relacionados REPRESENTATIVE BREAST REPRESENTATIVE CONTROL CANCER POPULATION POPULATION Clinical information of tumours (histológical grade, tumor grade, ....) Patient age/ diagnostico age Environmental data: (smoke, alcohol, diet, sport...) ........ Ej: 900 cases/900 controls CNIO Human genetics Depart
  113. 113. Para qué sirven SNPs? 2. Como marcadores genéticos en estudios de: 2.2 Búsqueda de genes implicados en enfermedades: familias 1 2 Los Haplotipos se realizan para A a a a B b b b confirmar la posición del locus de la C c c c enfermedad. D d d d Seguimiento de los marcadores a traves 3 4 5 6 del pedigree observando los puntos de reconbinación A a a a a a a a B b b b b b b b C c c c c c c c Tradicionalmente realizados con D d d d d d d D microsatélites en enfermedades monogénicas, 7 8 9 10a a a A A a a aB b b b B b b b Actualemente se pueden realizar conC c c c C c c c SNPs (menos informativos pero muchoD d d d d d d D más abundantes).
  114. 114. Para qué sirven SNPs? 2. Como marcadores genéticos en estudios de: 2.3 Genética de poblacionesOtras aplicaciones: Forense: Identificación individuos y/ relaciones de parentesco clasificación de especies/subespecies (plantas y animales)
  115. 115. Cómo trabajar con los SNPs? Directamente: SNPs (funcionales)TFS Amino acid change Haplotipos: mirando desequilibrio de ligamiento
  116. 116. Desequilibrio de ligamientoAlto LD. Bajo LD.Pocos Haplotipos Muchos Haplotipos>% de representación <% de representación LD = 0 LD = 1
  117. 117. Tag_SNPGenotipar tag_SNPs en un bloque con alto desequilibrio deligamiento da la misma información que genotipando todos losSNPs comunes presentes.Ventaja: económica y tiempo en obtener resultados
  118. 118. Eficacia y poder tag SNPsRelative power (%) ~300,000 tag SNPs needed to cover common variation in whole genome in CEU random SNPs Average marker density (per kb)
  119. 119. THE INTERNATIONAL HAPMAP PROJECTA community resource for disease genediscovery
  120. 120. Proyecto HapMap: http://www.hapmap.org/index.html • 270 DNAs from different % sequencing among partners populations Canada China • 30 trios from Nigeria 10% 10% (Yoriba) UK USA 24% 31% • 30 trios from CEPH: Japan -African_American 25% -European_American • 45 Han Chinese (Beijing)- chromosomes to be • 45 Japanese (Tokyo) screened 2,4p 3,8p,21 8q,9,18q,22,X, 4q,7,18,Y,121,6,10,13,20 5,11,14,15,16,17,19
  121. 121. Proyecto HapMap• Desarrollo tecnológico: plataformas/herramientas análisis• Definir patrones de variación genética a lo largo del genoma humano• Guiar la selección de SNPs eficientemente hacia variantes comunes “tags”• Acceso público de todos los datos (ensayos, genotipos, ld, bloques, tags) via página web. Phase I: 1.3 M markers in 270 people Phase II: +2.8 M markers in 270 people
  122. 122. Proyecto HapMap Variabilidad Humana (Proyecto Genoma Humano)• A raíz del proyecto Genoma Humano se vio que el 0.1%de nuestro genoma es variable, en gran parte debido a losSNP ó polimorfismos de una sola base.•Los SNP son muy frecuentes (se han descrito alrededorde 8 millones a lo largo del genoma)• Están localizados tanto en intrones como en exones (5-10 SNPs/gen)• Pueden producir ligeras alteraciones en la proteína quevan a ser responsables de nuestra variabilidad.
  123. 123. Como se detectan los SNPs? G (wt) LTA Allele1 (A) Allele2 (G) A G (het) TNF Allele2 (A) Allele1 (G) Allele1 (A) Allele2 (C) LST
  124. 124. Técnicas clásicas de genotipado1 muestra – 1 SNPDesventajas: muestra, tiempo, dinero. Secuenciación CSGE SSPC DHPLC
  125. 125. Taqman Permite genotipar 384 muestras para un único SNP. Ventaja: mayor número de muestras.
  126. 126. DHPLC Discriminates Heteroduplex fragments from homoduplexes . Appropiated fragment melting t . Specific ACN % according to size and GC content 2a. DHPLC results Het A Het B (1st postion)Hom atg (2nd,3rd pos) Hom tgtHom tgt Hom tgt Hom atg NME1 promotor fragment
  127. 127. Highthoughput Illumina SNPlex Sequenom Extensión Amplificación Amplificación Hibridación sondas Minisecuenciación fluorescentes Análisis Espectrómetro 384 muestras/plexes 48 SNPs 384 muestras/plexes de 8 SNPs+ Capacidad de genotipado -
  128. 128. DNA GenómicoCaptura en soporte sólido Plataforma Illumina 1536 tipos de Bead Hibridación de oligos Un solo tuboExtensión alelo-específica y Ligación ASOs P1 3’ Etiqueta 5’ P2 P3 5’ LSO PCR con primers Universales P1 P3 P2 EtiquetaHibridación contra el array Escaneo T/T T/C C/C
  129. 129. SNPlex 1. Activación de los oligonucleótidos 2. Ligación de los oligonucleótidos 3. Purificación de los oligonucleótidos ligados 4. Amplificación con primers universales 5. Captura del DNA biotinilado 6. Hibridación con sondas ZipChute 7. Elución de las sondas ZipChute 8. Electroforesis capilar para la detección de las sondas ZipChute 9. Análisis de los resultados con GeneMapper ZipCode1 ZipCode2 NNNNNNNNN NNNNNNNNN electroforesis A1A1 A1A2 A2A2
  130. 130. Sequenom La tecnología de MassArray (Sequenom) se basa en la detección de los productos de la reacción de discriminación alélica mediante MALDI-TOF. El proceso de genotipado consta de dos reacciones. • Amplificación de los fragmentos de ADN que contienen los SNPs de interés mediante una PCR multiplex. • Reacción de discriminación alélica, a través de una reacción de minisecuenciación que bien terminará en la base polimórfica o bien continuará por la región amplificada de cada SNP dependiendo de la presencia o ausencia de uno de los dos alelos. El uso de cebadores de minisecuenciación con distintas longitudes permite identificar los picos de los productos de cada SNP. Las reacciones tienen lugar en placas de 384 pocillos y los productos de dichas reacciones son transferidos de forma automatizada mediante un robot a la superficie del chip que será leído en el espectrómetro, donde se pueden procesar hasta 10 chips simultáneamente.. Capacidad aproximada: 45.000 genotipos / semana
  131. 131. NEXT SEQUENCING (NGS) Plataforma Casa comercial Técnica DNA Longitud lectura 454 Roche Síntesis Emulsión PCR 250-400pb SOLID Applied Ligación Emulsión PCR 50pb Biosystem Helicoscope Helicos Síntesis No 25-25pb amplificación GenomeAnalyzer Illumina Síntesis Bridge PCR 32-40 (100)pbPlataforma Capacidad Precio Error Errores454 300 Mb/día 60$/Mb <1% Si hay muchas bases iguales no sabe cuantasSOLID 600 Mb/día 1$/Mb <0,1% SustitucionesLee todo 2 vecesLee en los 2 sentidosHelicoscope 1200Mb/día 1$/Mb Alto 4% NC 90GbGenomeAnalyzer 400 Mb/día 2$/Mb 1%/Mb SustitucionesLee en los 2 sentidos
  132. 132. NEXT SEQUENCING (NGS) Plataforma Casa comercial Ventajas/Inconve Ventajas/Inconveni nientes entes 454 Roche SOLID Applied Biosystem Si diferencia SNPs Lee 2 veces Lee en los 2 sentidos Helicoscope Helicos DNA directamente GenomeAnalyzer Illumina No diferencia SNPs Lee en los 2 sentidos Polomator, NanoPore, Visigen, Nabsys, Bionanometre, ZSGenetic
  133. 133. Herramientas para labúsqueda y selección adecuada de SNPs
  134. 134. Demasiada información
  135. 135. Herramientas SNPs http://www.ncbi.nlm.nih.gov/projects/SNP/ http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=sn p http://genome.ucsc.edu/ http://www.hapmap.org/index.html.en http://pupasnp.bioinfo.ochoa.fib.e s/ http://pupasview.bioinfo.ochoa.fib.e s/ http://pga.mbt.washington.edu http://snpeffect.vib.b e/ http://bioinformatica.cegen.upf.es/public/principal/index.p hp
  136. 136. Herramientas SNPs NCBI dbSNP Entrez System http://www.ncbi.nlm.nih.gov/projects/SNP/ http://www.ncbi.nlm.nih.gov
  137. 137. dbSNPs 1998 http://www.ncbi.nlm.nih.gov/projects/SNP/
  138. 138. dbSNPs Contiene distintas fuentes de variación génica: (1) SNPs (2) short deletion and insertion polymorphisms (indels/DIPs), (3) microsatellite markers or short tandem repeats (STRs) (4) multinucleotide polymorphisms (MNPs) (5) named variantsss o submitted SNP : Todo centro privado o público puede enviar informaciónacerca de SNP (frecuencia, población,...) en concreto y para eso a cada centrose le asigna un código.Varios ss pueden hacer referencia a un único SNP y por tanto la informacióngeneral relativa a éste se guarda en un rs o reference SNP.
  139. 139. http://www.ncbi.nlm.nih.gov/SNP/
  140. 140. http://www.ncbi.nlm.nih.gov/SNP/
  141. 141. http://www.ncbi.nlm.nih.gov/SNP/
  142. 142. http://www.ncbi.nlm.nih.gov/SNP/
  143. 143. http://genome.ucsc.edu/ http://genome.ucsc.edu
  144. 144. http://genome.ucsc.edu
  145. 145. http://www.hapmap.org/index.html.en
  146. 146. http://www.hapmap.org/index.html.en
  147. 147. http://pga.mbt.washington.edu
  148. 148. http://pga.mbt.washington.edu
  149. 149. http://snpeffect.vib.b
  150. 150. Ontologías Secuenciación de genomas Enormes cantidades de información biológica Necesidad de extraer conocimiento de estos datos Identificar funciones de genes Papel fundamental de las Bio-ontologias para integración automática de conocimiento. 1 5 1
  151. 151. MotivaciónResultados de los métodos estadísticos y algoritmos de aprendizaje automático (clustering, clasificación): Largas listas de genes PROBLEMA: dar interpretación biológica a estos conjuntos de genes (asignarles una función/rol biológico) SOLUCIÓN: Utilizar las anotaciones de bases de datos y recursos bioinformáticos disponibles
  152. 152. Anotación funcionalPara ayudar a la interpretación biológica de grandes listas degenes: ◦ Consultar bases de datos de anotaciones como GO, KEGG, FatiGo, PANTHER, DAVID, IPA ◦ Poner genes en contexto a partir de información extraída de la literatura científica ◦ Identificar Pathways y Procesos enriquecidos ◦ Visualizar la red de interacciones y editarla. ◦ Estudiar si hay clases funcionales enriquecidas entre los genes seleccionados ◦ Agrupar los genes por su similitud funcional
  153. 153. ¿Qué es GO? GENE ONTOLOGY (GO) http://www.geneontology.org/ Ontología: un vocabulario estructurado y riguroso Función: describir los roles de los genes y sus productos. Utiliza: 3 ontologías independientes: Biological process, molecular function y cellular component. Los términos (nodos) de la ontología tienen relaciones entre sí (es-un, es-parte-de) y forman un Grafo Dirigido Acíclico (DAG).
  154. 154. Genes y términos GO Términos más generales cuanto más cerca de la raiz Los genes se anotan en el nivel más específico posible, pero comparten los atributos de todos los nodos ancestros.
  155. 155. Redes genéticasPoner en contexto nuestras listas de genes PANTHER FATIGO DAVID
  156. 156. KEGG
  157. 157. Ingenuity Pathway Analysis ®(IPA)
  158. 158. Database for Annotation,Visualizationand Integrated Discovery (DAVID)
  159. 159. Protein ANalysis THrough EvolutionaryRelationships (PANTHER)
  160. 160. FATIGO
  161. 161. Caso práctico: estudio de arrays de Cancer de Recto
  162. 162. IL1 signallingAccumulative evidence suggests that IL-1 plays critical roles in the development of malignant lesions. The most compelling evidence wasgenerated in IL-1 knockout (KO) mouse models. Voronov et al. have demonstrated the critical roles of IL-1 in tumor invasiveness andangiogenesis. Mice solely deficient in IL-1 or IL-1 exhibit dramatically impaired tumor development and blood vessel growth.
  163. 163. Cancer ypirimidinas
  164. 164. Caso práctico de ontologías PANTHERhttp://www.pantherdb.org/
  165. 165. Interpretación lista de genes
  166. 166. Interpretación lista de genes
  167. 167. Interpretación lista de genes
  168. 168. Interpretación lista de genes
  169. 169. Pathways
  170. 170. Pathways
  171. 171. Biological process
  172. 172. Molecular function
  173. 173. Go cellular component

×