Bases De Datos

7,590 views
7,282 views

Published on

Una introducción al uso de las bases de datos en bioinformática.

0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
7,590
On SlideShare
0
From Embeds
0
Number of Embeds
12
Actions
Shares
0
Downloads
0
Comments
0
Likes
7
Embeds 0
No embeds

No notes for slide

Bases De Datos

  1. 1. Fuentes de información para genes y proteínas<br />Felipe Riveroll Aguirre<br />Departamento de Bioquimica<br />Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional<br />Plantel Zacatenco<br />friveroll@cinvestav.mx<br />
  2. 2. From Information Design, Nathan Shedroff<br />
  3. 3. friveroll@cinvestav.mx<br />
  4. 4. Información biológica<br />Cientos de miles de especies.<br />Millones de artículos en revistas científicas<br />Información genética<br />Nombre de genes<br />Fenotipo de mutantes<br />Ubicación de los genes/mutaciones en cromosomas<br />Linkage (distancia entre genes)<br />friveroll@cinvestav.mx<br />
  5. 5. In 1981 the EMBL NucleotideSequence Data Library iscreated. Version 2 wascomposed of 811 secuences, around 1 million bases introducedbyhand.<br />
  6. 6. ¿Qué es una base de datos?<br />Una colección de datos:<br />Estructurada<br />Que puede explorarse (indexada) ->Tabla de contenidos<br />Periódicamente actualizada ->nueva edición<br />Referencias cruzadas ->links con otras db<br />Incluye también herramientas asociadas (software) necesarias para el acceso/búsqueda, actualización, inserción de información, borrado de información.<br />friveroll@cinvestav.mx<br />
  7. 7. ¿Porqué bases de datos biológicas?<br />Crecimiento exponencial de los datos biológicos.<br />Datos (secuencias de ácidos nucléicos (ADN, ARN), estructuras 3D, geles 2D, analisis MS, microarreglos, interaccion proteína-proteína...) ya no son publicados de forma convencional, pero son mandados a db.<br />Herramientas convencionales, para la investigación biológica.<br />friveroll@cinvestav.mx<br />
  8. 8. friveroll@cinvestav.mx<br />Estadísticas de Genebank<br />http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html<br />
  9. 9. friveroll@cinvestav.mx<br />
  10. 10. Las 10 bases de datos más importantes*<br />GenBank/DDJB/EMBL www.ncbi.nlm.nih.govNucleotidesequences<br />Ensemblwww.ensembl.orgHuman/mouse genome<br />PubMedwww.ncbi.nlm.nih.govLiteraturereferences<br />NR (entrez protein) www.ncbi.nlm.nih.govProteinsequences<br />Swiss-Protwww.expasy.orgProteinsequences<br />InterProwww.ebi.ac.ukProteindomains<br />OMIM www.ncbi.nlm.nih.govGeneticdiseases<br />Enzymeswww.expasy.orgEnzymes<br />PDB www.rcsb.org/pdb/Proteinstructures<br />KEGG www.genome.ad.jpMetabolicpathways<br />friveroll@cinvestav.mx<br />*De acuerdo a “Bioinformatics for Dummies”<br />
  11. 11. Tipos de bases de datos biológicas<br />Primarias (all-inclusive): Contienen resultados experimentales de las secuencias (nucleótidos o proteínas), junto anotaciones (información relativa a su función, bibliografía, referencias cruzadas a otras bases de datos, etc.). <br />Secundarias o bases de datos de familias de proteínas: Resumen los resultados de análisis de bases de datos primarias para proveer información adicional no presente en las fuentes primarias.<br />friveroll@cinvestav.mx<br />
  12. 12. Bases de datos primarias<br />
  13. 13. Contenido mínimo ideal para la entrada de una secuencia en una DB<br />Secuencias<br />Número de acceso (AC) (identificador único)<br />Datos taxonómicos<br />Referencias<br />ANNOTATION/CURATION<br />Palabras clave<br />Referencias cruzadas<br />Documentación<br />
  14. 14.
  15. 15.
  16. 16. ¿Quéesunasecuencia?<br />Secuencia de ADN, de doblecadena, antiparalela<br />Escritaconvencionalmente de 5’ a 3’<br />5’-ATGAGTACCG CTAAATTAGT TAAATCAAAA-3’ <br />3’-TACTCATGGC GATTTAATCA ATTTAGTTTT-5’<br />Secuencia de ARN, una sola cadena, U en vez de T<br />5’-AUGAGUACCG CUAAAUUAGU UAAAUCAAAA-3’ <br />Secuencia de proteína<br />Escritaconvencionalmente de N-terminal a C-terminal <br />Código de 3 letras: Met Ser Thr Ala Lys Leu<br />Código de 1 letra: MSTAKLVKSKATN<br />Las secuenciasusualmente son escritas en tipografías de anchofijo, tales como Courier.<br />Times Courier<br />AGCGGGCGG AGCGGGCGG<br />ATCGTTCTG ATCGTTCTG<br />
  17. 17. friveroll@cinvestav.mx<br />
  18. 18. Número de acceso (AC)<br />Aunque las secuencias primarias son las mismas para las tres bases de datos, cada base de datos es libre de almacenarlas, clasificarlas y presentarlas como mejor le acomode.<br />Para facilitar el intercambio y acceso a las secuencias entre las diferentes bases de datos, la INSDC estableció que cada secuencia tuviera un Número de Acceso único e inmutable.<br />El número de acceso es un identificador único para una secuencia determinada que no cambia y se mantiene entre todas las bases de datos.<br />El número de acceso generalmente está compuesto por una letra y cinco dígitos (A12345) o 2 letras y 6 dígitos (AB123456).<br />
  19. 19. La agitada vida de una secuencia <br />cDNA's, EST's, genes, genomas, ...<br />EMBL GeneBank DDBJ<br />http://www.insdc.org/<br />
  20. 20. EMBL/GenBank/DDBJ<br />Sirven como archivos<br />Contienen todas las secuencias públicas derivadas de:<br />Proyectos genoma<br />Centros de secuenciación<br />Científicos<br />Oficinas de patentes<br />Actualmente 1.6 X 109 secuencias, ~ 2.7 X 1011<br />Secuencias de >80,000 especies distintas<br />
  21. 21. >80,000 especies, pero...<br />Humano/Ratón/Rata<br />Organismos con mayor redundancia<br />Nuevos proyectos:<br />Secuencias ambientales<br />(sin información taxonómica)<br />http://www.ebi.ac.uk/embl/Services/DBStats/<br />
  22. 22. Formato de las bases de datos de DNA<br />Las secuencias de DNA almacenadas en las tres bases de datos tienen un formato diferente, aunque en general, todas las secuencias se componen de dos partes diferentes: <br />Comentarios<br />Secuencia propiamente dicha<br />Aunque la información que se ofrece de una secuencia en las tres bases de datos es la misma, la forma en que esta se organiza difiere. <br />
  23. 23. FASTA<br />Diseñado por William Pearson, como un fomatotexto simple, parasecuencias de ADN y proteínas.<br />El formato FASTA esahora universal paratodaslas bases de datos y software paramanejo de secuencias.<br />El encabezado incluye una línea con “>” precediendo a la descripción de la entrada y las líneas siguientes con la secuencia en particular.<br />>URO1 uro1.seq Length: 2018 November 9, 2000 11:50 Type: N Check: 3854 ..<br />CGCAGAAAGAGGAGGCGCTTGCCTTCAGCTTGTGGGAAATCCCGAAGATGGCCAAAGAAACTCAACTGTTCGTTGCTTCCAGGGCCTGCTGATTTTTGGAAATGTGATTATTGGTTGTTGCGGCATTGCCCTGACTGCGGAGTGCATCTTCTTTGTATCTGACCAACACAGCCTCTACCCACTGCTTGAAGCCACCGACAACGATGACATCTATGGGGCTGCCTGGATCGGCATATTTGTGGGCATCTGCCTCTTCTGCCTGTCTGTTCTAGGCATTGTAGGCATCATGAAGTCCAGCAGGAAAATTCTTCTGGCGTATTTCATTCTGATGTTTATAGTATATGCCTTTGAAGTGGCATCTTGTATCACAGCAGCAACACAACAAGACTTTTTCACACCCAACCTCTTCCTGAAGCAGATGCTAGAGAGGTACCAAAACAACAGCCCTCCAAACAATGATGACCAGTGGAAAAACAATG<br />
  24. 24. Campos de un registro de GenBank<br />El formato de GenBank (GBFF) es el formato más ampliamente utilizado para la distribución de las secuencias biológicas, ya que es el formato que se utiliza para el intercambio diario de secuencias entre las tres bases de datos. Además, el formato que ha adoptado el DDBJ es idéntico al de GenBank.<br />Una entrada cualquiera de GenBank/EMBL consta de tres partes bien diferenciadas: <br />Encabezado ("Header"), que contiene la información (descripción) del contenido del documento <br />Características ("Features") que describen la localización de las partes más importantes de la secuencia desde el punto de vista biológico <br />Secuencia propiamente dicha. <br />friveroll@cinvestav.mx<br />
  25. 25. Encabezado (Header)<br />Es la parte más variable entre los distintos formatos, ya que las bases de datos no están obligadas a contener la misma información, aunque se están haciendo esfuerzos para aunar el contenido de las tres.<br />Todas las entradas del GenBank empiezan con la línea LOCUS.<br />La siguiente línea es DEFINITION, en la que se intenta sumarizar de forma concisa la información sobre el origen biológico de la muestra. Esta es la línea que aparece en las fichas que generan los programas de búsqueda, como FASTA o BLAST, por lo que la información contenida debe ser lo más representativa posible.<br />friveroll@cinvestav.mx<br />
  26. 26. …Encabezado<br />La línea VERSION contiene dos números diferentes, uno similar al número de acceso y otro denominado gi (geninfoidentifier). Con este número se pretende acomodar los cambios o correcciones que se introducen en una secuencia, para poder identificar si se trata de la entrada original o ha sido modificada posteriormente. Si la secuencia cambia (por revisiones posteriores o corrección de errores), el número de acceso permanece igual pero el  gi   cambia para identificar una nueva versión de la misma secuencia.  Además, se añade la VERSION, con el formato siguiente: Acceso.version<br />friveroll@cinvestav.mx<br />
  27. 27. …Encabezado<br />La línea KEYWORDS es una línea histórica, que en muchos casos se usa incorrectamente y en la que se deben incluir palabras clave representativas de la secuencia que ayuden a encontrar nuestra  secuencia cuando se hacen búsquedas en las bases de datos. Sin embargo, la adición de palabras clave a la secuencia en muchas ocasiones es poco útil ya que las palabras clave elegidas por los autores son incorrectas, por lo que poco a poco se tiende a abandonar el uso de esta línea.<br />A continuación encontramos SOURCE/ORGANISM, donde se incluye en nombre común del organismo o su nombre científico, incluyendo la descripción taxonómica completa:<br />friveroll@cinvestav.mx<br />
  28. 28. …Encabezado<br />Más abajo se encuentran una serie de líneas que hacen referencia a la cita bibliográfica donde se ha publicado la información correspondiente a la secuencia (que puede ser enviado para su publicación o sin publicar).  Estas líneas son REFERENCE, AUTHORS, TITLE, JOURNAL y MEDLINE -PUBMED en el caso de que haya sido publicada.  Cada secuencia puede tener más de una entrada bibliográfica completa, y por lo general en la última de ellas se incluye la dirección postal completade la persona o laboratorio responsable del trabajo. <br />friveroll@cinvestav.mx<br />
  29. 29. …Encabezado<br />La sección de encabezamiento concluye con COMMENT, donde el autor puede incluir todos aquellos comentarios que considere relevantesy no tengan cabida en ninguna de las otras líneas (Los centros de secuenciación genómica incluyen aquí coordenadas del segmento o agradecimientos).<br />friveroll@cinvestav.mx<br />
  30. 30. Tabla de caracteristicas ("features")<br />En este apartado describen con detalle todaslas características de relevancia biológica de la secuencia, como son las regiones codificantes, coordenadas de exones e intrones, secuencias del promotor….  <br />El formato que se utiliza en este apartado es indicar en primer lugar el tipo de característica a la que hace referencia (comenzando con el símbolo / ) seguido bien por un número, bien por dos números separados por dos puntos para indicar un rango de nucleótidos (como 76..876, lo que significa desde 76 hasta 876) o bien por grupos de números separados por comas (join 33..56, 102..223, 345..998) para indicar regiones que se deben unir. <br />friveroll@cinvestav.mx<br />
  31. 31. Tabla de caracteristicas ("features")<br />A continuación se indican algunas de las características más comunes.<br />Source: es la única característica que debe estar presente en todas las secuencias, ya que todas las secuencias tienen un origen(aunque sea sintético, como en el caso de vectores de clonación) e incluye el organismo (/organism=). Además se pueden añadir una serie de calificativos ("qualifiers") que incluyen posición en el mapa, cromosoma, tejido, clon o información de la librería de origen.<br />RNA features: sirve para indicar los diversos RNAs estructurales que puedan estar presentes en la secuencia, como tRNA, mRNA, rRNA, ya que representan entidades biológicas de gran importancia en la célula<br />friveroll@cinvestav.mx<br />
  32. 32. Tabla de caracteristicas ("features")<br />CDS: en este apartado se incluyen las instrucciones al lector para que pueda identificar las regiones con importancia biológica, o cómo se ensamblan los diferentes exones para dar lugar a la proteína. Las referencias cruzadas a otras bases de datos con información sobre la misma secuencia se indican dentro de CDS con el calificativo /db_xref= o /protein_id= seguido del número de acceso y versión, en la forma /protein_id=AAA12345.1;  /product= para indicar la función del gen si se conoce y finalmente, también se incluye la secuencia de la proteína resultante en el apartado/translation=. <br />friveroll@cinvestav.mx<br />
  33. 33. CDS: CoDingSequence<br />Alineamiento de un ARNm y ADN genómico<br />
  34. 34. Tabla de caracteristicas ("features")<br />Las características importantes de la secuencia de proteínas pueden ser indicadas utilizando misc_feature e indicando las coordenadas en la secuencia de DNA en las que se localiza dicha región. <br />friveroll@cinvestav.mx<br />
  35. 35. Tabla de caracteristicas ("features")<br />friveroll@cinvestav.mx<br />
  36. 36. Secuencia<br />friveroll@cinvestav.mx<br />La parte final de cada entrada del GenBank es la secuencia propiamente dicha, que comienza con la línea BASE COUNT, donde se describen el número de cada una de las bases y termina incluyendo la secuencia (con numeración para facilitar la localización de las características descritas en la sección anterior). <br />
  37. 37. Campos de un registro de EMBL<br />Una vez conocido el formato de las entradas de GenBank, vamos a ver la correspondencia de cada una de las líneas con las del EMBL, en que el nombre completo de cada línea es sustituido por dos letras nada más. <br />En la siguiente tabla encontrarás una correlación entre ambos formatos (si quieres ver una explicación más detallada de cada uno de los campos puedes acudir al documento original de EMBL.<br />friveroll@cinvestav.mx<br />
  38. 38.
  39. 39. LOCUS HUMPRP0A 2420 bpmRNA linear PRI 13-JUL-1994<br />DEFINITION Human prion protein 27-30 mRNA, complete cds.<br />ACCESSION M13667<br />VERSION M13667.1 GI:190469<br />KEYWORDS amyloid; prion protein; sialoglycoprotein.<br />SOURCE Homo sapiens (human)<br /> ORGANISM Homo sapiens<br />Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;<br />Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;<br />Catarrhini; Hominidae; Homo.<br />REFERENCE 1 (bases 1 to 2420)<br /> AUTHORS Liao,Y.C., Lebo,R.V., Clawson,G.A. and Smuckler,E.A.<br /> TITLE Human prion proteincDNA: molecular cloning, chromosomalmapping,<br /> and biologicalimplications<br /> JOURNAL Science 233 (4761), 364-367 (1986)<br /> PUBMED 3014653<br />COMMENT Original sourcetext: Human, cDNAtomRNA, clones lambda [3,6,7].<br /> A single prion protein gene isfoundonchromosome 20 per haploid<br />genome.<br />FEATURES Location/Qualifiers<br />source 1..2420<br /> /organism="Homo sapiens"<br /> /mol_type="mRNA"<br /> /db_xref="taxon:9606"<br /> gene 1..2420<br /> /gene="PRNP"<br />mRNA <1..2420<br /> /gene="PRNP"<br /> /product="PrPmRNA"<br /> CDS 77..814<br /> /gene="PRNP"<br /> /note="prion protein"<br /> /codon_start=1<br /> /protein_id="AAA19664.1"<br /> /db_xref="GI:190470"<br /> /translation="MLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPP<br /> QGGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNM<br /> KHMAGAAAGAVVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDE<br /> YSNQNNFVHDCVNITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYY<br /> QRGSSMVLFSSPPVILLISFLIFLIVG"<br />ORIGIN 171 bpupstream of SmaIsite; chromosome 20.<br /> 1 cgagcagccaaggttcgccataatgactgctctcggtcgtgaggagaggagaagctcgcg<br /> 61 gcgccgcggctgctggatgctggttctctttgtggccacatggagtgacctgggcctctg<br /> 121 caagaagcgcccgaagcctggaggatggaacactgggggcagccgatacccggggcaggg<br /> ...<br /> 2341 tgcatgttcttgttttgttatataaaaaaattgtaaatgtttaatatctgactgaaatta<br /> 2401 aacgagccaagatgagcacc<br />//<br />GeneBank<br />
  40. 40. EMBL<br />
  41. 41.
  42. 42.
  43. 43. Otro asunto respecto a las bases de datos de secuencias<br />
  44. 44. Secuencias ambientales (ENV)<br />Propósito<br />Secuenciar todo el ADN presente en una muestra, sin saber de que especie se deriva.<br />Mar del sargasso<br />Fluidos humanos<br />Tierra<br />
  45. 45.
  46. 46.
  47. 47. Problemas de las BD's de nt<br />Archivo: Muy redundante.<br />La similarida de las secuencias no es obvia.<br />La autoridad de los autores: nivel variable de la calidad de anotación.<br />Nivel variable de la calidad de la secuencia.<br />Calidad de secuenciamiento.<br />Calidad de predicción de genes.<br />
  48. 48. La segunda generación de BD's de nt<br />Gene-centricdatabases.<br />Toda la información de la secuencia es relevante a un gen dado accesibles de inmediato<br />p.eEntrezGene/RefSeq<br />Genom-centricdatabases<br />Información acerca de la secuencia de los genes, su posición relativa, la orientación de la cadena, funciones bioquímicas.<br />Sistemas de manejo de información que son capaces de conectar a la colección especializada de secuencias y herramientas de búsqueda.<br />p.eEnsembl, TIGR<br />
  49. 49. EntrezGene / RefSeq (NCBI)<br />Base de datos con información específica de genes, enfocada en los genomas que han sido secuenciados por completo, que la comunidad científica contribuye activamente para ampliar la información específica de genes. O que son agendadaspara un análisis de secuencia intenso.<br />El contenido de esta base de datos representa el resultado de la curación e integración automática de datos del proyecto NCBI ReferenceSequence (RefSeq) y de la coolabolaboraciónde las bases de datos de organismos modelo, y muchas otras bases de datos disponibles en NCBI.<br />La secuencias correspondientes están disponibles gracias a cross-links a BD's de RefSeq y otras BD's de secuencias<br />
  50. 50.
  51. 51.
  52. 52.
  53. 53.
  54. 54.
  55. 55. Links a RefSeq<br />Links a todas las secuencias encontradas en<br />EMBL/GenBank/DDBJ<br />Correspondientes a este gen<br />
  56. 56. Entrez Gene está altamente vinculado a RefSeq<br />RefSeq: TheReferenceSequence (RefSeq), esta colección pretende proveer un conjunto de secuencias, comprensivo, integrado y no redundante, incluyendo ADN Genómico, ARN transcrito, y productos protéicos, para los principales organismos de interés.<br />Accessionnumbers<br />for RNA (NM_)<br />forgenomic (NT_)<br />forprotein (NP_)<br />
  57. 57.
  58. 58.
  59. 59. La agitada vida de una proteína <br />cDNA's, EST's, genes, genomas, ...<br />Con o sin CDS's<br />anotados<br />EMBLGeneBank DDBJ<br />Secuencias derivadas de artículos publicados<br />CoDingSequences<br />(authors & gene prediction)<br />CoDingSequences<br />(authors)<br />PFR, PIR<br />TrEMBL<br />Genpept<br />RefSeq<br />PFR<br />Anotadas manualmente<br />Swiss-Prot<br />UniProt: Swiss-Prot + TrEMBL + (PIR)<br />NCBI-nr: Swiss-Prot + GenPept + (PIR) + RefSeq + PDB + PRF<br />
  60. 60.
  61. 61.
  62. 62. En una entrada UniProtKB/Swiss-Prot se puede encontrar:<br />Todos los nombres de una proteína dada (y su gen).<br />Su origen biológico con los links a sus BD's.<br />Una selección de referencias.<br />Un resumen de todo lo que se conoce de la proteína: función, PTM, productos altenativos, expresión en tejidos, enfermedades, etc...<br />Numerosas referencias cruzadas.<br />Palabras clave seleccionadas.<br />Una descripción de las características importantes de la secuencia: Dominios, PTM's, variaciones, etc...<br />Una secuencia de proteína y la descripción de varias. isoformas/variantes.<br />
  63. 63.
  64. 64. Calidad de una secuencia<br />- > 1 gen / 1 especie = 1 entrada Swiss-Prot<br />Para humano: ~4.7 distintos reportes independientes / gen<br />¿Polimorfismos?<br />¿Mismo gen?<br />¿Splicingaltenativo?<br />¿Edición de ARN?<br />¿Iniciación alternativa?<br />¿Selenocisteína?<br />¿Uso de un promotor alternativo?<br />¿Errores de secuenciación?<br />¿Fragmento?<br />- > Identificación y anotación de todas las secuencias distintas<br />
  65. 65.
  66. 66. «Base de Datos NR», Entrez<br />http://www.ncbi.nlm.nih.gov/sites/entrez?db=Protein<br />

×