Ensayo de formatos de archivos de secuencias

1,310 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,310
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Ensayo de formatos de archivos de secuencias

  1. 1. INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO Ensayo: “Formatos de archivos de secuencia” Primer corteDatos del trabajoAlumno: Erick RodríguezNúmero de control: 10231006Grupo: 3O4BCarrera: Ingeniería en InformáticaMateria: Administración y organización de datosTitular de la materia: Ing. Ricardo de Jesús Bustamante González Cd. Lerdo, Durango. 9 de Febrero 2012
  2. 2. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012IntroducciónEn el ámbito de la Informática, el término de archivo digital se define como laencapsulación de una cadena finita de bits en una entidad lógica, la cual sealmacena en el sistema de archivos de un dispositivo de memoria secundaria(disco duro, memoria USB, disco compacto, etc.) con la finalidad de ser utilizadaposteriormente. Los archivos guardados en un dispositivo de almacenamiento seorganizan mediante la utilización de carpetas y unidades lógicas, recibiendo cadaarchivo un identificador (nombre y extensión) que lo diferencia de los demás.La extensión de un archivo permite asociarlo a un tipo determinado de aplicacióninformática, a través de la cual será posible realizar operaciones básicas sobre eldocumento, tales como la creación, consulta, actualización, etc. Y la extensióndependerá del tipo de contenido que posea el archivo, es decir si es de música,fotos, video, texto simple, texto normal, animaciones, etc.De manera general, existen dos tipos de archivos informáticos: los archivosbinarios y los archivos ASCII. En la clasificación de los archivos binarios seencuentran los archivos de imagen, archivos de audio, archivos de video, archivosde compresión y los archivos ejecutables de aplicaciones informáticas. Pero en elcaso de los archivos ASCII, existen los archivos de texto plano, archivos deintercambio y loar archivos de fuente. Sin embargo, en esta último tipo de archivosse encuentra otra clasificación que se utiliza para fines más específicos yenfocados al área de la bioinformática, es decir, los archivos de secuencia.Existente diferentes formatos de archivos de secuencia en la actualidad, los cualessirven para diferentes usos y que presentan características que los hacendiferentes unos de otros. El propósito del presente ensayo es presentar al lectoruna definición clara sobre lo qué son los archivos de secuencia, cuáles son sususos, qué formatos existen en la actualidad y las características que puedenobservarse en cada uno de ellos. INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 2
  3. 3. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012DesarrolloUn archivo de secuencia es un fichero lógico que permite almacenar de maneraordenada y sucesiva una colección de caracteres, siguiendo un principiopreestablecido para ello. Como se mencionó anteriormente, los archivos desecuencia forman parte de la clasificación de archivos ASCII. La principalcaracterística con la que cuentan los archivos ASCII es que el contenido queposeen son conjuntos de cadenas de caracteres (letras, números y secuencias deescape como retorno de carro y el espacio) que pueden ser fácilmenteinterpretados por cualquier persona a simple vista.Los archivos de secuencia se pueden clasificar a su vez dependiendo del númerode líneas o secuencias que pueda contener, por lo que existen archivos desecuencia única y de secuencia múltiple. Los archivos de secuencia única sonaquellos que solamente pueden manejar una secuencia por archivo creado,mientras que archivos de secuencia múltiple son los que pueden soportar una ovarias secuencias por archivo creado. En esta última clasificación, los datoscontenidos en las cadenas de caracteres pueden manipularse de forma secuencialo mediante intervalos. En la forma secuencial, cada cadena que es ingresada en elarchivo se escribe de manera completa antes de que pueda ingresar una nuevacadena. En la forma intercalada, es posible llevar a cabo la escritura más de unacadena a la vez.Los archivos de secuencias se encuentran conformados básicamente por una ovarias cadenas de caracteres que se encuentran ordenados siguiendo una lógicadeterminada, la cual depende de la naturaleza de información que se estémanejando. Sin ser una regla formal, se incluyen anotaciones, cadenas deidentificación o indicaciones a manera de comentario. Un ejemplo de ello es el quese presenta a continuación:>ABCD ComentariottcctctttctcgactccatcttcgcggtagctgggaccgccgttcagtcgccaatatgcagctctttgtccgcgcccaggagctacacaccttcgaggtgaccggccaggaaacggtcgcccagatcaaggctcatgtagcctcactggagggcattLos archivos de secuencias son utilizados para aplicaciones muy específicas, unejemplo de ello es dentro del ámbito científico, más explícitamente en el campo deinvestigaciones de la bioinformática, los cuales suelen crearse para manejarinformación referente al alineamiento de las proteínas en la hemoglobina o laestructura de aminoácidos y el ADN, por citar algún ejemplos. Para llevar a cabolas operaciones más básicas (creación, consulta, actualización, compresión, etc.)sobre estos archivos, se suelen desarrollar aplicaciones de software que sean INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 3
  4. 4. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012capaces de entender su contenido y manipularlo. Algunos ejemplos de programasde software que permiten el manejo de archivos de secuencias son SeqVerter(conversión entre formatos), ClustalW2 (manejo de información del ADN yproteínas), ModelTest (creación de modelos de nucleótidos), entre otrosDebido a que en la actualidad existe una gran cantidad de programas informáticosdesarrollados para el manejo de secuencia, también existe una variedad deformatos de archivos de secuencia ya que de manera general cada uno de losprogramas cuenta con su propio formato para trabajar de manera nativa con estaclase de archivos. A continuación se describen algunos de los formatos máscomunes de archivos de secuencias.Clustal. Es uno de los formatos más difundidos y almacena información referentea nucleótidos y aminoácidos, representándolos mediante el código de letras. Alinicio del archivo se escribe la palabra “Clustal”. Ejemplo:CLUSTAL W(1.60) multiple sequence alignmentYVKE1 SQLSWKRLLMKGYIPPYKPAVS-----NSMDTSNFDEEFTR-----EKPIDSVVDEYLSESYVKE2 KDISWKKLLLKGYIPPYKPIVK-----SEIDTANFDQEFTK-----EKPIDSVVDEYLSASPhylip. Al igual al anterior formato, este se utiliza para manipular informaciónreferente nucleótidos y aminoácidos, sirviendo de entrada para diferentesprogramas de análisis de frecuencias. Al iniciar el archivo es necesario indicarmediante números en primera instancia el número de secuencias que analizará elprograma y enseguida el número de caracteres de nucleótidos o aminoácidosseparados por espacios en blanco. Ejemplo:6 39Archaeopt CGATGCTTAC CGCCGATGCTHesperorn CGTTACTCGT TGTCTCTGCCBaluchith TAATGTTAAT TGTCGATGCTFASTA. Es uno de los formatos de archivos de secuencia más popularesactualmente y el más simple. Cada una de las secuencias que contiene un archivode este formato comienza con el carácter “>” seguido del identificador de dichasecuencia. Es posible incluir además una descripción. Ejemplo:>sec_1 descripciónGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT>sec_2ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGCTATGTGTG INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 4
  5. 5. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012RSF. Es un formato de archivo que puede contener una o más secuencias, el cualpuede ser creado mediante la aplicación NetFech. Ejemplo:!!RICH_SEQUENCE 1.0..{name DQ160058descrip Taraxacum officinale TO52-2 (To52-2) mRNA, partial cds.Staden. Es un formato que es exclusivo de la suite de análisis biológico Staden,en cuyo contenido únicamente se almacena la secuencia a manipular. Ejemplo:GGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCATTACGACGTAGATGCTAGCTGACTCGATGCAGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCACGACGTAGATGCTAGCTGACTCGATGCGcg. Al igual que el formato anterior, este es exclusivo de una suite de análisisbiológico, llamada GCG. Posee por características que la primer línea debe deestar escrita en mayúscula, cuenta con líneas de descripción que detallan lassecuencias y líneas que se encargan de dividir el contenido introduciendo elnúmero de residuos en cada secuencia. Ejemplo:!!NA_SEQUENCE 1.0 test.seq Length: 5390 April 22, 1999 13:50 Type: N Check: 8167 .. 1 ttatataaaa aatgctgaaa acaggatcaa ggaggaagat ttaaatatag 51 atataatata tgggaagaaa cataaaaacg aaataagaac agctaaatatABI. Este formato es utilizado por el secuenciador aplicado conocido comoBioSystem. Posee la característica de guardar una única secuencia y ser de sólolectura.EMBL. Es un formato por el cual se generan una serie de reportes acerca desecuencias de nucleótidos y proteínas, el cual se encuentra respaldado por elLaboratorio Europeo de Biología Molecular (EMBL por sus siglas en inglés). Parautilizarse en otros programas como el GCG, es necesario realizar su conversiónen una primera instancia. Ejemplo:ID ECGOR standard; DNA; PRO; 1500 BP.AC M13141;SV M13141.1NI g146247DT 19-SEP-1987 (Rel. 13, Created) INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 5
  6. 6. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012ConclusiónEn base a lo anteriormente expuesto, se llega a la conclusión de que los archivosde secuencias forman parte de la clasificación de archivos ASCII, los cuales secaracteriza por contener caracteres que pueden ser legibles por el ser humanocuando son consultados o abiertos. Además, los archivos de secuencias a su vezpueden dividirse en archivos de secuencia única y múltiple (según su contenido) otambién en archivos secuenciales (permiten la escritura de una secuencia a lavez) e intercalado (permite la escritura de varias secuencias a la vez).Los archivos de secuencias permiten almacenar cadenas de caracteres queposeen un ordenamiento o patrón lógico, el cual está condicionado a lainformación que es manejada en el mismo. Estos archivos son utilizadosprincipalmente para aplicaciones científicas y un ejemplo muy claro de ello son losestudios realizados en el área de la bioinformática con respecto a aminoácidos ynucleótidos.Para poder realizar las operaciones más básicas sobre estos archivos esnecesaria la utilización de aplicaciones de software especializadas que seancapaces de entender su contenido, hablando tanto de las secuencias como de otrotexto adicional (explicaciones, indicaciones, etc.). Debido a la gran cantidad deaplicaciones que permiten el manejo de archivos de secuencias, existe a la vezuna gran variedad de formatos que en ocasiones son exclusivos de una suitedeterminada o que pueden ser compatibles entre aplicaciones de softwarediferentes. INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 6
  7. 7. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012Referencias bibliográfica • Bazinet, Adam. molecularevolution.org, file formats [en línea]. Recuperado el 8 de febrero del 2012, de http://molecularevolution.org/resources/fileformats. • European Bioinformatics Institute. EMBL – EBI site, Sequence Formats. Recuperado el 8 de febrero de 2012, de http://www.ebi.ac.uk/2can/tutorials/formats.html. • Computational Biology Research Group (2011, 18 de Noviembre). Bioinformatics FAQ, Examples of common sequence file formats. Recuperado el 8 de febrero de 2012, de http://www.compbio.ox.ac.uk/bioinformatics_faq/format_examples.shtml. • GeneStudio.com. GeneStudio site. Sequence file format notes. Recuperado el 8 de febrero de 2012, de http://www.genestudio.com/formats. • Blanca, José y Cañizares, Joaquín (2012, 30 de Enero). Bioinformatics at COMAV, Sequence file formats. Recuperado el 8 de febrero de 2012, de http://bioinf.comav.upv.es/courses/sequence_analysis/sequence_file_formats.ht ml. • Hernández, Héctor y Gutiérrez, Javier. Preguntas frecuentes, Tipos de archivos y archivos de secuencias. Recuperado el 8 de febrero de 2012, de http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html. INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 7

×