Your SlideShare is downloading. ×
Bioinformatica
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Bioinformatica

2,313
views

Published on

BIOINFORMATICA

BIOINFORMATICA

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
2,313
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
54
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. INSTITUTO DE MARINA MERCANTE ITSMEÑO DE VERAGUAS ASIGNATURA: Biología PROFESORA: Lourdes Castillo ESTUDIANTES: Gadiel Herrera Christian Campos Alejandra Him Brianth Magallon NIVEL: XII – B TEMA: Bioinformática 2011
  • 2. Introducción:Es una materia que se basa en la creación de vida artificial informáticacomo diferentes tipos de virus que se basan en el estudio de labioinformática.Esta ciencia se basa en el estudio principal de lo que es un sistemaoperador o una pagina Web o Internet esta materia se le puedefacilitar al estudiante por medio de este folleto que llevadetalladamente desde su inicio hasta sus más grandesdescubrimientos en esta ciencia.Esta es una de las materias mas osadas por los Jocker o Hacker quese basan en la entrada a sistemas o privados o prohibidos por mediode virus y claves que acceden a esta materia.
  • 3. Bioinformática, según una de sus definiciones más sencillas, es la aplicación de tecnologíade computadores a la gestión y análisis de datos biológicos. Los términos bioinformática,biología computacional y, en ocasiones, biocomputación, utilizados en muchassituaciones como sinónimos, hacen referencia a campos de estudios interdisciplinarios muyvinculados, que requieren el uso o el desarrollo de diferentes técnicas que incluyeninformática, matemática aplicada, estadística, ciencias de la computación, inteligenciaartificial, química y bioquímica para solucionar problemas, analizar datos, o simular sistemaso mecanismos, todos ellos de índole biológica, y usualmente (pero no de forma exclusiva) enel nivel molecular. El núcleo principal de estas técnicas se encuentra en la utilización derecursos computacionales para solucionar o investigar problemas sobre escalas de talmagnitud que sobrepasan el discernimiento humano. La investigación en biologíacomputacional se solapa a menudo con la biología de sistemas.Los principales esfuerzos de investigación en estos campos incluyen el alineamiento desecuencias, la predicción de genes, montaje del genoma, alineamiento estructural deproteínas, predicción de estructura de proteínas, predicción de la expresión génica,interacciones proteína-proteína, y modelado de la evolución.Una constante en proyectos de bioinformática y biología computacional es el uso deherramientas matemáticas para extraer información útil de datos producidos por técnicasbiológicas de alta productividad, como la secuenciación del genoma. En particular, elmontaje o ensamblado de secuencias genómicas de alta calidad desde fragmentos obtenidostras la secuenciación del ADN a gran escala es un área de alto interés. Otros objetivosincluyen el estudio de la regulación genética para interpretar perfiles de expresión génicautilizando datos de chips de ADN o espectrometría de masas.
  • 4. Conceptos y alcanceComo se ha avanzado en la introducción, los términos bioinformática, biologíacomputacional y biocomputación son utilizados a menudo como sinónimos, apareciendocon frecuencia en la literatura básica de forma indiferenciada en sus usos comunes. Sinembargo, hay conformadas áreas de aplicación propias de cada término. El NIH (NationalInstitutes of Health, Institutos Nacionales de la Salud de los Estados Unidos), por ejemplo,aún reconociendo previamente que ninguna definición podría eliminar completamente elsolapamiento entre actividades de las diferentes técnicas, define explícitamente los términosbioinformática y biología computacional: • Bioinformática es la investigación, desarrollo o aplicación de herramientas computacionales y aproximaciones para la expansión del uso de datos biológicos, médicos, conductuales o de salud, incluyendo aquellas herramientas que sirvan para adquirir, almacenar, organizar, analizar o visualizar tales datos. • Biología computacional sería el desarrollo y aplicación de métodos teóricos y de análisis de datos, modelado matemático y técnicas de simulación computacional al estudio de sistemas biológicos, conductuales y sociales.De esta forma, la bioinformática tendría más que ver con la información, mientras que labiología computacional lo haría con las hipótesis. Por otra parte, el término biocomputaciónsuele enmarcarse en las actuales investigaciones con biocomputadores y, por ejemplo, T.Kaminuma lo define de la siguiente forma: • Biocomputación es la construcción y uso de computadores que contienen componentes biológicos o funcionan como organismos vivos.Aparte de las definiciones formales de organismos o instituciones de referencia, losmanuales de esta materia aportan sus propias definiciones operativas, lógicamentevinculadas en mayor o menor medida con las ya vistas. Como ejemplo, David W. Mount,en su difundido texto sobre bioinformática, precisa que: …la bioinformática se centra másen el desarrollo de herramientas prácticas para la gestión de datos y el análisis (por ejemplo,la presentación de información genómica y análisis secuencial), pero con menor énfasis enla eficiencia y en la precisión.Por otra parte, y según el mismo autor: …la biología computacional generalmente serelaciona con el desarrollo de algoritmos nuevos y eficientes, que se puede demostrarfuncionan sobre un problema difícil, tales como el alineamiento múltiple de secuencias o elmontaje (o ensamblado) de fragmentos de genoma.Por último, se encuentra en ocasiones una categorización explícita de estos conceptos segúnla cual la bioinformática es una subcategoría de la biología computacional. Por ejemplo, labióloga Cynthia Gibas anota que: La bioinformática es la ciencia del uso de la informaciónpara entender la biología. (...) Hablando estrictamente, la bioinformática es un subconjuntodel campo mayor de la biología computacional, (siendo esta última) la aplicación detécnicas analíticas cuantitativas en el modelado de sistemas biológicos.
  • 5. No obstante, y refiriéndose a su propio texto (Developing Bioinformatics Computer Skills,desarrollo de habilidades computacionales para bioinformática), enseguida pasa a aclararque: ...pasaremos de bioinformática a biología computacional y viceversa. Las distincionesentre las dos no son importantes para nuestro propósito aquí.En muchas ocasiones, por lo tanto, los términos serán intercambiables y, salvo en contextosde cierta especialización, el significado último se mantendrá claro utilizando cualquiera deellos.
  • 6. HistoriaEn lo que sigue, y además de los hechos relevantes directamente relacionados con eldesarrollo de la bioinformática, se mencionarán algunos hitos científicos y tecnológicos queservirán para poner en un contexto adecuado tal desarrollo.Arrancaremos esta breve historia en la década de los 50 del pasado siglo XX, años en losque Watson y Crick proponen la estructura de doble hélice del ADN (1953), se secuencia laprimera proteína (insulina bovina) por F. Sanger (1955), o se construye el primer circuitointegrado por Jack Kilby en los laboratorios de Texas Instruments (1958). Las primeras décadas: años 60 y 70 del siglo XXEn los años 60, L. Pauling elabora su teoría sobre evolución molecular (1962), y MargaretDayhoff, una de las pioneras de la bioinformática, publica el primero de los Atlas of ProteinSequences (1965), que tendrá continuidad en años posteriores, se convertirá en una obrabásica en el desarrollo estadístico, algunos años más tarde, de las matrices de sustituciónPAM, y será precursor de las actuales bases de datos de proteínas. En el área de la tecnologíade computadores, se presentan en el ARPA (Advanced Research Projects Agency, agenciade proyectos de investigación avanzados) los protocolos de conmutación de paquetes dedatos sobre redes de ordenadores (1968), que permitirán enlazar poco después variosordenadores de diferentes universidades en EE.UU.: había nacido ARPANET (1969),embrión de lo que posteriormente será Internet.En 1970 se publica el algoritmo Needleman-Wunsch para alineamiento de secuencias;[ seestablece el Brookhaven Protein Data Bank (1971), se crea la primera molécula de ADNrecombinante (Paul Berg, 1972), E. M. Southern desarrolla la técnica Southern blot delocalización de secuencias específicas de ADN (1976), comienza la secuenciación de ADN yel desarrollo de software para analizarlo (F. Sanger, software de R. Staden, 1977), y se publicaen 1978 la primera secuencia de genes completa de un organismo, el fago Φ-X174 (5.386pares de bases que codifican 9 proteínas). En ámbitos tecnológicos vinculados, en estos añosse asiste al nacimiento del correo electrónico (Ray Tomlinson, BBN, 1971), al desarrollo deEthernet (protocolo de comunicaciones que facilitará la interconexión de ordenadores,principalmente en redes de ámbito local) por Robert Metcalfe (1973), y al desarrollo delprotocolo TCP (Transmission Control Protocol, protocolo de control de transmisión) porVinton Cerf y Robert Kahn (1974), uno de los protocolos básicos para Internet.
  • 7. Años 80En la década de los 80 se asiste, en diversas áreas, a importantes avances:Niveles de estructura de las proteínas. En los primeros ochenta se publica cómo investigar laestructura terciaria mediante RMN; en la siguiente década se desarrollarán métodos parapredecir de novo algunas estructuras secundarias. • Científicos: tras la secuenciación del fago Φ-X174 a finales de la década de los 70, en 1982 F. Sanger consigue la secuenciación del genoma del fago λ (fago lambda) utilizando una nueva técnica, la secuenciación shotgun (secuenciación por perdigonada), desarrollada por él mismo; también entre 1981 y 1982 K. Wüthrich publica el método de utilización de la RMN (Resonancia Magnética Nuclear) para determinar estructuras de proteínas;[37] Ford Doolittle trabaja con el concepto de secuencia motivo (similitudes supervivientes, según las denomina en el resumen de su artículo) en 1981; el descubrimiento en 1983 de la PCR (Polymerase Chain Reaction, reacción en cadena de la polimerasa) lleva a la multiplicación de muestras de ADN, lo que permitirá su análisis; en 1987, D. T. Burke et al. describen el uso de cromosomas artificiales de levadura (YAC, Yeast Artificial Chromosome), y Kulesh et al. sientan las bases de los chips de ADN. • Bioinformáticos: por lo que se refiere al desarrollo de algoritmos, métodos y programas, aparece el algoritmo Smith-Waterman (1981),[ el algoritmo de búsqueda en bases de datos de secuencias (Wilbur-Lipman, 1983), FASTP/FASTN (búsqueda rápida de similitudes entre secuencias, 1985), el algoritmo FASTA para comparación de secuencias (Pearson y Lipman, 1988), y comienzan a utilizarse modelos ocultos de Márkov para analizar patrones y composición de las secuencias (Churchill, 1989), lo que permitirá más adelante localizar genes y predecir estructuras protéicas; aparecen importantes bases de datos biológicas (GenBank en 1982, Swiss-Prot en 1986), redes que las interconectan (EMBnet en 1988), y se potencian o se crean diferentes organismos e instituciones (EMBL se constituye en 1974 pero se desarrolla durante la década de los 80, NCBI en 1988); también en estos años empieza a estudiarse la viabilidad de la Human Genome Initiative (First Santa Fe Conference, 1985), que será anunciada un año después por el DoE (Department of Energy, departamento de energía del gobierno de los EE.UU.) y que pondrá en marcha proyectos piloto para desarrollar recursos y tecnologías críticas; en 1987 el NIH (National Institutes of Health, institutos nacionales de la salud de EE.UU.) comienza aportar fondos a proyectos genoma, mientras que en 1988 arranca la Human Genome Initiative, más conocida finalmente como Human Genome Project (Proyecto Genoma Humano). • Tecnológicos: 1983 verá la aparición del estándar Compact Disc (CD) en su versión para ser leído por un ordenador (Yellow Book); Jon Postel y Paul Mockapetris desarrollan en 1984 el sistema de nombres de dominio DNS, necesario para un direccionamiento correcto y ágil en Internet; en 1987 Larry Wall desarrolla el lenguaje de programación PERL, de amplio uso posterior en bioinformática; y a finales de la década se verán las primeras compañías privadas importantes con actividades vinculadas al genoma, proteínas, bioquímica, etc. (Genetics Computer Group – GCG, Oxford Molecular Group, Ltd.), y que, en general, experimentarán importantes transformaciones años más tarde.
  • 8. Años 90En los años 90 asistimos a los siguientes eventos: • Científicos: en 1991 comienza la secuenciación con EST (Expressed Sequence Tags, marcaje de secuencias expresadas); al año siguiente es publicado el mapa de ligamiento genético (en baja resolución) del genoma humano completo; en 1995 se consigue secuenciar completamente los primeros genomas de bacterias (Haemophilus influenzae, Mycoplasma genitalium, de 1,8 millones de pares de bases -Mbps- y 0,58 Mbps, respectivamente); en 1996, y en diferentes pasos (por cromosoma), se hace lo propio con el primer genoma eucariota, el de la levadura (Saccharomyces cerevisiae, con 12 Mbps), así como en 1997 con el genoma de Escherichia coli (4,7 Mbps), en 1998 con el primer genoma de un organismo multicelular (97 Mbp del Caenorhabditis elegans), para terminar la década con el primer cromosoma humano (el 22) completamente secuenciado en 1999 (33,4 Mbps). • Bioinformáticos: búsqueda rápida de similitudes entre secuencias con BLAST (1990); base de datos de huellas de proteínas PRINTS, de Attwood y Beck (1994); ClustalW, orientado al alineamiento múltiple de secuencias, en 1994, y PSI-BLAST en 1997; a finales de la década se desarrolla T-Coffee, que se publica en 2000. Por lo que se refiere a actividades institucionales y nuevos organismos, tenemos la presentación por parte del DoE y NIH al Congreso de los EE.UU., en 1990, de un plan de esfuerzos conjuntos en el Human Genome Project para cinco años; se crean el Sanger Centre (Hinxton, UK, 1993; ahora Sanger Institute) y el European Bioinformatics Institute (EBI, Hinxton, UK, 1992-1995).[73] [74] • Tecnológicos: Tim Berners-Lee inventa la World Wide Web (1990) mediante aplicación de protocolos de red que explotan las características del hipertexto; en 1991 aparecen los protocolos definitivos de Internet (CERN) y la primera versión del sistema operativo Linux, muy utilizado posteriormente en aplicaciones científicas; en 1998 Craig Venter funda Celera, compañía que perfeccionará la secuenciación por perdigonada de F. Sanger y analizará los resultados con software propio. Primeros años del siglo XXIA destacar que en los años 2000 están culminando múltiples proyectos de secuenciación degenomas de diferentes organismos: en 2000 se publican, entre otros, el genoma deArabidopsis thaliana (100 Mb) y el de Drosophila melanogaster (180 Mbp). Tras unborrador operativo de la secuencia de ADN del genoma humano del año 2000, en 2001aparece publicado el genoma humano (3 Gbp). Poco después, en 2003, y con dos años deadelanto sobre lo previsto, se completa el Human Genome Project. Por mencionar algunosde los genomas analizados en los años siguientes, anotaremos que en 2004 aparece elborrador del genoma de Rattus norvegicus (rata), en 2005 el del chimpancé, en 2006 el delmacaco rhesus, en 2007 el del gato doméstico, y en 2008 se secuencia por primera vez elgenoma de una mujer. Gracias al desarrollo de las técnicas adecuadas, asistimos actualmentea un aluvión de secuenciaciones de genomas de todo tipo de organismos.En 2003 se funda en España el Instituto Nacional de Bioinformática, soportado por laFundación Genoma España (fundada, a su vez, un año antes y que pretende constituirse eninstrumento del estado para potenciar la investigación en este campo). En 2004, la
  • 9. estadounidense FDA (Food and Drug Administration, agencia para la administración dealimentos y fármacos) autoriza el uso de un chip de ADN por primera vez. En 2005 secompleta el proyecto HapMap (catalogación de variaciones genéticas en el ser humano). En2008 UniProt presenta el primer borrador del proteoma completo del ser humano, con másde veinte mil entradas.Poco a poco, los primeros programas bioinformáticos se van perfeccionando, y vemosversiones más completas como la 2.0 de ClustalW (reescrito en C++ en 2007).
  • 10. Principales áreas de investigaciónAnálisis de secuenciasDesde que el fago Φ-X174 fue secuenciado en 1977 (secuencia provisional: un año más tardese publicaría la secuencia completa definitiva), las secuencias de ADN de cientos deorganismos han sido decodificadas y guardadas en bases de datos. Esos datos son analizadospara determinar los genes que codifican para ciertas proteínas, así como también secuenciasreguladoras. Una comparación de genes en una especie o entre especies puede mostrarsimilitudes entre funciones de proteínas, o relaciones entre especies (uso de filogenéticamolecular para construir árboles filogenéticos).[95]Con la creciente cantidad de datos, desde hace mucho se ha vuelto poco práctico analizarsecuencias de ADN manualmente. Hoy se usan programas de computadora para estudiar elgenoma de miles de organismos, conteniendo miles de millones de nucleótidos. Estosprogramas pueden compensar mutaciones (con bases intercambiadas, borradas o insertadas)en la secuencia de ADN, para identificar secuencias que están relacionadas, pero que no sonidénticas.[38] Una variante de este alineamiento de secuencias se usa en el proceso desecuenciación.La secuenciación conocida como "shotgun" (o por perdigonada: fue usada, por ejemplo, porel Instituto de Investigación Genómica -The Institute for Genomic Research, TIGR, hoy J.Craig Venter Institute- para secuenciar el primer genoma de bacteria, el Haemophilusinfluenzae)[61] no da una lista secuencial de nucleótidos, pero en cambio nos ofrece lassecuencias de miles de pequeños fragmentos de ADN (cada uno de aproximadamente 600 a800 nucleótidos de largo). Las terminaciones de estos fragmentos se superponen y, cuandoson alineados de la manera correcta, constituyen el genoma completo del organismo encuestión.[96]El secuenciamiento shotgun proporciona datos de secuencia rápidamente, pero la tarea deensamblar los fragmentos puede ser bastante complicada para genomas muy grandes. En elcaso del Proyecto Genoma Humano, llevó varios meses de tiempo de procesador (en unaestación DEC Alpha de alrededor del 2000) para ensamblar los fragmentos. El shotgunsequencing es el método de elección para todos los genomas secuenciados hoy en día y losalgoritmos de ensamblado genómico son un área crítica de la investigación en bioinformática.Otro aspecto de la bioinformática en análisis de secuencias es la búsqueda automática degenes y secuencias reguladoras dentro de un genoma.[97] No todos los nucleótidos dentro deun genoma son genes. Dentro del genoma de organismos más avanzados, grandes partes delADN no sirven a ningún propósito obvio. Este ADN, conocido como "ADN basura", puede,sin embargo, contener elementos funcionales todavía no reconocidos. La bioinformáticasirve para estrechar la brecha entre los proyectos de genoma y proteoma (por ejemplo, en eluso de secuencias de ADN para identificación de proteínas). Mapa del cromosoma X delser humano (extraído de la página web del NCBI). La transcripción del genoma humano esuno de los mayores logros de la bioinformática.
  • 11. Anotación de genomasEn el contexto de la genómica, anotación es el proceso de marcado de los genes y otrascaracterísticas biológicas de la secuencia de ADN.[99] El primer sistema software de anotaciónde genomas fue diseñado en 1995 por Owen White, quien fue miembro del equipo quesecuenció y analizó el primer genoma en ser descodificado de un organismo independiente,la bacteria Haemophilus influenzae. White construyó un software para localizar los genes(lugares en la secuencia de DNA que codifican una proteína), el ARN de transferencia, yotras características, así como para realizar las primeras atribuciones de función a esos genes.[61] La mayoría de los actuales sistemas de anotación genómica trabajan de forma similar,pero los programas disponibles para el análisis del genoma se encuentran en continuocambio y mejora.Biología evolutiva computacionalLa Biología evolutiva es el estudio del origen ancestral de las especies, así como de su cambioa través del tiempo.[100] La informática ha apoyado a los biólogos evolutivos en diferentescampos clave. Ha permitido a los investigadores: • Seguir la evolución de un alto número de organismos midiendo cambios en su ADN, en lugar de hacerlo exclusivamente mediante su taxonomía física u observaciones fisiológicas.[38] • Más recientemente, comparar genomas completos, lo que permite el estudio de eventos evolutivos más complejos, tales como la duplicación de genes, la transferencia horizontal de genes, o la predicción de factores significativos en la especiación bacteriana.[101] • Construir modelos computacionales complejos de poblaciones para predecir el resultado del sistema a través del tiempo. • Seguir y compartir información sobre un amplio y creciente número de especies y organismos.Los esfuerzos futuros se centrarán en reconstruir el cada vez más complejo árbol filogenéticode la vida.[103] El área de investigación de las ciencias de la computación denominadacomputación evolutiva se confunde ocasionalmente con la Biología evolutiva computacional,pero ambas áreas no guardan relación. Dicho campo se centra en el desarrollo de algoritmosgenéticos y otras estrategias de resolución de problemas con una marcada inspiraciónevolutiva y genética.Medición de la biodiversidadLa biodiversidad de un ecosistema puede definirse como el conjunto genómico completo detodas las especies presentes en un medio ambiente particular,[104] sea este una biopelícula enuna mina abandonada, una gota de agua de mar, un puñado de tierra, o la biosfera completadel planeta Tierra. Se utilizan bases de datos para recoger los nombres de las especies, asícomo de sus descripciones, distribuciones, información genética, estado y tamaños de laspoblaciones, necesidades de su hábitat, y cómo cada organismo interactúa con otras especies.Se usa software especializado para encontrar, visualizar y analizar la información; y, lo que esmás importante, para compartirla con otros interesados.[105] La simulación computacionalpuede modelar cosas tales como dinámica poblacional, o calcular la mejora del acervogenético de una variedad (en agricultura), o la población amenazada (en biología de laconservación). Un potencial muy excitante en este campo es la posibilidad de preservar lassecuencias completas del ADN, o genomas, de especies amenazadas de extinción,
  • 12. permitiendo registrar los resultados de la experimentación genética de la Naturaleza in silicopara su posible reutilización futura, aún si tales especies fueran finalmente perdidas.[106]Pueden citarse, como ejemplos significativos, los proyectos Species 2000 o uBio.Análisis de la expresión génicaLa expresión génica de muchos genes puede determinarse por la medición de niveles demRNA mediante múltiples técnicas, incluyendo microarrays de ADN, secuenciación de EST( Expressed Sequence Tag), análisis en serie de la expresión génica (Serial Analysis of GeneExpression - SAGE), MPSS (Massively Parallel Signature Sequencing), o diversasaplicaciones de hibridación in situ. Todas estas técnicas son extremadamente propensas alruido y/o sujetas a sesgos en la medición biológica, y una de las principales áreas deinvestigación en la biología computacional trata del desarrollo de herramientas estadísticaspara separar la señal del ruido en los estudios de expresión génica con alto volumen deprocesamiento.[107] Estos estudios se usan a menudo para determinar los genes implicados enun desorden: podrían, por ejemplo, compararse datos de microarrays de células epitelialescancerosas con datos de células no cancerosas para determinar las transcripciones que sonactivadas o reprimidas en una población particular de células cancerosas.[108]Análisis de la regulaciónLa regulación génica es la compleja orquestación de eventos que comienzan con una señalextracelular tal como una hormona, que conducen a un incremento o decremento en laactividad de una o más proteínas.[109] Se han aplicado técnicas bioinformáticas para explorarvarios pasos en este proceso. Por ejemplo, el análisis del promotor de un gen implica laidentificación y estudio de las secuencias motivo en los alrededores del ADN de la regióncodificante de un gen.[110] Estos motivos influyen en el alcance según el cual esa región setranscribe en ARNm. Los datos de expresión pueden usarse para inferir la regulación génica:podrían compararse datos de microarrays provenientes de una amplia variedad de estados deun organismo para formular hipótesis sobre los genes involucrados en cada estado. En unorganismo unicelular, podrían compararse etapas del ciclo celular a lo largo de variadascondiciones de estrés (choque de calor, inanición, etc.). Podrían aplicarse, entonces,algoritmos de agrupamiento (algoritmos de clustering, o análisis de cluster) a esa informaciónde expresión para determinar qué genes son expresados simultáneamente.[111] Por ejemplo,los promotores de estos genes se pueden buscar según la abundancia de secuencias oelementos regulatorios.Análisis de la expresión de proteínasVéase también: Expresión génicaLos microarrays de proteínas y la espectrometría de masas de alto rendimiento puedenproporcionar una instantánea de las proteínas presentes en una muestra biológica. Labioinformática está muy comprometida en dar soporte a ambos procedimientos. Laaproximación a los microarrays de proteínas encara similares problemas a los existentes paramicroarrays destinados a ARNm,[112] mientras que para la espectrometría de masas elproblema es casar grandes cantidades de datos de masa contra masas predichas por bases dedatos de secuencias de proteínas, además del complicado análisis estadístico de muestrasdonde se detectan múltiples, pero incompletos, péptidos de cada proteína.[113]
  • 13. Análisis de mutaciones en el cáncerEn el cáncer, los genomas de las células afectadas son reordenados en complejas y/o aúnimpredecibles maneras. Se realizan esfuerzos masivos de secuenciación para identificarsustituciones individuales de bases (o puntos de mutación de nucleótidos) todavíadesconocidos en una variedad de genes en el cáncer.[114] Los bioinformáticos continúanproduciendo sistemas automatizados para gestionar el importante volumen de datos desecuencias obtenido, y crean nuevos algoritmos y software para comparar los resultados desecuenciación con la creciente colección de secuencias del genoma humano y de lospolimorfismos de la línea germinal. Se están utilizando nuevas tecnologías de detecciónfísica, como los microarrays de oligonucleótidos para identificar pérdidas y gananciascromosómicas (técnica denominada hibridación genómica comparativa), y los arrays depolimorfismos de nucleótido simple para detectar puntos de mutación conocidos. Estosmétodos de detección miden simultáneamente bastantes cientos de miles de posiciones a lolargo del genoma, y cuando se usan con una alta productividad para analizar miles demuestras, generan terabytes de datos por experimento. De esta forma las masivas cantidadesy nuevos tipos de datos proporcionan nuevas oportunidades para los bioinformáticos. Amenudo se encuentra en los datos una considerable variabilidad, o ruido, por lo quemétodos como el de los modelos ocultos de Márkov y el análisis de puntos de cambio estánsiendo desarrollados para inferir cambios reales en el número de copias de los genes(número de copias de un gen particular en el genotipo de un individuo, cuya magnitud puedeser elevada en células cancerígenas).Otro tipo de datos que requiere novedosos desarrollos informáticos es el análisis de laslesiones encontradas de forma recurrente en buen número de tumores, principalmente poranálisis automatizado de imagen clínica.Predicción de la estructura de las proteínasAlineamiento estructural de tiorredoxinas del ser humano y de la mosca Drosophilamelanogaster. Las proteínas se muestran como cintas, con la proteína humana en rojo y la dela mosca en amarillo. Generado con PDB 3TRX y 1XWC.La predicción de la estructura de las proteínas es otra importante aplicación de labioinformática. La secuencia de aminoácidos de una proteína, también llamada estructuraprimaria, puede ser determinada fácilmente desde la secuencia de nucleótidos sobre el genque la codifica.[119] En la inmensa mayoría de los casos, esta estructura primaria determinaúnicamente una estructura de la proteína en su ambiente nativo. (Hay, por supuesto,excepciones, como la encefalopatía espongiforme bovina, o "mal de las vacas locas"; ver,también, prión.) El conocimiento de esta estructura es vital para entender la función de la
  • 14. proteína.[120] En ausencia de mejores términos, la información estructural de las proteínas seclasifica usualmente como estructura secundaria, terciaria y cuaternaria. Una solución generalviable para la predicción de tales estructuras permanece todavía como problema abierto. Porahora, la mayoría de los esfuerzos han sido dirigidos hacia heurísticas que funcionan lamayoría de las veces.[121]Una de las ideas clave en bioinformática es la noción de homología. En la rama genómica dela bioinformática, se usa la homología para predecir la función de un gen: si la secuencia degen A, cuya función es conocida, es homóloga a la secuencia de gen B, cuya función esdesconocida, puede inferirse que B podría compartir la función de A.[122] En la ramaestructural de la bioinformática, la homología se usa para determinar qué partes de unaproteína son importantes en la formación de la estructura y en la interacción con otrasproteínas. En la técnica denominada modelado por homología, esta información se usa parapredecir la estructura de una proteína una vez conocida la estructura de una proteínahomóloga.[123] Esta es, actualmente, la única vía para predecir estructuras de proteínas de unamanera fiable.Un ejemplo de lo anterior es la similar homología proteica entre la hemoglobina en humanosy la hemoglobina en las legumbres (leghemoglobina). Ambas sirven al mismo propósito detransportar oxígeno en el organismo. Aunque las dos tienen una secuencia de aminoácidoscompletamente diferente, sus estructuras son virtualmente idénticas, lo que refleja susprácticamente idénticos propósitos.[124]Otras técnicas para predecir la estructura de las proteínas incluyen el enhebrado de proteínas(protein threading)[125] y el modelado de novo (desde cero), basado en las característicasfísicas y químicas.[126]Al respecto, pueden verse también motivo estructural (structural motif) y dominio estructural(structural domain).Genómica comparativaEl núcleo del análisis comparativo del genoma es el establecimiento de la correspondenciaentre genes (análisis ortólogo) o entre otras características genómicas de diferentesorganismos. Estos mapas intergenómicos son los que hacen posible rastrear los procesosevolutivos responsables de la divergencia entre dos genomas. Una multitud de eventosevolutivos actuando a diferentes niveles organizativos conforman la evolución del genoma.[127]Al nivel más bajo, las mutaciones puntuales afectan a nucleótidos individuales. Al mayornivel, amplios segmentos cromosómicos experimentan duplicación, transferencia horizontal,inversión, transposición, borrado e inserción. Finalmente, los genomas enteros estáninvolucrados en procesos de hibridación, poliploidía y endosimbiosis, conduciendo amenudo a una súbita especiación.La complejidad de la evolución del genoma plantea muchos desafíos excitantes adesarrolladores de modelos matemáticos y algoritmos, quienes deben recurrir a un espectrode técnicas algorítmicas, estadísticas y matemáticas que se extienden desde exactas,heurísticas, con parámetros fijados, y mediante algoritmos de aproximación para problemasbasados en modelos de parsimonia, hasta algoritmos "Márkov Chain Monte Carlo" paraanálisis Bayesiano de problemas basados en modelos probabilísticos.[128]Muchos de estos estudios están basados en la detección de homología y la computación defamilias de proteínas.
  • 15. Modelado de sistemas biológicosLa biología de sistemas implica el uso de simulaciones por ordenador de subsistemascelulares (tales como redes de metabolitos y enzimas que comprenden el metabolismo,caminos de transducción de señales, y redes de regulación genética), tanto para analizarcomo para visualizar las complejas conexiones de estos procesos celulares.[129] La vidaartificial o la evolución virtual tratan de entender los procesos evolutivos por medio de lasimulación por ordenador de sencillas formas de vida (artificial).[130]Análisis de imagen de alto rendimientoSe están usando tecnologías de computación para acelerar o automatizar completamente elprocesamiento, cuantificación y análisis de grandes cantidades de imágenes biomédicas conalto contenido en información. Los modernos sistemas de análisis de imagen incrementan lahabilidad del observador para realizar análisis sobre un amplio o complejo conjunto deimágenes, mejorando la precisión, la objetividad (independencia de los resultados según elobservador), o la rapidez. Un sistema de análisis totalmente desarrollado podría reemplazarcompletamente al observador. Aunque estos sistemas no son exclusivos del campo de lasimágenes biomédicas, cada vez son más importantes tanto para el diagnóstico como para lainvestigación. Algunos ejemplos: • Cuantificación y localización subcelular con alta productividad y precisión (high- content screening, citohistopatología).[131] • Morfometría.[132] • Análisis y visualización de imágenes clínicas.[133] • Determinación de patrones en el flujo del aire en tiempo real de la respiración pulmonar de animales vivos. • Cuantificación del tamaño de la oclusión a través de imágenes en tiempo real, tanto por desarrollo como por recuperación, de lesiones arteriales.[134] • Realización de observaciones conductuales basadas en prolongadas grabaciones en vídeo de animales de laboratorio. • Observaciones en infrarrojo (espectroscopia infrarroja) para la determinación de la actividad metabólica.[135]Acoplamiento proteína-proteínaEn las últimas dos décadas, decenas de miles de estructuras tridimensionales de proteínashan sido determinadas por cristalografía de rayos X y espectroscopía mediante resonanciamagnética nuclear de proteínas (RMN de proteínas). Una cuestión central para los científicoses si resulta viable la predicción de posibles interacciones proteína-proteína solamentebasados en esas formas 3D, sin realizar experimentos identificativos de estas interacciones.Se han desarrollado una variedad de métodos para enfrentarse al problema del acoplamientoproteína-proteína, aunque parece que queda todavía mucho trabajo en este campo.[136
  • 16. Herramientas de softwareLas herramientas de software para bioinformática van desde simples herramientas de líneade comandos hasta mucho más complejos programas gráficos y servicios web autónomossituados en compañías de bioinformática o instituciones públicas. La más conocidaherramienta de biología computacional entre los los biólogos es, probablemente, BLAST, unalgoritmo para determinar la similitud de secuencias arbitrarias con otras secuencias,probablemente residentes en bases de datos de proteínas o de secuencias de ADN. El NCBI(National Center for Biotechnology Information, EE.UU.), por ejemplo, proporciona unaimplementación muy utilizada, basada en web, y que trabaja sobre sus bases de datos.Para alineamientos múltiples de secuencias, el clásico ClustalW, actualmente en su versión 2,es el software de referencia. Puede trabajarse con una implementación del mismo en el EBI(Instituto Europeo de Bioinformática).BLAST y ClustalW son sólo dos ejemplos de los muchos programas de alineamiento desecuencias disponibles. Existe, por otra parte, multitud de software bioinformático con otrosobjetivos: alineamiento estructural de proteínas, predicción de genes y otros motivos,predicción de estructura de proteínas, predicción de acoplamiento proteína-proteína, omodelado de sistemas biológicos, entre otros. En Anexo:Software para alineamiento desecuencias y Anexo:Software para alineamiento estructural pueden encontrarse sendasrelaciones de programas o servicios web adecuados para cada uno de estos dos objetivos enparticular. Servicios Web en bioinformáticaSe han desarrollado interfaces basadas en SOAP y en REST (Representational StateTransfer, transferencia de estado representacional) para una amplia variedad de aplicacionesbioinformáticas, permitiendo que una aplicación, corriendo en un ordenador de cualquierparte del mundo, pueda usar algoritmos, datos y recursos de computación alojados enservidores en cualesquiera otras partes del planeta. Las principales ventajas radican en que elusuario final se despreocupa de actualizaciones y modificaciones en el software o en las basesde datos. Los servicios bioinformáticos básicos, de acuerdo a la clasificación implícita delEBI, pueden clasificarse en: • Servicios de obtención de información en línea (consultas a bases de datos, por ejemplo). • Herramientas de análisis (por ejemplo, servicios que den acceso a EMBOSS). • Búsquedas de similitudes entre secuencias (servicios de acceso a FASTA o BLAST, por ejemplo). • Alineamientos múltiples de secuencias (acceso a ClustalW o T-Coffee). • Análisis estructural (acceso a servicios de alineamiento estructural de proteínas, por ejemplo). • Servicios de acceso a literatura especializada y ontologías.La disponibilidad de estos servicios web basados en SOAP a través de sistemas tales comolos servicios de registro, (servicios de distribución y descubrimiento de datos a través deservicios web) demuestra la aplicabilidad de soluciones bioinformáticas basadas en web. Estasherramientas varían desde una colección de herramientas autónomas con un formato dedatos común, y bajo una única interface autónoma o basada en web, hasta sistemasintegradores y extensibles para la gestión del flujo de trabajo bioinformático.
  • 17. Conclusión:Es una ciencia basada en los estudios específicos del Internet muchos de losbiliosos la estudian para una mayor protección informática así también para crear diferentes clases de recursos biotecnológicos que puedan ayudar a desarrollar una mejor fracción o una mejor formación a lo que es la Bioinformática.
  • 18. Bibliografía:Mozilla Firefox 3.6www.google.comwww.altavista.comwww.wikipedia.orgwww.Slideshare.netWinWord 2003Gracias.