SlideShare a Scribd company logo
1 of 26
Download to read offline
Auxïï                                           285


Secuenciación de genomas


Javier María Rodríguez Martínez
Arbor CLXXVII, 698 (Febrero 2004), 285-310 pp.




    Desde que en 1995 se determinó la secuencia del genoma del primer
organismo autosufidente,    la bacteria Haemophilus influenzae,    estamos
asistiendo a una explosión en el número de genomas secuenciados. A fi-
nales del 2003 este número era de 150 y probablemente se doblara du-
rante este año. También en 2003 se hizo pública la Secuencia de Referen-
cia del genoma humano, un genoma de particular importancia para las
ciencias biomédicas, y cuyo proyecto internacional de secuenciación ha
sido el principal motor para el desarrollo de las tecnologías necesarias
para este crecimiento. La posibilidad de analizar y comparar entre si toda
la información genética de diversos organismos esta produciendo una rá-
pida transformación de las ciencias biomédicas. En este articulo descri-
biremos los métodos de secuenciación de genomas complejos que han he-
cho posible esta revolución y que suponen la base del conjunto de técnicas
y conocimientos que conocemos como genómica.




Introducción

    Podemos definir la genómica como la subdisciplina de la genética in-
teresada en la descripción y análisis molecular de genomas completos.
Habitualmente la genómica se suele subdividir en dos grandes áreas: La
genómica estructural, que se ocupa de la caracterización de la naturale-
za física de los genomas, y idi genómica funcional, cuyo objetivo último es
ubicar todos los elementos integrantes de un genoma dentro de u n a es-
tructura funcional, tanto en el sentido más tradicional de determinar la
función de cada u n a de los elementos componentes de un genoma (las



(c) Consejo Superior de Investigaciones Científicas    http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez Martínez
286

       proteínas codificadas, los elementos reguladores, estructurales, etc) como
       en el sentido más general de determinar el papel que cada uno de estos
       elementos desempeña en el funcionamiento global del organismo. La ma-
       yor parte de los proyectos de genómica se encuentran aún en la fase es-
       tructural, pero en el caso de algunos organismos modelo como la mosca
       del vinagre {D. melanogaster) o el nematode (C. elegans), la fase funcio-
       nal ya h a comenzado.
           E n este articulo describiremos las técnicas de lo que hemos denomi-
       nado genómica estructural, esto es, el conjunto de métodos y herra-
       mientas diseñadas p a r a la determinación de la secuencia de genomas,
       y nos centraremos fundamentalmente en las empleadas p a r a la se-
       cuenciación de genomas complejos, como los de los organismos eucarió-
       ticos.


       Material g e n é t i c o

           Cada organismo, sea este u n virus, u n a bacteria, u n animal o u n a
       planta, posee u n genoma que contiene la información biológica necesa-
       ria p a r a construir y m a n t e n e r cada u n a de las instancias de ese orga-
       nismo. La mayor p a r t e de los genomas presentes en la naturaleza están
       constituidos por ácido desoxirribonucleico (DNA) aunque ciertos virus
       poseen ácido ribonucleico (RNA) como material genético. Tanto el DNA
       como el RNA son moléculas poliméricas construidas por cadenas de su-
       bunidades denominadas nucleotides, desoxirribonucleótidos en el caso
       del DNA (de ahí la D), y ribonucleotides en el caso del RNA. El DNA
       está compuesto por u n a mezcla de cuatro de estos nucleotides: la ade-
       nina, que se representa con u n a A, la guanina (G), la citosina (C) y la
       timidina (T). U n a molécula de DNA esta formada por dos cadenas de
       estos nucleotides polimerizados, que se denominan bases, formado u n a
       estructura que se describe a menudo como u n a doble hélice. Las dos ca-
       denas o h e b r a s del DNA están estabilizadas entre si por puentes de
       hidrógeno, que ocurren entre las bases de las dos cadenas. Decimos que
       las bases están apareadas u n a s con otras. Este apareamiento tiene lu-
       gar de u n a forma muy precisa: la A de u n a cadena se a p a r e a con la T
       de la otra cadena y la C con la G. La información biológica presente en
       el DNA se encuentra codificada en el orden preciso de esos nucleotides
       dentro de la molécula de DNA, lo que denominamos secuencia de nu-
       cleotides. El objetivo primario de la genómica estructural es precisa-
       mente determinar la secuencia de nucleotides específica de cada geno-
       ma.




(c) Consejo Superior de Investigaciones Científicas          http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                        287

El G e n o m a

    El humano es u n buen ejemplo de genoma eucariótico complejo. Con-
siste en dos partes diferenciadas, el genoma mitocondrial y el genoma
nuclear. La mitocondrias en las células animales y los cloroplastos en las
células de plantas son los únicos orgánulos subcelulares que poseen su
propio «genoma». El genoma mitocondrial humano es u n a pequeña molé-
cula de DNA circular de 16.569 nucleótidos. En una célula normal puede
haber unos 200 de estos orgánulos, cada uno con su propia copia de su ge-
noma. Sin embargo, la mayor cantidad de información genética del ser
humano se encuentra en el genoma nuclear compuesto por aproximada-
mente 3.200 millones de nucleótidos. El genoma nuclear, que es lo que
normalmente se denomina genoma humano, esta dividido en 24 molécu-
las lineales cada u n a de ellas contenidas en un cromosoma diferente. La
más pequeña de estas moléculas tiene unos 50 millones de nucleótidos
mientras que la mayor tiene aproximadamente 250 millones de nucleóti-
dos.
    E n u n h u m a n o adulto, cada una de las aproximadamente 10^^ células
que lo componen contiene su propia copia del genoma, con la excepción
de algunas células muy especializadas como los glóbulos rojos que en su
estado final, completamente diferenciado, carecen de núcleo. La inmensa
mayoría de las células contienen dos copias de cada uno de los cromoso-
mas, solamente las células germinales (espermatozoides y óvulos) pose-
en un solo juego de cromosomas.
    La secuencia del genoma mitocondrial humano fue determinada en
1981 y sin embargo h a s t a el 2003 no ha sido posible hacer lo propio con
la secuencia del enormemente complejo genoma nuclear.


S e c u e n c i a c i ó n del D N A

    La técnica empleada en la actualidad para la secuenciación de DNA es
una modificación de la desarrollada en los años 70 por Frederick Sanger y
colaboradores, conocida como el método de los terminadores de cadena.
Esta técnica (Figura 1) se basa en el empleo de una enzima, DNA polime-
rasa, cuya actividad principal es la de extender una cadena de DNA poli-
merizando nucleótidos en uno de sus extremos. Para su funcionamiento
esta enzima necesita esencialmente tres reactivos: un DNA que le sirve de
molde, otro DNA que le sirve de iniciador de la reacción (en uno de cuyos
extremos adicionara los nucleótidos) y los 4 nucleótidos componentes del
DNA. La clave de esta técnica consiste en adicionar, junto a los reactivos




(c) Consejo Superior de Investigaciones Científicas     http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez                                                                  Martínez
288

                  A                          DMA iniciador marcado radioactivamente                                     Nucíeótidos




                                                                T G c ' i ^ ^ ^ G TGCATAGAT
                                                             DMA poiimerasa ' ^                                 ^ ^ ^ a secusnelar




                                                               > * • '



               #-A C ^.5 Î A                                                  ihA C ^ ^ ^ ^ : ,
                                                                                                                                              1 Poiécuias marcadas radioactlvatnent®
                  T C C A T C C G T C - íi T A G A ^                               T G C ^ f i ^ ^ Ü T GC A T A G A T

                                                                                                                                               • - A C G T A G G C A C G T A T C T ddA
                   Se rcofps'-í A ?


               ©•Ai- G Í ¿ l . < Í C A                                        fNVCGTAGGCáaA.
                    r<"A r C<"GTGí^A7AG<r                                            TGCATCCGT^SOATAGAT                                       •-ACGTAGGCACGTddA


                      Sd i ÎC '»'-ír<i A f          "^"^ ' ~ ' ^'^ ^ "

               0At,Gf4^Gv              ACGÍA                                  •-ACGTAGGÇACG-r«ía*i.
                                                                                                                                               #^CGTAGGCddA
                  7C<"Aïi-Gnin"ATAnAÎ                                                 TGCATCCGTGCÁtApAT


                                                    &Pîri-f>'5!OîaijaA

                                                                                                                                               •-ACGTddA
                                                                         *^       ÍhACGTAGGCACGTATÍÇTd«M

                                                                                   TGCATCCGTGCÀTAGAT
                  Pasos ïntennedios
                  de ia poiimerizacicm                                                   Producios finales                       El&cîroforésis




                 B
                                                     1 1 l 1 IJ IJ                                                          DNA poiimerasa
                                                                                                                            Nucleótídos
                                                     y y- j= • y—-
                                                         +                    +             +           +                   Molde
                                                     ddA                 ddC ddG                         ddT                iniciador

                                                         t                    ?            f            f
                                                  1A n c n o n T r
                                                                                                                    A
                                                                                                                    T
                                                                         — .
                                                                          —                                         C
                                                                                                                    T
                                                                                                                    A
                                                                                                                    T
                                                                         ....«-.                                    C
                                                     —                   '        •
                                                                                                                    A
                                                                                                                    C
                                                                                        —                           G
                                                                                        —                           G
                                                     —                                                              A

                                                                                                                    S I 'cuencia i ieducida



          FIGURA 1. Secuenciación del DNA mediante el método de Sanger o de los terminado-
      res de cadena. El panel A muestra un esquema de la reacción correspondiente a la de-
      terminación de la posición en la secuencia del DNA de una base, en este caso la A. La in-
      corporación de ddA en lugar de A detiene el proceso de polimerización. Esta incorporación
      ocurre de forma aleatoria durante la polimerización de las moléculas de DNA de tal for-
      ma que una fracción de las moléculas elongadas se habrá detenido en cada posición en
      que A debiera incorporarse a la molécula. Las moléculas marcadas radioactivamente se
      detectan después de haberlas separado por su tamaño mediante electroforésis en geles de
      poliacrilamida. El tamaño de las moléculas detectadas nos indica en que posición de la
      secuencia se encuentra el núcleotido A. En el panel B se muestra un experimento com-
      pleto de secuenciación del DNA. Se realizan reacciones como las descritas anteriormente
      para cada uno de los nucleotides y la secuencia completa del DNA se deduce de la posi-
      ción en que aparecen las moléculas marcadas radioactivamente.




 (c) Consejo Superior de Investigaciones Científicas                                                                                              http://arbor.revistas.csic.es
 Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                       289

  mencionados anteriormente, u n a pequeña cantidad de nucleotides modifi-
  cados que se incorporan en la cadena que se esta elongando haciendo im-
  posible que la polimerización en esta molécula continúe, es decir, que
  actúan como terminadores de la cadena. Por ejemplo, si en u n a reacción
  añadimos u n porcentaje del nucleotide A modificado (Figura IA), que de-
  nominaremos ddA, en cada u n a de las posiciones en las que se debe incor-
  porar una A, u n a fìracción de las moléculas que se están sintetizando in-
  corporaran en su lugar ddA y la polimerización se detendrá en este
  nucleotide. En el resto de las moléculas, en las que se ha incorporado co-
  rrectamente una A, la polimerización continuará hasta la siguiente A de
  la secuencia, momento en que se repetirá la situación anterior, una fi:ac-
  ción de las moléculas incorporará ddA deteniéndose la reacción de polime-
  rización en estas moléculas, y el resto continuará con el proceso de poli-
  merización. Esta situación se repetirá en cada posición donde se deba
  incorporar u n a A en la secuencia. La incorporación de ddA en lugar de A
  ocurre de forma aleatoria, por lo que una firacción de las moléculas que se
  están sintetizando se detendrán en cada posición donde existe u n a A en la
  secuencia. Al final de la reacción obtendremos una mezcla de moléculas de
  diferentes tamaños que h a n resultado de las paradas de la polimerización
  en todas las posiciones donde existe una A en la molécula. Si separamos
  estas moléculas según su tamaño (empleando técnicas de electroforésis)
  podemos deducir, por su tamaño, en que posiciones se h a parado la poli-
  merización de una parte de las moléculas y, por lo tanto, en que posiciones
  existe una A en la secuencia de ese DNA. En el método original de Sanger,
  la detección de las moléculas de DNA en la reacción de secuenciación se
  realiza utilizando u n DNA iniciador marcado radioactivamente.
      P a r a obtener la secuencia completa de u n a molécula de DNA (Figura
  IB) lo que hacemos es correr en paralelo reacciones como la descrita an-
  teriormente para los cuatro componentes del DNA. E n ellas se añaden
  los mismos reactivos y u n nucleotide modificado diferente (ddA, ddG,
  ddC o ddT), según cual sea el tipo de bases que queremos determinar en
  esa reacción. Las moléculas de DNA sintetizadas en cada u n a de las re-
  acciones se separan en paralelo mediante electroforésis y la secuencia de
  la molécula de DNA se deduce observando en que reacción se h a parado
  la elongación correspondiente a esa posición.
      Con esta técnica se pueden leer alrededor de 300 - 500 nucleotides en
  cada experimento. P a r a secuenciar una molécula de mayor tamaño, ten-
  dremos que utilizar iniciadores diferentes que comiencen la reacción de
  polimerización en posiciones separadas unos 300 nucleotides entre si.
      Modificaciones posteriores de esta técnica eliminaron la necesidad de
  emplear iniciadores marcados, usando en su lugar uno de los nucleotides




(c) Consejo Superior de Investigaciones Científicas    http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez     Martínez
290

      marcados radioactivamente de tal forma que las moléculas se marcan a
      medida que se van elongando.
          Bajo la presión del Proyecto Genoma Humano por desarrollar nuevas
      tecnologías que permitieran la determinación de la secuencia del DNA con
      una mayor rapidez, esta técnica sufrió una serie de modificaciones dando
      lugar a un método mas sólido y sobre todo, susceptible de un gran nivel de
      automatización. Estas modificaciones afectaron fundamentalmente a:
          (i)   Mejoras en los reactivos bioquímicos necesarios para las reaccio-
                nes de secuenciación, como polimerasas termoestables, termina-
                dores marcados con colorantes fluorescentes y mejoras posterio-
                res de la estabilidad de estos colorantes. La aparición, en 1986,
                de terminadores marcados con colorantes fluorescentes permite
                la realización de una reacción de secuenciación en u n solo tubo,
                en lugar de los cuatro que eran necesarios en la técnica original
                de Sanger. Esto es posible porque cada uno de los cuatro termi-
                nadores de cadena esta marcado con un colorante diferente, per-
                mitiéndonos diferenciar, por el tipo de fluorescencia, que termi-
                nador se h a incorporado a cada molécula.
          (ii) Desarrollo de secuenciadores que permiten la lectura automática
                del resultado de la reacción, al emplear terminadores fluorescentes.
          (iii) Desarrollo de secuenciadores basados en electroforésis capilar
                para la separación de las reacciones. Estos aparatos permiten el
                procesamiento simultaneo de un número mucho mayor de reac-
                ciones de secuencia que los anteriores, basados en electroforésis
                en geles de poliacrilamida.
          (iv) Desarrollo de sistemas robóticos para la automatización de la
                mayor parte de las tareas a realizar, como el aislamiento de clo-
                nes, crecimiento y purificación del DNA, y la preparación de las
                reacciones de secuencia e incluso la colocación de estas reaccio-
                nes en los secuenciadores automáticos.
          En conjunto, todas estas mejoras h a n conseguido u n a mayor precisión
      en las lecturas y u n a automatización prácticamente completa del proce-
      so. Por otro lado la construcción de grandes centros dedicados casi exclu-
      sivamente a la secuenciación h a permitido una disminución de los costes
      debido a la centralización y al aumento de la escala. En conjunto toda
      esta serie de mejoras h a n llevado a una reducción de mas de 100 veces
      en el coste por base secuenciada en la última década.
          Un ejemplo de los elevados niveles de automatización obtenidos en la
      secuenciación de DNA lo proporciona la empresa Celera Genomics. Du-
      rante el período de secuenciación del genoma de la mosca del vinagre y




 (c) Consejo Superior de Investigaciones Científicas        http://arbor.revistas.csic.es
 Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                                  291

              xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
            Fragmento de DNA

                                           1^     Fragmentación
                                           f

                 xxxxxxx                 xxxxxxxxxxxx
             xxxxxxxxxxxxx                      xxxxxxxxxxxxxx
                      XXXXXXXXXXXí^^g^QQQQQQQQQQ^

                   xxxxxxxxxxxxx ^^^^^^^^^S8B8888888bo^
              TGXXXXXXXXXXX                     XXXXXXXXXXXXXXX



                                                  Secuenciación


                  ACTTTTG     ACTNTTGCATGA
              TAGNACATGATCA      TTTGCATGACTGAT
                        ATGACNGATCGTAC
                GTACGTAGTACAT     TGCATGACTGATC
                                CGTAGTACATGATCA
                  GCATGACTGATCGTAC
              TGCATGACTGATC      CGTAGTACATGATCA


                                                  Ensamblaje
                                           

              ACÍfí)rTGCATGA
                     TGCATGACTGATC      TAC^CATGATCA
                  TTTGCATGACTGAT GTACGTAGmCAT
                        ATGAC^ATCGTAC
                     TGCATGACTGATC    CGTAGTACATGATCA
                      GCATGACTGATCGTAC
              ACTTTTG                CGTAGTACATGATCA


               ACTTTTGCATGACTGATCGTACGTAGTACATGATCA
             Secuencia consenso


    FIGURA 2. Esquema del proceso de secuenciación al azar. El fragmento de DNA de se-
cuencia desconocida se rompe de forma aleatoria en fragmentos más pequeños que se pro-
cesan hasta obtener una cantidad de secuencia equivalente a varias veces la de la molé-
cula original. Las secuencias de los fragmentos se ensamblan, reconstruyéndose así la
secuencia de la molécula original. Gracias a esta redundancia podemos corregir con faci-
lidad los errores que se hayan producido en las secuencias individuales.




(c) Consejo Superior de Investigaciones Científicas               http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez Martínez
292


      del genoma humano, esta empresa producía diariamente 175000 lectu-
      ras, con u n total de unos 95 millones de bases identificadas. Su nivel de
      automatización permitía que el tiempo real dedicado por cada operario a
      u n secuenciador fiíera de unos 15 minutos y el grado de integración ob-
      tenido entre los distintos departamentos (preparación de clones, obten-
      ción de DNA, preparación de reacciones y determinación de la secuencia)
      permitió m a n t e n e r este nivel de producción durante varios años sin un
      solo día de interrupción.

      Estrategias para la secuenciación de genomas complejos

           Aunque a lo largo de casi 30 años las técnicas de secuenciación de áci-
      dos nucleicos h a n sufirido importantes modificaciones, la limitación ñin-
      damental sigue siendo la cantidad de secuencia que es posible determi-
      n a r en u n a sola reacción, lo que se denomina u n a lectura. Actualmente
      es de u n a s 1000 bases de las que 800 como máximo son de alta calidad.
      P a r a obtener la secuencia de una molécula de tamaño mayor que estos
      800 nucleotides es necesario ir empleando iniciadores separados entre si.
      Por tanto solo podemos realizar una reacción de secuenciación una vez
      que hemos llevado a cabo la anterior, determinado la secuencia y elegido
      el iniciador adecuado. Como vemos este proceso es extremadamente len-
      to y difícilmente automatizable.
           Otro problema importante es que estas secuencias poseen errores en
      u n porcentaje de aproximadamente el 0.1 %. Esto es, 1 de cada 1000 ba-
      ses puede ser errónea. P a r a soslayar estas limitaciones se h a n desarro-
      llado u n a serie de estrategias para la secuenciación de grandes molécu-
      las de DNA todas ellas basadas en la técnica de secuenciación al azar
      {shotgun sequencing), descrita por Sanger. En este método (Figura 2) el
      DNA a secuenciar se rompe de forma aleatoria en firagmentos más pe-
      queños que se procesan hasta obtener una cantidad de secuencia equiva-
      lente a varias veces la de la molécula original, lo que denominamos redun-
      dancia. Gracias a esta redundancia podemos (1) ensamblar las secuencias
      de estos fi:'agmentos para deducir la secuencia de la molécula original y (2)
      corregir con facilidad los errores que se hayan producido en las secuencias
      de los fragmentos ya que para cada posición de la molécula original tene-
      mos varias secuencias redundantes.
           Si asumimos que la fragmentación h a sido realmente aleatoria, la
      fracción de genoma que permanece sin secuenciar en ambas cadenas se
      puede calcular como

                                               Po =    e-"''"




 (c) Consejo Superior de Investigaciones Científicas            http://arbor.revistas.csic.es
 Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                        293

donde n es el número de los fragmentos secuenciados, co es el tamaño me-
dio de estos fragmentos y L es el tamaño de la molécula original expre-
sado en miles de bases (kb). Una redundancia de 9 {nw/L = 9) producirá
aproximadamente el 99,99 % (po = 0.01) de la secuencia original supo-
niendo u n a distribución realmente aleatoria. Sin embargo en la realidad
existen muchos factores, que esta versión idealizada no contempla, que
hacen necesarias redundancias incluso mayores. Como se observa, el
mayor inconveniente de esta técnica es que para obtener la secuencia de
nucleótidos de u n a molécula de 5000 bases es necesario secuenciar u n
número total de 45000 bases.
    Esta estrategia se puede aplicar en principio a cualquier molécula,
sin importar su tamaño, siempre que no contenga secuencias repetidas y
que podamos fragmentarla al azar. Si esto es así, el ensamblaje de las se-
cuencias de los fragmentos requiere programas informáticos relativa-
mente sencillos. Los problemas prácticos de esta técnica provienen de las
secuencias repetidas presentes en los genomas y de las desviaciones del
azar que se producen durante la preparación de los fragmentos del geno-
ma. En el caso de las repeticiones, un número pequeño de ellas tampoco
plantea u n a gran dificultad. Por ejemplo se h a n ensamblado sin proble-
mas genomas bacterianos típicos que contienen un 1.5 % de secuencias
repetidas, o la porción eucromática del genoma de la mosca del vinagre,
que contiene un 3% de secuencia repetidas. Sin embargo, el genoma hu-
mano, por ejemplo, contiene mas de u n 50% de secuencia repetidas que
incluyen grandes fragmentos, resultantes de duplicaciones, con u n a si-
militud de secuencia del 98 al 99.9 %. Otros genomas como los de las
plantas contienen u n a cantidad muy superior de secuencias repetidas.
Estas características complican considerablemente el ensamblaje de la
secuencia completa de estos genomas ya que con u n a similitud del 99.9%,
y teniendo en cuenta los posibles errores de las lecturas, es prácticamen-
te imposible para el programa empleado en el ensamblaje discriminar la
posición correcta de u n a lectura que es 99.9% idéntica a dos secuencias
repetidas.
    Se h a n empleado dos estrategias para la secuenciación de genomas
con repeticiones: la secuenciación al azar jerárquica (hierarchical shot-
gun sequencing) y la secuenciación al azar de todo el genoma (whole-ge-
nome shotgun sequencing). Un tercera estrategia, u n a especie de híbrido
de las dos anteriores y que incorpora las mejores características de am-
bas, es la que en la actualidad parecen preferir los grandes proyectos de
secuenciación, como los del genoma de la rata y del ratón. E n el caso de
los proyectos de secuenciación de genomas extremadamente ricos en re-
peticiones, como el del maiz, los esfuerzos se h a n centrado en desarrollar




(c) Consejo Superior de Investigaciones Científicas     http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez          Martínez
294

       técnicas que permitan discriminar entre las regiones con DNA puramen-
       te repetitivo y las regiones que contienen DNA no repetitivo, rico en ge-
       nes, para obtener la secuencia únicamente de este último

       S e c u e n c i a c i ó n al azar j e r á r q u i c a

           La característica fundamental de esta estrategia es la obtención, pre-
       via a la secuenciación, de un mapa del genoma mediante grandes frag-
       mentos de DNA de unos 100 a 200 kb. En este mapa, cada posición en el
       genoma esta representada en varios fragmentos, es decir la colección de
       fragmentos posee una elevada redundancia. Antes de comenzar la se-
       cuenciación se eligen, entre los componentes del mapa, u n a serie de frag-
       mentos que solapen entre si y que abarquen todo el genoma. Estos se se-
       cuencian por el método secuenciación al azar y las secuencias individuales
       de los fragmentos se ensamblan siguiendo tanto el mapa físico previa-
       mente construido como las regiones de solapamiento detectadas, ge-
       nerándose de esta forma la secuencia completa del genoma. Un esquema
       de este método se puede ver en la figura 3. Esencialmente, la idea es
       fragmentar un problema grande en pequeños problemas que podemos re-
       solver fácilmente, sumar las soluciones de estos pequeños problemas y ob-
       tener la solución a nuestro gran problema original. Conceptualmente, este
       método se puede dividir en una serie de pasos:


       1. Construcción         del mapa físico

            La construcción del mapa físico (Figura 3) comienza con el aislamien-
       to del DNA genómico. Este DNA se rompe en fragmentos de unos 150 kb
       mediante métodos físicos o empleando enzimas que lo cortan. Para poder
       aislar, amplificar y almacenar estos fragmentos de DNA es necesario in-
       troducirlos en vectores adecuados, proceso que se denomina clonaje. Para
       ello se h a n empleado dos sistemas fundamentales, los vectores desarro-
       llados a partir de levaduras, YAC (siglas en ingles para cromosomas ar-
       tificiales de levadura) y los vectores desarrollados a partir de bacterias,
       BAC (siglas del ingles para cromosomas artificiales de bacterias) o PAC
       (siglas del ingles para cromosomas artificiales derivados de P l ) muy pa-
       recidos a los BAC. Los YAC son capaces de aceptar fragmentos de hasta
       1 Mb (un millón de bases) y se emplearon para realizar los mapas físicos
       de primera generación de los genomas de ratón y humano. Sin embargo
       por diversas razones técnicas y por la inestabilidad del DNA insertado en
       estos vectores, los YAC no son buenos puntos de partida para los si-




(c) Consejo Superior de Investigaciones Científicas             http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                                                                                                                                             295


      c                                                                                                                      i,^       II


                                              Genoma

                                                                     Construcción de una librería de fragmentos
                                                                     del genoma




                                                                     Construcción del mapa físico del genoma




                                                                     Selección de los clones a secuenciar




                                                                     Secuenciación al azar de ios clones elegidos


                                                                                               actgcat                                       actgcat                                       se
               actgcat   actgcal                           actgcat   actgcat   actgcat                   actgcat   acigcal   actgcat                                        actgcat
                                             actgcat                                                                                                       actgcat
          BCtgcat   actgcat    actgcat                 actgcat   actgcat   actgcat   actgcat      actgcat     actgcat   actgcat    actgcat                             actgcat     actgcat
                                         actgcat                                                                                                       actgcat




                                                                     Ensamblaje de los clones secuenciados


         jClgtgct¡iacígccgtgat8ct3gstcagatcst33caS3gclgc.3tagcaí3<¡ciMgaítac£<sat3cag3gac2tagac3tagacaaa»tagacag3tacag.3tagataS3gatacagat3cagatacai<.              atagsíacgaclactagcgacatcgacfcscii
       4»egagacccatcnt3t3ct8Ccs!naigctaggtcagatcol3acat3gctsC3t3ijcatagcaagtUacagalaca8a3acat3sacat33acagal«a5jacagal3cagatagatot3S8iaca{j«fat.;,ii              atacaiagacatanatacgactactagcgacaít
       :.tactgact;itQ390ü3CCí)tlac!9ccgtgatsct8ggtv.a{jatca5gacat;j3c}gcalagcatagc<i3gí!íac<i(jiU<)cagagacata3acaU«g3caga!ítaaa                                  n;âg;iii)ca(jigac<itag3lî>cg»ctacla3Cua
       !tî;i3aci3ctg3ct3e3.itgcgtîac.«ctgccgtgaîgct3ggtc<isatcaK<ac<-i1agctgc3t<sacaîagc3ag.itaogataca8a3acat3g?.c3tK-3ac<igatlisS9ac,'igat3ca83t<iQa            i<itaí:<iÇiat3cat3gao3tagat.icg.ictactoc'
         -aíctiactiKtaactscgaBgífiCtiacíaactgccñlyaígctaggícagsTMtgacatSffCfgcaíageaísñca-sgaíacaaatacasasacatagacaíagacaaatttagacaaatacañataBaías'                'acaijalsc-ifsatacataaacatasatacsa




                                                   Secuencia de nucleotides del genoma

    FIGURA 3. Esquema del método de secuenciación al azar jerárquica. El DNA del ge-
noma se rompe en fragmentos de gran tamaño que son ordenados según su posición en el
genoma. De entre estos clones se selecciona una colección que abarca todo el genoma. A
continuación se obtiene la secuencia de estos fragmentos individuales empleando la téc-
nica de secuenciación al azar. Finalmente la secuencia del genoma se reconstruye en-
samblando la secuencia de estos fragmentos.




  (c) Consejo Superior de Investigaciones Científicas                                                                                                       http://arbor.revistas.csic.es
  Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez         Martínez
296

       guientes pasos del proceso. E n general los vectores basados en BAC son
       los más empleados para la generación de mapas físicos. E n ellos es posi-
       ble introducir u n fragmento de DNA de unos 100-200 kb. P a r a la se-
       cuenciación del genoma humano, el Consorcio Internacional para la Se-
       cuenciación del Genoma Humano empleo 8 librerías de clones basados en
       vectores BAC y PAC con un tamaño medio de unos 150 kb.
           El siguiente paso es ordenar los clones de estas librerías según su
       posición en el genoma (Figura 4). P a r a ello se emplean diferentes téc-
       nicas que, en general, implican la identificación de ciertos marcadores
       característicos (pequeñas secuencias únicas (STS), sitios de corte de en-
       zimas de restricción e t c . . ) en cada uno de los fragmentos clonados. Me-
       diante la comparación de la presencia de dichos marcadores en los di-
       ferentes clones, estos son ordenados de forma inequívoca. E n general se
       escoge u n número de clones elevado para que la misma zona del geno-
       m a este r e p r e s e n t a d a en varios de ellos, es decir tener u n a alta redun-
       dancia de la secuencia del genoma en la librería de BAC. E n el caso del
       Proyecto Genoma Humano, el m a p a generado mediante los clones de
       las librerías de BAC y PAC tenia u n a redundancia de 65 veces el geno-
       ma.


       2. Selección de los clones

           Una vez obtenido u n mapa del genoma mediante la ordenación de los
       clones de las librerías, se escoge el número mínimo de clones en los que
       este contenido todo el genoma, minimizando las zonas de solapamiento
       ente ellos. E n este momento es crítico elegir clones que no hayan sufrido
       anomalías durante el proceso de construcción de la librería, como pueden
       ser la pérdida de parte del fragmento de DNA clonado (deleciones) o la
       presencia de dos fragmentos de diferentes zonas del genoma clonados en
       el mismo vector (clones quiméricos), puesto que son los clones de los que
       vamos a obtener la secuencia final. Para reducir estos problemas al mí-
       nimo, los marcadores de los BAC candidatos se comparan con los de los
       otros clones que abarcan la misma zona, eligiéndose aquellos en los que
       los marcadores concuerdan.


       3. Construcción         de las librerías al azar de subclones

          El siguiente paso es la secuenciación de los clones de BAC elegidos
       como representantes de cada una de las regiones de aproximadamente




(c) Consejo Superior de Investigaciones Científicas            http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                                                                          297

                                                         Genoma



                                                                   Construcción de una libreria de fragmentos
                                                                   del genoma




                    Identificación de los marcadores en fragmentos de la librería

                            A       #                 -Jl cr       Q 0-.
                                                             m
                                            ~a     r m
                                                           < o,
                                                 -03
                                                              m ù   ^—•
                                                                 m ûu-


                   Ordenamiento de los fragmentos mediante las posiciones de tos
                   marcadores
                                n       A        •                                n/
                                                               •     n                    #
                                n,,     ^    #M,               ü     n
                                        ^ #                    ft~-~-jg;f=f—^z.     úL        -A-
                                          •              û,„        -J3                  , ;•... A
                                                         A,,         O            Où          „„A„, _ A


                    Selección del numero mínimo de clones que comprenden
                    todo el genoma




                    Colección de clones a secuenciar

                                                                   #, n,                   -•—A-
                                            A        •                             JO^




                                                               I
                                        Colección de clones a secuenciar


    FIGURA 4. Secuenciación al azar jerárquica: Construcción del m a p a de clones. En la
figura se m u e s t r a n gráficamente los pasos seguidos para la construcción de u n m a p a de
clones de un genoma




(c) Consejo Superior de Investigaciones Científicas                                                       http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez                                                                                     Martínez
298


                   C                                                                                                                                  T
                                                  Construcción úm m^pwi de tíones
                                                  Elección ele los clones a «ecuenciar



                                                                    Colección de clones a secuenciar


                                                                            Ã             t


                                         Cofistruccion de librerías ai azar de subclones
                                         de varios tamaños para cada uno de los clones




                                         Obtención de la secuencia de ios extremos
                                         de los subclones




                                          Ensamblaje de las secuencias




                                       Acabado
                                       Verificación de la secuencia
                                                    •                            Û            #                #                           Ù^     Û         #
                                                act^eatttttgctgtagctagactagactagacttgacgatagctgactatcgatca
                                                                                  Secuencia del clon


                                                                         acIBEit       nctgcoi      actsjcal




                                                                                           Ensamblaje de las secuencias individuales
                                                                                           de todos los clones del mapa físico

                                                    c:tg*t<aííí.>0K;«í^:tç^:ííWgc->t>'j>:*3!S^t3C;('j-'t>';3ía3Kíwcíi^')3í':aUS»c«a»tUag;tc3>jo             .íH«y.-ít;«,^¿>;tai

                                   5<5<ííC9lt,ic;t£jf;.-.3ig»Í3rí.-
                                                                    ^•»3g*í^í'-335^3* g .-vr^^^igctgcstftíí c-ït;>gçM Oí» tac.>.>ita w ^
                         -:;íCiy;ttííota^âycçtcr.iXí3u<ítíííatií'>*4'^t'>Síííw9U*>icJtg3Cutâ8<íÈ|c-it-3Qi:aí^




                                                                     Secuencia de nucleotides del genoma

           FIGURA 5. Secuenciación al azar jerárquica: Secuenciación de los clones del mapa. En
      la figura se muestran gráficamente los pasos seguidos para la secuenciación y el ensam-
      blaje de la secuencia de los clones del mapa físico del genoma




(c) Consejo Superior de Investigaciones Científicas                                                                                                    http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                         299


 150 kb en que hemos dividido el genoma (Figura 5). Este proceso co-
mienza con la purificación del DNA de cada uno de los clones selecciona-
dos y su posterior fragmentación al azar, en general mediante métodos
físicos como la sonicación o el paso forzado por pequeños orificios a gran
presión. Los fragmentos resultantes se separan por tamaños y los que se
encuentran en u n rango adecuado, por ejemplo de 2 a 5 kb, son poste-
riormente clonados en vectores derivados del bacteriófago M13 o de
plásmidos. La ventaja de estos últimos vectores es que el fragmento de
doble cadena de DNA clonado puede ser secuenciado por sus dos extre-
mos (al coste de u n a única preparación de DNA) y que las dos lecturas
derivadas de cada uno de ellos (lo que se conoce como pareja de lecturas)
puede ser usada p a r a facilitar y/o verificar el proceso de ensamblaje. Esto
es así porque conocemos la distancia a la que deben encontrarse las dos
secuencias de cada pareja de lecturas en la secuencia final, que además
deberá coincidir con el tamaño del fragmento clonado en el plásmido de
donde se h a n obtenido. Por otro lado, los vectores derivados del bacterió-
fago M13 tienen la ventaja de que el DNA es más fácil de preparar y de
que el molde resultante, de cadena sencilla produce unas secuencias de
mayor calidad. Ambos tipos de vectores, plásmidos y bacteriófagos, pro-
vocan cierta selección en las secuencias clonadas, siendo más fácil clonar
cierto tipo de secuencias en unos que en otros. Estas desviaciones del
azar deben ser minimizadas si quiere obtenerse u n a representación re-
almente aleatoria de la secuencia original del BAC. P a r a evitarlo, en
ciertos centros, se generan simultáneamente ambos tipos de librerías
minimizándose este tipo de problemas pero incrementándose la comple-
jidad del proceso de secuenciación, al tener que preparar dos tipos de li-
brerías y de purificar dos tipos de clones.


4. Secuenciación         al azar

    El grueso de la secuenciación se realiza sobre las librerías de subclo-
nes anteriormente citadas. Para ello se seleccionan aleatoriamente u n a
serie de subclones, se prepara su DNA, y se determina la secuencia del
extremo o de los extremos (dependiendo de si los subclones son plásmi-
dos o M13 respectivamente) del fragmento clonado. Este proceso de se-
cuenciación de subclones al azar continúa hasta generar u n a cantidad
suficiente de secuencia redundante (con relación al inserto presente en el
BAC original). Es ese momento se ensamblan las secuencias de los sub-
clones mediante programas de ordenador gracias a los solapamientos de-
tectados. Normalmente el resultado del ensamblaje es u n a serie ordena-




(c) Consejo Superior de Investigaciones Científicas      http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez Martínez
300

       da de segmentos del fragmento original, que se denominan contigs, cada
       uno formado por u n a colección de lecturas solapantes. A partir de las ba-
       ses presentes en cada posición en las lecturas solapantes es posible de-
       ducir u n a secuencia, que se denomina secuencia consenso.
           P a r a producir u n a secuencia con una precisión superior al 99.99%,
       que es el estándar del Proyecto Genoma Humano, es necesario generar
       lecturas que supongan mas de 10 veces la cantidad de secuencia que que-
       remos obtener (o sea u n a redundancia de mas de 10). Por ejemplo en el
       caso de u n BAC de 150 Kpb son necesarias 3000 lecturas útiles (esto es
       descartando aquellas que no produjeron datos válidos, las derivadas de
       contaminaciones como secuencias del BAC, del vector empleado en la ge-
       neración de los subclones y otras secuencia contaminantes) de unas 500
       bases de calidad para obtener una redundancia de 10 veces. Cuando se
       alcanza este nivel de redundancia finaliza la fase de secuenciación al
       azar.


       5. Fase de secuenciación              dirigida

           El ensamblaje de las lecturas con una redundancia de 10 genera una
       serie de contigs que, en conjunto, reflejan prácticamente la totalidad del
       clon inicial. Los problemas que quedan son generalmente discontinuida-
       des entre los contigs, áreas donde la calidad de la secuencia es demasia-
       do baja para el estándar elegido, bases individuales que permanecen am-
       biguas y zonas donde el ensamblaje de los contigs h a sido erróneo. En
       general, estos problemas se resuelven mediante la secuenciación adicio-
       nal de subclones concretos así como con la secuenciación directa del DNA
       del BAC mediante oligonucleotides específicos. A menudo es necesario el
       empleo de químicas de secuenciación diferentes a las empleadas en la se-
       cuenciación al azar, diseñadas para evitar cierto tipo de problemas deri-
       vados de la composición del DNA. En contraste con la automatización de
       la fase de secuenciación al azar, esta fase de acabado es u n proceso lento
       y complejo que requiere mucha mayor atención por parte del investiga-
       dor.


       6. Verificación de la secuencia

          Una vez terminado el ensamblaje se analiza la secuencia generada
       para determinar las presencia y el orden correcto de los marcadores co-
       nocidos de ese clon (como STS, sitios de corte de enzimas de restricción o




(c) Consejo Superior de Investigaciones Científicas      http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                               301


genes previamente localizados en esa región). Este paso es crucial para
poder detectar errores cometidos en cualquiera de los procesos de la de-
terminación de la secuencia del clon.


7. Ensamblaje         de la secuencia del genoma

    Finalmente, y siguiendo el orden determinado durante la elaboración
del mapa físico, las secuencias de los clones BAC se ensamblan para ge-
nerar la secuencia completa del genoma.
    Este método de secuenciación se h a empleado para la obtención de la
secuencia completa de los genomas de la levadura S. cerevisae, el nema-
todo C elegans y la planta A. thaliana. Sin embargo, su uso m a s notable
h a sido en la obtención de la secuencia completa del genoma humano re-
alizado por el Proyecto Genoma Humano, que el 14 de Abril de 2003, 50
años después de que Watson y Crick determinaran la estructura del
DNA, dio por finalizada la secuencia. Esta proyecto de secuenciación se
h a realizado mediante u n riguroso proceso de secuenciación jerárquica al
azar. La Secuencia de Referencia posée u n nivel de precisión elevado
(menos de u n error por cada 10 000 bases) y comprende alrededor del 99
% de la secuencia total del genoma, correspondiendo los únicos vacíos
restantes a regiones de los centrómeros y telomeres que, con las técnicas
actuales, se consideran imposibles de clonar y secuenciar con fiabilidad.


S e c u e n c i a c i ó n al azar d e t o d o el g e n o m a

    La estrategia de secuenciación al azar de todo el genoma es más sen-
cilla conceptualmente. E n esta estrategia (Figura 6) el genoma completo
se ensambla a partir de lecturas obtenidas al azar, eliminándose la ne-
cesidad de construir mediante clones de gran tamaño u n m a p a físico.
Este procedimiento comienza con la purificación y rotura al azar del
DNA del genoma que queremos secuenciar. Posteriormente se constru-
yen librerías de fragmentos de al menos tres tamaños diferentes (por
ejemplo de 2, 10 y 50 kb). El DNA de clones elegidos aleatoriamente de
estas librerías se purifica y se obtiene la secuencia de los extremos de los
fragmentos del genoma clonados. Este proceso de secuenciación continua
hasta que se h a obtenido u n a elevada redundancia (mayor que en la es-
trategia de secuenciación jerárquica). En este método es clave, para po-
der evitar los problemas derivados de posibles secuencias repetidas en el
genoma, obtener parejas de lecturas de los extremos de la mayor canti-




(c) Consejo Superior de Investigaciones Científicas            http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez Martínez
302




                                                                                                  Construcción de librerías al azar
                                                                                                  de varios tamaños de todo el genoma




                                                                                           Obtención de la secuencia de los extremos
                                                                                           de los fragmentos




                                                                                             Ensambtáje de las secuencias


                                                                                                  acgtt,
                                        acgtgcatagca
                               ...-acKtgcatagça "
                              >?
                                                     acgtgcatag«î^'''
                                     acgtgcafagca acgtgcatagca/
                                                                                      """^cgtgcatagcag^^
                                                                                             
                                                                                                             ^
                                                                                                  acgtgcatagca
                                                                                                  acgtE,   _         _ _    _
                                                                                                                                                                     contigs
                          acgtgcatagca acgtgéatagca acgtgcatagr-
                                 ^tagca acgtgcatagca     acgtgcatagca                          ^ - -*
                                                                                                 acgigcatagca acgtgcatagca acgtgcatagca
                                 acgtgcatagca          acgtgcatagca                     acgtgcatagca      acgtgcatagca acgtgcatagca acgtgcatagca




                                                                                               Acabado
                                                                                               Verificación de la secuencia



           jClgtgctgactgccgtgatgctagglcBgateafgacalagctgcafagcatagcaagatacagatBcagagacatBgacatagacagatttagacagatócagatagatatagatacagatacagatacat    ,atagatacgoctoclagcgacatcgactacts.
          ^acaaaatccaccytgtacîsccgtgaîgctaggtcagatcataacataoctgcatagcalagcaagatacaijatacaaagacatagacalagscagamagacagatacâaatagatatagatacagatacai   àtacalagacatagatacgactactagcgacaSc

          UcgactactgartacgatgcgtUKactgccgtgatsctagglcagatcatgacataaclBcaliigcatngcaagatacagatacagagacatasacatag.icagatttagacagatacagatagatatagstìc? catara
           -atcsacíacIgaclscgaagcgcttactaacígccgtgatgctsggtcagatcaJgacatagclBcataacatagcaagatacaaatacBgagacatagacatagacagatttagacagatacagatagatat-   •acagatacagataeatagacatagalacga




                                                 Secuencia de nucleótidos del genoma

         FIGURA 6. Secuenciación al azar de todo el genoma. En esta estrategia, el genoma
      completo se ensambla a partir de lecturas al azar obtenidas de todo el genoma, eli-
      minándose la necesidad de construir un mapa físico a partir de clones de gran tamaño.




(c) Consejo Superior de Investigaciones Científicas                                                                                http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                        303

dad posible de fragmentos. Aquí, la distancia conocida entre las parejas
de lecturas es esencial para el proceso de ensamblaje de las secuencias,
ya que carecemos de cualquier otro tipo de información posicionai. Una
vez obtenida la redundancia requerida, se ensamblan las lecturas me-
diante potentes programas de ordenador, capaces de manejar u n núme-
ro muy elevado de lecturas (mas de 27 millones en el caso del ensambla-
je del genoma humano).
    Los proyectos de secuenciación realizados con esta técnica h a n pues-
to de manifiesto que, para el posterior éxito del ensamblaje de las se-
cuencias, es esencial construir varias librerías de fragmentos de todo el
genoma con tamaños muy diferentes, que cumplen diferentes misiones
durante el proceso de ensamblaje por ordenador. Las librerías de pe-
queño tamaño (aproximadamente 2 kb) son sobre las que se realiza la
mayor parte de la secuenciación. Las librerías de tamaño medio (aproxi-
madamente 10 kb) suministran parejas de lecturas que son esenciales
para la construcción de los contigs y para deducir la orientación y el or-
den de unos contigs con respecto a otros. Las librerías de gran tamaño
(aproximadamente 50 kb) permiten obtener parejas de lecturas muy ale-
jadas entre si que son necesarias para evitar los problemas derivados de
bloques de secuencias repetidas, además de suministrar información a
una escala mayor sobre la organización de los contigs.
    Este método de secuenciación se aplico por primera vez a u n organis-
mo eucariota durante la secuenciación del genoma de D. melanogaster.
En este proyecto se obtuvo prácticamente toda la secuencia de la parte
eucromática del genoma. Sin embargo es importante señalar que la eta-
pa final de refinamiento de la secuencia de este genoma se realizó me-
diante el uso de u n m a p a físico de clones de BAC.
    La aplicación más destacada de esta estrategia h a sido la secuencia-
ción del genoma humano, realizada por la empresa Celera Genomics, que
puso de manifiesto tanto las ventajas como las debilidades de esta estra-
tegia para la secuenciación de genomas eucarióticos. La ventaja funda-
mental es la velocidad con la que se obtiene u n a gran cantidad de se-
cuencia, suficiente como para tener una idea bastante aproximada de la
práctica totalidad del genoma, al no ser necesario el paso previo de cons-
trucción de u n m a p a de clones. Celera Genomics realizo 27.271.853 se-
cuencias con u n total de 14.8 10^ bases leídas, aproximadamente 5.11 ve-
ces la secuencia del genoma humano en solo 9 meses. Sin embargo, para
el posterior ensamblaje de estas lecturas y sobre todo para la localización
de los contigs resultantes tuvo que recurrir a datos externos, fundamen-
talmente a los mapas físicos del genoma previamente realizados por el
Proyecto Genoma Humano. Por otro lado Celera renunció al acabado de




(c) Consejo Superior de Investigaciones Científicas     http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez Martínez
304

       la secuencia, probablemente porque para realizarlo hubiera sido necesa-
       rio disponer, como en el caso de D. melanogaster, de u n m a p a físico del
       genoma realizado mediante BACs.
           Esta estrategia se emplea de forma rutinaria para la secuenciación de
       genomas de organismos procariotas relativamente pequeños (0.5 a 6 Mb)
       y con pocas repeticiones. Se empleó por primera vez para la secuencia-
       ción del genoma de la bacteria Haemophilus     influenciae.


       Método h í b r i d o

           Este método pretende aprovechar lo mejor de las dos técnicas descri-
       tas anteriormente: la rapidez del método de secuenciación al azar para
       obtener u n a gran cantidad de secuencia y la capacidad del método jerar-
       quizado p a r a minimizar la influencia de las repeticiones, junto con la
       ventaja de poseer de u n mapa físico del genoma realizado mediante
       BACs para el posicionamiento correcto de los contigs y el proceso de aca-
       bado de la secuencia (Figura 7).
           E n esta estrategia se comienza secuenciando el genoma mediante la
       modalidad de secuenciación al azar de todo el genoma. Simultáneamen-
       te se construye u n a librería de clones y se realiza u n m a p a físico con
       ellos. De esta forma, con la secuenciación inicial podemos tener u n a idea
       aproximada de la organización del genoma, de la abundancia y carac-
       terísticas de las repeticiones presentes, así como de las dificultades que
       estas repeticiones pueden plantear en el ensamblaje. U n a vez obtenido
       el m a p a físico se seleccionan los clones de BAC adecuados y se procede
       a su secuenciación al azar. El ensamblaje se realiza de forma indepen-
       diente p a r a cada uno de los clones en que hemos dividido el genoma,
       como en la estrategia de secuenciación al azar jerárquica. La diferencia
       en este método es que a las lecturas procedentes de cada clon se les unen
       las procedentes de la secuenciación al azar de todo el genoma que co-
       rresponden al fragmento que vamos a ensamblar. P a r a identificar estas
       últimas, todas las lecturas del proyecto de secuenciación al azar de todo
       el genoma se comparan con las lecturas procedentes del clon BAC y se
       adicionan aquellas que solapan. De esta forma se a u m e n t a la redun-
       dancia en el ensamblaje de cada uno de los clones. El proceso de acaba-
       do se realiza de igual forma que en el método de secuenciación jerárqui-
       ca.
           Existe u n consenso sobre la necesidad de u n a redundancia de 8 a 10
       veces la secuencia del genoma completo si se pretende conseguir una se-
       cuencia final de alta calidad. Sin embargo, en el método híbrido esta por




(c) Consejo Superior de Investigaciones Científicas      http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                                                 305




       Fase similar a la secueíiclacién                                Fase similar a la secuenciaclóìi
       jerárquica                   ^.-'•'''                           al azar de todo el genoma




                                    Ensamblaje, acabado y      verificacmn
                                    realizado de forma mdepeodiente
                                    para cada u n o de los clones.



                                                   i

                                               Ensamblaje da los clones secuenclados




                                    Secuencia de nucleótldos del genoma

     FIGURA 7. Método híbrido de secuenciación al azar de genomas. En este método se ob-
tienen secuencias del genoma siguiendo las dos estrategias anteriores, la secuenciación al
azar jerárquica (panel A) y la secuenciación al azar de todo el genoma (panel B). El en-
samblaje (panel C) se realiza para cada uno de los clones en que se ha dividido el genoma
en la parte jerárquica de este proceso juntando a las secuencias obtenidas de los clones,
las secuencias correspondientes obtenidas del proceso al azar. El acabado de la secuencia
de cada uno de los clones y la reconstrucción del genoma a partir de las secuencias indivi-
duales de los clones se realiza como en la secuenciación al azar jerárquica.




(c) Consejo Superior de Investigaciones Científicas                              http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez   Martínez
306

        determinar la cantidad óptima de secuencia que es necesario conseguir
        mediante el proceso de secuenciación de todo el genoma frente a la que
        proviene de la secuenciación de los clones BAC. Los proyectos de secuen-
        ciación del genoma de la r a t a y del ratón, que se están llevando a cabo
        mediante esta técnica, es previsible que aporten datos sobre la relación
        optima de estas cifras.


        Otras a l t e r n a t i v a s

             A la hora de abordar la secuenciación de u n genoma nuevo es muy im-
        portante evaluar exactamente el uso se le va a dar a la secuencia obteni-
        da. Si el objetivo es obtener una secuencia de alta calidad, como en el caso
        de u n organismo modelo, el proceso a seguir dependerá del tamaño, pre-
        sencia y complejidad de las repeticiones del genoma. P a r a genomas pe-
        queños con u n número limitado de repeticiones la estrategia de secuen-
        ciación al azar directa es la más adecuada. P a r a genomas grandes con un
        elevado número de repeticiones la estrategia híbrida debe ser la elegida
        para garantizar la fìabilidad del proceso de acabado de la secuencia y mi-
        nimizar el número de errores de ensamblaje debidos a la presencia de re-
        peticiones.
             Aunque siempre es deseable tener la secuencia completa de un or-
        ganismo, el elevado coste de la secuenciación de u n genoma complejo
        hace imposible disponer de las secuencias necesarias p a r a el análisis
        comparativo de la secuencia de muchos genomas. La preparación de
        u n a secuencia de calidad media (lo que se denomina u n borrador) de u n
        genoma de u n mamífero cuesta mas de 50 millones de euros. Por ello,
        para realizar estudios comparativos de genomas de muchos organismos
        es necesario restringirse a regiones concretas del genoma. Esta se-
        cuenciación dirigida se realiza mediante secuenciación al azar de clones
        de BAC que contienen las regiones de interés de los distintos organis-
        mos.
             Otra técnica empleada cuando nos interesa realizar un estudio com-
        parativo de los genomas de especies estrechamente relacionadas es lo
        que se denomina secuenciación de baja redundancia. Consiste en realizar
        un examen de los genomas de los diferentes organismos secuenciando un
        número aproximadamente 20 veces inferior de secuencias de las que se-
        ria necesario obtener para construir un borrador del genoma. Esta técni-
        ca presenta muchas limitaciones pero resulta extremadamente rápida y
        asequible para la caracterización y comparación de especies muy relacio-
        nadas entre si.




(c) Consejo Superior de Investigaciones Científicas      http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                                          307

Más allá de l a s e c u e n c i a del g e n o m a

    Aunque en estos 30 años transcurridos desde la invención de los mé-
todos de secuenciación la técnica se h a modificado considerablemente
(disminuyendo, por ejemplo, el coste por base secuenciada en u n factor de
100 veces en los últimos 10 años), estas modificaciones h a n sido básica-
mente mejoras de la técnica original, sin que se haya producido ningún
cambio radical. Actualmente el esfuerzo se centra en el desarrollo de tec-
nologías que permiten disminuir drásticamente el volumen de las reac-
ciones de secuenciación y los tiempos necesarios para realizar la separa-
ción electroferética de las moléculas. Se están explorando también
métodos radicalmente distintos como la pirosecuenciación o la secuen-
ciación basada en espectrometría de masas. Una verdadera revolución
podría venir de la mano de la nanotecnologia donde, mediante las tecno-
logías del campo de la biofísica de nanoporos, se están desarrollando pro-
yectos dirigidos a obtener la secuencia completa de u n a única molécula
de DNA. Estos métodos, aunque interesantes, están aún en fases t a n pre-
liminares que no permiten siquiera aventurar sus posibilidades prácticas
en la secuenciación a gran escala.
    Aunque la secuenciación del genoma es el objetivo fundamental de la
genómica estructural, constituye el punto de partida necesario para com-
prender como funciona el genoma de u n organismo. Habitualmente se
habla del genoma como de el «libro de la vida». Lo que nunca se dice es
que tipo de libro es. Desde luego, no se t r a t a de un m a n u a l de instruc-
ciones fácilmente comprensible. Quizás u n símil más adecuado fuera el
de un libro de notas de u n fabuloso ingeniero. Un cuaderno escrito en un
lenguaje incomprensible, lleno de tachaduras, borrones, correcciones
apresuradas y dibujos realizados mientras habla por teléfono. Dispersas
entre ellas hay algunas anotaciones, sin ningún orden aparente, que des-
criben con u n a precisión absoluta los componentes necesarios para cons-
truir y mantener en funcionamiento un organismo. Sin embargo en este
cuaderno de notas no existe ninguna indicación comprensible sobre la
forma en que todos estos componentes tienen que ensamblarse para que
el organismo funcione.
    El objetivo de la genómica funcional, para seguir con el símil anterior,
es el de descifrar ese cuaderno de notas y construir, a partir de sus ano-
taciones, un «manual del usuario del genoma», comprensible para los hu-
manos. Entre las tareas a las que se enfrenta la genómica funcional, to-
mando como ejemplo el caso del genoma humano, se encuentran:
    i.     Identificar l o s c o m p o n e n t e s e s t r u c t u r a l e s y f u n c i o n a l e s
           del g e n o m a . Aunque la composición y características químicas




(c) Consejo Superior de Investigaciones Científicas                       http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez Martínez
308

                 del DNA son bien conocidas, la estructura del genoma humano
                 es extraordinariamente compleja. Únicamente u n 1-2% de su se-
                 cuencia codifica proteínas, y ni siquiera están identificadas con
                 seguridad todas ellas. Aproximadamente u n a cantidad equiva-
                 lente al doble del conjunto de secuencias codificantes se encuen-
                 t r a bajo presión evolutiva, lo que indica que son fimcionalmente
                 importantes, y sin embargo no conocemos prácticamente nada
                 de sobre su fimción. Probablemente en ese otro 2% del genoma
                 se encuentran los elementos que regulan la expresión de los
                 aproximadamente 30.000 genes que codifican proteínas, junto
                 con toda u n a serie de genes no codificantes y de secuencias de-
                 terminantes de la estructura y ñmcionamiento de los cromoso-
                 mas. Todavía se conoce menos sobre la posible fianción del apro-
                 ximadamente 50% del genoma que consiste en secuencias
                 repetidas, o del resto del genoma integrado por secuencias no co-
                 dificantes y no repetidas.
            ii. Definir c o m o i n t e r a c t u a n l o s c o m p o n e n t e s del g e n o m a a
                 n i v e l g e n e t i c o y proteico. Los genes y sus productos, las pro-
                 teínas, no actúan de forma aislada sino que forman parte de ru-
                 tas, redes y sistemas que, en conjunto, dan lugar y mantienen en
                 funcionamiento las células, los tejidos y los organismos. Para com-
                 prender como funciona un organismo es imprescindible entender
                 el funcionamiento de estos sistemas y conocer sus propiedades e
                 interacciones. Sin embargo, dichos sistemas como conjunto son
                 mucho mas complejos que cualquier problema abordado antes por
                 la biología molecular, la genética o la genómica.
            iii. D e s a r r o l l a r u n c o n o c i m i e n t o d e t a l l a d o d e l a v a r i a c i ó n
                 h e r e d i t a r i a e n el g e n o m a h u m a n o . Los mayores avances en
                 la genética h u m a n a se h a n producido sobre características he-
                 reditarias asociadas con modificaciones dependientes, en gene-
                 ral, de u n único gen. Sin embargo la mayor parte de los fenoti-
                 pos, incluyendo enfermedades comunes o las respuestas a
                 agentes farmacológicos, son mucho más complicados y dependen
                 de u n a compleja interacción de factores genéticos (los genes y
                 sus productos) y no genéticos (influencias ambientales). Para
                 comprender como ocurre esta interrelación es necesario conocer
                 la variación genética de la especie h u m a n a y desarrollar las he-
                 r r a m i e n t a s analíticas necesarias para emplear este conocimien-
                 to en la determinación de las bases genéticas de las enfermeda-
                 des.




(c) Consejo Superior de Investigaciones Científicas                        http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Secuenciación de genomas
                                                                                                       309

    iv. D e t e r m i n a r l o s m e c a n i s m o s c a u s a n t e s d e l a v a r i a c i ó n
        e v o l u t i v a e n t r e e s p e c i e s . El genoma es u n a estructura diná-
        mica que esta continuamente sujeta a las modificaciones causa-
        das por los mecanismos evolutivos. Estos mecanismos, actuando
        a lo largo de millones de años, son los responsables de la secuen-
        cia de los genomas de los organismos que actualmente forman
        nuestra biosfera. U n a comprensión profunda del funcionamiento
        del genoma solo es posible con u n conocimiento paralelo de las di-
        ferencias de secuencias entre especies y de los procesos y meca-
        nismos responsables de la aparición de estas diferencias a lo lar-
        go del tiempo.


Bibliografía

Estructura      y composición de los genomas

BROWN, T . A: Genomes. 2nd ed.. Oxford, UK: BIOS Scientific Publishers Ltd; 2002. El tex-
   to completo de este libro de texto se puede consultar online gratuitamente en el NCBI
   Bookshelf (http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Books).
LoDiSH, HARVEY; BERK, ARNOLD; ZIPURSKY, S. LAWRENCE; MATSUDAIRA, PAUL; BALTIMORE,
    DAVID; DARNELL, JAMES E: Molecular Cell Biology. 4th ed. New York: W. H. Free-
    m a n & Co.; cl999. También disponible online en el NCBI Bookshelf de forma gra-
    tuita.


Secuenciación.       Artículos      técnicos
SANGER, F., NICKLEN, S. & COULSON, A. R. DNA sequencing with chain-terminating inhi-
    bitors. Proc. Natl Acad. Sci. USA 74, 5463-5467 (1977).
SMITH, L . M . et al. Fluorescence detection in automated DNA sequence analysis. Nature
    321, 674-679 (1986).
HUNKAPILLER, T . , KAISER, R . J., KOOP, B . F . & HOOD, L . Large scale and automated DNA
   sequence determination. Science 254, 59-67 (1991).
MELDRUM, D . Automation for genomics. L Preparation for sequencing. Genome Res. 10,
   1081-1092 (2000).
MELDRUM, D . Automation for genomics. XL Sequencers, microarrays, and future trends.
   Genome Res. 10,1288-1303 (2000).


Métodos para la secuenciación               a gran escala
Genome Analysis: A Laboratory Manual. 1. Analyzing DNA (eds BIRREN, B . et al.) Cold
   Spring Harbor Laboratory Press, Cold Spring Harbor, New York, 1997.
Genome Mapping and Sequencing, (ed IAN DUNHAM The Sanger Centre, Cambridge) Ho-
   rizon Scientific Press. 2003.




(c) Consejo Superior de Investigaciones Científicas                    http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)
Javier María Rodríguez                               Martínez
310

       Secuencia del genoma                     humano
       B a s e s d e d a t o s c o n la S e c u e n c i a de R e f e r e n c i a y i n f o r m a c i ó n e x h a u s t i v a
       sobre el g e n o m a h u m a n o
       Sanger Institute - http://www.ensembl.org/Homo_sapiens/
       NCBI- http://www.ncbi.nlm.nih.gov/genome/guide/human/

       Trabajos d e s c r i b i e n d o el borrador de la s e c u e n c i a del g e n o m a h u m a n o
       International H u m a n Genome Sequencing Consortium. Initial sequencing and analysis
           of the h u m a n genome. Nature 409, 860-921 (2001).
       VENTER, J. C. et al. The sequence of the human genome. Science 291, 1304-1351 (2001).

       Secuencia de organismos                       modelo
       Bacteria: H.           influenzae

       FLEISCHMANN, R . D . et al. Whole-genome random sequencing and assembly of Haemop-
           hilus influenzae Rd. Science 269, 496-512 (1995).

       Levadura: S.            cerevisie

       GOFFEAU, A. et al. The yeast genome directory. Nature 387, S1-S105 (1997).

       Nematodo: C             elegans
       The C. elegans Sequencing Consortium. Genome sequence of the nematode C. elegans: a
           platform for investigating biology. Science 282, 2012-2018 (1998).

       Mosca del v i n a g r e : D.            melanogaster
       MYERS, E . W . et al. A whole-genome assembly of Drosophila. Science 287, 2196-2204
          (2000).

       Planta: A,          thaliana
       The Arabidopsis Genome Initiative. Analysis of the genome sequence of the                                         flowering
          plant Arabidopsis thaUana. Nature 408, 796-815 (2000).

       Raton: M.          inusculus
       Mouse Genome Sequencing Consortium. Initial sequencing and comparative analysis of
          the mouse genome. Nature. 2002 Dec 5;420(6915):520-62

       Rata: R.         norvégiens
       Rat Genome Sequencing Consortium.Genome sequence of the Brown Norway rat yields
           insights into mammaHan evolution. Nature. 2004 Apr 1;428(6982):493-521.

       Otros o r g a n i s m o s
       Un listado actualizado de los proyectos de secuenciación de organismos modelo se puede
          encontrar en : http://www.ncbi.nlm.nih.gov/Genomes/index.html




(c) Consejo Superior de Investigaciones Científicas                                        http://arbor.revistas.csic.es
Licencia Creative Commons 3.0 España (by-nc)

More Related Content

Similar to 609 610-1-pb

Nforme de practica virtual santi colque gustavo gonzalo eduardo
Nforme de practica virtual   santi colque gustavo gonzalo eduardoNforme de practica virtual   santi colque gustavo gonzalo eduardo
Nforme de practica virtual santi colque gustavo gonzalo eduardo
GustavoGonzaloEduard
 
PRESENTACIÓN PCR IRENE FERNANDEZ. biotecnología.ppsx
PRESENTACIÓN PCR IRENE FERNANDEZ. biotecnología.ppsxPRESENTACIÓN PCR IRENE FERNANDEZ. biotecnología.ppsx
PRESENTACIÓN PCR IRENE FERNANDEZ. biotecnología.ppsx
ssuser40d9a5
 
SIMULACIÓN DE ELECTROFORESIS EN GEL DE AGAROSA EMPLEANDO EL SOFTWARE SNAPGENE...
SIMULACIÓN DE ELECTROFORESIS EN GEL DE AGAROSA EMPLEANDO EL SOFTWARE SNAPGENE...SIMULACIÓN DE ELECTROFORESIS EN GEL DE AGAROSA EMPLEANDO EL SOFTWARE SNAPGENE...
SIMULACIÓN DE ELECTROFORESIS EN GEL DE AGAROSA EMPLEANDO EL SOFTWARE SNAPGENE...
ShirleyColana
 

Similar to 609 610-1-pb (20)

Ingeniería genética
Ingeniería genéticaIngeniería genética
Ingeniería genética
 
Ejercicios biologia primer cuatrimestre
Ejercicios biologia primer cuatrimestreEjercicios biologia primer cuatrimestre
Ejercicios biologia primer cuatrimestre
 
La genética molecular
La genética molecularLa genética molecular
La genética molecular
 
03-1-MarcaDirect
03-1-MarcaDirect03-1-MarcaDirect
03-1-MarcaDirect
 
Pre.biologia.mayo.2008.mejoramiento
Pre.biologia.mayo.2008.mejoramientoPre.biologia.mayo.2008.mejoramiento
Pre.biologia.mayo.2008.mejoramiento
 
Nforme de practica virtual santi colque gustavo gonzalo eduardo
Nforme de practica virtual   santi colque gustavo gonzalo eduardoNforme de practica virtual   santi colque gustavo gonzalo eduardo
Nforme de practica virtual santi colque gustavo gonzalo eduardo
 
Secuenciacion del adn
Secuenciacion del adnSecuenciacion del adn
Secuenciacion del adn
 
presentación tema 14 de biotecnología para selectividad
presentación tema 14 de biotecnología para selectividadpresentación tema 14 de biotecnología para selectividad
presentación tema 14 de biotecnología para selectividad
 
PRESENTACIÓN PCR IRENE FERNANDEZ. biotecnología.ppsx
PRESENTACIÓN PCR IRENE FERNANDEZ. biotecnología.ppsxPRESENTACIÓN PCR IRENE FERNANDEZ. biotecnología.ppsx
PRESENTACIÓN PCR IRENE FERNANDEZ. biotecnología.ppsx
 
Snapgene informe
Snapgene informeSnapgene informe
Snapgene informe
 
Traduccion[1]
Traduccion[1]Traduccion[1]
Traduccion[1]
 
Genetica molecular Español
Genetica molecular EspañolGenetica molecular Español
Genetica molecular Español
 
Secuenciación
SecuenciaciónSecuenciación
Secuenciación
 
Resumen unidad 4 genes y manipulación genética
Resumen unidad 4  genes y manipulación genéticaResumen unidad 4  genes y manipulación genética
Resumen unidad 4 genes y manipulación genética
 
SIMULACIÓN DE ELECTROFORESIS EN GEL DE AGAROSA EMPLEANDO EL SOFTWARE SNAPGENE...
SIMULACIÓN DE ELECTROFORESIS EN GEL DE AGAROSA EMPLEANDO EL SOFTWARE SNAPGENE...SIMULACIÓN DE ELECTROFORESIS EN GEL DE AGAROSA EMPLEANDO EL SOFTWARE SNAPGENE...
SIMULACIÓN DE ELECTROFORESIS EN GEL DE AGAROSA EMPLEANDO EL SOFTWARE SNAPGENE...
 
D912f51131ed787b91.en.es
D912f51131ed787b91.en.esD912f51131ed787b91.en.es
D912f51131ed787b91.en.es
 
Bioinformática: desde las proteínas mitocondriales a la genómica
Bioinformática: desde las proteínas mitocondriales a la genómicaBioinformática: desde las proteínas mitocondriales a la genómica
Bioinformática: desde las proteínas mitocondriales a la genómica
 
INFORME N°2 - Elaboración de ADN en papel
INFORME N°2 - Elaboración de ADN en papelINFORME N°2 - Elaboración de ADN en papel
INFORME N°2 - Elaboración de ADN en papel
 
Morales quispe leticia ines doc
Morales quispe leticia ines docMorales quispe leticia ines doc
Morales quispe leticia ines doc
 
Armado del adn y enlaces juan bustinza coila
Armado del adn y enlaces   juan  bustinza coilaArmado del adn y enlaces   juan  bustinza coila
Armado del adn y enlaces juan bustinza coila
 

609 610-1-pb

  • 1. Auxïï 285 Secuenciación de genomas Javier María Rodríguez Martínez Arbor CLXXVII, 698 (Febrero 2004), 285-310 pp. Desde que en 1995 se determinó la secuencia del genoma del primer organismo autosufidente, la bacteria Haemophilus influenzae, estamos asistiendo a una explosión en el número de genomas secuenciados. A fi- nales del 2003 este número era de 150 y probablemente se doblara du- rante este año. También en 2003 se hizo pública la Secuencia de Referen- cia del genoma humano, un genoma de particular importancia para las ciencias biomédicas, y cuyo proyecto internacional de secuenciación ha sido el principal motor para el desarrollo de las tecnologías necesarias para este crecimiento. La posibilidad de analizar y comparar entre si toda la información genética de diversos organismos esta produciendo una rá- pida transformación de las ciencias biomédicas. En este articulo descri- biremos los métodos de secuenciación de genomas complejos que han he- cho posible esta revolución y que suponen la base del conjunto de técnicas y conocimientos que conocemos como genómica. Introducción Podemos definir la genómica como la subdisciplina de la genética in- teresada en la descripción y análisis molecular de genomas completos. Habitualmente la genómica se suele subdividir en dos grandes áreas: La genómica estructural, que se ocupa de la caracterización de la naturale- za física de los genomas, y idi genómica funcional, cuyo objetivo último es ubicar todos los elementos integrantes de un genoma dentro de u n a es- tructura funcional, tanto en el sentido más tradicional de determinar la función de cada u n a de los elementos componentes de un genoma (las (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 2. Javier María Rodríguez Martínez 286 proteínas codificadas, los elementos reguladores, estructurales, etc) como en el sentido más general de determinar el papel que cada uno de estos elementos desempeña en el funcionamiento global del organismo. La ma- yor parte de los proyectos de genómica se encuentran aún en la fase es- tructural, pero en el caso de algunos organismos modelo como la mosca del vinagre {D. melanogaster) o el nematode (C. elegans), la fase funcio- nal ya h a comenzado. E n este articulo describiremos las técnicas de lo que hemos denomi- nado genómica estructural, esto es, el conjunto de métodos y herra- mientas diseñadas p a r a la determinación de la secuencia de genomas, y nos centraremos fundamentalmente en las empleadas p a r a la se- cuenciación de genomas complejos, como los de los organismos eucarió- ticos. Material g e n é t i c o Cada organismo, sea este u n virus, u n a bacteria, u n animal o u n a planta, posee u n genoma que contiene la información biológica necesa- ria p a r a construir y m a n t e n e r cada u n a de las instancias de ese orga- nismo. La mayor p a r t e de los genomas presentes en la naturaleza están constituidos por ácido desoxirribonucleico (DNA) aunque ciertos virus poseen ácido ribonucleico (RNA) como material genético. Tanto el DNA como el RNA son moléculas poliméricas construidas por cadenas de su- bunidades denominadas nucleotides, desoxirribonucleótidos en el caso del DNA (de ahí la D), y ribonucleotides en el caso del RNA. El DNA está compuesto por u n a mezcla de cuatro de estos nucleotides: la ade- nina, que se representa con u n a A, la guanina (G), la citosina (C) y la timidina (T). U n a molécula de DNA esta formada por dos cadenas de estos nucleotides polimerizados, que se denominan bases, formado u n a estructura que se describe a menudo como u n a doble hélice. Las dos ca- denas o h e b r a s del DNA están estabilizadas entre si por puentes de hidrógeno, que ocurren entre las bases de las dos cadenas. Decimos que las bases están apareadas u n a s con otras. Este apareamiento tiene lu- gar de u n a forma muy precisa: la A de u n a cadena se a p a r e a con la T de la otra cadena y la C con la G. La información biológica presente en el DNA se encuentra codificada en el orden preciso de esos nucleotides dentro de la molécula de DNA, lo que denominamos secuencia de nu- cleotides. El objetivo primario de la genómica estructural es precisa- mente determinar la secuencia de nucleotides específica de cada geno- ma. (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 3. Secuenciación de genomas 287 El G e n o m a El humano es u n buen ejemplo de genoma eucariótico complejo. Con- siste en dos partes diferenciadas, el genoma mitocondrial y el genoma nuclear. La mitocondrias en las células animales y los cloroplastos en las células de plantas son los únicos orgánulos subcelulares que poseen su propio «genoma». El genoma mitocondrial humano es u n a pequeña molé- cula de DNA circular de 16.569 nucleótidos. En una célula normal puede haber unos 200 de estos orgánulos, cada uno con su propia copia de su ge- noma. Sin embargo, la mayor cantidad de información genética del ser humano se encuentra en el genoma nuclear compuesto por aproximada- mente 3.200 millones de nucleótidos. El genoma nuclear, que es lo que normalmente se denomina genoma humano, esta dividido en 24 molécu- las lineales cada u n a de ellas contenidas en un cromosoma diferente. La más pequeña de estas moléculas tiene unos 50 millones de nucleótidos mientras que la mayor tiene aproximadamente 250 millones de nucleóti- dos. E n u n h u m a n o adulto, cada una de las aproximadamente 10^^ células que lo componen contiene su propia copia del genoma, con la excepción de algunas células muy especializadas como los glóbulos rojos que en su estado final, completamente diferenciado, carecen de núcleo. La inmensa mayoría de las células contienen dos copias de cada uno de los cromoso- mas, solamente las células germinales (espermatozoides y óvulos) pose- en un solo juego de cromosomas. La secuencia del genoma mitocondrial humano fue determinada en 1981 y sin embargo h a s t a el 2003 no ha sido posible hacer lo propio con la secuencia del enormemente complejo genoma nuclear. S e c u e n c i a c i ó n del D N A La técnica empleada en la actualidad para la secuenciación de DNA es una modificación de la desarrollada en los años 70 por Frederick Sanger y colaboradores, conocida como el método de los terminadores de cadena. Esta técnica (Figura 1) se basa en el empleo de una enzima, DNA polime- rasa, cuya actividad principal es la de extender una cadena de DNA poli- merizando nucleótidos en uno de sus extremos. Para su funcionamiento esta enzima necesita esencialmente tres reactivos: un DNA que le sirve de molde, otro DNA que le sirve de iniciador de la reacción (en uno de cuyos extremos adicionara los nucleótidos) y los 4 nucleótidos componentes del DNA. La clave de esta técnica consiste en adicionar, junto a los reactivos (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 4. Javier María Rodríguez Martínez 288 A DMA iniciador marcado radioactivamente Nucíeótidos T G c ' i ^ ^ ^ G TGCATAGAT DMA poiimerasa ' ^ ^ ^ ^ a secusnelar > * • ' #-A C ^.5 Î A ihA C ^ ^ ^ ^ : , 1 Poiécuias marcadas radioactlvatnent® T C C A T C C G T C - íi T A G A ^ T G C ^ f i ^ ^ Ü T GC A T A G A T • - A C G T A G G C A C G T A T C T ddA Se rcofps'-í A ? ©•Ai- G Í ¿ l . < Í C A fNVCGTAGGCáaA. r<"A r C<"GTGí^A7AG<r TGCATCCGT^SOATAGAT •-ACGTAGGCACGTddA Sd i ÎC '»'-ír<i A f "^"^ ' ~ ' ^'^ ^ " 0At,Gf4^Gv ACGÍA •-ACGTAGGÇACG-r«ía*i. #^CGTAGGCddA 7C<"Aïi-Gnin"ATAnAÎ TGCATCCGTGCÁtApAT &Pîri-f>'5!OîaijaA •-ACGTddA *^ ÍhACGTAGGCACGTATÍÇTd«M TGCATCCGTGCÀTAGAT Pasos ïntennedios de ia poiimerizacicm Producios finales El&cîroforésis B 1 1 l 1 IJ IJ DNA poiimerasa Nucleótídos y y- j= • y—- + + + + Molde ddA ddC ddG ddT iniciador t ? f f 1A n c n o n T r A T — . — C T A T ....«-. C — ' • A C — G — G — A S I 'cuencia i ieducida FIGURA 1. Secuenciación del DNA mediante el método de Sanger o de los terminado- res de cadena. El panel A muestra un esquema de la reacción correspondiente a la de- terminación de la posición en la secuencia del DNA de una base, en este caso la A. La in- corporación de ddA en lugar de A detiene el proceso de polimerización. Esta incorporación ocurre de forma aleatoria durante la polimerización de las moléculas de DNA de tal for- ma que una fracción de las moléculas elongadas se habrá detenido en cada posición en que A debiera incorporarse a la molécula. Las moléculas marcadas radioactivamente se detectan después de haberlas separado por su tamaño mediante electroforésis en geles de poliacrilamida. El tamaño de las moléculas detectadas nos indica en que posición de la secuencia se encuentra el núcleotido A. En el panel B se muestra un experimento com- pleto de secuenciación del DNA. Se realizan reacciones como las descritas anteriormente para cada uno de los nucleotides y la secuencia completa del DNA se deduce de la posi- ción en que aparecen las moléculas marcadas radioactivamente. (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 5. Secuenciación de genomas 289 mencionados anteriormente, u n a pequeña cantidad de nucleotides modifi- cados que se incorporan en la cadena que se esta elongando haciendo im- posible que la polimerización en esta molécula continúe, es decir, que actúan como terminadores de la cadena. Por ejemplo, si en u n a reacción añadimos u n porcentaje del nucleotide A modificado (Figura IA), que de- nominaremos ddA, en cada u n a de las posiciones en las que se debe incor- porar una A, u n a fìracción de las moléculas que se están sintetizando in- corporaran en su lugar ddA y la polimerización se detendrá en este nucleotide. En el resto de las moléculas, en las que se ha incorporado co- rrectamente una A, la polimerización continuará hasta la siguiente A de la secuencia, momento en que se repetirá la situación anterior, una fi:ac- ción de las moléculas incorporará ddA deteniéndose la reacción de polime- rización en estas moléculas, y el resto continuará con el proceso de poli- merización. Esta situación se repetirá en cada posición donde se deba incorporar u n a A en la secuencia. La incorporación de ddA en lugar de A ocurre de forma aleatoria, por lo que una firacción de las moléculas que se están sintetizando se detendrán en cada posición donde existe u n a A en la secuencia. Al final de la reacción obtendremos una mezcla de moléculas de diferentes tamaños que h a n resultado de las paradas de la polimerización en todas las posiciones donde existe una A en la molécula. Si separamos estas moléculas según su tamaño (empleando técnicas de electroforésis) podemos deducir, por su tamaño, en que posiciones se h a parado la poli- merización de una parte de las moléculas y, por lo tanto, en que posiciones existe una A en la secuencia de ese DNA. En el método original de Sanger, la detección de las moléculas de DNA en la reacción de secuenciación se realiza utilizando u n DNA iniciador marcado radioactivamente. P a r a obtener la secuencia completa de u n a molécula de DNA (Figura IB) lo que hacemos es correr en paralelo reacciones como la descrita an- teriormente para los cuatro componentes del DNA. E n ellas se añaden los mismos reactivos y u n nucleotide modificado diferente (ddA, ddG, ddC o ddT), según cual sea el tipo de bases que queremos determinar en esa reacción. Las moléculas de DNA sintetizadas en cada u n a de las re- acciones se separan en paralelo mediante electroforésis y la secuencia de la molécula de DNA se deduce observando en que reacción se h a parado la elongación correspondiente a esa posición. Con esta técnica se pueden leer alrededor de 300 - 500 nucleotides en cada experimento. P a r a secuenciar una molécula de mayor tamaño, ten- dremos que utilizar iniciadores diferentes que comiencen la reacción de polimerización en posiciones separadas unos 300 nucleotides entre si. Modificaciones posteriores de esta técnica eliminaron la necesidad de emplear iniciadores marcados, usando en su lugar uno de los nucleotides (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 6. Javier María Rodríguez Martínez 290 marcados radioactivamente de tal forma que las moléculas se marcan a medida que se van elongando. Bajo la presión del Proyecto Genoma Humano por desarrollar nuevas tecnologías que permitieran la determinación de la secuencia del DNA con una mayor rapidez, esta técnica sufrió una serie de modificaciones dando lugar a un método mas sólido y sobre todo, susceptible de un gran nivel de automatización. Estas modificaciones afectaron fundamentalmente a: (i) Mejoras en los reactivos bioquímicos necesarios para las reaccio- nes de secuenciación, como polimerasas termoestables, termina- dores marcados con colorantes fluorescentes y mejoras posterio- res de la estabilidad de estos colorantes. La aparición, en 1986, de terminadores marcados con colorantes fluorescentes permite la realización de una reacción de secuenciación en u n solo tubo, en lugar de los cuatro que eran necesarios en la técnica original de Sanger. Esto es posible porque cada uno de los cuatro termi- nadores de cadena esta marcado con un colorante diferente, per- mitiéndonos diferenciar, por el tipo de fluorescencia, que termi- nador se h a incorporado a cada molécula. (ii) Desarrollo de secuenciadores que permiten la lectura automática del resultado de la reacción, al emplear terminadores fluorescentes. (iii) Desarrollo de secuenciadores basados en electroforésis capilar para la separación de las reacciones. Estos aparatos permiten el procesamiento simultaneo de un número mucho mayor de reac- ciones de secuencia que los anteriores, basados en electroforésis en geles de poliacrilamida. (iv) Desarrollo de sistemas robóticos para la automatización de la mayor parte de las tareas a realizar, como el aislamiento de clo- nes, crecimiento y purificación del DNA, y la preparación de las reacciones de secuencia e incluso la colocación de estas reaccio- nes en los secuenciadores automáticos. En conjunto, todas estas mejoras h a n conseguido u n a mayor precisión en las lecturas y u n a automatización prácticamente completa del proce- so. Por otro lado la construcción de grandes centros dedicados casi exclu- sivamente a la secuenciación h a permitido una disminución de los costes debido a la centralización y al aumento de la escala. En conjunto toda esta serie de mejoras h a n llevado a una reducción de mas de 100 veces en el coste por base secuenciada en la última década. Un ejemplo de los elevados niveles de automatización obtenidos en la secuenciación de DNA lo proporciona la empresa Celera Genomics. Du- rante el período de secuenciación del genoma de la mosca del vinagre y (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 7. Secuenciación de genomas 291 xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx Fragmento de DNA 1^ Fragmentación f xxxxxxx xxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxxxx XXXXXXXXXXXí^^g^QQQQQQQQQQ^ xxxxxxxxxxxxx ^^^^^^^^^S8B8888888bo^ TGXXXXXXXXXXX XXXXXXXXXXXXXXX Secuenciación ACTTTTG ACTNTTGCATGA TAGNACATGATCA TTTGCATGACTGAT ATGACNGATCGTAC GTACGTAGTACAT TGCATGACTGATC CGTAGTACATGATCA GCATGACTGATCGTAC TGCATGACTGATC CGTAGTACATGATCA Ensamblaje ACÍfí)rTGCATGA TGCATGACTGATC TAC^CATGATCA TTTGCATGACTGAT GTACGTAGmCAT ATGAC^ATCGTAC TGCATGACTGATC CGTAGTACATGATCA GCATGACTGATCGTAC ACTTTTG CGTAGTACATGATCA ACTTTTGCATGACTGATCGTACGTAGTACATGATCA Secuencia consenso FIGURA 2. Esquema del proceso de secuenciación al azar. El fragmento de DNA de se- cuencia desconocida se rompe de forma aleatoria en fragmentos más pequeños que se pro- cesan hasta obtener una cantidad de secuencia equivalente a varias veces la de la molé- cula original. Las secuencias de los fragmentos se ensamblan, reconstruyéndose así la secuencia de la molécula original. Gracias a esta redundancia podemos corregir con faci- lidad los errores que se hayan producido en las secuencias individuales. (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 8. Javier María Rodríguez Martínez 292 del genoma humano, esta empresa producía diariamente 175000 lectu- ras, con u n total de unos 95 millones de bases identificadas. Su nivel de automatización permitía que el tiempo real dedicado por cada operario a u n secuenciador fiíera de unos 15 minutos y el grado de integración ob- tenido entre los distintos departamentos (preparación de clones, obten- ción de DNA, preparación de reacciones y determinación de la secuencia) permitió m a n t e n e r este nivel de producción durante varios años sin un solo día de interrupción. Estrategias para la secuenciación de genomas complejos Aunque a lo largo de casi 30 años las técnicas de secuenciación de áci- dos nucleicos h a n sufirido importantes modificaciones, la limitación ñin- damental sigue siendo la cantidad de secuencia que es posible determi- n a r en u n a sola reacción, lo que se denomina u n a lectura. Actualmente es de u n a s 1000 bases de las que 800 como máximo son de alta calidad. P a r a obtener la secuencia de una molécula de tamaño mayor que estos 800 nucleotides es necesario ir empleando iniciadores separados entre si. Por tanto solo podemos realizar una reacción de secuenciación una vez que hemos llevado a cabo la anterior, determinado la secuencia y elegido el iniciador adecuado. Como vemos este proceso es extremadamente len- to y difícilmente automatizable. Otro problema importante es que estas secuencias poseen errores en u n porcentaje de aproximadamente el 0.1 %. Esto es, 1 de cada 1000 ba- ses puede ser errónea. P a r a soslayar estas limitaciones se h a n desarro- llado u n a serie de estrategias para la secuenciación de grandes molécu- las de DNA todas ellas basadas en la técnica de secuenciación al azar {shotgun sequencing), descrita por Sanger. En este método (Figura 2) el DNA a secuenciar se rompe de forma aleatoria en firagmentos más pe- queños que se procesan hasta obtener una cantidad de secuencia equiva- lente a varias veces la de la molécula original, lo que denominamos redun- dancia. Gracias a esta redundancia podemos (1) ensamblar las secuencias de estos fi:'agmentos para deducir la secuencia de la molécula original y (2) corregir con facilidad los errores que se hayan producido en las secuencias de los fragmentos ya que para cada posición de la molécula original tene- mos varias secuencias redundantes. Si asumimos que la fragmentación h a sido realmente aleatoria, la fracción de genoma que permanece sin secuenciar en ambas cadenas se puede calcular como Po = e-"''" (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 9. Secuenciación de genomas 293 donde n es el número de los fragmentos secuenciados, co es el tamaño me- dio de estos fragmentos y L es el tamaño de la molécula original expre- sado en miles de bases (kb). Una redundancia de 9 {nw/L = 9) producirá aproximadamente el 99,99 % (po = 0.01) de la secuencia original supo- niendo u n a distribución realmente aleatoria. Sin embargo en la realidad existen muchos factores, que esta versión idealizada no contempla, que hacen necesarias redundancias incluso mayores. Como se observa, el mayor inconveniente de esta técnica es que para obtener la secuencia de nucleótidos de u n a molécula de 5000 bases es necesario secuenciar u n número total de 45000 bases. Esta estrategia se puede aplicar en principio a cualquier molécula, sin importar su tamaño, siempre que no contenga secuencias repetidas y que podamos fragmentarla al azar. Si esto es así, el ensamblaje de las se- cuencias de los fragmentos requiere programas informáticos relativa- mente sencillos. Los problemas prácticos de esta técnica provienen de las secuencias repetidas presentes en los genomas y de las desviaciones del azar que se producen durante la preparación de los fragmentos del geno- ma. En el caso de las repeticiones, un número pequeño de ellas tampoco plantea u n a gran dificultad. Por ejemplo se h a n ensamblado sin proble- mas genomas bacterianos típicos que contienen un 1.5 % de secuencias repetidas, o la porción eucromática del genoma de la mosca del vinagre, que contiene un 3% de secuencia repetidas. Sin embargo, el genoma hu- mano, por ejemplo, contiene mas de u n 50% de secuencia repetidas que incluyen grandes fragmentos, resultantes de duplicaciones, con u n a si- militud de secuencia del 98 al 99.9 %. Otros genomas como los de las plantas contienen u n a cantidad muy superior de secuencias repetidas. Estas características complican considerablemente el ensamblaje de la secuencia completa de estos genomas ya que con u n a similitud del 99.9%, y teniendo en cuenta los posibles errores de las lecturas, es prácticamen- te imposible para el programa empleado en el ensamblaje discriminar la posición correcta de u n a lectura que es 99.9% idéntica a dos secuencias repetidas. Se h a n empleado dos estrategias para la secuenciación de genomas con repeticiones: la secuenciación al azar jerárquica (hierarchical shot- gun sequencing) y la secuenciación al azar de todo el genoma (whole-ge- nome shotgun sequencing). Un tercera estrategia, u n a especie de híbrido de las dos anteriores y que incorpora las mejores características de am- bas, es la que en la actualidad parecen preferir los grandes proyectos de secuenciación, como los del genoma de la rata y del ratón. E n el caso de los proyectos de secuenciación de genomas extremadamente ricos en re- peticiones, como el del maiz, los esfuerzos se h a n centrado en desarrollar (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 10. Javier María Rodríguez Martínez 294 técnicas que permitan discriminar entre las regiones con DNA puramen- te repetitivo y las regiones que contienen DNA no repetitivo, rico en ge- nes, para obtener la secuencia únicamente de este último S e c u e n c i a c i ó n al azar j e r á r q u i c a La característica fundamental de esta estrategia es la obtención, pre- via a la secuenciación, de un mapa del genoma mediante grandes frag- mentos de DNA de unos 100 a 200 kb. En este mapa, cada posición en el genoma esta representada en varios fragmentos, es decir la colección de fragmentos posee una elevada redundancia. Antes de comenzar la se- cuenciación se eligen, entre los componentes del mapa, u n a serie de frag- mentos que solapen entre si y que abarquen todo el genoma. Estos se se- cuencian por el método secuenciación al azar y las secuencias individuales de los fragmentos se ensamblan siguiendo tanto el mapa físico previa- mente construido como las regiones de solapamiento detectadas, ge- nerándose de esta forma la secuencia completa del genoma. Un esquema de este método se puede ver en la figura 3. Esencialmente, la idea es fragmentar un problema grande en pequeños problemas que podemos re- solver fácilmente, sumar las soluciones de estos pequeños problemas y ob- tener la solución a nuestro gran problema original. Conceptualmente, este método se puede dividir en una serie de pasos: 1. Construcción del mapa físico La construcción del mapa físico (Figura 3) comienza con el aislamien- to del DNA genómico. Este DNA se rompe en fragmentos de unos 150 kb mediante métodos físicos o empleando enzimas que lo cortan. Para poder aislar, amplificar y almacenar estos fragmentos de DNA es necesario in- troducirlos en vectores adecuados, proceso que se denomina clonaje. Para ello se h a n empleado dos sistemas fundamentales, los vectores desarro- llados a partir de levaduras, YAC (siglas en ingles para cromosomas ar- tificiales de levadura) y los vectores desarrollados a partir de bacterias, BAC (siglas del ingles para cromosomas artificiales de bacterias) o PAC (siglas del ingles para cromosomas artificiales derivados de P l ) muy pa- recidos a los BAC. Los YAC son capaces de aceptar fragmentos de hasta 1 Mb (un millón de bases) y se emplearon para realizar los mapas físicos de primera generación de los genomas de ratón y humano. Sin embargo por diversas razones técnicas y por la inestabilidad del DNA insertado en estos vectores, los YAC no son buenos puntos de partida para los si- (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 11. Secuenciación de genomas 295 c i,^ II Genoma Construcción de una librería de fragmentos del genoma Construcción del mapa físico del genoma Selección de los clones a secuenciar Secuenciación al azar de ios clones elegidos actgcat actgcat se actgcat actgcal actgcat actgcat actgcat actgcat acigcal actgcat actgcat actgcat actgcat BCtgcat actgcat actgcat actgcat actgcat actgcat actgcat actgcat actgcat actgcat actgcat actgcat actgcat actgcat actgcat Ensamblaje de los clones secuenciados jClgtgct¡iacígccgtgat8ct3gstcagatcst33caS3gclgc.3tagcaí3<¡ciMgaítac£<sat3cag3gac2tagac3tagacaaa»tagacag3tacag.3tagataS3gatacagat3cagatacai<. atagsíacgaclactagcgacatcgacfcscii 4»egagacccatcnt3t3ct8Ccs!naigctaggtcagatcol3acat3gctsC3t3ijcatagcaagtUacagalaca8a3acat3sacat33acagal«a5jacagal3cagatagatot3S8iaca{j«fat.;,ii atacaiagacatanatacgactactagcgacaít :.tactgact;itQ390ü3CCí)tlac!9ccgtgatsct8ggtv.a{jatca5gacat;j3c}gcalagcatagc<i3gí!íac<i(jiU<)cagagacata3acaU«g3caga!ítaaa n;âg;iii)ca(jigac<itag3lî>cg»ctacla3Cua !tî;i3aci3ctg3ct3e3.itgcgtîac.«ctgccgtgaîgct3ggtc<isatcaK<ac<-i1agctgc3t<sacaîagc3ag.itaogataca8a3acat3g?.c3tK-3ac<igatlisS9ac,'igat3ca83t<iQa i<itaí:<iÇiat3cat3gao3tagat.icg.ictactoc' -aíctiactiKtaactscgaBgífiCtiacíaactgccñlyaígctaggícagsTMtgacatSffCfgcaíageaísñca-sgaíacaaatacasasacatagacaíagacaaatttagacaaatacañataBaías' 'acaijalsc-ifsatacataaacatasatacsa Secuencia de nucleotides del genoma FIGURA 3. Esquema del método de secuenciación al azar jerárquica. El DNA del ge- noma se rompe en fragmentos de gran tamaño que son ordenados según su posición en el genoma. De entre estos clones se selecciona una colección que abarca todo el genoma. A continuación se obtiene la secuencia de estos fragmentos individuales empleando la téc- nica de secuenciación al azar. Finalmente la secuencia del genoma se reconstruye en- samblando la secuencia de estos fragmentos. (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 12. Javier María Rodríguez Martínez 296 guientes pasos del proceso. E n general los vectores basados en BAC son los más empleados para la generación de mapas físicos. E n ellos es posi- ble introducir u n fragmento de DNA de unos 100-200 kb. P a r a la se- cuenciación del genoma humano, el Consorcio Internacional para la Se- cuenciación del Genoma Humano empleo 8 librerías de clones basados en vectores BAC y PAC con un tamaño medio de unos 150 kb. El siguiente paso es ordenar los clones de estas librerías según su posición en el genoma (Figura 4). P a r a ello se emplean diferentes téc- nicas que, en general, implican la identificación de ciertos marcadores característicos (pequeñas secuencias únicas (STS), sitios de corte de en- zimas de restricción e t c . . ) en cada uno de los fragmentos clonados. Me- diante la comparación de la presencia de dichos marcadores en los di- ferentes clones, estos son ordenados de forma inequívoca. E n general se escoge u n número de clones elevado para que la misma zona del geno- m a este r e p r e s e n t a d a en varios de ellos, es decir tener u n a alta redun- dancia de la secuencia del genoma en la librería de BAC. E n el caso del Proyecto Genoma Humano, el m a p a generado mediante los clones de las librerías de BAC y PAC tenia u n a redundancia de 65 veces el geno- ma. 2. Selección de los clones Una vez obtenido u n mapa del genoma mediante la ordenación de los clones de las librerías, se escoge el número mínimo de clones en los que este contenido todo el genoma, minimizando las zonas de solapamiento ente ellos. E n este momento es crítico elegir clones que no hayan sufrido anomalías durante el proceso de construcción de la librería, como pueden ser la pérdida de parte del fragmento de DNA clonado (deleciones) o la presencia de dos fragmentos de diferentes zonas del genoma clonados en el mismo vector (clones quiméricos), puesto que son los clones de los que vamos a obtener la secuencia final. Para reducir estos problemas al mí- nimo, los marcadores de los BAC candidatos se comparan con los de los otros clones que abarcan la misma zona, eligiéndose aquellos en los que los marcadores concuerdan. 3. Construcción de las librerías al azar de subclones El siguiente paso es la secuenciación de los clones de BAC elegidos como representantes de cada una de las regiones de aproximadamente (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 13. Secuenciación de genomas 297 Genoma Construcción de una libreria de fragmentos del genoma Identificación de los marcadores en fragmentos de la librería A # -Jl cr Q 0-. m ~a r m < o, -03 m ù ^—• m ûu- Ordenamiento de los fragmentos mediante las posiciones de tos marcadores n A • n/ • n # n,, ^ #M, ü n ^ # ft~-~-jg;f=f—^z. úL -A- • û,„ -J3 , ;•... A A,, O Où „„A„, _ A Selección del numero mínimo de clones que comprenden todo el genoma Colección de clones a secuenciar #, n, -•—A- A • JO^ I Colección de clones a secuenciar FIGURA 4. Secuenciación al azar jerárquica: Construcción del m a p a de clones. En la figura se m u e s t r a n gráficamente los pasos seguidos para la construcción de u n m a p a de clones de un genoma (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 14. Javier María Rodríguez Martínez 298 C T Construcción úm m^pwi de tíones Elección ele los clones a «ecuenciar Colección de clones a secuenciar à t Cofistruccion de librerías ai azar de subclones de varios tamaños para cada uno de los clones Obtención de la secuencia de ios extremos de los subclones Ensamblaje de las secuencias Acabado Verificación de la secuencia • Û # # Ù^ Û # act^eatttttgctgtagctagactagactagacttgacgatagctgactatcgatca Secuencia del clon acIBEit nctgcoi actsjcal Ensamblaje de las secuencias individuales de todos los clones del mapa físico c:tg*t<aííí.>0K;«í^:tç^:ííWgc->t>'j>:*3!S^t3C;('j-'t>';3ía3Kíwcíi^')3í':aUS»c«a»tUag;tc3>jo .íH«y.-ít;«,^¿>;tai 5<5<ííC9lt,ic;t£jf;.-.3ig»Í3rí.- ^•»3g*í^í'-335^3* g .-vr^^^igctgcstftíí c-ït;>gçM Oí» tac.>.>ita w ^ -:;íCiy;ttííota^âycçtcr.iXí3u<ítíííatií'>*4'^t'>Síííw9U*>icJtg3Cutâ8<íÈ|c-it-3Qi:aí^ Secuencia de nucleotides del genoma FIGURA 5. Secuenciación al azar jerárquica: Secuenciación de los clones del mapa. En la figura se muestran gráficamente los pasos seguidos para la secuenciación y el ensam- blaje de la secuencia de los clones del mapa físico del genoma (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 15. Secuenciación de genomas 299 150 kb en que hemos dividido el genoma (Figura 5). Este proceso co- mienza con la purificación del DNA de cada uno de los clones selecciona- dos y su posterior fragmentación al azar, en general mediante métodos físicos como la sonicación o el paso forzado por pequeños orificios a gran presión. Los fragmentos resultantes se separan por tamaños y los que se encuentran en u n rango adecuado, por ejemplo de 2 a 5 kb, son poste- riormente clonados en vectores derivados del bacteriófago M13 o de plásmidos. La ventaja de estos últimos vectores es que el fragmento de doble cadena de DNA clonado puede ser secuenciado por sus dos extre- mos (al coste de u n a única preparación de DNA) y que las dos lecturas derivadas de cada uno de ellos (lo que se conoce como pareja de lecturas) puede ser usada p a r a facilitar y/o verificar el proceso de ensamblaje. Esto es así porque conocemos la distancia a la que deben encontrarse las dos secuencias de cada pareja de lecturas en la secuencia final, que además deberá coincidir con el tamaño del fragmento clonado en el plásmido de donde se h a n obtenido. Por otro lado, los vectores derivados del bacterió- fago M13 tienen la ventaja de que el DNA es más fácil de preparar y de que el molde resultante, de cadena sencilla produce unas secuencias de mayor calidad. Ambos tipos de vectores, plásmidos y bacteriófagos, pro- vocan cierta selección en las secuencias clonadas, siendo más fácil clonar cierto tipo de secuencias en unos que en otros. Estas desviaciones del azar deben ser minimizadas si quiere obtenerse u n a representación re- almente aleatoria de la secuencia original del BAC. P a r a evitarlo, en ciertos centros, se generan simultáneamente ambos tipos de librerías minimizándose este tipo de problemas pero incrementándose la comple- jidad del proceso de secuenciación, al tener que preparar dos tipos de li- brerías y de purificar dos tipos de clones. 4. Secuenciación al azar El grueso de la secuenciación se realiza sobre las librerías de subclo- nes anteriormente citadas. Para ello se seleccionan aleatoriamente u n a serie de subclones, se prepara su DNA, y se determina la secuencia del extremo o de los extremos (dependiendo de si los subclones son plásmi- dos o M13 respectivamente) del fragmento clonado. Este proceso de se- cuenciación de subclones al azar continúa hasta generar u n a cantidad suficiente de secuencia redundante (con relación al inserto presente en el BAC original). Es ese momento se ensamblan las secuencias de los sub- clones mediante programas de ordenador gracias a los solapamientos de- tectados. Normalmente el resultado del ensamblaje es u n a serie ordena- (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 16. Javier María Rodríguez Martínez 300 da de segmentos del fragmento original, que se denominan contigs, cada uno formado por u n a colección de lecturas solapantes. A partir de las ba- ses presentes en cada posición en las lecturas solapantes es posible de- ducir u n a secuencia, que se denomina secuencia consenso. P a r a producir u n a secuencia con una precisión superior al 99.99%, que es el estándar del Proyecto Genoma Humano, es necesario generar lecturas que supongan mas de 10 veces la cantidad de secuencia que que- remos obtener (o sea u n a redundancia de mas de 10). Por ejemplo en el caso de u n BAC de 150 Kpb son necesarias 3000 lecturas útiles (esto es descartando aquellas que no produjeron datos válidos, las derivadas de contaminaciones como secuencias del BAC, del vector empleado en la ge- neración de los subclones y otras secuencia contaminantes) de unas 500 bases de calidad para obtener una redundancia de 10 veces. Cuando se alcanza este nivel de redundancia finaliza la fase de secuenciación al azar. 5. Fase de secuenciación dirigida El ensamblaje de las lecturas con una redundancia de 10 genera una serie de contigs que, en conjunto, reflejan prácticamente la totalidad del clon inicial. Los problemas que quedan son generalmente discontinuida- des entre los contigs, áreas donde la calidad de la secuencia es demasia- do baja para el estándar elegido, bases individuales que permanecen am- biguas y zonas donde el ensamblaje de los contigs h a sido erróneo. En general, estos problemas se resuelven mediante la secuenciación adicio- nal de subclones concretos así como con la secuenciación directa del DNA del BAC mediante oligonucleotides específicos. A menudo es necesario el empleo de químicas de secuenciación diferentes a las empleadas en la se- cuenciación al azar, diseñadas para evitar cierto tipo de problemas deri- vados de la composición del DNA. En contraste con la automatización de la fase de secuenciación al azar, esta fase de acabado es u n proceso lento y complejo que requiere mucha mayor atención por parte del investiga- dor. 6. Verificación de la secuencia Una vez terminado el ensamblaje se analiza la secuencia generada para determinar las presencia y el orden correcto de los marcadores co- nocidos de ese clon (como STS, sitios de corte de enzimas de restricción o (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 17. Secuenciación de genomas 301 genes previamente localizados en esa región). Este paso es crucial para poder detectar errores cometidos en cualquiera de los procesos de la de- terminación de la secuencia del clon. 7. Ensamblaje de la secuencia del genoma Finalmente, y siguiendo el orden determinado durante la elaboración del mapa físico, las secuencias de los clones BAC se ensamblan para ge- nerar la secuencia completa del genoma. Este método de secuenciación se h a empleado para la obtención de la secuencia completa de los genomas de la levadura S. cerevisae, el nema- todo C elegans y la planta A. thaliana. Sin embargo, su uso m a s notable h a sido en la obtención de la secuencia completa del genoma humano re- alizado por el Proyecto Genoma Humano, que el 14 de Abril de 2003, 50 años después de que Watson y Crick determinaran la estructura del DNA, dio por finalizada la secuencia. Esta proyecto de secuenciación se h a realizado mediante u n riguroso proceso de secuenciación jerárquica al azar. La Secuencia de Referencia posée u n nivel de precisión elevado (menos de u n error por cada 10 000 bases) y comprende alrededor del 99 % de la secuencia total del genoma, correspondiendo los únicos vacíos restantes a regiones de los centrómeros y telomeres que, con las técnicas actuales, se consideran imposibles de clonar y secuenciar con fiabilidad. S e c u e n c i a c i ó n al azar d e t o d o el g e n o m a La estrategia de secuenciación al azar de todo el genoma es más sen- cilla conceptualmente. E n esta estrategia (Figura 6) el genoma completo se ensambla a partir de lecturas obtenidas al azar, eliminándose la ne- cesidad de construir mediante clones de gran tamaño u n m a p a físico. Este procedimiento comienza con la purificación y rotura al azar del DNA del genoma que queremos secuenciar. Posteriormente se constru- yen librerías de fragmentos de al menos tres tamaños diferentes (por ejemplo de 2, 10 y 50 kb). El DNA de clones elegidos aleatoriamente de estas librerías se purifica y se obtiene la secuencia de los extremos de los fragmentos del genoma clonados. Este proceso de secuenciación continua hasta que se h a obtenido u n a elevada redundancia (mayor que en la es- trategia de secuenciación jerárquica). En este método es clave, para po- der evitar los problemas derivados de posibles secuencias repetidas en el genoma, obtener parejas de lecturas de los extremos de la mayor canti- (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 18. Javier María Rodríguez Martínez 302 Construcción de librerías al azar de varios tamaños de todo el genoma Obtención de la secuencia de los extremos de los fragmentos Ensambtáje de las secuencias acgtt, acgtgcatagca ...-acKtgcatagça " >? acgtgcatag«î^''' acgtgcafagca acgtgcatagca/ """^cgtgcatagcag^^ ^ acgtgcatagca acgtE, _ _ _ _ contigs acgtgcatagca acgtgéatagca acgtgcatagr- ^tagca acgtgcatagca acgtgcatagca ^ - -* acgigcatagca acgtgcatagca acgtgcatagca acgtgcatagca acgtgcatagca acgtgcatagca acgtgcatagca acgtgcatagca acgtgcatagca Acabado Verificación de la secuencia jClgtgctgactgccgtgatgctagglcBgateafgacalagctgcafagcatagcaagatacagatBcagagacatBgacatagacagatttagacagatócagatagatatagatacagatacagatacat ,atagatacgoctoclagcgacatcgactacts. ^acaaaatccaccytgtacîsccgtgaîgctaggtcagatcataacataoctgcatagcalagcaagatacaijatacaaagacatagacalagscagamagacagatacâaatagatatagatacagatacai àtacalagacatagatacgactactagcgacaSc UcgactactgartacgatgcgtUKactgccgtgatsctagglcagatcatgacataaclBcaliigcatngcaagatacagatacagagacatasacatag.icagatttagacagatacagatagatatagstìc? catara -atcsacíacIgaclscgaagcgcttactaacígccgtgatgctsggtcagatcaJgacatagclBcataacatagcaagatacaaatacBgagacatagacatagacagatttagacagatacagatagatat- •acagatacagataeatagacatagalacga Secuencia de nucleótidos del genoma FIGURA 6. Secuenciación al azar de todo el genoma. En esta estrategia, el genoma completo se ensambla a partir de lecturas al azar obtenidas de todo el genoma, eli- minándose la necesidad de construir un mapa físico a partir de clones de gran tamaño. (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 19. Secuenciación de genomas 303 dad posible de fragmentos. Aquí, la distancia conocida entre las parejas de lecturas es esencial para el proceso de ensamblaje de las secuencias, ya que carecemos de cualquier otro tipo de información posicionai. Una vez obtenida la redundancia requerida, se ensamblan las lecturas me- diante potentes programas de ordenador, capaces de manejar u n núme- ro muy elevado de lecturas (mas de 27 millones en el caso del ensambla- je del genoma humano). Los proyectos de secuenciación realizados con esta técnica h a n pues- to de manifiesto que, para el posterior éxito del ensamblaje de las se- cuencias, es esencial construir varias librerías de fragmentos de todo el genoma con tamaños muy diferentes, que cumplen diferentes misiones durante el proceso de ensamblaje por ordenador. Las librerías de pe- queño tamaño (aproximadamente 2 kb) son sobre las que se realiza la mayor parte de la secuenciación. Las librerías de tamaño medio (aproxi- madamente 10 kb) suministran parejas de lecturas que son esenciales para la construcción de los contigs y para deducir la orientación y el or- den de unos contigs con respecto a otros. Las librerías de gran tamaño (aproximadamente 50 kb) permiten obtener parejas de lecturas muy ale- jadas entre si que son necesarias para evitar los problemas derivados de bloques de secuencias repetidas, además de suministrar información a una escala mayor sobre la organización de los contigs. Este método de secuenciación se aplico por primera vez a u n organis- mo eucariota durante la secuenciación del genoma de D. melanogaster. En este proyecto se obtuvo prácticamente toda la secuencia de la parte eucromática del genoma. Sin embargo es importante señalar que la eta- pa final de refinamiento de la secuencia de este genoma se realizó me- diante el uso de u n m a p a físico de clones de BAC. La aplicación más destacada de esta estrategia h a sido la secuencia- ción del genoma humano, realizada por la empresa Celera Genomics, que puso de manifiesto tanto las ventajas como las debilidades de esta estra- tegia para la secuenciación de genomas eucarióticos. La ventaja funda- mental es la velocidad con la que se obtiene u n a gran cantidad de se- cuencia, suficiente como para tener una idea bastante aproximada de la práctica totalidad del genoma, al no ser necesario el paso previo de cons- trucción de u n m a p a de clones. Celera Genomics realizo 27.271.853 se- cuencias con u n total de 14.8 10^ bases leídas, aproximadamente 5.11 ve- ces la secuencia del genoma humano en solo 9 meses. Sin embargo, para el posterior ensamblaje de estas lecturas y sobre todo para la localización de los contigs resultantes tuvo que recurrir a datos externos, fundamen- talmente a los mapas físicos del genoma previamente realizados por el Proyecto Genoma Humano. Por otro lado Celera renunció al acabado de (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 20. Javier María Rodríguez Martínez 304 la secuencia, probablemente porque para realizarlo hubiera sido necesa- rio disponer, como en el caso de D. melanogaster, de u n m a p a físico del genoma realizado mediante BACs. Esta estrategia se emplea de forma rutinaria para la secuenciación de genomas de organismos procariotas relativamente pequeños (0.5 a 6 Mb) y con pocas repeticiones. Se empleó por primera vez para la secuencia- ción del genoma de la bacteria Haemophilus influenciae. Método h í b r i d o Este método pretende aprovechar lo mejor de las dos técnicas descri- tas anteriormente: la rapidez del método de secuenciación al azar para obtener u n a gran cantidad de secuencia y la capacidad del método jerar- quizado p a r a minimizar la influencia de las repeticiones, junto con la ventaja de poseer de u n mapa físico del genoma realizado mediante BACs para el posicionamiento correcto de los contigs y el proceso de aca- bado de la secuencia (Figura 7). E n esta estrategia se comienza secuenciando el genoma mediante la modalidad de secuenciación al azar de todo el genoma. Simultáneamen- te se construye u n a librería de clones y se realiza u n m a p a físico con ellos. De esta forma, con la secuenciación inicial podemos tener u n a idea aproximada de la organización del genoma, de la abundancia y carac- terísticas de las repeticiones presentes, así como de las dificultades que estas repeticiones pueden plantear en el ensamblaje. U n a vez obtenido el m a p a físico se seleccionan los clones de BAC adecuados y se procede a su secuenciación al azar. El ensamblaje se realiza de forma indepen- diente p a r a cada uno de los clones en que hemos dividido el genoma, como en la estrategia de secuenciación al azar jerárquica. La diferencia en este método es que a las lecturas procedentes de cada clon se les unen las procedentes de la secuenciación al azar de todo el genoma que co- rresponden al fragmento que vamos a ensamblar. P a r a identificar estas últimas, todas las lecturas del proyecto de secuenciación al azar de todo el genoma se comparan con las lecturas procedentes del clon BAC y se adicionan aquellas que solapan. De esta forma se a u m e n t a la redun- dancia en el ensamblaje de cada uno de los clones. El proceso de acaba- do se realiza de igual forma que en el método de secuenciación jerárqui- ca. Existe u n consenso sobre la necesidad de u n a redundancia de 8 a 10 veces la secuencia del genoma completo si se pretende conseguir una se- cuencia final de alta calidad. Sin embargo, en el método híbrido esta por (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 21. Secuenciación de genomas 305 Fase similar a la secueíiclacién Fase similar a la secuenciaclóìi jerárquica ^.-'•''' al azar de todo el genoma Ensamblaje, acabado y verificacmn realizado de forma mdepeodiente para cada u n o de los clones. i Ensamblaje da los clones secuenclados Secuencia de nucleótldos del genoma FIGURA 7. Método híbrido de secuenciación al azar de genomas. En este método se ob- tienen secuencias del genoma siguiendo las dos estrategias anteriores, la secuenciación al azar jerárquica (panel A) y la secuenciación al azar de todo el genoma (panel B). El en- samblaje (panel C) se realiza para cada uno de los clones en que se ha dividido el genoma en la parte jerárquica de este proceso juntando a las secuencias obtenidas de los clones, las secuencias correspondientes obtenidas del proceso al azar. El acabado de la secuencia de cada uno de los clones y la reconstrucción del genoma a partir de las secuencias indivi- duales de los clones se realiza como en la secuenciación al azar jerárquica. (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 22. Javier María Rodríguez Martínez 306 determinar la cantidad óptima de secuencia que es necesario conseguir mediante el proceso de secuenciación de todo el genoma frente a la que proviene de la secuenciación de los clones BAC. Los proyectos de secuen- ciación del genoma de la r a t a y del ratón, que se están llevando a cabo mediante esta técnica, es previsible que aporten datos sobre la relación optima de estas cifras. Otras a l t e r n a t i v a s A la hora de abordar la secuenciación de u n genoma nuevo es muy im- portante evaluar exactamente el uso se le va a dar a la secuencia obteni- da. Si el objetivo es obtener una secuencia de alta calidad, como en el caso de u n organismo modelo, el proceso a seguir dependerá del tamaño, pre- sencia y complejidad de las repeticiones del genoma. P a r a genomas pe- queños con u n número limitado de repeticiones la estrategia de secuen- ciación al azar directa es la más adecuada. P a r a genomas grandes con un elevado número de repeticiones la estrategia híbrida debe ser la elegida para garantizar la fìabilidad del proceso de acabado de la secuencia y mi- nimizar el número de errores de ensamblaje debidos a la presencia de re- peticiones. Aunque siempre es deseable tener la secuencia completa de un or- ganismo, el elevado coste de la secuenciación de u n genoma complejo hace imposible disponer de las secuencias necesarias p a r a el análisis comparativo de la secuencia de muchos genomas. La preparación de u n a secuencia de calidad media (lo que se denomina u n borrador) de u n genoma de u n mamífero cuesta mas de 50 millones de euros. Por ello, para realizar estudios comparativos de genomas de muchos organismos es necesario restringirse a regiones concretas del genoma. Esta se- cuenciación dirigida se realiza mediante secuenciación al azar de clones de BAC que contienen las regiones de interés de los distintos organis- mos. Otra técnica empleada cuando nos interesa realizar un estudio com- parativo de los genomas de especies estrechamente relacionadas es lo que se denomina secuenciación de baja redundancia. Consiste en realizar un examen de los genomas de los diferentes organismos secuenciando un número aproximadamente 20 veces inferior de secuencias de las que se- ria necesario obtener para construir un borrador del genoma. Esta técni- ca presenta muchas limitaciones pero resulta extremadamente rápida y asequible para la caracterización y comparación de especies muy relacio- nadas entre si. (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 23. Secuenciación de genomas 307 Más allá de l a s e c u e n c i a del g e n o m a Aunque en estos 30 años transcurridos desde la invención de los mé- todos de secuenciación la técnica se h a modificado considerablemente (disminuyendo, por ejemplo, el coste por base secuenciada en u n factor de 100 veces en los últimos 10 años), estas modificaciones h a n sido básica- mente mejoras de la técnica original, sin que se haya producido ningún cambio radical. Actualmente el esfuerzo se centra en el desarrollo de tec- nologías que permiten disminuir drásticamente el volumen de las reac- ciones de secuenciación y los tiempos necesarios para realizar la separa- ción electroferética de las moléculas. Se están explorando también métodos radicalmente distintos como la pirosecuenciación o la secuen- ciación basada en espectrometría de masas. Una verdadera revolución podría venir de la mano de la nanotecnologia donde, mediante las tecno- logías del campo de la biofísica de nanoporos, se están desarrollando pro- yectos dirigidos a obtener la secuencia completa de u n a única molécula de DNA. Estos métodos, aunque interesantes, están aún en fases t a n pre- liminares que no permiten siquiera aventurar sus posibilidades prácticas en la secuenciación a gran escala. Aunque la secuenciación del genoma es el objetivo fundamental de la genómica estructural, constituye el punto de partida necesario para com- prender como funciona el genoma de u n organismo. Habitualmente se habla del genoma como de el «libro de la vida». Lo que nunca se dice es que tipo de libro es. Desde luego, no se t r a t a de un m a n u a l de instruc- ciones fácilmente comprensible. Quizás u n símil más adecuado fuera el de un libro de notas de u n fabuloso ingeniero. Un cuaderno escrito en un lenguaje incomprensible, lleno de tachaduras, borrones, correcciones apresuradas y dibujos realizados mientras habla por teléfono. Dispersas entre ellas hay algunas anotaciones, sin ningún orden aparente, que des- criben con u n a precisión absoluta los componentes necesarios para cons- truir y mantener en funcionamiento un organismo. Sin embargo en este cuaderno de notas no existe ninguna indicación comprensible sobre la forma en que todos estos componentes tienen que ensamblarse para que el organismo funcione. El objetivo de la genómica funcional, para seguir con el símil anterior, es el de descifrar ese cuaderno de notas y construir, a partir de sus ano- taciones, un «manual del usuario del genoma», comprensible para los hu- manos. Entre las tareas a las que se enfrenta la genómica funcional, to- mando como ejemplo el caso del genoma humano, se encuentran: i. Identificar l o s c o m p o n e n t e s e s t r u c t u r a l e s y f u n c i o n a l e s del g e n o m a . Aunque la composición y características químicas (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 24. Javier María Rodríguez Martínez 308 del DNA son bien conocidas, la estructura del genoma humano es extraordinariamente compleja. Únicamente u n 1-2% de su se- cuencia codifica proteínas, y ni siquiera están identificadas con seguridad todas ellas. Aproximadamente u n a cantidad equiva- lente al doble del conjunto de secuencias codificantes se encuen- t r a bajo presión evolutiva, lo que indica que son fimcionalmente importantes, y sin embargo no conocemos prácticamente nada de sobre su fimción. Probablemente en ese otro 2% del genoma se encuentran los elementos que regulan la expresión de los aproximadamente 30.000 genes que codifican proteínas, junto con toda u n a serie de genes no codificantes y de secuencias de- terminantes de la estructura y ñmcionamiento de los cromoso- mas. Todavía se conoce menos sobre la posible fianción del apro- ximadamente 50% del genoma que consiste en secuencias repetidas, o del resto del genoma integrado por secuencias no co- dificantes y no repetidas. ii. Definir c o m o i n t e r a c t u a n l o s c o m p o n e n t e s del g e n o m a a n i v e l g e n e t i c o y proteico. Los genes y sus productos, las pro- teínas, no actúan de forma aislada sino que forman parte de ru- tas, redes y sistemas que, en conjunto, dan lugar y mantienen en funcionamiento las células, los tejidos y los organismos. Para com- prender como funciona un organismo es imprescindible entender el funcionamiento de estos sistemas y conocer sus propiedades e interacciones. Sin embargo, dichos sistemas como conjunto son mucho mas complejos que cualquier problema abordado antes por la biología molecular, la genética o la genómica. iii. D e s a r r o l l a r u n c o n o c i m i e n t o d e t a l l a d o d e l a v a r i a c i ó n h e r e d i t a r i a e n el g e n o m a h u m a n o . Los mayores avances en la genética h u m a n a se h a n producido sobre características he- reditarias asociadas con modificaciones dependientes, en gene- ral, de u n único gen. Sin embargo la mayor parte de los fenoti- pos, incluyendo enfermedades comunes o las respuestas a agentes farmacológicos, son mucho más complicados y dependen de u n a compleja interacción de factores genéticos (los genes y sus productos) y no genéticos (influencias ambientales). Para comprender como ocurre esta interrelación es necesario conocer la variación genética de la especie h u m a n a y desarrollar las he- r r a m i e n t a s analíticas necesarias para emplear este conocimien- to en la determinación de las bases genéticas de las enfermeda- des. (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 25. Secuenciación de genomas 309 iv. D e t e r m i n a r l o s m e c a n i s m o s c a u s a n t e s d e l a v a r i a c i ó n e v o l u t i v a e n t r e e s p e c i e s . El genoma es u n a estructura diná- mica que esta continuamente sujeta a las modificaciones causa- das por los mecanismos evolutivos. Estos mecanismos, actuando a lo largo de millones de años, son los responsables de la secuen- cia de los genomas de los organismos que actualmente forman nuestra biosfera. U n a comprensión profunda del funcionamiento del genoma solo es posible con u n conocimiento paralelo de las di- ferencias de secuencias entre especies y de los procesos y meca- nismos responsables de la aparición de estas diferencias a lo lar- go del tiempo. Bibliografía Estructura y composición de los genomas BROWN, T . A: Genomes. 2nd ed.. Oxford, UK: BIOS Scientific Publishers Ltd; 2002. El tex- to completo de este libro de texto se puede consultar online gratuitamente en el NCBI Bookshelf (http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Books). LoDiSH, HARVEY; BERK, ARNOLD; ZIPURSKY, S. LAWRENCE; MATSUDAIRA, PAUL; BALTIMORE, DAVID; DARNELL, JAMES E: Molecular Cell Biology. 4th ed. New York: W. H. Free- m a n & Co.; cl999. También disponible online en el NCBI Bookshelf de forma gra- tuita. Secuenciación. Artículos técnicos SANGER, F., NICKLEN, S. & COULSON, A. R. DNA sequencing with chain-terminating inhi- bitors. Proc. Natl Acad. Sci. USA 74, 5463-5467 (1977). SMITH, L . M . et al. Fluorescence detection in automated DNA sequence analysis. Nature 321, 674-679 (1986). HUNKAPILLER, T . , KAISER, R . J., KOOP, B . F . & HOOD, L . Large scale and automated DNA sequence determination. Science 254, 59-67 (1991). MELDRUM, D . Automation for genomics. L Preparation for sequencing. Genome Res. 10, 1081-1092 (2000). MELDRUM, D . Automation for genomics. XL Sequencers, microarrays, and future trends. Genome Res. 10,1288-1303 (2000). Métodos para la secuenciación a gran escala Genome Analysis: A Laboratory Manual. 1. Analyzing DNA (eds BIRREN, B . et al.) Cold Spring Harbor Laboratory Press, Cold Spring Harbor, New York, 1997. Genome Mapping and Sequencing, (ed IAN DUNHAM The Sanger Centre, Cambridge) Ho- rizon Scientific Press. 2003. (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)
  • 26. Javier María Rodríguez Martínez 310 Secuencia del genoma humano B a s e s d e d a t o s c o n la S e c u e n c i a de R e f e r e n c i a y i n f o r m a c i ó n e x h a u s t i v a sobre el g e n o m a h u m a n o Sanger Institute - http://www.ensembl.org/Homo_sapiens/ NCBI- http://www.ncbi.nlm.nih.gov/genome/guide/human/ Trabajos d e s c r i b i e n d o el borrador de la s e c u e n c i a del g e n o m a h u m a n o International H u m a n Genome Sequencing Consortium. Initial sequencing and analysis of the h u m a n genome. Nature 409, 860-921 (2001). VENTER, J. C. et al. The sequence of the human genome. Science 291, 1304-1351 (2001). Secuencia de organismos modelo Bacteria: H. influenzae FLEISCHMANN, R . D . et al. Whole-genome random sequencing and assembly of Haemop- hilus influenzae Rd. Science 269, 496-512 (1995). Levadura: S. cerevisie GOFFEAU, A. et al. The yeast genome directory. Nature 387, S1-S105 (1997). Nematodo: C elegans The C. elegans Sequencing Consortium. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science 282, 2012-2018 (1998). Mosca del v i n a g r e : D. melanogaster MYERS, E . W . et al. A whole-genome assembly of Drosophila. Science 287, 2196-2204 (2000). Planta: A, thaliana The Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plant Arabidopsis thaUana. Nature 408, 796-815 (2000). Raton: M. inusculus Mouse Genome Sequencing Consortium. Initial sequencing and comparative analysis of the mouse genome. Nature. 2002 Dec 5;420(6915):520-62 Rata: R. norvégiens Rat Genome Sequencing Consortium.Genome sequence of the Brown Norway rat yields insights into mammaHan evolution. Nature. 2004 Apr 1;428(6982):493-521. Otros o r g a n i s m o s Un listado actualizado de los proyectos de secuenciación de organismos modelo se puede encontrar en : http://www.ncbi.nlm.nih.gov/Genomes/index.html (c) Consejo Superior de Investigaciones Científicas http://arbor.revistas.csic.es Licencia Creative Commons 3.0 España (by-nc)