2. Introducción
genética heredable del núcleo celular, los
El genoma o secuencia completa de ADN
de un organismo constituye la información
plásmidos, la mitocondria y cloroplastos.
Secuenciar es determinar el orden en que
se enlazan las bases de dicha secuencia.
Los tremendos avances de las técnicas de
secuenciación del ADN permiten hoy en día
leer el ADN a gran velocidad lo que ha
llevado a abordar proyectos a gran escala
como el Proyecto Genoma Humano. Pero
además se dispone ya de la secuencia
completa de ADN de muchos genomas de
animales, plantas y microorganismos.
3. Definiciones (1)
El genoma es el material genético almacenado
en cada una de las células de un organismo.
El término “secuencia” designa la composición
de nucleótidos de un trozo deADN o la de
aminoácidos de una proteína. Ese trozo de ADN
puede corresponder a un gen, un genoma, o a
una parte de ellos.
Como verbo, “secuenciar” es determinar la
estructura de una secuencia deADN, es decir, el
tipo y orden de sus nucleótidos.
Curiosidades: El ADN es una molécula muy larga, que se enrolla en el
interior de los microorganismosy núcleos celulares. Un adulto humano
tiene aprox. entre 10 y 50 billones de células (1000'000'000'000) Si se
desenrollara y pusieran en fila los cromosomasen cada una de ellas la
longitud total del ADN sería de unos 2 metros. Si se sumara la longitud
del ADN de todas las células de una sola persona se podría rodear la
circunferencia terrestre 500,000 veces.
Todos los organismos vivos están compuestos de células, y
cada una de ellas contiene toda la dotación genética (ADN)
del organismo. Para obtener el genoma basta secuenciar
una sola copia del ADN, que en el caso humano es de unos
3.400 millones de bases. Al ser de doble hebra se dice
pares de bases (bp).
4. Definiciones (2)
Un plasmido, es una pieza deADN, pequeña y circular que se
encuentra frecuentemente en bacterias. Esta molécula, debido a los
genes que porta, puede por ejemplo ayudar a la bacteria a
sobrevivir en presencia de un antibiótico.
BAC es el acrónimo de “Bacterial Artificial Chromosome” y en principio se
usa como los plásmidos, pudiendo construir BAC que porten ADN
humano, de ratón, etc., e insertarlos en una bacteria que hace de
hospedaje. Al igual que con los plásmidos, al proliferar la bacteria también
se replican los BACs. En este caso se trata de entre 100 a 400 kb que
pueden ser replicadas fácilmente usando BACs y ésta ha sido una de las
formas en que se ha clonado grandes porciones del genoma humano
Los plásmidos son importantes porque se pueden (1) aislar en grandes
cantidades, (2) cortar, dividir e insertarles cualquier pieza de ADN, (3)
devolverlo nuevamente a la bacteria donde se replicarán junto con el ADN
nativo y (4) ser aislados nuevamente, obteniéndose billones de copias del
ADN que se les insertó. Su tamaño varía entre los 2.5 y las 20 Kb
5. Recombinación del ADN
Las técnicas de recombinación delADN permiten transferir parte
deADN de un organismo (normalmente el que se está estudiando)
a otro más simple de manipular y reproducir, como una bacteria.Al
reproducirse la bacteria se reproduce el trozo de ADN en estudio
que luego se puede volver a separar (con lo que se tienen grandes
cantidades deADN) y estudiar en detalle.
[ 3 ] El vector de inserta en la célula e incorpora los genes que porta
en elADN de la célula
[ 4 ] Si la célula acepta los genes extraños, los pasará a sus células
hijas en el proceso de división celular
[ 1 ] El ADN queda separado en los
puntos de corte exponiendo sus
bases nitrogenadas
[ 2 ] Se usa ADN ligasa para unir el
trozo de ADN de la insulina y del
plásmido de E.Coli
[ 0 ] Las enzimas de restricción permiten la separación (corte) del
ADN en posiciones específicas que reconoce (no necesariamente
alineadas). La línea roja representa el punto de corte de una enzima
sobre la insulina –a la izquierda- y el plásmido bacterial de E. Coli.
Para secuenciar necesitamos una buena cantidad de ADN, por lo que es necesario
hacer muchas copias del mismo. Para ellos se usan bacterias que crecen y se
dividen rápidamente, pero antes necesitamos incorporar el ADN a estudiar en ellas.
6. ¿Cómo se secuencia el ADN?
Las reacciones para secuenciar el ADN son similares a
cualquier reacción PCR (Polimerasa Chain Reaction). La
mezcla incluye una muestra de ADN, nucleótidos libres,
una enzima (generalmente una variante de la Taq
polimerasa) y un “primer” (una pieza pequeña –de 20 a 30
nt- de ADN de una sola hebra) que se pueda es capaz de
hibridar con una de las hebras de la muestra de ADN.
Se calienta la mezcla para separar las dos hebras de ADN,
lo que permite que el “primer” se ligue a la zona deseada y
laADN-polimerasa inicie la elongación del primer.
Si el trabajo se realizara sobre una muestra de un billón de
copias idénticas de ADN se obtendría un billón de copias
de una de sus hebras.
Históricamente hay dos métodos de secuenciación del ADN
• Maxam & Gilbert, o secuenciación química
• Sanger, que usa dideoxynucleotidos.
Hoy en dia el Método Sanger es el más usado en los
laboratorios (aparte de las técnicas de secuenciación masiva)
Sanger y Gilbert compartieron el Nobel de Química en 1980
7. El método Sanger (1)
Proyecto OpenCourseWare- UNIA> Bioinformática Básica. Dr. Oswaldo Trelles
Haciendo un símil con las piezas de un puzzle (4 tipos de
piezas que serían los nucleótidos normales que se unen para
formar elADN), los dinucléotidos de los cuales también hay
cuatro tipos (ACGT) les falta un borde y por lo tanto no
permiten que una nueva pieza se enganche a él, deteniendo
la replicación delADN.
A la izquierda se muestra un conjunto de piezas normales,
cuyo perfil se dibuja al lado. A la derecha la representación
de lo que sería su correspondiente dinucleótido
Los dideoxynucleotidos son moléculas similares a los nuclétidos normales
pero les falta un grupo –OH lo que impide que otros nucleótidos se unan a él
deteniendo la replicación delADN.
En el método Sanger sin embargo, las reacciones se realizan
en presencia de un dideoxyribonucleotido. Éste es como
cualquierADN regular, salvo que no tiene el grupo hidroxil 3',
por lo que, una vez que se añade al final de una cadena de
ADN, no tiene forma de continuar su crecimiento
8. El método Sanger (2)
La clave del método está en que la mayor parte de los
nucleótidos son regulares y que solo una pequeña
fracción de ellos son dideoxy nucleotides.
Así al replicar hebras de ADN en presencia de dideoxy-T,
la mayor
para la
correcta,
parte de las veces cuando se necesite una 'T'
nueva hebra, la enzima encontrará una T
y la replicación continuará añadiendo más
nucleótidos.
Sin embargo, un porcentaje de las veces (proporcional a
la cantidad de dideoxy-T que se haya incluido) la enzima
colocará un ddT y el crecimiento de la hebra se detendrá.
La Electroforesis en Geles se usa para separar fragmentos por su tamaño.
Los productos de una determinada reacción (hebras de diferente tamaño) se
colocan en el gel y se induce su movimiento por carga eléctrica.
Los fragmentos pequeños se mueven poco (poca carga) mientras que los mayores
aparecen en la parte superior.
Ahora con un dispositivo capaz de leer imágenes (o geles) como un escáner y
estimando la carga de los fragmentos es posible deducir las posiciones de las
Timinas (T) en la secuencia original.
9. El método Sanger (3) Al colocarse los trozos replicados en el gel se observa
una figura como la de la izquierda (en la que se ha
coloreado cada nucleótido).
Para secuenciar ADN, se hace la reacción en
presencia de pequeñas cantidades de los 4
terminadores dideoxi. Luego se usa un gel para
separar los resultados y a partir de él se lee la
secuencia usando el código de colores (usualmente
rojo, verde, azul y amarillo) con que se han marcado
los dd. Pueden haber hasta 96 pistas de muestras
corriendo en un gel , que podría llegar a tener entre 3
y 4 metros de largo por unos 30 a 40 cms. de ancho.
El espacio entre bandas no es tan claro como sería
deseable, sino que aparece más como en la figura
El ordenador interpreta la imagen de cada pista del gel
obteniendo la intensidad media de cada fila/columna
color dominante que permite deducir de que
nucleótido se trata.
De esta forma se reconstruye la secuencia de ADN en
lecturas de fragmentos alrededor de 700 nucleótidos.
10. Secuenciación con tecnologías de alto rendimiento
Secuenciación con tecnologías de alto rendimiento (HTS)
Applied Biosystems
ABI 3730XL
1 Mb / day
Roche / 454
Genome Sequencer FLX
100 Mb / run
Illumina / Solexa
GeneticAnalyzer
2000 Mb / run
Applied Biosystems
SOLiD
3000 Mb / run
Un genoma bacteriano tiene aproximadamente 6.5 MB (millones de bases
de DNA).
En algo más de dos días es posible, con uno solo de estos secuenciadores,
leer alrededor de 30 millones de pares de bases (30 M bp) a un ritmo de 140
bp por segundo y a un costo aproximado de $0.11 por KB (kilo bases o
miles de bases). Con ello tendríamos 5 lecturas para comprobar.
Para hacernos una idea de la rapidez
con que evoluciona la tecnología,
observemos en las figuras el ABI-3730
deApplied Biosystems, posiblemente el
más utilizado en la secuenciación del
genoma Humano, con una capacidad
de 1 Mb por día (Un millón de bases).
El AB-SOLID actual, en menos de 10
años ha multiplicado por 1000 la
capacidad de secuenciación
11. Dr. Oswaldo Trelles
Next Generation Sequencing
Next Generation Sequencing
(NGS)
Illumina / Solexa
Genome Analyzer
3 columnas por pista
36 ciclos
350x350 resolución
Números de Solexa
8 pistas en cada flowCell
110 posillos por columna
1 adquisición (imágenes) por ciclo
1 imagen por cada base (4 bases)
4 MB por cada imagen
8 x 3 x 110 x 36 x 4 x 2 MB = 760 GBytes
Aplicaciones
· Identificación de anormalidades
cariotípicas, tales como: trisomía,
monosomía, deleciones e inversiones
(cariotipado molecular)
· Nuevas técnicas de diagnóstico
· Mejorar el conocimiento sobre:
· Los mecanismos de regulación del
desarrollo humano
· La biología de sistemas en las
células humanas
· Demanda y cobertura de nuevos métodos
bioinformáticos, por ejemplo para estimar
las alteraciones delADN (DNAAberrations –
Copy Number Variations -CNVs) usando
arrays de SNPs y secuencias (NGS)
12. Armando el puzzle
Y mediante un proceso exhaustivo y largo se
van alineando los fragmentos y mediante el
solapamiento se van estirando o alargando los
fragmentos... la secuencia empieza a tomar
forma
En una primera etapa se lee el espectrograma para
identificar las bases del ADN de cada fragmento. Según la
tecnología usada, la longitud de los fragmentos va de unas
pocas decenas de bases a algunos cientos.
13. Ensamblando los fragmentos
Se dan casos en que dos grupos de
“contigs” (fragmentos similares) encuentran
otros fragmentos que solapan entre ellos
permitiendo unir los “contigs” y así ir
estirando la secuencia.
En otros casos no es posible encontrar
esas secuencias entremedias y aparecen
los huecos o gaps sin secuenciar
Para poder completar genomas es
necesario ensamblar las piezas.
El ensamblaje de los fragmentos de
ADN para reconstruir la secuencia
completa original se utilizan programas
de ordenador.
Estos programas realizan el encaje de
fragmentos basado en el solapamiento
de los mismos.
14. Software para ensamblado del ADN
Software para ensamblado del ADN
Phred / Phrap /Consed
Como se ha mencionado, para el ensamblaje de los fragmentos deADN para reconstruir la secuencia
completa original se utilizan programas de ordenador que realizan el encaje de fragmentos basado en el
solapamiento de los mismos.
Aunque estos programas están sufriendo una tremenda actualización para resolver los problemas
técnicos que plantea el manejo de los datos de la secuenciación masiva, conceptualmente representan
los pasos a seguir.
Las particularidades del software, su interfaz, etc. Es simple de entender si se entiende que es lo que
hace o debe hacer cada programa.
15. Qué es phred/ phrad/ consed?
Phred/Phrap/Consed es un paquete de software utilizado para:
•
•
•
Leer cromatogramas (trace files)
Asignar valores de calidad a las bases individuales de una secuencia
Identificar y enmascarar secuencias correspondientes a vector (plásmido)
secuencias repetitivas
o
•
•
•
Ensamblar secuencias individuales en contigs
Visualizar assemblies (contigs)
Hacer ‘sequence finishing’ auto
automática)
dirigido (automatic finishing o finalización
Más información en : www.phrap.org
16. Por qué hay que ensamblar
1000 pb (límite de resolución de la electroforesis)
(cromosomas) hay que fragmentarlo produciendo bibliotecas de
se seleccionan al azar, se obtienen lecturas de los extremos y se
Whole genome
BAC/cosmid clone
DNA fragmentation
sonic disruption
nebulization
• Los métodos actuales de secuenciación generan lecturas de 300-
Small fragments
1.0 - 2.0 kb
• Para secuenciar un genoma, o cualquier segmento largo de DNA
Clone library
pUC18 clones.
DNA sequencing
random clones
• En la estrategia conocida como ‘shotgun sequencing’ los clones
Partial Assembly
contigs
ensamblan para obtener la secuencia final
Finishing
quality
both stands coverage
gap filling
Whole genome
BAC/cosmid clone
final consensus sequence
El workflow o flujo de trabajo muestra las
etapas en un proyecto de secuenciación
17. Phred: el identificador de bases (basecaller)
lectura) con una tasa de error
Genome Res 8 (1998): 175
Genome Res 8 (1998): 186
Phred realiza las siguientes tareas:
• Lee cromatrogramas, compatible con
diversos formatos: SCF (standard
chromatogram format),ABI
(373/377/3700), ESD (MegaBACE) y LI-
COR.
• Identifica cada base asignando
atributos a cada una de ellas (pico en la
razonablemente baja.
• Asigna valores de calidad a cada base
–el valor “Phred” en base a la
estimación del error calculado para
cada base.
• Crea un fichero con los resultados:
base y calidad.
18. Phrap: el ensamblador
Phrap ensambla secuencias de DNAobtenidas
en los proyectos de secuenciación al azar
(shotgun: a “perdigones” literalmente)
Usa la información de calidad provista por phred
no hay necesidad de recortar las secuencias
Puede usar bibliotecas de secuencias repetitivas
(por ej Repbase) o usar datos sobre repeticiones
calculadas internamente
Mejor calidad de los resultados en presencia de
repeticiones
La secuencia final (contig) es un mosaico
formado por las regiones de mejor calidad de
cada secuencia
No es un consenso!
Puede manejar grandes conjuntos de datos (del
orden de cientos de miles de secuencias)
20. Aplicaciones (1)
La secuencia de nuestro genoma es 99.9% idéntico al de cualquier otro ser
humano. La diferencia del 0.1% (3 millones de bases) está representada por:
...
...
...
...
...
...
AAACGTCTA
AAAC-TCTA
AAACGTCTA
AAAGCTCTA
AAACGTCTA
AAACATCTA
...
...
...
...
...
...
I n ser cion es / deleciones, I n ver sion es y P o lim o rfism o s de una sola
base “Single Nucleotide Polymorphisms o SNPs”
Cómo se det ect an ?: Por comparación de AND genómico
de distintos individuos (proyectos genoma)
proveniente
21. Aplicaciones (2)
Test de Paternidad:
Comparando la secuencia de ADN de madre e hijo es posible identificar fragmentos en el ADN del
hijo que no aparecen en la madre y por tanto deben haber sido heredados del padre.
Se comparan estos fragmentos adquiridos por via paterna con el ADN del sujeto del test.
Identificación de genes relacionados con enfermedades genéticas:
– Mayor rapidez
– Enfermedades multigénicas (SNPs)
• Diabetes
• Esquizofrenia
• Identificación y/o localización de genes de interés agronómico o veterinario.
• Desarrollo de vacunas
Farmacogenómica
• Uso de estrategias derivadas de la genómica para descubrir nuevos blancos
terapéuticos
• Identificar los genes que determinan la eficacia y toxicidad de medicamentos
específicos
Farmacogenómica (II)
• Medicina personalizada
– Determinar el perfil genético de cada individuo en cuanto a la sensibilidad a una
determinada droga
– Genes polimórficos involucrados en: metabolismo, transporte, blanco específicos,
receptores, enzimas, etc.
Bases de datos útiles
http://www.ncbi.nlm.nih.gov/
http://www.ncbi.nlm.nih.gov/Genomes/index.html
22. Propuesta final
Me animo a recomendar una lectura no-científica escrita por uno de los científicos
que más ha contribuido a secuenciar el genoma humano; Craig Venter.
El capítulo 5 de su libro “A life decoded. My Genome: My life” (“La vida
descodificada” en español en la Ed. Espasa-Calpe, 2008), contiene, entre otras
cosas, una descripción detallada del proceso de secuenciación de un genoma.
Estoy seguro que incluso os animará a leer el libro completo.
Consulta estos materiales para completar tus conocimientos