Alejandro tfm

Escuela Técnica Superior de
Ingenier´ıa Informática
Master Universitario en Lógica, Computación
e Inteligencia Artificial
Trabajo fin de Master:
Análisis genómico a través de herramientas
informáticas aplicadas a datos de secuenciación de
nueva generación
Autor:
Alejandro Alemán Ramos
Tutor:
D. Francisco Romero Campero
Sevilla, Viernes 1 de Julio de 2011

El proyecto que aqu´ı presentamos hace una revisión exhaustiva de una serie de
herramientas que han surgido en el contexto de la secuenciación de nueva generación.
Para ello se ha dividido dicho proyecto en dos partes claramente diferenciadas.
La primera parte trata sobre una revisión del software usado. Dentro del software usado
podemos destacar herramientas para indexar genomas, búsqueda de alineamientos en
genomas, herramientas para realizar análisis transcriptómicos cualitativos y
herramientas para realizar análisis transcriptómicos cuantitativos.
La segunda parte del proyecto se basa en la realización de una serie de experimentos
donde se muestra la utilización de dichas aplicaciones anteriormente mencionadas en la
parte primera, as´ı como de los resultados devueltos por dichas aplicaciones
3

Índice general
I Manuales de usuario 13
1. Bowtie 15
1.1. ¿Qué es Bowtie? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2. ¿Qué no es Bowtie? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3. Obtener Bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.1. Compilando desde los fuentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4. El alineador bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.1. El modo de alineación -n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2. El modo de alineación -v . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.3. Estratos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.4. Modos de representación de informes . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.5. Alineamiento de Extremos emparejados . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.6. Alineacion por Espacio de Colores . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.7. Optimización del rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.8. L´ınea de Comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.9. Salida por defecto de bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4.10. Salida en formato SAM de bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.5. El indexador bowtie-build . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.6. El inspector de ´ındices bowtie-inspect . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2. TopHat 37
2.1. ¿Qué es TopHat? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2. ¿Qué tipo de lecturas podemos usar con TopHat? . . . . . . . . . . . . . . . . . . . . . . . 37
2.3. ¿Cómo encuentra TopHat las uniones? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4. Prerrequisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5. Obtener e instalar TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6. Usando el mapeador de uniones TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.3. Opciones Avanzadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.6.4. Suministrando nuestras propias uniones . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6.5. Suministrando nuestas propias inserciones y deleciones . . . . . . . . . . . . . . . . 43
2.6.6. Proporcionando a TopHat un fichero de anotaciones . . . . . . . . . . . . . . . . . 43
2.7. Salida de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3. Cufflinks 45
3.1. ¿Qué es Cufflinks? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.1.1. ¿Cómo ensambla los transcritos Cufflinks? . . . . . . . . . . . . . . . . . . . . . . . 45
3.1.2. ¿Cómo calcula Cufflinks la abundancia de transcritos? . . . . . . . . . . . . . . . . 46
3.1.3. ¿Cómo calcula Cufflinks la distribución de la longitud de los fragmentos? . . . . . 46
3.1.4. ¿Cómo Cufflinks identifica y corrige el sesgo de las secuencias? . . . . . . . . . . . 47
3.1.5. ¿Cómo gestiona Cufflinks las lecturas con múltiples alineaciones? . . . . . . . . . . 47
5

3.1.6. ¿Cómo funciona la anotación de referencia basada en transcritos (RABT)? . . . . 47
3.2. ¿Qué es Cuffdiff? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.1. ¿Cómo prueba Cuffdiff la expresión diferencial y la regulación? . . . . . . . . . . . 48
3.2.2. ¿Cómo funciona la normalización del cuartil superior? . . . . . . . . . . . . . . . . 50
3.2.3. ¿Cómo trata Cuffdiff las réplicas biológicas? . . . . . . . . . . . . . . . . . . . . . . 50
3.3. Prerrequisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4. Ejecutando Cufflinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.2. Opciones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.3. Opciones avanzadas de estimación de la abundancia . . . . . . . . . . . . . . . . . 53
3.4.4. Opciones avanzadas de ensamblaje . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.5. Opciones avanzadas de anotaciones de referencia basada en Transcritos (RABT) . 54
3.4.6. Opciones avanzadas del programa de comportamiento . . . . . . . . . . . . . . . . 55
3.4.7. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.8. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.5. Ejecutando Cuffcompare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.5.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.6. Uniendo ensamblajes con Cuffmerge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.7. Ejecutando Cuffdiff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.7.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.7.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.7.3. Opciones avanzadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.8. Formato de seguimiento FPKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.9. Biblioteca de Tipos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4. SAMtools 69
4.1. ¿Qué es SAMtools? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2. Comandos y opciones de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
II Casos prácticos 75
5. Arabidopsis Thaliana 77
5.1. Genoma de la A. Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2. Indexación del Genoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3. Experimento SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.3.1. Lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.3.2. Ejecución de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3.3. Ejecución de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3.4. Ejecución de Cufflinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.3.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.4. Experimento SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.4.1. Lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.4.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6

5.5. Experimento SRX022366 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.5.1. Lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.5.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Apéndices 104
A. Formatos de ficheros 107
A.1. SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.1.2. Cabecera del formato SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
A.1.3. Campos obligatorios de la sección de Alineamientos . . . . . . . . . . . . . . . . . 109
A.1.4. Campos opcionales de la sección de alineamientos . . . . . . . . . . . . . . . . . . . 112
A.2. BAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.3. BED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.3.2. Campos obligatorios en el formato BED . . . . . . . . . . . . . . . . . . . . . . . . 114
A.3.3. Campos adicionales u opcionales en el formato BED . . . . . . . . . . . . . . . . . 114
A.3.4. Ejemplo de fichero BED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
A.4. FASTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
A.4.1. L´ınea de cabecera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
A.4.2. Representación de la secuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
A.5. FASTQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
A.5.1. Formato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
A.6. GFF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.7. GTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.7.2. Campos del formato GTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
A.7.3. Ejemplos del formato GTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Bibliograf´ıa 121
7

Índice de Figuras
5.1. Detalle de la Arabidopsis Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2. Ficheros del genoma de la A. Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3. Detalle del Cromosoma 1 de la A.Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4. Ficheros del Genoma indexado de la A.Thaliana . . . . . . . . . . . . . . . . . . . . . . . 79
5.5. Grafico del tamaño de las lecturas del exp SRP000615 . . . . . . . . . . . . . . . . . . . . 80
5.6. Detalle de las lecturas cortas del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . 81
5.7. Ficheros creados por Tophat en el exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . 83
5.8. Detalle del fichero junctions.bed del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . 83
5.9. Porcentajes de alineamientos en el exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . 84
5.10. Fichero accepted hits.sam del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.11. Fichero genes.fpkm tracking del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . 86
5.12. Tiempos ejecución exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.13. Expresión diferencial en el exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.14. Detalle de las lecturas cortas del exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . 89
5.15. Ficheros creados por Tophat en el exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . 90
5.16. Porcentajes de alineamientos en el exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . 91
5.17. Fichero accepted hits.sam del exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.18. Fichero genes.fpkm tracking del exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . 94
5.19. Tiempos ejecución exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.20. Expresión diferencial en el exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.21. Detalle de las lecturas cortas del exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . . 97
5.22. Ficheros creados por Tophat en el exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . 98
5.23. Detalle del fichero junctions.bed del exp SRX022366 . . . . . . . . . . . . . . . . . . . . . 99
5.24. Porcentajes de alineamientos en el exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . 99
5.25. Fichero accepted hits.sam del exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.26. Fichero genes.fpkm tracking del exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . 101
5.27. Tiempos ejecución exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.28. Expresión diferencial en el exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A.1. Ejemmplo de lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.2. Ejemplo de fichero SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
9

Índice de Tablas
3.1. Descripción del fichero transcripts.gtf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2. Descripción de un registro GTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3. Descripción del fichero .tracking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4. Descripción del fichero .refmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.5. Descripción del fichero .tmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.6. Código de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.7. Formato de los ficheros de expresión diferencial . . . . . . . . . . . . . . . . . . . . . . . . 64
3.8. Formato de los ficheros de unión diferencial . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.9. Formato de los ficheros de codificación diferencial de salida . . . . . . . . . . . . . . . . . 65
3.10. Formato de los ficheros de uso diferencial del promotor . . . . . . . . . . . . . . . . . . . . 66
3.11. Formato FPKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.12. Biblioteca de tipos de Cufflinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
A.1. Campos obligatorios del formato SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
A.2. Bits de la etiqueta FLAG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
A.3. Operaciones CIGAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
A.4. Campos opcionales del formato SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
A.5. Etiquetas predefinidas del formato SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
A.6. Códigos de ácidos nucléicos en el formato FASTA . . . . . . . . . . . . . . . . . . . . . . . 116
A.7. Códigos de aminoácidos en el formato FASTA . . . . . . . . . . . . . . . . . . . . . . . . . 117
11

Parte I
Manuales de usuario
13

Cap´ıtulo 1
Bowtie
1.1. ¿Qué es Bowtie?
Bowtie[13] es un sistema para alinear cadenas cortas que es extremadamente rápido y que tiene una
gestión de memoria eficiente. Está dirigido a alinear rápidamente grandes conjuntos de cadenas cortas de
DNA de grandes genomas. En el caso de tener un ordenador de caracter´ısticas t´ıpicas, Bowtie es capaz
de alinear cadenas de 35 pares de bases a un ritmo de 35 millones de lecturas por hora. Bowtie a la hora
de indexar el genoma se basa en la transformada de Burrows-Wheeler[3] para mantener en memoria una
pequeña huella del mismo: para el caso del genoma humano, el ´ındice suele ocupar unos 2,2 GB (para
la alineación sin parejas) o 2,9 GB (para la alineación de parejas finales o una alineación por espacio de
colores1
).
Para conseguir una mayor velocidad en la alineación se pueden usar múltiples procesadores para que
trabajen simultáneamente. Bowtie, además, produce las alineaciones en formato estándar de SAM 2
. , lo
que permite que Bowtie pueda trabajar con otras herramientas externas que soportan SAM, incluyendo
SAMtools consensus, SNP y Indel Callers. Bowtie se ejecuta a través de la l´ınea de comandos y es
multiplataforma. Los sistemas operativos soportados son: Windows, Linux, Mac OS X, Linux y Solaris.
Bowtie también se usa como base para otras herramientas, entre las cuales podemos incluir TopHat 3
; Cufflinks 4
; Crossbow, una herramienta de computación en la nube para resecuenciación de datos a gran
escala; y Myrna, otra herramienta de computación en la nube para el cálculo de expresiones diferenciales
de genes en grandes conjuntos de secuencias de RNA.
1.2. ¿Qué no es Bowtie?
Bowtie no es una herramienta de alineación de propósito general como pueden ser MUMmer 5
,
BLAST6
o Vmatch7
. Bowtie tiene un funcionamiento más óptimo cuando se alinean lecturas cortas en
genomas de gran tamaño, aunque admite también secuencias de referencia arbitrariamente pequeñas
(por ejemplo amplicones 8
) y lee cadenas de como máximo 1024 bases. Bowtie está diseñado para ser
extremadamente rápido con conjuntos de lecturas cortas donde:
a) muchas de las lecturas cortas tienen al menos una alineación, que es válida.
1Véase la sección 1.4.6 en la página 22 para más información
2Véase el apéndice A.1 en la página 107 para más información acerca del formato SAM
3Véase el cap´ıtulo 2 en la página 37 para más información sobre TopHat
4Véase el cap´ıtulo 3 en la página 45 para más información sobre Cufflinks
5Para más información acceda a la Web de MUMmmer http://mummer.sourceforge.net/
6Para más informacción acceda a la Web de BLAST http://blast.ncbi.nlm.nih.gov/Blast.cgi
7Para más informacción acceda a la Web de Vmatch http://www.vmatch.de/
8Un amplicón es un fragmento de DNA formado como producto de eventos de amplificación natural o artificial
15

b) muchas de las lecturas son de una calidad relativamente alta.
c) el número de alineaciones reportadas por cada lectura es pequeño (cercano a 1).
Bowtie aún no informa de alineaciones con huecos; es un trabajo futuro.
1.3. Obtener Bowtie
En la página oficial de Bowtie podrás descargar tanto los ficheros fuente de Bowtie como los binarios
ejecutables para su plataforma. Hay que comentar que Bowtie es multiplataforma. Las plataformas sopor-
tadas son Linux, Windows y Mac OS X; en el caso de los binarios. Además tenemos a nuestra disposición
versiones para arquitecturas Intel i386 y x86 64 (para procesadores de 32 y 64 bits respectivamente).
1.3.1. Compilando desde los fuentes
Para compilar Bowtie desde los ficheros fuentes deberemos tener un entorno similar a GNU el cual
contenga GCC, GNU Make y otras herramientas básicas para compilar código. En las plataformas Linux
y Mac es posible instalar fácilmente Bowtie siguiendo las instrucciones que están en la documentación del
proyecto. Para el caso de Windows deberemos usar Cygwin o MinGW que nos emulan un sistema GNU.
Desde el proyecto Bowtie se recomienda usar MinGW. En dicho caso tendremos que tener instalado
MSYS.
Para compilar Bowtie deberemos seguir los siguientes pasos:
1. Extraer los ficheros fuente.
2. Introducirnos dentro del directorio extra´ıdo.
3. Ejecutar el comando GNU make sin ningún argumento. Dependiendo del sistema será make o gmake.
En caso de usar MinGW, deberemos usar make desde la linea de comandos MSYS.
Si queremos que Bowtie soporte multithreading (opción “-p”), deberemos tener en el sistema instalada
la librer´ıa “pthreads”. Para compilar Bowtie sin pthreads (es decir, desactivar “-p”) deberemos usar make
BOWTIE PTHREADS=0.
1.4. El alineador bowtie
El comando bowtie recibe como entrada un ´ındice y un conjunto de lecturas cortas y como salida
muestra una lista de alineamientos. Los alineamientos son seleccionados de acuerdo a la combinación
elegida de las opciones -v/-n/-e/-l (incluyendo además las opciones -I/-X/–fr/–rf/ –ff para especificar el
alineamiento de extremos emparejados ), los cuales definen cuales de los alineamientos son legales, y las
opciones -k/-a/-m/-M/–best/–strata definen cuáles y cuántos alineamientos deberán ser reportados al
usuario.
Por defecto, Bowtie aplica una pol´ıtica de alineamiento similar a la pol´ıtica que lleva a cabo Maq9
(las
opciones por defecto ser´ıan (-n 2 -l 28 -e 70)10
). Pero Bowtie también puede cumplir una sencilla
pol´ıtica “end-to-end” con “k-diferencia” (por ejemplo con -v 2)11
. . Debemos de tener en cuenta que los
modos de alineamiento -v y -n son mutuamente excluyentes, es decir, no podremos usar los 2 a la vez.
Bowtie funciona mucho mejor cuando alinea lecturas cortas en genomas largos (por ejemplo, el genoma
del ser humano o del ratón), aunque soporta secuencias de referencia arbitrariamente pequeñas y lecturas
de un máximo de 1020 bases. Bowtie está diseñado para ser extremadamente rápido con conjuntos de
lecturas cortas donde:
9Para más información véase la Web http://maq.sourceforge.net/
10 Véase la sección 1.4.1 en la página siguiente para más información sobre este modo
11Véase la sección 1.4.2 en la página 18 para obtener más información sobre este modo
16

1. muchas de las lecturas cortas tienen al menos una alineación, que es válida.
2. muchas de las lecturas son de una calidad relativamente alta.
3. el número de alineaciones reportadas por cada lectura es pequeño (cercano a 1).
Estos criterios están generalmente satisfechos en el contexto del análisis de lecturas cortas por ejemplo
de RNA-seq, ChIP-seq, otros tipos de secuenciación, y otros tipos de resecuenciación de mam´ıferos. Para
otros contextos de investigación se deberá comprobar los tiempos de ejecución del mismo.
Si Bowtie es demasiado lento para su aplicación, deberá probar alguna de las sugerencias para opti-
mización del rendimiento que se describen en la sección 1.4.7 en la página 24.
Los alineamientos en los cuales aparezcan uno o más caracteres ambiguos de referencia (N, -, R,
Y, etc.) serán considerados inválidos por Bowtie. Esto es cierto sólo para caracteres ambiguos en la
referencia; alineaciones que tienen caracteres ambiguos en la lectura serán legales, sujetos a la pol´ıtica
de alineación. Los caracteres ambiguos en la lectura serán diferentes al resto de caracteres de la lectura.
Las alineaciones que contenga a la secuencia de referencia no serán considerados válidos.
El proceso por el cual bowtie elige una alineación para informar se realiza al azar con el fin de evitar
el “sesgo de asignación”. bowtie siempre reporta un subconjunto de las alineaciones válidas que existen,
haciendo todo lo posible para mostrarlas al azar. Esta aleatoriedad se deriva de un generador de números
simples pseudoaleatorios llamados semillas de forma determinista en el sentido de que Bowtie siempre
produce los mismos resultados para la misma lectura cuando es ejecutado con el mismo valor de la
semilla12
.
En el modo por defecto, bowtie puede exhibir un sesgo en la hebra. El sesgo en la hebra se produce
cuando la entrada de referencia y las lecturas son tales que
1. algunas lecturas se alinean en el sentido normal y en el inverso de la hebra.
2. el número de esos sitios son diferentes en ambos sentidos.
Cuando esto sucede para una lectura dada, bowtie opta por una hebra o la otra con una probabilidad
del 50 %, a continuación, reporta un alineamiento seleccionado al azar para dicha lectura de uno de los
sitios en la hebra seleccionada. Esto tiende a asignar más alineamientos en hebras con pocos sitios y
menos alineamientos en hebras con muchos sitios. El efecto se mitiga, aunque puede no ser eliminado,
cuando las lecturas son más largas o cuando se usan los extremos emparejados. Ejecutando Bowtie con
el modo --best se elimina el sesgo de la hebra forzando a Bowtie a seleccionar una hebra o la otra con
una probabilidad que es proporcional al número de “mejores sitios” de la hebra.
Alineamientos con huecos no está soportado actualmente por bowtie, pero lo será en futuras versiones.
1.4.1. El modo de alineación -n
Cuando hacemos uso de la opción -n (la cual es la opción por defecto en el sistema), Bowtie determina
cuales de los alineamientos son válidos de acuerdo con la siguiente pol´ıtica, la cual es muy similar a la
pol´ıtica por defecto en Maq13
.
1. Las alineaciones no pueden tener más de N desajustes (donde N es un número entre 0 − 3, y se
establece con la opción -n) en las primeras L bases (donde L es un número mayor o igual a 5,
establecido con la opción -l). A las primeras L bases se las denomina la “semilla”.
2. La suma de los valores de “Phred quality” 14
de todas las posiciones no coincidentes (y no úni-
camente en la semilla) no debe de sobrepasar el valor E (establecido con la opción -e). Cuando
las calidades no están disponibles (por ejemplo, si las lecturas son de un archivo FASTA 15
)), los
valores por defecto de la calidad Phred se establecen a 40.
12Véase la sección 1.4.8.9 en la página 29 para más información acerca de la opción --seed
13 Acceda a la web de Maq para más información http://maq.sourceforge.net/
14Para más información acceda a la web http://www.phrap.com/phred/
15Véase la sección A.4 en la página 115 para más información
17

La opción -n es mutuamente excluyente con la opción -v, es decir, no podremos usar las dos a la vez.
Si se da el caso de que existan múltiples alineaciones que cumplan los criterios anteriormente definidos,
Bowtie dará preferencia a las alineaciones que contengan menos desajustes y donde la suma establecida
en el criterio 2 sea menor. Cuando la opción --best esté especificada, Bowtie nos garantiza que la/s
alineación/es devuelta/s son las “mejores” en los términos de estos criterios (el criterio 1 tiene prioridad
con respecto al 2), y además las alineaciones se mostrarán de mejor a peor. En el caso de usar la opción
--best Bowtie es más lento que si no se usa dicha opción.
Tenga en cuenta que Maq internamente redondea las calidades menores a 10 y las mayores de 30 a
30. Para mantener la compatibilidad, Bowtie hace lo mismo. El redondeo puede ser suprimido usando la
opción --nomaqround.
Por defecto en los modos -n 2 y -n 3 Bowtie no es totalmente exhaustivo. En estos modos Bowtie
impone un “limite de rastreo” para limitar el esfuerzo gastado a la hora de encontrar una alineación
válida entre lecturas de baja calidad que muy posiblemente no tengan alineaciones válidas. Esto puede
causar que Bowtie pase por alto algunas alineaciones con 2 ó 3 desajustes como legales. El l´ımite se
establece a un valor predeterminado, pero razonable, (125 para el caso de no tener establecido --best y
800 para el caso de tener establecido --best); claro está, que el usuario puede cambiar estos valores si
as´ı lo desea. Para modificar este l´ımite deberá usar las opciones --maxbts y/o -y. La opción -y hace que
Bowtie sea relativamente lento pero nos garantiza exhaustividad completa.
1.4.2. El modo de alineación -v
En el modo -v, las alineaciones no pueden tener más de V desajustes, donde V es un número entre
0 − 3, establecido mediante la opción -v. Los valores de calidad no se tienen en cuenta. Recordamos que
la opción -v es mutuamente excluyente con la opción -n.
Si se da el caso de haber muchas alineaciones legales, Bowtie da preferencia a las alineaciones con
menos desajustes. Cuando usamos la opción --best, Bowtie garantiza que la alineación/es reportada es
la mejor en términos del número de desajustes, y los resultados son mostrados en un orden de mejor a
peor. Hay que mencionar que Bowtie es más lento si usamos la opción --best.
1.4.3. Estratos
En el modo de alineamiento -n, una alineación mediante “estratos” se define como el número de
desajustes en la región “semilla”, es decir, las L bases en el extremo más a la izquierda (donde L se
define mediante la opción -l). En el modo de alineamiento -v, una alineación mediante “estratos” se
define como el número total de desajustes existentes en toda la alineación. Algunas de las opciones
de Bowtie (como --strata y -m) usan el concepto de “estrato” para limitar o ampliar el alcance de las
alineaciones reportadas al usuario.
1.4.4. Modos de representación de informes
Con los modos -k, -a, -m, -M, --best y --strata, el usuario puede seleccionar con cierta flexibilidad
qué alineaciones se van a mostrar. A continuación veremos una serie de ejemplos en los cuales veremos
diferentes maneras de combinar estas opciones. Todos los ejemplos se basan en el uso del ´ındice de e coli
empaquetado con Bowtie. La opción --suppress se utiliza para mantener la salida concisa y además se
han eliminado algunos elementos por claridad.
1.4.4.1. Ejemplo: -a
$ ./bowtie -a -v 2 e_coli --suppress 1,5,6,7 -c ATGCATCATGCGCCAT
- gi|110640213|ref|NC_008253.1| 148810 10:A>G,13:C>G
- gi|110640213|ref|NC_008253.1| 2852852 8:T>A
18

- gi|110640213|ref|NC_008253.1| 4930433 4:G>T,6:C>G
- gi|110640213|ref|NC_008253.1| 905664 6:A>G,7:G>T
+ gi|110640213|ref|NC_008253.1| 1093035 2:T>G,15:A>T
# reads processed: 1
# reads with at least one reported alignment: 1 (100.00%)
# reads that failed to align: 0 (0.00%)
Reported 5 alignments to 1 output stream(s)
El uso de la opción -a le indica a Bowtie que reporte todas las alineaciones válidas, sujetas, en este
caso, a la pol´ıtica de alineamiento: -v 2. En el ejemplo, bowtie ha encontrado 5 resultados inexactos
dentro del genoma de la E. Coli; uno de los resultados (el 2o
en la lista) tiene un único desajuste, y
los otros cuatro resultados tienen 2 desajustes. Hay que indicar que 4 de los resultados siguen la linea
inversa de referencia y otro la linea a seguir (s´ımbolo ‘-’ para el caso inverso y ‘+’ para el normal). Hay
que indicar que no están listados según un orden de mejor a peor.
1.4.4.2. Ejemplo: -k 3
$ ./bowtie -k 3 -v 2 e_coli --suppress 1,5,6,7 -c ATGCATCATGCGCCAT
- gi|110640213|ref|NC_008253.1| 148810 10:A>G,13:C>G
- gi|110640213|ref|NC_008253.1| 2852852 8:T>A
- gi|110640213|ref|NC_008253.1| 4930433 4:G>T,6:C>G
El uso de la opción -k 3 le indica a bowtie que reporte hasta 3 alineamientos válidos. En este ejemplo,
existen un total de 5 alineamientos válidos (Véase el punto 1.4.4.2 ); bowtie nos muestra 3 alineaciones
de un total de 5. El valor que recibe -k tiene que ser un valor mayor que 0.
1.4.4.3. Ejemplo: -k 6
$ ./bowtie -k 6 -v 2 e_coli --suppress 1,5,6,7 -c ATGCATCATGCGCCAT
- gi|110640213|ref|NC_008253.1| 148810 10:A>G,13:C>G
- gi|110640213|ref|NC_008253.1| 2852852 8:T>A
- gi|110640213|ref|NC_008253.1| 4930433 4:G>T,6:C>G
- gi|110640213|ref|NC_008253.1| 905664 6:A>G,7:G>T
+ gi|110640213|ref|NC_008253.1| 1093035 2:T>G,15:A>T
El uso de la opción -k 6 le indica a bowtie que nos muestre 6 alineaciones válidas. En este caso,
únicamente existen 5 alineamientos válidos, por lo que bowtie nos las muestra todos.
1.4.4.4. Ejemplo: por defecto (-k 1)
$ ./bowtie -v 2 e_coli --suppress 1,5,6,7 -c ATGCATCATGCGCCAT
- gi|110640213|ref|NC_008253.1| 148810 10:A>G,13:C>G
19

En este caso dejamos el valor por defecto a la opción -k (en este caso 1), esto nos hace que bowtie
nos muestre la primera alineación devuelta. Como no se ha especificado la opción --best no podemos
asegurar que la alineación devuelta sea la óptima, en este caso concreto no lo es (la alineación con un
único desajuste del caso anterior ser´ıa mejor). No poner la opción -k ser´ıa igual a poner -k 1.
1.4.4.5. Ejemplo: -a --best
$ ./bowtie -a --best -v 2 e_coli --suppress 1,5,6,7 -c ATGCATCATGCGCCAT
- gi|110640213|ref|NC_008253.1| 2852852 8:T>A
- gi|110640213|ref|NC_008253.1| 148810 10:A>G,13:C>G
+ gi|110640213|ref|NC_008253.1| 1093035 2:T>G,15:A>T
- gi|110640213|ref|NC_008253.1| 905664 6:A>G,7:G>T
- gi|110640213|ref|NC_008253.1| 4930433 4:G>T,6:C>G
Si hacemos uso de la opción -a mostramos todas las alineaciones válidas que existan. Además, como
hacemos uso de la opción --best nos aseguramos que nos las muestra de la mejor a la peor.
1.4.4.6. Ejemplo: -a --best --strata
$ ./bowtie -a --best --strata -v 2 --suppress 1,5,6,7 e_coli -c ATGCATCATGCGCCAT
- gi|110640213|ref|NC_008253.1| 2852852 8:T>A
Incluir la opción --strata junto con -a y --best hace que bowtie nos muestre sólo las alineaciones que
son las mejores con respecto a la alineación por “estratos” (Véase el punto 1.4.3 en la página 18 para
más información sobre estratos). Las mejores alineaciones en este caso (con estratos) son las que tienen
el menor número de desajustes (o desajustes únicamente en la “semilla” si usamos la opción -n). Hay
que tener en cuenta que si usamos la opción --strata también deberemos usar la opción --best.
1.4.4.7. Ejemplo: -a -m 3
$ ./bowtie -a -m 3 -v 2 e_coli -c ATGCATCATGCGCCAT
# reads with alignments suppressed due to -m: 1 (100.00%)
No alignments
Al usar la opción -m le estamos indicando a bowtie que se abstenga de informar cualquier alineación
para lecturas cortas que contengan más de “m” resultados, es decir, si incluimos -m 3 estamos diciendo
que si tiene más de 3 alineaciones válidas que no nos muestre nada. La opción -m es útil cuando se
quiere garantizar que las alineaciones que se han reportado son “únicas”, nosotros tendremos que definir
el significado concreto de “único” para cada caso.
20

1.4.4.8. Ejemplo: -a -m 5
$ ./bowtie -a -m 5 -v 2 e_coli --suppress 1,5,6,7 -c ATGCATCATGCGCCAT
- gi|110640213|ref|NC_008253.1| 148810 10:A>G,13:C>G
- gi|110640213|ref|NC_008253.1| 2852852 8:T>A
- gi|110640213|ref|NC_008253.1| 4930433 4:G>T,6:C>G
- gi|110640213|ref|NC_008253.1| 905664 6:A>G,7:G>T
+ gi|110640213|ref|NC_008253.1| 1093035 2:T>G,15:A>T
Ahora especificamos -m 5. En este caso si muestra lecturas, y además nos asegura que hay exactamente
5 alineaciones válidas. Como hay exactamente 5 alineaciones posibles, el l´ımite -m 5 hace que bowtie
imprima la salida de la manera usual.
1.4.4.9. Ejemplo: -a -m -3 --best --strata
$ ./bowtie -a -m 3 --best --strata -v 2 e_coli --suppress 1,5,6,7 -c ATGCATCATGCGCCAT
- gi|110640213|ref|NC_008253.1| 2852852 8:T>A
En este caso especificamos la opción -m 3 para decirle a bowtie que se abstenga de mostrar en el
caso de tener más de 3 alineaciones válidas. Pero como vimos en el ejemplo 6 la lectura sólo devuelve
una única alineación válida cuando especificamos las opciones -a, --best y --strata, por eso la opción -m
3 hace que bowtie funcione de la manera habitual.
De una forma intuitiva, la opción -m cuando se combina con las opciones --best y --strata, garantiza,
de una forma débil,un principio de “unicidad”. Para tener una unicidad más fuerte deberemos usar la
opción -m pero no las opciones --best y --strata.
1.4.5. Alineamiento de Extremos emparejados
Bowtie puede alinear lecturas con extremos emparejados cuando la propiedad de lecturas “empa-
rejadas” está especificada mediante las opciones -1 y -2 (para parejas sin tratar, FASTA16
, o ficheros
de lecturas FASTQ17
), o usando la opción --12 (para leer archivos delimitados por tabuladores). Una
alineación de extremos emparejados válida debe cumplir los siguientes criterios:
1. Ambos compañeros tienen una alineación válida de acuerdo con la pol´ıtica de alineación que se ha
definido mediante alguna de las opciones -v/-n/-e/-l.
2. La orientación y la posición relativa de los compañeros satisface las restricciones que se han definido
mediante alguna de las opciones -l/-X/–fr/–rf/–ff.
Para una determinada lectura corta podemos determinar la pol´ıtica que gobernará las alineaciones
de extremos emparejados mediante las opciones -k, -a y -m. Por otro lado, tenemos que comentar que
no podremos usar las opciones --strata y --best en el modo de extremos emparejados.
Un alineamiento de extremos emparejados se reporta como un par de alineamientos compañeros, cada
uno en una l´ınea, donde se formatea el alineamiento para cada compañero como si fueran alineamientos
simples independientes. La alineación para el compañero que aparece más cerca del comienzo de la
16Véase el apéndice A.4 en la página 115 para más información acerca del formato FASTA
17Véase el apéndice A.5 en la página 117 para más información acerca del formato FASTQ
21

secuencia de referencia se imprime siempre antes que el compañero que aparece después. Los ficheros
de lecturas que contienen lecturas de extremos emparejados a veces nombran las lecturas de acuerdo al
compañero al que “pertenecen”, añadiendo el sufijo /1 o /2 respectivamente. Si no se le indica sufijo
en la entrada de Bowtie, el sufijo se le añadirá cuando se generan los nombres de las lecturas en los
alineamientos (excepto en el modo -S “SAM”, que la información de los compañeros se codifica en los
‘‘FLAGS’’).
Encontrar un alineamiento de extremos emparejados válido donde ambos compañeros se alinean en
múltiples regiones puede consumir mucho tiempo. Por defecto, Bowtie evita gran parte de este coste
mediante la imposición de un l´ımite en el número de “intentos” haciendo que se ajuste un alineamiento
para un compañero cerca de un alineamiento para el el otro compañero. El l´ımite por defecto es 100. Esto
hace que bowtie pase por alto algunos alineamientos válidos, pero se puede hacer uso de las opciones
--pairtries o -y para incrementar la sensibilidad de Bowtie como se desee.
Un alineamiento de extremos emparejados donde el alineamiento de uno de los compañeros contiene
al otro se considera inválido.
Cuando la alineación por espacio de colores se activa mediante -C, la configuración predeterminada
para la orientación de los extremos emparejados es --ff. Esto es debido a que la mayor´ıa de los conjuntos
de datos de SOLiD llevan esta orientación. Cuando la alineación por espacio de colores no está activa
(por defecto), la configuración predeterminada para la orientación es --fr, ya que la mayor´ıa de los datos
de Illumina llevan esta orientación. El valor por defecto se puede cambiar en cualquier caso.
Debido a que Bowtie usa una representación en memoria de la cadena de referencia origial couando
busca alineamientos de extremos emparejados, su consumo de memoria es mayor cuando alinea lecturas
de extremos emparejados.
1.4.6. Alineacion por Espacio de Colores
Desde la versión 0.12.0, bowtie puede alinear lecturas en espacio de colores mediante un ´ındice de
espacio de colores cuando hacemos uso de la opción -C. El espacio de colores es el formato de salida
caracter´ıstico del sistema SOLiD de Applied Biosystems18
. En una lectura de espacio de colores, cada
carácter es un color en lugar de un nucleótido, donde un color codifica una clase de dinucleótidos. Por
ejemplo el color azul codifica cualquiera de los dinucleótidos AA, CC, GG, TT. El espacio de colores tiene la
ventaja de ser capaz de encontrar errores de secuenciación de SNPs una vez que la lectura se ha alineado.
1.4.6.1. Lecturas en Espacio de Colores
Todos los formatos de entrada (FASTA -f, FASTQ -q, brutos -r, separados por tabuladores --12, l´ınea
de comandos -c) son compatibles con un espacio de colores (-C). Cuando hacemos uso de la opción -C, las
secuencias de lecturas son tratadas como colores. Los colores se podrán codificar como números (0=azul,
2=naranja, 3=rojo) o como caracteres A/C/G/T (A=azul, C=verde, G=naranja, T=rojo).
Algunas lecturas incluyen una base de imprimación como primer carácter, por ejemplo:
>1_53_33_F3
T2213120002010301233221223311331
>1_53_70_F3
T2302111203131231130300111123220
...
Aqu´ı, T es la base de imprimación. bowtie detecta y gestiona de manera adecuada la base de im-
primación (es decir, la base de imprimación y los colores adyacentes se recortan antes de la alineación)
siempre y cuando el resto de la lectura se codifique como un número.
bowtie además gestiona la entrada en formato de ficheros .csfasta y QV.qual. Deberemos usar la
opción -f para especificar el fichero .csfasta y -Q o --Q/--Q2 (para lecturas con extremos emparejados)
18Para más información acceda a la web de SOLiD
22

para especificar el correspondiente fichero QV.qual. No es necesario convertirlo antes a FASTQ, aunque
bowtie también gestiona lecturas en espacio de colores formateadas en FASTQ (con la opción -q).
1.4.6.2. Construir un ´ındice de Espacio de Colores
Un ´ındice de espacio de colores se construye de la misma forma que un ´ındice normal excepto que
hemos de usar la opción -C cuando ejecutamos bowtie-build19
. Si un usuario intenta usar bowtie sin
la opción -C para alinear con un ´ındice que ha sido creado con -C ( y viceversa), bowtie imprimirá un
mensaje de error y terminará.
1.4.6.3. Decodificar alineamientos en Espacio de Colores
Una vez que una lectura en espacio de colores ha sido alineada, Bowtie decodifica el alineamiento en
nucleótidos y reporta la secuencia de nucleótidos decodificada. Es necesario un esquema de decodifica-
ción ya que es posible múltiples formas diferentes de decodificar. encontrar la decodificación “perfecta”
requiere el conocimiento de todas las posibles variantes (por ejemplo SNPs) en el genoma del sujeto de
antemano, lo cual suele ser bastante complicado. En su lugar, bowtie emplea un esquema de decodi-
ficación aproximada descrito en [15]. Este esquema intenta distinguir las variantes de la secuencia de
acuerdo con su probabilidad relativa bajo un modelo que considera los valores de calidad de los colores
y la probabilidad global de un SNP.
Los valores de calidad también son “decodificados”, de modo que cada valor de la calidad es una
función de las 2 calidades de color superpuestas. Bowtie de nuevo adopta un esquema descrito en [15], es
decir, la calidad de los nucleótidos decodificados es la suma de las calidades de color superpuestas (cuando
los dos colores superpuestos corresponden a las bases que coinciden en la alineación) o la calidad de la
igualación de color menos la calidad de no coincidencia de color o 0 (cuando los dos colores superpuestos
corresponden a desajustes).
Para una decodificación correcta, --snpphred/--snpfrac deben establecerse de acuerdo a la mejor es-
timación de la frecuencia de SNPs en el sujeto. El parámetro --snpphred establece la penalización SNP
directamente (en la escala Phred), mientras que --snpfrac permite al usuario especificar una fracción; la
fracción es convertida posteriormente a Phred quality internamente.
Tenga en cuenta, que en el modo -S/--sam-mode, la secuencia de nucleótidos decodificada es imprimida
por alineamientos, pero la secuencia de color original (con A=azul, C=verde, G=naranja y T=rojo) es
imprimida para lecturas no alineadas sin ninguna alineación reportada. Como es habitual, los parámetros
--un, --max y --al imprimen las lecturas tal y cual aparecen en el fichero de entrada.
1.4.6.4. Alineamientos de extremos apareados en Espacio de Colores
Al igual que en otras plataformas, SOLiD soporta la generación lecturas de extremos emparejados.
Cuando tenemos activada la alineación mediante espacio de colores, la orientación por defecto de los
extremos emparejados es --ff. Esto es debido a que la mayor´ıa de los conjuntos de datos de SOLiD tienen
esta orientación.
Tenga en cuenta que las lecturas generadas por SOLiD pueden tener compañeros “huérfanos”, es decir,
sin pareja correspondiente en el otro fichero. Para evitar problemas debidos a compañeros huérfanos, la
salida de extremos emparejados de SOLiD ha de ser convertida primero a un fichero .csfastq omitiendo
las lecturas desemparejadas. Esto se puede lograr utilizando, por ejemplo, la herramienta de conversión
Galaxy20
.
19Véase la sección 1.5 en la página 31 para más información acerca de bowtie-build
20Para más información acceda a la web http://main.g2.bx.psu.edu/ para más información acerca de Galaxy
23

1.4.7. Optimización del rendimiento
A continuación veremos una serie de consejos para optimizar el rendimiento de bowtie en su sistema:
1. Use la versión de bowtie de 64 bits si es posible.
La versión de 64 bits de Bowtie es sustancialmente (por lo general más del 50 %) más rápida que
la versión de 32 bits, debido a la aritmética de 64 bits.
2. Si su sistema tiene múltiples procesadores/núcleos, use la opción -p21
.
3. Si se reportan muchos alineamientos por lectura, intente ajustar bowtie-build --offrate.
4. Si bowtie se vuelve lento, intente incrementar bowtie --offrate.
1.4.8. L´ınea de Comandos
Uso de bowtie en la l´ınea de comandos:
bowtie [opciones]* <ebwt> {-1 <m1> -2 <m2> | --12 <r> | <s>} [<aciertos>]
1.4.8.1. Argumentos principales
<ebwt> El nombre base del ´ındice que se debe buscar. El nombre base es el nombre de los
ficheros del´ındice pero sin incluir la terminación .1.ebwt/, .rev.1.ebwt etc. bowtie
busca el ´ındice especificado primero en el directorio actual, después en el subdirecto-
rio /indexes dentro del directorio donde bowtie está instalado, y finalmente en el
directorio especificado en la variable de entorno BOWTIE_INDEXES.
<m1> Lista separada por comas de archivos que contienen los primeros compañeros (el
nombre del archivo por lo general incluye 1), o, si hacemos uso de la opción -c, las
secuencias de compañeros directamente.
<m2> Lista separada por comas de archivos que contienen los segundos compañeros (el
nombre del archivo por lo general incluye 2), o, si hacemos uso de la opción -c, las
secuencias de compañeros directamente.
<r> Lista separada por comas de archivos que contienen un conjunto de lecturas desem-
parejadas y lecturas con extremos emparejados.
<s> Lista separada por comas de archivos que contienen lecturas desemparejadas que
van a ser alineadas, o , si hacemos uso de la opción -c, las lecturas desemparejadas
directamente.
<aciertos> Fichero en el cual se van a escribir los alineamientos. Por defecto, se muestran en la
salida estándar (en este caso la consola).
1.4.8.2. Opciones de entrada
-q Los ficheros de entrada de consultas (especificados como <m1> y <m2>, o
como <s>) son ficheros FASTQ (normalmente con extensión .fq o .fastq)
-f Los ficheros de entrada de consultas (especificados como <m1> y <m2>, o
como <s>) son ficheros FASTA (normalmente con extensión .fa, .mfa,fna o
similares). Todos los valores de las calidades se suponen 40 en la escala Phred
quality.
21Véase la opción -p en la sección 1.4.8.8 en la página 29
24

-r Los ficheros de entrada de consultas (especificados como <m1> y <m2>, o
como <s>) son ficheros Raw (en bruto): una secuencia por l´ınea, sin valores
de calidad o nombres. Todos los valores de las calidades se suponen 40 en la
escala Phred quality.
-c Las sentencias de búsqueda serán recogidas mediante la l´ınea de comandos
-C/--quals <ficheros> Lista separada por comas de archivos que contienen los valores de calidad
para las lecturas CSFASTA no emparejadas. Se usa en combinación con -C y
-f. La opción --integer-quals se activa automáticamente cuando -Q/--quals es
especifica.
--Q1 <ficheros> Lista, separada por comas, de ficheros que contienen los valores de los corres-
pondientes CSFASTA #1 compañeros.
--Q2 <ficheros> Lista, separada por comas, de ficheros que contienen los valores de los corres-
pondientes CSFASTA #2 compañeros.
-s/--skip <int> Descarta (no alinea) las primeras <int> lecturas o pares de la entrada.
-u/--qupto <int> Sólo alinea las primeras <int> lecturas de la entrada (después que -s/--skip
haya descartado las correspondientes lecturas). Por defecto no hay l´ımite.
-5/--trim5 <int> Recorta <int> bases de alta calidad (izquierda) de cada lectura antes de alinear
(por defecto: 0).
-3/--trim3 <int> Recorta <int> bases de baja calidad (derecha) de cada lectura antes de alinear
(por defecto: 0).
--phred33-quals Las calidades son caracteres ASCII iguales a la Phred quality más 33. Esta
opción está activada por defecto.
--phred64-quals Las calidades son caracteres ASCII iguales a la Phred quality más 64. Esta
opción está desactivada por defecto.
--solexa-quals Convierte las calidades de entrada de Solexa (que pueden ser negativas) a
Phred (que no pueden ser negativas). Esta opción es la más adecuada cuando
usamos lecturas que provienen de versiones de GA Pipeline anteriores a la 1.3.
Por defecto está desactivada.
--solexa1.3-quals Igual que --phread64-quals. Es la opción más adecuada para usar con lecturas
emitidas por GA Pipeline version 1.3 o posteriores. Por defecto está desacti-
vada.
--integer-quals Los valores de las calidades están representados en el fichero de entrada como
enteros ASCII (por ejemplo 40 40 30 40. . . ) en vez de caracteres ASCII (por
ejemplo II?I. . . ).
1.4.8.3. Opciones de Alineamientos
-v <int> Reportar alineamientos con un máximo de <int> desajustes. Las opciones
-e y -l son ignoradas y los valores de las calidades no tienen efecto en los
alineamientos válidos. La opción -v es mutuamente excluyente con la opción
-n.
-n/--seedmms <int> Número máximo de desajustes permitidos en la “semilla”. Se permiten los
valores 0, 1, 2 ó 3; siendo el valor por defecto 2. Esta opción es mutuamente
excluyente con la opción -v.
-e/--maqerr <int> Máximo total permitido de los valores de calidad de todos los desajustes
de una lectura a través de toda la alineación, no sólo en la semilla. El valor
por defecto es 70. Al igual que Maq, bowtie redondea los valores de calidad
25

al 10 más cercano y satura al 30; el redondeo puede ser deshabilitado con
la opción --nomaqround.
-l/--seedlen <int> La “longitud de la semilla”, es decir, el número de bases en el extremo de
alta calidad de la lectura en el cual se aplica el l´ımite -n. El valor más
bajo permitido es 5 y el valor por defecto es 28. bowtie es más rápido para
valores altos de -l.
--nomaqround Maq acepta valores de calidad en la escala Phred quality, pero internamente
redondea los valores con una precisión de 10, con un máximo de 30. Por
defecto, bowtie redondea de esta forma. --nomaqround indica que no se
use esta forma de redondeo.
-I/--minins <int> El tamaño m´ınimo de inserción para un alineamiento de extremos empare-
jados válido. Por ejemplo, si se especifica -I 60 y tenemos dos alineamiento
de extremos emparejados de 20 pares de pases (en la orientación apropiada)
con un hueco de 20 pares de bases entre ellos, este alineamiento se considera
válido ( partiendo de la base que --X también se satisface). Un hueco de 19
pb no ser´ıa válido en este caso porque no llegar´ıa al m´ınimo establecido de
60 pb. Si se usan las opciones de recorte -3 o -5, la restricción -I se aplica
con respecto a los compañeros “sin recortes”. El valor por defecto es 0.
-X/--maxins <int> El tamaño máximo de inserción para un alineamiento de extremos empa-
rejados válido. Por ejemplo, si se especifica -X 100 y tenemos dos alinea-
mientos de extremos emparejados de 20 pb (en la orientación apropiada)
con un hueco de 60 pb entre ellos, este alineamiento se considera válido
(partiendo de la base que --I también se satisface). Un hueco de 61 pb no
ser´ıa válido en este caso porque sobrepasar´ıa el máximo permitido de 100.
Si se usan las opciones de recorte -3 o -5, la restricción -X se aplica con
respecto a los compañeros “sin recortes”. El valor por defecto es 250.
--fr/--rf/--ff Las diferentes orientaciones en las que podemos encontrarnos los com-
pañeros en un alineamiento de extremos emparejados. Si hacemos uso de
--fr y hay un alineamiento de extremos emparejados válido donde el com-
pañero 1 aparece antes que el inverso complementario del compañero 2 y
se cumplen las limitaciones de loingitud, ese alineamiento es válido. Si el
compañero 2 aparece antes que el inverso complementario del compañero 1
y todas las restricciones se cumplen, también es válido. --rf también exige
que el compañero 1 (en la orientación normal) sea inverso complementado
y el compañero 2 (en la orientación inversa) esté en un sentido normal. --ff
requiere que el compañero 1 esté en el sentido normal y el 2 en el sentido
inverso.
--nofw/--norc Si hacemos uso de --nofw, bowtie no intentará alinear con la cadena en el
sentido normal. Si usamos --norc, bowtie no intentará alinear con la cadena
inversa complementada.
--maxbts Número máximo de “vueltas atrás” permitidas cuando se alinea una lectura
en el modo -n 2 o -n 3 (por defecto: 125 sin --best, 800 con --best). Una
“vuelta atrás” es la introducción de un cambio especulativo en la alineación.
Sin este l´ımite, los parámetros por defecto hacen que bowtie intente 100
o 1000 vueltas atrás para alinear una lectura, especialmente si la lectura
contiene muchas bases con baja calidad y/o no tiene alineamientos válidos;
haciendo que bowtie baje su rendimiento significativamente. Sin embargo,
este l´ımite puede causar que algunas alineaciones válidas se pierdan.
--pairtries <int> Para alineaciones de extremos emparejados, este es el número máximo de
intentos que bowtie hará para que un alineamiento para un compañero
coincida con un alineamiento para el otro compañero. La mayor´ıa necesita
unos pocos intentos, pero es posible que algunas parejas requieran muchos
26

intentos, bajando el rendimiento se bowtie significativamente. El valor por
defecto es 100 intentos.
-y/--tryhard Intenta , como sea posible, encontrar alineamientos válidos cuando existen,
incluyendo alineamientos con extremos emparejados. Esto es equivalente al
uso de --maxbts y --pairtries con valores muy altos. Esta opción hace que
bowtie sea generalmente mucho más lento que el modo normal por defecto.
--chunkmbs <int> Número de MegaBytes de memoria que se le asigna a cada hilo para al-
macenar los descriptores en el modo --best. Bowtie intenta minimizar la
memoria usada por los descriptores, pero en muchos casos esta memoria
puede crecer demasiado. Si se recibe algún mensaje indicando que la me-
moria se ha agotado en el modo --best, deberemos ajustar la memoria con
este parámetro dedicando más memoria a los descriptores. El valor por
defecto son 64 MB.
1.4.8.4. Opciones de informes
-k <int> Reporta <int> alineamientos válidos por lectura o par (por defecto 1). La
validez de las alineaciones se determinada por la pol´ıtica de alineamiento
(efectos combinados de -n, -v, -l y -e). Bowtie está diseñado para ser muy
rápido para valores pequeños de -k, y puede llegar a volverse muy lento
para valores grandes de -k. Si le interesa usar Bowtie con valores altos de
-k considere la creación de un ´ındice22
.
-a/--all Informa de todas las alineaciones válidas por lectura o par (por defec-
to está desactivado). La validez de las alineaciones se determinada por la
pol´ıtica de alineamiento (efectos combinados de -n, -v, -l y -e). Bowtie
está diseñado para ser muy rápido para valores pequeños de -k, y puede
llegar a volverse muy lento si usamos -a/--all. Si le interesa usar Bowtie con
-a/--all considere la creación de un ´ındice.
-m <int> Suprimir todos los alineamientos de una lectura o par si para esa lectura
existen más de <int> alineamientos. Cuentan como alineamientos aquellos
que son reportados por -n, -v, -l, -e, -k, -a y/o --strata. Por defecto no tiene
l´ımite.
-M <int> Se comporta como -m salvo que si una lectura tiene más de <int> alinea-
mientos se reporta uno aleatoriamente.
--best Garantiza que Bowtie reporta alineamientos que son los “mejores” en térmi-
nos de estratos (por ejemplo, número de desajustes, o desajustes en la se-
milla en el caso de el modo -n) y en términos de calidad en las posiciones
con desajustes. Cuando no especificamos --best Bowtie reportará alinea-
mientos que no tienen por qué ser óptimos en términos de estratos/calidad.
Tenga en cuenta que --best no afecta a cuales alineamientos son conside-
rados “válidos” por bowtie, si no cuáles de esos alineamientos válidos son
reportados por bowtie.
--strata Si existen muchas alineaciones válidas y son “reportables” y caen en muchos
estratos, se reportan únicamente aquellas alineaciones que caen en el mejor
estrato. Cuando hacemos uso de --strata también deberemos usar --best.
1.4.8.5. Opciones de salida
-t/--time Imprime el tiempo empleado en cada una de las fases.
22Véase la sección 1.5 en la página 31 para más detalles acerca de los ´ındices
27

-B/--offbase <int> Cuando muestra los alineamientos, la posición de la primera base será <int>.
Por defecto es 0.
--quiet No se muestra nada aparte de las alineaciones.
--refout Escribe la salida en un conjunto de ficheros de la forma refXXXXX.map,
donde XXXXX es el ´ındice de la secuencia de referencia alineada. Esto puede
ser útil para grandes volúmenes de lecturas, por ejemplo para alinear con
el genoma humano.
--refidx Cuando una secuencia de referencia se refiere a un alineamiento reportado,
se refiere a el mediante su ´ındice en vez de su nombre.
--al <fichero> Escribe todas las lecturas con al menos un alineamiento en un archivo de
nombre <fichero>.
--un <fichero> Escribe todas las lecturas que no han podido ser alineadas en un archivo
de nombre <fichero>.
--max <fichero> Escribe todas las lecturas con un número de alineamientos válidos superior
al l´ımite establecido con la opción -m en un archivo de nombre <fichero>.
--suppress <columnas> Suprime una serie de columnas de salida en el formato de salida por defec-
to. Por ejemplo si usamos --suppress 1,5,6, las columnas 1,5,6 no se
mostrarán en la salida. Esta opción es ignorada si estamos en el modo de
salida -S/--sam.
--fullref Imprime el nombre de referencia completo de una secuencia. Por defecto
bowtie imprime hasta llegar al primer espacio en blanco.
1.4.8.6. Opciones del Espacio de colores
--snpphred <int> En la decodificación de alineamientos con espacio de colores, se usa <int>
como la penalización SNP. Se debe establecer al mejor valor en relación de
SNPs por base del genoma sujeto, convertido a la escala de calidad Phred.
Por ejemplo, si el usuario espera 1 SNP cada 1000 posiciones, --snpphred
deberá ser 30 (que es el valor por defecto. Para especificar una fracción
directamente deberá usar --snpfrac.
--snpfrac <dec> En la decodificación de alineamientos con espacio de colores, se usa <dec>
como la relación SNPs por base. bowtie convierte el valor al formato de
calidad Phred, y se comporta como si se hubiera usado la opción --snpphred.
El valor por defecto es 0,0001
--col-cseq Si las lecturas están en espacio de colores y el modo por defecto de salida23
está activado, --col-cseq hace que el color de la secuencia aparezca en la
columna de la secuencia de la lectura (columna 5) en lugar de la secuencia
de nucleótidos. Esta opción es ignorada en el modo -S/--sam.
--col-cqual Si las lecturas están en espacio de colores y el modo por defecto de salida
está activado, --col-cseq hace que la calidad (color) original de la lectura
aparezca en la columna de la calidad en vez de la calidad decodificada. Esta
opción es ignorada en el modo -S/--sam.
--col-keepends Cuando se decodifican alineamientos con espacio de colores, bowtie corta
un nucleótido y una calidad de la izquierda y de la derecha del alineamien-
to. Esto se debe a que los nucleótidos son compatibles con un sólo color,
en contraste con los nucleótidos del medio que son soportados por dos.
Especificar --col-keepends mantiene los nucleótidos y sus calidades en los
extremos.
23Véase la sección 1.4.9 en la página 30 para más información acerca de este modo
28

1.4.8.7. Opciones de SAM
-S/--sam Imprime los alineamientos en formato SAM. Vaya a la sección 1.4.10 en
la página siguiente para más detalles. Para suprimir todas las cabeceras
SAM use la opción --sam-nohead además de -S/--sam. Para suprimir sólo
las cabeceras @SQ use la opción --sam-nosq junto con -S/--sam. bowtie no
crea archivos BAM directamente, pero la salida en formato SAM puede
ser convertida en formato BAM directamente haciendo uso de tuber´ıas y
el comando samtools view24
. La opción -S/--sam no es compatible con
--refout.
--mapq <int> Si el alineamiento es no repetitivo (de acuerdo con -m, --strata y otras
opciones) se establecerá el campo MAPQ25
(Calidad del mapeo/asignación)
con el valor que recibe por parámetro (<int>). El valor por defecto es 255.
--sam-nohead Suprime las l´ıneas de cabecera (que comienzan por @) cuando la salida es
-S/--sam. Debe usarse en conjunto con -S/--sam. --sam-nohead se ignora a
no ser que se use con -S/--sam.
--sam-nosq Suprime las l´ıneas de cabecera @SQ cuando la salida es -S/--sam. Debe
usarse en conjunto con -S/--sam. --sam-nosq se ignora a no ser que se use
con -S/--sam.
--sam-RG <texto> Añade <texto> (generalmente de la forma TAG:VAL, por ejemplo ID:IL7LANE2)
como un campo en la l´ınea de cabecera @RG. Para especificar múltiples cam-
pos deberemos usar múltiples veces la opción --sam-RG. --sam-RG se ignora
a no ser que se use con -S/--sam.
1.4.8.8. Opciones de rendimiento
-o/--offrate <int> Reemplaza el “offrate” del´ındice con <int>. Si <int> es mayor que el offra-
te usado para construir el ´ındice26
, algunas filas serán descartadas cuando
el ´ındice se cargue en memoria. Esto reduce el consumo de memoria del ali-
neador, pero requiere más tiempo para calcular los desplazamientos. <int>
debe ser mayor que el valor usado para la creación del ´ındice.
-p/--threads <int> Lanza <int> hilos en paralelo. Los hilos pueden ser ejecutados en diferentes
procesadores/núcleos y sincronizarse luego para analizar las lecturas y los
alineamientos resultantes.
--mm Usa la asignación de memoria de E/S para cargar el ´ındice, en vez de los
ficheros C normales de E/S. Esto facilita la eficiencia de la memoria a la
hora de paralelizar bowtie en situaciones donde -p no es posible.
--shmem Usa la memoria compartida para cargar el ´ındice. El uso de la memoria
compartida permite que muchos procesos concurrentes de bowtie compar-
tan el mismo ´ındice. Esto facilita la eficiencia de la memoria a la hora de
paralelizar bowtie en situaciones donde -p no es posible.
1.4.8.9. Otras opciones
--seed <int> Usa <int> como semilla para generar números pseudoaleatorios.
--verbose Muestra toda la salida generada (se usa para debug).
--version Muestra la versión de bowtie instalada en el sistema.
24Véase el cap´ıtulo 4 en la página 69 para más información acerca de SAMtools
25Véase el apéndice A.1 en la página 107 para más información acerca del campo MAPQ
26Véase la sección 1.5 en la página 31 para más información acerca de la creación de ´ındices
29

-h/--help Muestra la ayuda de bowtie.
1.4.9. Salida por defecto de bowtie
bowtie imprime en la salida un alineamiento por l´ınea. Cada l´ınea es una colección de 8 campos
separados por tabuladores; de izquierda a derecha, los campos son los siguientes:
1. Nombre de la lectura alineada.
2. Sentido de la hebra, ‘+’ sentido normal, ‘-’ sentido opuesto.
3. Nombre de la secuencia de referencia donde aparece el alineamiento, o un ID numérico si no se
proporcionó ningún nombre.
4. Desplazamiento en la hebra de referencia.
5. Secuencia de la lectura (o inversa complementaria si la orientación es ‘-’).
Si la lectura estaba en espacio de colores, entonces la secuencia mostrada en esta columna es la
secuencia de nucleótidos, no los colores originales. Véase la sección 1.4.6 en la página 22 para más
detalles. Para mostrar los colores hemos de usar la opción --col-cseq.
6. Calidades de la lectura codificadas en formato ASCII.
Si la lectura estaba en espacio de colores, entonces las calidades mostradas en esta columna son
las calidades decodificadas, no las calidades originales. Para mostrar los colores hemos de usar la
opción --col-cseq.
7. Si hemos hecho uso de la opción -M y el l´ımite establecido se ha superado con esta lectura, esta
columna contendrá el valor del l´ımite, indicando que se encontraron al menos esas alineaciones,
pudiendo ser muchas más.
8. Lista, separada por comas, de descriptores de desajustes. Si no hay desajustes en el alineamiento
este campo estará vac´ıo. Un descriptor tiene el formato
desplazamiento:base-de-referencia>lectura-base.
1.4.10. Salida en formato SAM de bowtie
A continuación presentamos una breve descripción de la salida que genera bowtie en formato SAM
cuando hacemos uso de la opción -S/--sam. Para más detalles, vea el formato SAM en el apéndice A.1
en la página 107.
Cuando hacemos uso de la opción -S/--sam, bowtie imprime una cabecera SAM con las l´ıneas @HD, @SQ
y @PG. Además, cuando especificamos argumentos RG de SAM mediante --sam-RG, bowtie imprimirá una
l´ınea @RG que los incluye separados por tabuladores.
Cada l´ınea de subsecuencia corresponde a una lectura corta o a un alineamiento. Cada l´ınea es una
colección de al menos 12 campos separados por tabuladores; veamos cuales de ellos podemos encontrarnos
(de izquierda a derecha):
1. Nombre de la lectura alineada
2. Suma de todos los flags aplicables. Los Flags más relevantes de Bowtie son:
1 La lectura es una de una pareja.
2 El alineamiento es un extremo de una correcta alineación de pares finales.
4 La lectura no reporta alineamiento alguno.
8 La lectura es una de una pareja y no repa orta alineamientos.
16 La alineación pertenece a la orientación inversa de la cadena.
30

32 El otro compañero del alineamiento de extremos emparejados pertenece a la orientación
inversa de la cadena.
64 La lectura es el primer compañero dentro de la pareja.
128 La lectura es el segundo compañero dentro de la pareja.
Por lo tanto, una lectura sin pareja que se alinea en la orientación inversa tendrá como flag 16.
Una lectura de extremos emparejados que se alinee y además sea el primero de los compañeros
tendrá bandera 83 (= 64 + 16 + 2 + 1).
3. Nombre de la secuencia de referencia donde se produce la alineación, o ID ordinal si no se propor-
cionó el nombre.
4. Desplazamiento en la hebra de referencia donde aparece el carácter más a la izquierda del alinea-
miento.
5. Calidad del mapeo.
6. Cadena CIGAR de la alineación.
7. Nombre de la secuencia de referencia donde se alinea el compañero. Se establece a “=” si la secuencia
de referencia del compañero es la misma, o “*” si no hay compañero.
8. Desplazamiento en la hebra de referencia donde aparece el carácter más a la izquierda del alinea-
miento del compañero. El desplazamiento será 0 si no hay compañero.
9. Tamaño de inserción inferido. El tamaño es negativo si la alineación de la pareja se produce antes
en la cadena que este alineamiento. El tamaño es 0 si no existe pareja.
10. Secuencia (inversa complementada si se alinea en la cadena inversa).
11. Cualidades de las lecturas en codificación ASCII.
12. Campos opcionales. Los campos están separados por tabuladores. Para una descripción más deta-
llada vea el apéndice A.1 en la página 107. Bowtie imprimirá algunos de estos campos opcionales
en cada alineamiento, dependiendo del tipo de alineamiento:
NM:i:<N> Lectura alineada tiene una distancia de <N>.
CM:i:<N> Lectura alineada tiene una distancia de <N> en espacio de colores. Este campo está pre-
sente junto con el campo NM en el modo -C/--color, y es omitido en caso contrario.
MD:Z:<S> Para las lecturas alineadas, <S> es una cadena que representa las bases de referen-
cia que no coinciden en la alineación. Para alineamientos en espacio de colores, <S>
describe los nucleótidos de la alineación, no los colores.
XA:i:<N Los alineamientos pertenecen al estrato <N>. Véase el punto 1.4.3 en la página 18 para
más información acerca de los estratos.
XM:i:<N> Para lecturas que no reportan alineamientos. <N> es 0 si la lectura no tiene alinea-
mientos.
1.5. El indexador bowtie-build
bowtie-build construye un ´ındice “Bowtie” a partir de un conjunto de secuencias de DNA. La
salida generada por bowtie-build son 6 ficheros con extensiones .1.ebwt, .2.ebwt, .3.ebwt, .4.ebwt,
.rev.1.ebwt y .rev.2.ebwt27
. Estos ficheros constituyen el´ındice: son todo lo que se necesita para poder
alinear lecturas cortas. Los ficheros originales con las secuencias de DNA no son usados por Bowtie una
vez que el ´ındice ha sido creado.
27Véase [3] para más información sobre la transformada de Burrows-Wheeler
31

Bowtie usa el algoritmo por bloques de Karkkainen [11] para compensar el tiempo de ejecución y
la memoria usada. bowtie-build tiene tres opciones para gestionar esta compensación: -p/--packed,
--bmax/--bmaxdivn y --dcv. Por defecto, bowtie-build buscará la configuración que produzca los me-
jores tiempos de ejecución sin agotar la memoria disponible. Este comportamiento por defecto puede
deshabilitarse mediante la opción -a/--noauto.
El indexador ofrece una serie de opciones relacionadas con la “forma” que tendrá el´ındice, por ejemplo
--offrate se encarga de gestionar qué fracción de las filas de la transformada de Burrows-Wheeler[3] son
“marcadas”. Todas estas opciones son potencialmente provechosas dependiendo de la aplicación concreta.
Se han establecido los valores predeterminados (que son razonables para la mayor´ıa de los casos) de
acuerdo con nuestros experimentos. Véase la sección 1.4.7 en la página 24 para más información.
Debido a que bowtie-build usa internamente punteros de 32-bit, puede manejar hasta un máximo
teórico de 232
− 1 caracteres en un ´ındice, sin embargo, debido a otras limitaciones, el techo real es algo
menor que eso. Si nuestra referencia sobrepasa los 232
−1 caracteres, bowtie-build mostrará un mensaje
de error y abortará el proceso. Para resolver este problema, deberemos dividir la secuencia de referencia
en lotes más pequeños y/o trozos y construir un ´ındice independiente para cada uno.
Si su equipo tiene más de 3-4 GB de memoria RAM y quiere aprovechar este hecho para hacer más
rápida la construcción del ´ındice, deberá usar la versión de bowtie-build de 64 bits. La versión de 32
bits está restringida para usar menos de 4 GB de memoria. Si en la zona de descarga de Bowtie no existe
un binario “pre-compilado” deberá descargar el código fuente y compilarlo usted mismo.
El indexador de Bowtie se basa en el “Índice FM” de Ferragina y Manzini[7], que a su vez se basa
en la transformada de Burrows-Wheeler[3]. El algoritmo usado para construir el ´ındice está basado en el
algoritmo por bloques de Karkkainen[11].
Uso de bowtie-build en la l´ınea de comandos:
bowtie-build [opciones]* <referencia> <ebwt_base>
1.5.1.1. Argumentos Principales
<referencia> Lista de ficheros FASTA que contienen las secuencias de referencia que van a ser ali-
neadas, o, si -c está especificada, las propias secuencias. Por ejemplo <referencia>
puede ser chr1.fa, chr2.fa, chrX.fa, o, si -c está especificada, GGTCATCCT, ACGGGTCGT,
CCGTTCTATGCGGCTTA.
<ebwt base> El nombre base que se va a usar para nombrar los ficheros del ´ındice. Por defecto,
bowtie-build nombra los ficheros de la siguiente forma NOMBRE.1.ebwt, NOMBRE.2.ebwt,
NOMBRE.3.ebwt, NOMBRE.4.ebwt, NOMBRE.rev.1.ebwt y NOMBRE.rev.2.ebwt, donde
NOMBRE es <ebwt base>.
1.5.1.2. Opciones
-f Los ficheros referencia de entrada (especificados como <referencia>) son fi-
cheros FASTA (usualmente con extensión .fa, mfa, fna o similar).
-c Las secuencias de referencia son tomadas por la l´ınea de comandos. Es decir,
<referencia> es una lista separada por comas de secuencias de DNA en lugar
de una lista de ficheros FASTA.
-C/--color Construye un ´ındice basado en espacio de colores, que se va a consultar ha-
ciendo uso de bowtie -C.
32

-a/--noauto Desactiva el comportamiento por defecto por el cual bowtie-build selecciona
automáticamente los valores para los parámetros --bmak, --dcv y --packed de
acuerdo con la memoria disponible. En su lugar, el usuario puede especificar
los valores de estos parámetros. Si la memoria se agota durante la indexación
se mostrará un error indicando dicho evento; en dicho caso es responsabilidad
del usuario buscar nuevos parámetros para evitar dicho error.
-p/--packed Usa una representación empaquetada ( 2 bits por nucleótido) para las cadenas
de DNA. Esto hace que se ahorre memoria pero hace que la indexación se
vuelva 2-3 veces más lenta. Por defecto esta opción está deshabilitada y se
puede configurar manualmente haciendo uso de la opción -a/--noauto.
--bmax <int> El número máximo de sufijos permitidos en un bloque. Permitiendo más sufijos
por bloque hace que la indexación sea más rápida, pero aumenta el uso de la
memoria. Al usar esta opción se reemplaza cualquier valor anterior de --bmax
o --bmaxdivn. Por defecto (en términos el parámetro --bmaxdivn) el valor es
--bmaxdivn 4. Esto se configura automáticamente por defecto; usaremos -a/--
noauto para configurarlo manualmente.
--bmaxdivn <int> El número máximo de sufijos permitidos en un bloque, expresado como fracción
de la longitud de la secuencia de referencia. Al usar esta opción se reemplaza
cualquier valor anterior de --bmax o --bmaxdivn. Por defecto (en términos el
parámetro –bmaxdivn) el valor es --bmaxdivn 4. Esto se configura automáti-
camente por defecto; usaremos -a/--noauto para configurarlo manualmente.
--dcv <int> Usa <int> como per´ıodo de la muestra. Un per´ıodo largo produce menos
sobrecarga de memoria, pero hace la ordenación de sufijos más lenta, especial-
mente si hay repeticiones. Debe ser una potencia de 2 menor que 4096. El valor
por defecto es 1024. Esto se configura automáticamente por defecto; usaremos
-a/--noauto para configurarlo manualmente.
--nodc Deshabilita el uso de --dcv. La ordenación de sufijos pasa a ser de tiempo
cuadrático en el peor caso. Por defecto esta opción está deshabilitada.
-r/--noref No construye las partes NOMBRE.3.ebwt y NOMBRE.4.EBWT del´ındice, las cuales
contienen una versión empaquetada de la secuencia de referencia y es usada
para alineamientos de extremos emparejados.
-3/--justref Construye sólo las partes NOMBRE.3.ebwt y NOMBRE.4.EBWT, las cuales contie-
nen una versión empaquetada de la secuencia de referencia y es usada para
alineamientos de extremos emparejados.
-o/--offrate <int> Para asignar las alineaciones a las posiciones en las secuencias de referen-
cia, es necesario anotar (marcar) algunas o todas las filas de la transformada
de Burrows-Wheeler[3] con su correspondiente ubicación en el genoma. -o-/--
offrate se encarga de cuántas filas van a ser marcadas: el indexador marcará ca-
da 2<int>
filas. Marcar más filas produce que las búsquedas de referencia-
posición sean más rápidas, pero requiere de más memoria para mantener todas
las anotaciones en tiempo de ejecución. El valor por defecto es 5 (anota 1 fila
cada 32); para el caso del genoma humano las anotaciones ocupan 340 MB.
-t/--ftabchars <int> Ftab es una tabla de búsqueda utilizada para calcular el rango inicial de la
transformada de Burrows-Wheeler[3] con respecto a los primeros <int> carac-
teres de la consulta. Un <int> más grande produce una tabla de búsqueda
más grande, pero también produce tiempos más rápidos en las consultas. la
ftab tiene un tamaño de 4<int>+1
bytes. Por defecto, está establecido a 10 (la
ftab tiene un tamaño de 4MB).
--ntoa Convierte Ns en la secuencia de referencia en As antes de construir el ´ındice.
Por defecto, Ns se excluyen del ´ındice y bowtie no informa alineamientos que
las incluyan.
33

--big --little Se usará el bit menos significativo cuando se serializan enteros en el ´ındice.
Por defecto: little-endian (recomendado para arquitecturas Intel y AMD).
--seed <int> Usa <int> como semilla para el generador de números pseudo-aleatorios.
--cutoff <int> Indexará únicamente las primeras <int> bases de la secuencia de referencia e
ignorará el resto.
-q/--quiet bowtie-build por defecto está en modo “verbose”. Con esta opción bowtie-build
sólo imprimirá los mensajes de error.
-h/--help Muestra la ayuda de bowtie-build.
--version Muestra la versión de bowtie-build instalada en el sistema.
1.6. El inspector de ´ındices bowtie-inspect
bowtie-inspect extrae información de un ´ındice de Bowtie sobre qué tipo de ´ındice y sobre las se-
cuencias de referencia se usaron para construirlo. Cuando se ejecuta sin ninguna opción, bowtie-inspect
mostrará en la salida un fichero FASTA que contiene las secuencias de referencia originales (con todos los
caracteres que no son A/C/G/T convertidos en Ns). También puede ser utilizado para extraer los nombres
de las secuencias de referencia usando la opción -n/--names o un resumen más detallado mediante la
opción -s/--summary.
Uso de bowtie-inspect en la l´ınea de comandos:
bowtie-inspect [opciones]* <ebwt_base>
1.6.1.1. Argumentos principales
<ebwt base> El nombre base del ´ındice que va a ser inspeccionado. El nombre base es el nombre
de los ficheros del ´ındice pero sin incluir la terminación .X.ebwt/.rev.X.ebwt etc.
bowtie busca el ´ındice especificado primero en el directorio actual, después en el
subdirectorio indexes dentro del directorio donde bowtie está instalado, y finalmente
en el directorio especificado en la variable de entorno BOWTIE_INDEXES.
1.6.1.2. Opciones
-a/--across <int> Al imprimir la salida en formato FASTA, imprime un carácter de “nueva linea”
cada <int> bases (por defecto: 60).
-n/--names Imprime los nombres de las secuencias de referencia, uno por l´ınea.
-s/--summary Imprime un resumen que incluye información sobre la configuración del ´ındice,
as´ı como los nombres y longitudes de las secuencias de entrada. El resumen tiene
el siguiente formato:
Colorspace <0 or 1>
SA-Sample 1 in <sample>
FTab-Chars <chars>
Sequence-1 <nombre> <longitud>
Sequence-2 <nombre> <longitud>
34

...
Sequence-N <nombre> <longitud>
Los campos se separan mediante tabuladores.
-e/--ebwt-ref Por defecto, cuando ejecutamos bowtie-inspect sin la opción -s o la opción -n,
éste recrea las secuencias de nucleótidos usando los nucleótidos codificados que
se encuentran en los ficheros .3.ebwt y .4.ebwt del ´ındice. Cuando hacemos
uso de la opción -e/--ebwt-ref bowtie-inspect recrea la secuencia de referencia
a partir del fichero .1.ebwt que contiene la secuencia de referencia basada en la
transformada de Burrows-Wheeler[3]. El proceso de recreación es mucho más lento
cuando hacemos uso de -e/--ebwt-ref. Además, cuando usamos -e/--ebwt-ref y el
´ındice se basa en espacio de colores, la referencia es imprimida en colores (A=azul,
C=verde, G=naranja,T=rojo).
--verbose Muestra toda la salida generada (se usa para debug).
--version Muestra la versión de bowtie-inspect instalada en el sistema.
-h/--help Muestra la ayuda de bowtie-inspect.
35

Cap´ıtulo 2
TopHat
2.1. ¿Qué es TopHat?
TopHat [20] es un programa que trata de alinear secuencias cortas de RNA dentro de un genoma para
identificar las uniones de empalme exon-exon. Se basa en la alineación ultra rápida de lecturas cortas de
Bowtie1
para su funcionamiento. TopHat corre únicamente en Linux y OS X, para hacerlo funcionar en
Windows deberemos usar algún tipo de emulador.
2.2. ¿Qué tipo de lecturas podemos usar con TopHat?
En un principio, TopHat fue diseñado para trabajar con lecturas producidas por Illumina Genome
Analyzer 2
, aunque muchos usuarios han tenido éxito al usar TopHat con lecturas provenientes de otras
tecnolog´ıas. En la versión 1.1.0 de TopHat se comenzó a soportar el formato de Espacio de Colores de
Applied Biosystems. Hay que remarcar que TopHat está optimizado para lecturas de 75 pares de bases
o más.
Actualmente, TopHat no permite hacer inserciones o deleciones pequeñas (menos de unas pocos
nucleótidos) dentro de las alineaciones reportadas. El soporte para dicha funcionalidad se pretente añadir
en futuras versiones.
La mezcla de lecturas emparejadas y lecturas simples juntas no está permitida en TopHat.
2.3. ¿Cómo encuentra TopHat las uniones?
A la hora de encontrar uniones, Tophat lo hace sin anotaciones de referencia. Primero lo que hace es
mapear las secuencias cortas de RNA en el genoma; acto seguido, Tophat, identifica exones potenciales,
ya que muchas secuencias cortas de RNA se alinearán de manera continua en el genoma. Usando este
mapeo inicial, TopHat construye una base de datos con todas las uniones posibles, y a continuación,
mapea cada una de las lecturas con su posible unión para confirmarlas.
Las máquinas de secuenciación en la actualidad producen lecturas cortas de un tamaño de 100 pares
de bases o superior. Algunos exones son más cortos de 100 pares de bases, esto produce que muchos
exones se puedan “perder” en el mapeo inicial. TopHat para solucionar este problema fracciona todas
las lecturas de entrada en fragmentos más pequeños, y los mapea de forma independiente. En la etapa
final TopHat vuelve a “pegar” los segmentos para as´ı poder producir las alineaciones.
1Véase el cap´ıtulo 1 en la página 15 para más información
2Illumina Genoma Analyzer es un secuenciador de DNA de la empresa Illumina
37

Tophat, a la hora de generar la base de datos de la uniones, hace uso de tres posibles fuentes de
evidencias:
La primera fuente son los emparejamientos de “islas de cobertura”, que se localizan en distintas
regiones de la pila de lecturas de la asignación inicial. Las “islas” vecinas son, a menudo, colocadas
juntas en el transcriptoma; as´ı, TopHat, busca la forma de unirlas con un intrón.
La segunda fuente sólo es utilizada cuando TopHat se ejecuta con lecturas de extremos emparejados.
Cuando se lee un par proveniente de diferentes exones de una transcripción, por lo general, se
asignan bastante separados en el genoma. Cuando nos encontramos frente a una situación de este
tipo, TopHat trata de “cerrar” la brecha entre ambos mediante la búsqueda de subsecuencias del
genoma que sean “compañeras” de una longitud total igual a la distancia de la brecha. Después de
esto, los intrones de la subsecuencia se añadirán a la base de datos que genera TopHat.
La tercera, y más fuerte fuente de evidencias, se produce cuando dos segmentos de la misma lectura
se asignan lejos uno de otro, o cuando falla el mapeo de un segmento interno. Con lecturas largas (de
más de 75 pares de bases), los intrones “GT-AG”, “GC-AG” y “A-AC” se encuentran al principio.
Con cadenas cortas, TopHat sólo informa alineamientos con los intrones “GT-AG”.
2.4. Prerrequisitos
Como dijimos en la sección 2.1 en la página anterior, TopHat está basado en Bowtie. Por ello para
poder ejecutar TopHat en nuestro sistema deberemos tener los siguientes ejecutables de Bowtie dentro
de nuestra variable PATH.
bowtie
bowtie-inspect
bowtie-build
Por otro lado, las alineaciones de salida de TopHat usan el formato BAM, por lo que necesitaremos
descargar e instalar SAM tools. Si necesita más información sobre SAM tools puede leer el cap´ıtulo 4 en
la página 69 que habla sobre dicho sistema.
El último requisito necesario para hacer funcionar correctamente TopHat en nuestro sistema es que
debe de tener la versión 2.4, o superior, de Python.
2.5. Obtener e instalar TopHat
Para obtener TopHat puede ir directamente a la página web de TopHat y descargar los ficheros fuente.
Para compilar los ficheros fuente deberemos seguir lo siguentes pasos:
1. Extraer los ficheros fuente del paquete comprimido.
2. Acceder al directorio extra´ıdo.
3. Ejecutar el comando ./configure para que nos prepare el entorno antes de compilar.
4. Ejecutar el comando make que nos generará los ficheros ejecutables.
5. Finalmente para instalar TopHat en nuestro sistema deberemos de ejecutar sudo make install.
De esta forma TopHat quedará correctamente instalado y los ejecutables estarán listos para ser
usados.
En la sección 2.6 en la página siguiente podrá tener información relevante y de una forma detallada
de todas las opciones que puede usar con TopHat.
38

2.6. Usando el mapeador de uniones TopHat
Veamos una descripción detallada del formato que ha de seguir para poder invocar correctamente a
TopHat:
tophat [opciones]* <indice_de_bases> <lecturas1_1 [,... lecturasN_1]>
<lecturas1_2,... lecturasN_2>
Cuando ejecutamos TopHat con extremos emparejados, hay que tener en cuenta que es muy impor-
tante que los ficheros * 1 y * 2 (es decir, los conjuntos de lecturas 1 y 2), tienen que aparecer separados
por comas en listas separadas. Y el orden de estos ficheros tiene que ser el mismo en ambas listas.
2.6.1. Argumentos
indice de bases El nombre base del ´ındice que se debe buscar. El nombre base es
el nombre de los ficheros del ´ındice pero sin incluir la terminación
.1.ebwt/, .rev.1.ebwt etc. bowtie busca el ´ındice especifica-
do primero en el directorio actual, después en el subdirectorio
indexes dentro del directorio donde bowtie está instalado, y fi-
nalmente en el directorio especificado en la variable de entorno
BOWTIE_INDEXES.
lecturas1 1 ,. . . lecturasN 1 Lista separada por comas de ficheros que contienen lecturas en
formato FASTA o FASTQ. Cuando ejecutamos TopHat con lec-
turas de finales emparejados, estos deben ser el conjunto * 1.
lecturas1 2,. . . lecturasN 2 Lista separada por comas de ficheros que contienen lecturas en
formato FASTA o FASTQ. Sólo es usado cuando usamos TopHat
con lecturas de finales emparejados, y contiene el conjunto de
ficheros * 2. Los ficheros * 2 deben aparecer en el mismo orden
que los ficheros * 1.
2.6.2. Opciones
-h/--help Muestra la ayuda de TopHat.
-v/--version Muestra la versión de TopHat instalada en el sistema.
-o/--output-dir <string> Establece el directorio en el cual TopHat guardará las sa-
lidas generadas. Por defecto es el directorio “.tophat out”.
-r/--mate-inner-dist <int> Esta es la distancia (media) esperada entre compañeros.
Por ejemplo, para extremos emparejados si ejecutamos con
fragmentos de 300 pares de bases, en los que cada final tiene
50 pares de bases, entonces deberemos establecer -r a 200.
No existe valor por defecto, y es necesario para ejecuciones
con extremos emparejados.
--mate-std-dev <int> La desviación estándar para la distribución de las distan-
cias internas entre pares compañeros. El valor por defecto
es 20 pares de bases.
-a/--min-anchor-length <int> La “longitud del ancla”. TopHat informará de uniones ge-
neradas por lecturas con al menos <int> bases en cada
lado de la unión. Como m´ınimo debe ser 3 y por defecto
está establecido a 8.
39

-m/--splice-mismatches <int> El número máximo de desajustes que pueden aparecer en
la región “ancla” de una alineación emparejada. El valor
por defecto es 0.
-i/--min-intron-length <int> La longitud m´ınima del intrón. Tophat ignorará pares do-
nante/receptor que estén más cerca de la distancia m´ınima
establecida. El valor por defecto son 70 pares de bases.
-I/--max-intron-length <int> La longitud máxima del intrón.
--allow-indels Establece el motor de búsqueda “indel”3
. La búsqueda “in-
del” está deshabilitada por defecto.
--max-insertion-length <int> Podemos cambiar la longitud máxima de inserción, que por
defecto está establecida a 3.
--max-deletion-length <int> Podemos cambiar la longitud máxima de deleción, que por
defecto está establecida a 3.
--solexa-quals Usa la escala “Solexa” para los valores de calidad en los
ficheros FASTQ4
.
--solexa1.3-quals En la versión 1.3 del “pipeline” Illumina GA, las calidades
Phred van codificadas en base 64. Usaremos esta opción
para los ficheros FASTQ dentro del “pipeline” 1.3 o ante-
rior.
-Q/--quals Usaremos esta opción para indicarle que las calidades vie-
nen en ficheros separados. Los ficheros con lecturas en es-
pacio de colores (CSFASTA) vienen con las calidades en
ficheros separados.
--integer-quals Los valores de las calidades vienen delimitados por valores
enteros, esto viene por defecto cuando usamos la opción
-C/--color.
-C/--color Lecturas en espacio de colores. Hay que tener en cuen-
ta que debemos usar un indexado por espacio de colores
en Bowtie 0.12.6 o superior. El uso t´ıpico es el siguiente
tophat --color --quals
[otras opciones]*
<indice_espacio_de_colores> <lecturas>
<calidades>
-F/--min-isoform-fraction < 0, 0 − 1,0 > TopHat ignora uniones que están basadas en pocos alinea-
mientos. Supongamos que tenemos una unión que abarca 2
exones, formada por S lecturas. Definamos la profundidad
promedio de cobertura del exón A como D, y asumimos
que es mayor que B. Si S/D es menor que “min-isoform-
fraction”, la unión no será reportada. El valor 0 deshabilita
el filtro. Por defecto es 0,15.
-p/--num-threads <int> Podemos especificar cuántos threads se van a usar para
alinear las lecturas. Por defecto únicamente usamos un th-
read.
-g/--max-multihits <int> Permite a TopHat que muestre un número máximo de ali-
neamientos para una lectura dada, el resto de alineamientos
los descarta. El valor por defecto es 20.
3indel es una contracción de “insert-delete”, inserción y borrado
4Véase la seccion A.5 en la página 117 para más información del formato FASTQ
40

--no-closure-search Desactiva la búsqueda de compañeros basada en cierres
para uniones. Está desactivado por defecto.
--closure-search Activa la búsqueda de compañeros basada en cierres para
los cruces. Hay que tener en cuenta que se debe habilitar
cuando la distancia entre compañeros es pequeña (≤ 50pb)
--no-coverage-search Desactiva la búsqueda de cobertura para cruces.
--coverage-search Activa la búsqueda de cobertura para cruces.
--microexon-search Con esta opción, tophat intentará buscar alineamientos
incidentes en microexones. Sólo funciona para lecturas de
50 pb o mayores.
--butterfly-search TopHat utilizará un algoritmo más lento, pero potencial-
mente más sensible para encontrar uniones, además de
la búsqueda estándar. Considere el uso de esta opción si
prevé que su experimento va a producir muchas lecturas
cortas a partir del pre-mRNA, que caerán dentro de los
intrones de sus transcritos.
--library-type TopHat tratará las lecturas de una hebra espec´ıfica. Cada
alineamiento de una lectura tendrá una etiqueta de atribu-
to XS. Se considera la posibilidad de aportar una librer´ıa
de tipos para seleccionar el correcto protocolo de secuen-
ciación de RNA.
Tipo de la Librer´ıa Ejemplo Descripción
fr-unstranded Standard
Illumina
Las lecturas del principio (parte más a la izquierda)
del fragmento se alinean en el normal de la hebra, y
las lecturas del final (parte más a la derecha) en la
hebra opuesta.
fr-firststrand dUTP, NSR,
NNSR
Igual que en el caso anterior, pero se debe cumplir
la regla de que el extremo más a la derecha del frag-
mento es lo primero en ser secuenciado. .
fr-secondstrand Ligation,
Standard
SOLiD
Igual que en el caso anterior, pero se debe cumplir
la regla de que el extremo más a la izquierda del
fragmento es lo primero en ser secuenciado.
2.6.3. Opciones Avanzadas
--initial-read-mismatches Las lecturas están inicialmente mapeadas, permitiendo más des-
ajustes en cada alineamiento. El valor por defecto es 2.
--bowtie-n Tophat usa el modo -v para mapear (el modo por defecto). Con
la opción --bowtie-n usamos el modo -n.
--segment-mismatches Los segmentos de lecturas son mapeados independientemente,
permitiendo más desajustes en cada alineamiento. El valor por
defecto es 2.
--segment-length Cada lectura se corta en segmentos, y cada uno de ellos tiene el
tamaño que se le defina en --segment-length. Estos segmentos se
asignan de forma independiente. El valor por defecto es 25.
--min-closure-exon Longitud máxima entre exones al hacer uso de la búsqueda de
cierre.
41

Alejandro tfm

Recommended

More Related Content

What's hot

What's hot (16)

Similar to Alejandro tfm

Similar to Alejandro tfm (20)

Alejandro tfm