Este documento introduce los conceptos fundamentales de la filogenia molecular, incluyendo la construcción de árboles filogenéticos a partir de secuencias de genes y proteínas, los métodos de inferencia filogenética como máxima parsimonia y máxima verosimilitud, y la evaluación y representación de relaciones evolutivas entre taxones.
6. ¿Qué nos puede decir este alineamiento sobre la
relación evolutiva entre estas secuencias?
http://en.wikipedia.org/wiki/Multiple_sequence_alignment
7. Filogenia Molecular
Estudio de la historia evolutiva de los seres vivos
(o sus genes y proteínas), realizado a partir de
sus secuencias.
Principal supuesto
En estudios filogenético-moleculares, se asume
que las secuencias a comparar son homólogas.
9. Cada posición reflejaría la variación de un
residuo desde un ancestro común
http://en.wikipedia.org/wiki/Multiple_sequence_alignment
10. Con raíz Sin raíz
Representación de un árbol
Nodo
Clado
Taxones
Rama
“Outgroup”
(Grupo externo)
11. Relaciones filogenéticas: Ortología y Paralogía
Ortólogos: generados por la
transferencia vertical,
producida por la
especiación
Parálogos: generados por
duplicaciones dentro de una
especie dada
Baldauf SL, Trends Genet. 2003, 19(6):345-351
16. ¿Cómo se construye un árbol filogenético?
Selección
de
secuencias
Elaboración y
curación de un
alineamiento múltiple
Aplicación de
métodos y
modelos
evolutivos
Evaluación de la robustez
de los clados
Representación e
interpretación
17. ¿Cómo se construye un árbol filogenético?
Selección
de
secuencias
Elaboración y
curación de un
alineamiento múltiple
Aplicación de
métodos y
modelos
evolutivos
Evaluación de la robustez
de los clados
Representación e
interpretación
18. Seleccionando secuencias
• ¿Qué se desea hacer? ¿Cuál es el enfoque
evolutivo?
• Proteínas
– Si se necesita evaluar evolución familias por función
– Filogenia genómica (sets concatenados de genes
conservados y/o proteínas ribosomales)
• DNA
– Evolución de regiones altamente variables (por ej: D-
loop mitocondrial, región espaciadora entre genes de
rRNA)
– Marcadores para evolución de organismos (por ej:
rRNA 16S / 18S
20. Una aproximación secuencia/especie: el árbol de la
vida
Woese & Fox, Proc Natl Acad Sci U S A. 1977;74(11):5088-5090
Woese et al., Proc Natl Acad Sci U S A. 1990;87(12):4576-4579
rRNA 16S / 18S
21. Filogenia para el análisis de familias de proteínas
http://jcs.biologists.org/content/118/5/843
22. Árboles filogenómicos
“…The tree was
constructed
from
concatenated
protein
sequence
alignments
derived from 31
housekeeping
genes…”
Wu & Eisen, Genome Biology 2008; 9:R151
23. ¿Cómo se construye un árbol filogenético?
Selección
de
secuencias
Elaboración y
curación de un
alineamiento múltiple
Aplicación de
métodos y
modelos
evolutivos
Evaluación de la robustez
de los clados
Representación e
interpretación
25. • Clustal-Omega (Sievers et al., 2011)
• T-COFFEE (Notredame et al., 2000)
• MAFFT (Katoh et al., 2002)
• COBALT (Papadopoulos & Agarwala, 2007)
• MUSCLE (Edgar, 2004)
• PROBCONS (Do et al., 2005)
etc…
Alineamiento múltiple
26. No es trivial cuál herrramienta usar
Wong KM et al., Science. 2008;319(5862):473-476
27. Wong KM et al., Science. 2008;319(5862):473-476
No es trivial cuál herrramienta usar
28. ¿Cuál es el mejor?
Golubchik T et al., Mol Biol Evol. 2007, 24(11):2433-2442.
29. Secuencias con alta divergencia muestran patrones de alineamiento ricos
en gaps pueden señalar un error de método.
Problemas en un alineamiento
30. Posible razón: presencia de secuencias fragmentadas (ricas en gaps)
Posible razón: presencia de secuencias muy divergentes (no serían
reales miembros de una familia)
Problemas en un alineamiento
31. ¿Cómo se construye un árbol filogenético?
Selección
de
secuencias
Elaboración y
curación de un
alineamiento múltiple
Aplicación de
métodos y
modelos
evolutivos
Evaluación de la robustez
de los clados
Representación e
interpretación
33. Métodos de inferencia filogenética
UPGMA
• Unweighted Pair Group Method with Arithmetic Mean
• Asume estado de “reloj molecular”, o sea, que todas las secuencias
evolucionan a una tasa constante (por lo tanto, no puede ofrecer
largos de rama diferentes)
• Utiliza promedios aritméticos, siempre entre pares
http://www.southampton.ac.uk/~re1u06/teaching/upgma/
42. Métodos de inferencia filogenética
UPGMA
Asumir un estado de “reloj” molecular puede
conducir a topologías erradas
43. Métodos de inferencia filogenética
Neighbor-Joining
http://en.wikipedia.org/wiki/Neighbor_joining
44. Métodos de inferencia filogenética
Neighbor-Joining
1. Elegir las hojas (secuencias) i, j tales que Dij - ui - uj
sea la menor posible
2. Definir una nueva hoja k, cuyas distancias a i y j sean
3. Calcular la distancia desde k a cualquier otra hoja r
4. Omitir i y j
Conectar las dos hojas por una rama cuya longitud sea Dij
( )
( )ijijjk
jiijik
uuDd
uuDd
-+=
-+=
2
1
2
1
2
1
2
1
( )ijjrirkr
DDDD -+=
2
1
Continuar hasta que sólo queden 2 hojas
http://en.wikipedia.org/wiki/Neighbor_joining
45. Métodos de inferencia filogenética
Máxima Parsimonia (Maximum parsimony, MP)
• El concepto de parsimonia está en el corazón de todos
los métodos basados en caracteres de la reconstrucción
filogenética (por ejemplo, filogenia basada en fósiles).
• Las 2 ideas fundamentales de la parsimonia biológica
son:
– Las mutaciones son eventos extremadamente raros
– En cuanto más improbable sean los cambios que
generan un árbol, más probable es que tal sea
incorrecto.
• Por lo tanto, el árbol que involucre el menor número
de cambios es el más probable.
Fitch, WM., Systematic Zoology. 1971; 20(4), 406-416
46. Posición 1 2 3
#1 T G C
#2 T A C
#3 A G G
#4 A A G
El mejor árbolà
Fitch, WM., Systematic Zoology. 1971; 20(4), 406-416
47. Métodos de inferencia filogenética
Máxima Parsimonia (Maximum parsimony, MP)
http://evolution-textbook.org/content/free/figures/ch27.html
El problema de la ”atracción de ramas largas”: cuando el
árbol posee secuencias muy divergentes, MP infiere
incorrectamente los clades
48. Métodos de inferencia filogenética
Máxima Verosimilitud (Maximum likelihood, ML)
• ML utiliza un criterio estadístico y
computacionalmente intensivo para evaluar una
hipótesis evolutiva:
– Toma un alineamiento múltiple (observación)
– Formula todos los árboles posibles para cada
columna (partición) del alineamiento
– Calcula la probabilidad de todas las topologías
posibles, basándose en un modelo evolutivo
seleccionado por el usuario
– Combina la información para cada partición
– Identifica el árbol con la mayor probabilidad general,
cómo la filogenia más probable
http://homes.cs.washington.edu/~ruzzo/courses/gs559/09wi/lectures/8A_likelihood.pdf
49. Métodos de inferencia filogenética
Máxima Verosimilitud (Maximum likelihood, ML)
• Entrada: un set de secuencias y un modelo de
sustitución
• Salida: El árbol que maximice la verosimilitud del set de
datos
• Verosimilitud: la probabilidad condicional de reproducir
los datos, bajo un modelo dado.
http://homes.cs.washington.edu/~ruzzo/courses/gs559/09wi/lectures/8A_likelihood.pdf
50. Métodos de inferencia filogenética
Inferencia bayesiana
• Al igual que ML, es puramente estadístico y
computacionalmente intensivo
• Se basa en la regla de Bayes: Puede introducir
supuestos sobre la probabilidad inicial (”conocimiento
previo”)
• El método bayesiano utiliza parámetros aleatorios en el
modelo aplicado al árbol, mientras que ML utiliza
constantes fijadas y de valor desconocido
• Utilizando MCMC (Markov Chain Monte Carlo), se
genera una muestra de árboles que representan la
distribución de las probabilidades posteriores. En cuanto
más grande la muestra, más confiable el resultado.
http://faculty.fortlewis.edu/mccauley_r/Ecol_mol/Archibald%20et%20al%202003%20Bayesian%20Inference.pdf
51. Métodos de inferencia filogenética
Yang & Rannala, Nat Rev Genet. 2012; 13(5):303-314
52. Qué cosas consideran los modelos evolutivos
Los modelos de sustitución de
bases consideran diferencias
entre las transiciones y
transversiones
Los modelos de sustitución de
proteínas consideran cambios
entre aminoácidos de similares y
diferentes propiedades
53. Los modelos de sustitución de proteínas asignan diferente
impacto a las substituciones entre aminoácidos de similares y
diferentes propiedades
Qué cosas consideran los modelos evolutivos
Le & Gascuel, Mol Biol Evol. 2008;25(7):1307-1320
55. El valor numérico gamma
(α): En cuanto más bajo,
más baja es la variación de
las tasas de sustitución
entre los sitios.
La aplicación de este
criterio es particularmente
útil en ML y Bayesiano
Qué cosas consideran los modelos evolutivos
Yang Z., Trends Ecol Evol. 1996; 11(9):367-372
56. Qué cosas consideran los modelos evolutivos
Yang Z., Trends Ecol Evol. 1996; 11(9):367-372
57. ¿Cómo se construye un árbol filogenético?
Selección
de
secuencias
Elaboración y
curación de un
alineamiento múltiple
Aplicación de
métodos y
modelos
evolutivos
Evaluación de la robustez
de los clados
Representación e
interpretación
58. • Bootstrapping: un método de medición de la
precisión que realiza un proceso repetitivo de
construcción de árboles que se producen después
de una alteración discreta de un mismo set de
datos (generalmente, un re-arreglo de las
columnas)
Evaluación de los árboles filogenéticos
61. Taubenberger JK., Proc Am Philos Soc. 2006; 150(1):86-112
Nos ayuda a comprender cómo agentes infecciosos
emergieron
Filogenia de la hemaglutinina
(segmento HA1) de la Influenza
62. Nos ayuda a comprender la evolución y diversidad de
las especies
Woese & Fox, Proc Natl Acad Sci U S A. 1977;74(11):5088-5090
Woese et al., Proc Natl Acad Sci U S A. 1990;87(12):4576-4579
rRNA 16S / 18S
64. Hug LA et al., Nat Microbiol. 2016; 1:16048
El mundo incultivable
65. Hug LA et al., Nat Microbiol. 2016; 1:16048
El mundo incultivable
Un sector completo del Árbol
de la Vida (recuperado por
reconstrucción
metagenómica) permanece
sin cultivar
66. Spang A. et al., Nature. 2015; 521(7551):173-179
El caso de Lokiarchaeota
Nos ayuda a comprender la evolución y diversidad de
las especies
67. Spang A. et al., Nature. 2015; 521(7551):173-179
El caso de Lokiarchaeota
Nos ayuda a comprender la evolución y diversidad de
las especies
68. Spang A. et al., Nature. 2015; 521(7551):173-179
El caso de Lokiarchaeota
Nos ayuda a comprender la evolución y diversidad de
las especies
69. Ingles-Prieto A. et al., Structure. 2013; 21(9):1690-1697
Nos ayuda a reconstruir proteínas ancestrales
70. Perez-Jimenez R. et al., Nat Struct Mol Biol. 2011; 18(5):592-596
Nos ayuda a reconstruir proteínas ancestrales