Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Genpop10coal e abc

4,626 views

Published on

Introduction to coalescent theory and Approximate bayesian Computation (ABC)

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

Genpop10coal e abc

  1. 1. Genetica di popolazioni 10: Il coalescente
  2. 2. Programma del corso 1. Diversità genetica 2. Equilibrio di Hardy-Weinberg 3. Inbreeding 4. Linkage disequilibrium 5. Mutazione 6. Deriva genetica 7. Flusso genico e varianze genetiche 8. Selezione 9. Mantenimento dei polimorfismi e teoria neutrale 10. Introduzione alla teoria coalescente 11. Struttura e storia della popolazione umana + Lettura critica di articoli
  3. 3. La genetica studia la trasmissione ereditaria dal passato al presente forward
  4. 4. Ma quando si lavora su popolazioni si raccolgono dati sul presente e si cerca di risalire al passato ? ? backward
  5. 5. Cos’è un modello? La teoria coalescente è un modello di evoluzione, vista come processo genealogico. Nella teoria coalescente la trasmissione ereditaria viene trattata indipendentemente dal processo di mutazione Definire il modello Esplorarne le proprietà Stimare parametri dai dati Confrontare dati osservati e attese del modello
  6. 6. Costruiamo (procedendo verso il passato) la genealogia materna di un gruppo di individui Due possibilità: o ogni individuo ha una madre diversa: O due individui hanno la stessa madre: Chiamo questo fenomeno coalescenza
  7. 7. Assunzioni del coalescente classico (Kingman 1982) 1. Neutralità 2. Siti infiniti 3. Se gli individui sono diploidi e le dimensioni della popolazione sono N, il modello vale per 2N copie aploidi e indipendenti del gene 4. Unione casuale entro la popolazione 5. Dimensioni della popolazione costanti (*) 6. Generazioni non sovrapposte Parliamo di caratteri a trasmissione uniparentale
  8. 8. Ricostruire la storia di una popolazione Passato Presente
  9. 9. Genealogie N = 10 N costante n = 6 9 generazioni
  10. 10. Genealogie MRCA
  11. 11. Genealogie MRCA
  12. 12. Mutazione
  13. 13. Mutazione 1 CAATG CAATA CAGTG TAATA CAATG CAGTG CAGTGCGGTG TAACA TAATA TAACA1 2 3 3 4 5 CGGTG
  14. 14. Non sempre l’albero ricostruito sulla base delle mutazioni è molto informativo 2 3 1 4 5 CAATGCGGTG CAGTG TAATA TAACA Possiamo capire qualcosa di più?
  15. 15. Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze: 1. In un campione di r individui alla generazione 0, il numero di antenati 1, 2,…n generazioni fa (ξ1, ξ2, ..ξn) decresce fino ad arrivare a 1: r = ξ0 ξ1 ξ2 , ..ξn Ogni genealogia viene ricondotta necessariamente a un singolo antenato comune (MRCA). Non è possibile discriminare fra monofilia e polifilia
  16. 16. Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze: 2. Se la popolazione è stazionaria (N costante), N donne hanno una madre fra le N donne della generazione precedente. La probabilità di coalescenza è vicina a 1/N N1=8 N0=8?
  17. 17. Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze: 3. La probabilità P(n) che n alleli abbiano n antenati distinti alla generazione precedente diminuisce con le dimensioni del campione (più grande il campione, più grande la P di almeno un evento di coalescenza) campione P(ant.com) P(n) 2 1/N 1-(1/N) 3 2/N 1-(2/N) n n /N 2 1- n /N 2
  18. 18. Dimensioni effettive A A A A Y X X X mt mt A A A A Y X X X mt mt 4. La dimensione effettiva della popolazione è proporzionale a: NC = 2 NeA = 4 NeX = 3 NeY = 1 Ne mt = 1
  19. 19. Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze: 5. I tempi medi di coalescenza aumentano procedendo verso il passato
  20. 20. Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze: 6. Il tempo atteso fra due eventi di coalescenza è distribuito esponenzialmente. E(T)=4N: Wright-Fisher Tempo atteso per passare da k a (k-1) antenati: Tk = 4N/[k(k-1)], o 2N per geni a trasm. uniparentale
  21. 21. Come si può arricchire il coalescente classico? 1. Selection 2. Recurrent and back mutation 3. Recombination 4. *Non-random mating: eg geographic subdivision with specified migration between subpopulations 5. Population size fluctuation, including bottlenecks and expansions 6. Non-’Poisson’ distributions of offspring numbers 7. Unequal generation intervals between lineages
  22. 22. Utilizzo del coalescente: simulazione di processi genetici complicati • Per capire la demografia di popolazioni passate (colli di bottiglia, espansioni...) • Per stimare il momento più probabile in cui sono avvenute mutazioni, migrazioni, cambiamenti delle pressioni selettive... • Per valutare se i dati disponibili sono sufficienti a discriminare fra diverse ipotesi
  23. 23. ABC (Approximate Bayesian Computations) 1. Alternative models are defined 2. For each model, millions of genealogies are generated by coalescent simulations, sampling parameters from broad prior distributions 3. Summary statistics are estimated from observed and simulated data 4. A subset of simulations is retained, i.e. those showing the closest correspondence between observed and simulated statistics 5. MODEL CHOICE: The posterior probability of each model is evaluated by counting its occurrences among the best simulations 6. PARAMETER ESTIMATION: The modes are calculated of the parameter values producing the best simulations under the chosen model, and credible intervals about the modes are estimated 7. VALIDATION OF THE RESULTS: by further simulations in which pseudodata are generated according to the models, and the power of the method to (a) tell models apart and (b) identify the right model, is tested
  24. 24. ABC (Approximate Bayesian Computations) 1. Alternative models are defined Mod 3 E M C 27 26 a1 a2 Mod 2 E M 27 26 a1 a2 Mod 1Mod 1 C E M 27 26 C
  25. 25. ABC (Approximate Bayesian Computations) 2. For each model, millions of genealogies are generated, sampling parameters from broad prior distributions 10 000 – 50 000Ne Medieval Tuscans 4000 – 21 000Ne Etruscans 100 – 2000Ne at split 10 000 – 100 000Ne Generation 27 100 – 10 000Ne Generation 26 101 – 1500T estimated (bottleneck) 0.0003 – 0.0075μ 50 000 – 500 000Ne Modern Tuscans PriorsParameters
  26. 26. ABC (Approximate Bayesian Computations) 3. A subset of simulations is retained, i.e. those with the shortest distances between observed and simulated statistics Observed statistics
  27. 27. ABC (Approximate Bayesian Computations) 4. MODEL CHOICE: The posterior probability of each model is estimated from the frequency among the best simulations of the simulations generated under that model P=0.20 E M C 27 26 a1 a2 P=0.10 E M 27 26 a1 a2 Mod 1P=0.70 C E M 27 26 C Observed statistics
  28. 28. ABC (Approximate Bayesian Computations) 5. PARAMETER ESTIMATION: the mode and the highest probability density interval of the parameters are estimated from the best simulations under the best model 0 100 40 27 26 Ne generation 40 Ne generation 100 Ne Generation 27 Ne Generation 26 T bottleneck μ Ne generation 0 Observed statistics
  29. 29. Filogeografia: mtDNA
  30. 30. Filogeografia: Y
  31. 31. Filogeografia: Interpretazioni
  32. 32. Filogeografia: di male in peggio
  33. 33. Gene trees, population trees Gene trees are unknown, but we can reconstruct some of their features assuming mutations occurred at a constant rate (=no selection)
  34. 34. T2=2N T5=N/5 4N For nuclear genes, Exp time from k to (k-1) ancestors: Tk = 4N/[k(k-1)] generations (large std. errors) Population-genetics theory describes the expected features of gene trees in terms of population parameters
  35. 35. present past If two populations are isolated, the final coalescence is 2N generations before the split Origin of the B population A B T2=2N T: gene divergence : population divergence Exp (T) = 4N Exp(T2) = 2N Exp = T/2
  36. 36. present past If there is initial polymorphism, the final coalescence may be much more than 2N generations before the split Origin of the B population A B T>> T2=2N
  37. 37. : population divergence E(T- ) = 2 Ne generationsT: gene divergence past present Gene divergence predates population divergence: T is equal to only if 2 Ne =0
  38. 38. T 2Ne very small present past Only if there is a population bottleneck or a founder effect does approximate T Phylogeographic analyses require the assumption of strong founder effects
  39. 39. Is it safe to assume that most human populations originated from a founder effect? Evidence for rapid expansion (110-40 Kyrs ago) in farming populations Evidence for shrinking in hunting-gathering populations, possible caused by competition with early farmers (Excoffier & Schneider 1999) Necessary to test for founder effects causing reduced genetic diversity at several loci in a population
  40. 40. Ages of molecules are not ages of populations Initial polymorphism results in overestimation of the population’s age Population’s age Coalescence time From Krings et al. (1997)
  41. 41. Any conclusions? • Robust inferences on past population processes are complicated • No shortcuts: allele genealogies are not population genealogies • Archaeologists need geneticists to tell demographic from cultural processes • Geneticists need archeologists to identify good hypotheses to test
  42. 42. Sintesi 1 • Il coalescente fornisce un modello di evoluzione basato sull’indipendenza fra processo genealogico e processo mutazionale • Tramite il coalescente si possono stimare parametri sulla base di assunzioni esplicite e simulare geenalogie di geni
  43. 43. Sintesi 2 Vantaggi del coalescente: • Rende esplicite le assunzioni; • fornisce misure di incertezza; • non tratta (a differenza degli approcci filogeografici) i polimorfismi come mutazioni fissate.

×