L'inferenza statistica e la lettura dei dati

1,446 views
1,275 views

Published on

By Serena Sanna (CNR)
@ seminari per la valorizzazione della ricerca
22 Giugno 2011

Published in: Technology
1 Comment
0 Likes
Statistics
Notes
  • <br /><object type="application/x-shockwave-flash" data="http://www.youtube.com/v/NexsEoXhI44?version=3&amp;hl=en_US" width="350" height="288"><param name="movie" value="http://www.youtube.com/v/NexsEoXhI44?version=3&amp;hl=en_US"></param><embed src="http://www.youtube.com/v/NexsEoXhI44?version=3&amp;hl=en_US" width="350" height="288" type="application/x-shockwave-flash"></embed></object>
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

No Downloads
Views
Total views
1,446
On SlideShare
0
From Embeds
0
Number of Embeds
94
Actions
Shares
0
Downloads
17
Comments
1
Likes
0
Embeds 0
No embeds

No notes for slide

L'inferenza statistica e la lettura dei dati

  1. 1. L’inferenza statistica e la lettura dei datiConcetti e Applicazioni negli studi genetici Serena Sanna Aula Magna Dipartimento di Fisica Cittadella Universitaria di Monserrato 22 Giugno 2011
  2. 2. 1/7 Premessehttp://www.crs4.it/web/valorisation-and-transfer-of-knowledge/seminar-series• Andrea Angius High throughput genotyping and next generation sequencing: nuovi strumenti e strategie di analisi della ricerca genetica• Frederic Reiner Sequenziamento e analisi bioinformatica del genoma umano• Ilenia Zara Studi di associazione genetica e disegno sperimentale "caso-controllo"
  3. 3. 1/7 Indice degli argomenti1) Background e concetti base2) Dove ci serve l’inferenza statistica?3) Modello matematico4) Lettura e uso dei risultati5) Disegni sperimentali e performance6) Esempi di applicazioni7) Risultati preliminari e lavori in corso
  4. 4. 1/7•Studi genetici:studiano le variazioni del DNA tra individui ecercano di capire se correlano con un fenotipoclinicoLe variazioni del DNA (o marcatori) sono queipunti del DNA che mostrano delle differenzerispetto ad un genoma di riferimentoNe esistono di diversi tipi, classificati rispetto altipo di variazione
  5. 5. 1/7 •Maggiormente utilizzati sono gli SNPs (Single Nucleotide Polymorphisms)TAGTAATGCGTATCCACTG Genoma di riferimentoTAGTAATGCGTATCCACTG (genotipo omozigote allele di riferimento)TAGTAATGCGTATACACTG Individuo sequenziatoTAGTAATGCGTATCCACTG (genotipo eterozigote)TAGTAATGCGTATACACTG Individuo sequenziatoTAGTAATGCGTATACACTG (genotipo omozigote allele alternativo)
  6. 6. 1/7• Studi di associazione genetica 1. individuazione dei polimorfismi 2. verifica della correlazione con la malattia o con variazioni di un tratto quantitativo C/C A/A C/A C/A C/C A/C A/C A/A C/C A/A C/C C/A C/A C/A A/A A/C A/A A/A A/C A/CVolontari affetti da una patologia Volontari NON affetti dalla patologia A=8 A=14 C=12 C=6
  7. 7. 1/7• Studi di associazione genetica 1. individuazione dei polimorfismi 2. verifica della correlazione con la malattia o con variazioni di un tratto quantitativo chisquare test C/C A/A pvalue= 0.77 C/A C/A C/C A/C A/C A/A C/C A/A C/C Non significativo! C/A C/A C/A A/A A/C A/A A/A A/C A/CVolontari affetti da una patologia Volontari NON affetti dalla patologia A=8 A=14 C=12 C=6
  8. 8. 1/7• Studi di associazione genetica 1. individuazione dei polimorfismi 2. verifica della correlazione con la malattia o con variazioni di un tratto quantitativo É necessario sequenziare il DNA di tutti i volontari in studio e confrontarli con un genoma di riferimento? C/C A/A C/A C/A C/C A/C A/C A/A C/C A/A C/C C/A C/A C/A A/A A/C A/A A/A A/C A/C A=8 A=14 C=12 C=6
  9. 9. 1/7• Sequenziamento del DNA oggi possibile ad un costo piú abbordabile• Ancora proibitivo si vogliono sequenziare diverse migliaia di volontari (numeri necessari per studi genetici di associazione per tratti complessi)• Si possono tuttavia utilizzare metodi di inferenza statistica per integrare dati da diverse fonti e tipologie per condurre un sequenziamento virtuale
  10. 10. 2/7 Strategia:a. Leggere il DNA dei volontari in studio solo parzialmente. Guardare (genotipizzare) quei punti del DNA dove sono già stati osservati dei polimorfismib. Predire l’intera sequenza basandosi sulla similitudine tra individui, le conoscenze sulla struttura e le dinamiche di trasmissione dei cromosomi, e delle sequenze ottenute nel proprio laboratorio o reperibili nei database pubblici
  11. 11. 2/7Genotyping Arrays
  12. 12. 2/7Genotyping Arrays marcatore
  13. 13. 2/7Genotyping Arrays marcatoreA G GG A
  14. 14. 2/7 Genotyping arrays: •Esistono diverse case produttrici•Marcatori predefiniti in base a degli studi delprogetto HapMap, che ha identificato ~2.5M SNPs •Fino a 1 milione di marcatori genetici per circa 200-300 euro a persona
  15. 15. Arrays vs Sequenze• Economici Costosi• Ristretti allo studio di <=1M Studio della completa di varianti variabilità genetica• Ristretti allo studio di Consentono la scoperta di varianti già note nuove varianti• Escludono varianti presenti scoperta e studio di varianti solo in alcune popolazioni specifiche della popolazione a (come le isolate) cui appartiene l’individuo sequenziato
  16. 16. Il valore degli arrays: passato e futuro • Enorme successo negli ultimi 4 anni, anche grazie all’utilizzo dei metodi di inferenza per l’integrazione dei 2.5 M di SNPs HapMap • Tuttavia é emersa la necessità di studiare l’intera sequenza piuttosto che dei marcatori “comuni”, nonché di popolazioni “speciali” • Come conseguenza del basso costo degli arrays, esistono oggi molti gruppi di ricerca che hanno genotipizzato migliaia e migliaia di individui con questi chip. Come possiamo sfruttare questa risorsa?
  17. 17. 2/7 Aumentare l’informazione con l’inferenza statistica• Supponiamo di avere a disposizione le sequenze (o un genoma piú dettagliato) di un ridotto numero di individui.. e di aver caratterizzato il genoma dimigliaia di individui con un arrays (ad unarisoluzione piú bassa)
  18. 18. 2/7 Genotipi Osservati con gli arraysVolontario: . . A A . . . . . . . . A . . . . A . . . . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  19. 19. 2/7 Genotipi Osservati con gli arraysVolontario: . . A A . . . . . . . . A . . . . A . . . . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  20. 20. 2/7 Genotipi Osservati con gli arraysVolontario: . . A A . . . . . . . . A . . . . A . . . . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  21. 21. 2/7 Genotipi Osservati con gli arraysVolontario: . . A A . . . . . . . . A . . . . A . . . . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  22. 22. 2/7 Genotipi Osservati con gli arraysVolontario: c g A A a t c t c c c g A c c t c A t g g . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  23. 23. 2/7 Genotipi Osservati con gli arraysVolontario: c g A A a t c t c c c g A c c t c A t g g . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  24. 24. 2/7 Genotipi Osservati con gli arraysVolontario: c g A A a t c t c c c g A c c t c A t g g . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  25. 25. 2/7 Genotipi Osservati con gli arraysVolontario: c g A A a t c t c c c g A c c t c A t g g t g G A a t c t c c c t C t t t t A t a c Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  26. 26. 2/7SEMPLICE?COMPLICAZIONI NEI DATI REALI EMODELLO INFERENZIALE
  27. 27. 2/7 Genotipi Osservati con gli arraysVolontario: . . A/G A/A . . . . . . . . A/C . . . . A/A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  28. 28. 2/7 Problema:Ogni individuo ha 2 copie di ogni cromosoma.I marcatori vengono letti per posizione, ma non si distingue quale allele viene letto da ciascuna copia A G T C A C T G A C T C A G T GSequenza vera
  29. 29. 2/7 Problema:Ogni individuo ha 2 copie di ogni cromosoma.I marcatori vengono letti per posizione, ma non si distingue quale allele viene letto da ciascuna copia A G T C A/T G/C A C T G A/T G/C A C T C A/T C/C A G T G A/T G/GSequenza vera Lettura dell’array
  30. 30. 2/7 Problema:Ogni individuo ha 2 copie di ogni cromosoma.I marcatori vengono letti per posizione, ma non si distingue quale allele viene letto da ciascuna copia A G T C A/T G/C A C T G A/T G/C A ? C T C A/T C/C A G T G A/T G/GSequenza vera Lettura dell’array
  31. 31. 2/7 Problema:Ogni individuo ha 2 copie di ogni cromosoma.I marcatori vengono letti per posizione, ma non si distingue quale allele viene letto da ciascuna copia A G T C A/T G/C A C T G A/T G/C A ? C A/T C/C A C T C T C A G A G T G A/T G/G T GSequenza vera Lettura dell’array
  32. 32. Problema:Ogni individuo ha 2 copie di ogni cromosoma.I marcatori vengono letti per posizione, ma non si distingue quale allele viene letto da ciascuna copia A G T C A/T G/C A C A C 0.5 T G T G A/T G/C A ? C 0.5 A T G C T C A/T C/C A G T G A/T G/GSequenza vera Lettura dell’array
  33. 33. 2/7 Problema:Piú complesso se aumentiamo i marcatori A A G T C C A/T A/C G/C A C C T C G A/T C/C G/C A A C T C C A/T A/C C/C A C G T A G A/T A/C G/GSequenza vera Lettura dell’array
  34. 34. 2/7 Problema:Piú complesso se aumentiamo i marcatori A A G T C C A/T A/C G/C A C C T C G A/T C/C G/C A ? A C 0.5 A T A C C C T C C A/T A/C C/C A C C 0.5 T A C A C G T A G A/T A/C G/GSequenza vera Lettura dell’array
  35. 35. 2/7 Problema:Piú complesso se aumentiamo i marcatori 0.25 A A C A A G T C G T C C A/T A/C G/C 0.25 A A G T C C 0.25 A C C A C C T C G A/T C/C G/C T A G A ? A C 0.25 A T C A G C T C C A/T A/C C/C A C G T A G A/T A/C G/GSequenza vera Lettura dell’array
  36. 36. 2/7 Problema: Piú complesso se aumentiamo i marcatori 0.25 A A C A A G T C G T C C A/T A/C G/C 0.25 A A G A C C T C C T C G 0.25 A C CAplotipi di riferimento A/T C/C G/C T A G 0.25 A C G T A C A/T A/C C/C A/T A/C G/G Lettura dell’array
  37. 37. 2/7 Problema: Piú complesso se aumentiamo i marcatori 0.25 A A C C A A G T C G T C C A/T A/C G/C 0.25 A A G A C C T C C T C G 0.25 A C CAplotipi di riferimento A/T C/C G/C T A G 0.25 A C G T A C A/T A/C C/C A/T A/C G/G Lettura dell’array
  38. 38. 2/7 Problema: Piú complesso se aumentiamo i marcatori ? A A C C A A G T C G T C C A/T A/C G/C 0.25 A A G A C C T C C T C G 0.25 A C CAplotipi di riferimento A/T C/C G/C T A G 0.25 A C G T A C A/T A/C C/C A/T A/C G/G Lettura dell’array
  39. 39. 2/7 Modello Matematico • Probabilità sono pesate dalle conoscenze genetiche sul tasso di ricombinazione tra due punti di un cromosoma. La ricombinazione non é infatti casuale ma avviene con delle probabilità tipiche di ciascuna popolazione. Ricombinazione Geneticahttp://www.ncbi.nlm.nih.gov/About/primer/genetics_cell.html
  40. 40. 2/7 Modello Matematico• Il modello matematico consiste, data una stringa di genotipi, e un insieme di aplotipi di riferimento, nel assegnare alla posizione iniziale ad un aplotipo, e poi assegnare l’aplpotipo successivo valutando la probabilità che alla successiva posizione ci sia stata o meno una ricombinazione• Questo processo puo’ essere modellato con una catena di Markov Nascosta (HMM)
  41. 41. Esempio: Aplotipi di referenza:H1 A CH2 T GH3 A GH4 T C Genotipi osservati A/T C/G
  42. 42. Esempio: Aplotipi di referenza:H1 A CH2 T GH3 A GH4 T C Genotipi osservati A/T C/G A C T G
  43. 43. Esempio: Aplotipi di referenza:H1 A CH2 T GH3 A GH4 T C Genotipi osservati A/T C/G A C T GH1/H2 A A C T T G
  44. 44. Esempio: Aplotipi di referenza:H1 A CH2 T GH3 A GH4 T C Genotipi osservati A/T C/G A C T GH1/ H1/H2 H2 A C T G
  45. 45. Esempio: Aplotipi di referenza: a12,12H1 A CH2 T G H1/H3 A G H2H4 T C Genotipi osservati A/T C/G A C T GH1/ H1/H2 H2 A C T G
  46. 46. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/H1 A C H3H2 T G H1/H3 A G H2H4 T C Genotipi osservati A/T C/G A C T GH1/ H1/ H1/ H1/H2 H2 H2 H3 A C A C T G T T G
  47. 47. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/H1 A C H3H2 T G H1/H3 A G H2H4 T C a12,42 H4/ H2 Genotipi osservati A/T C/G A C T GH1/ H1/ H1/ H1/ H1/ H4/H2 H2 H2 H3 H2 H2 A C A C A A C T G T T G T G
  48. 48. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/H1 A C H3H2 T G H1/ a12,43 H4/H3 A G H2 H3H4 T C a12,42 H4/ H2 Genotipi osservati A/T C/G A C T GH1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G
  49. 49. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/H1 A C H3H2 T G H1/ a12,43 H4/H3 A G H2 H3H4 T C a12,42 H3/ H4/ H2 H2 Genotipi osservati A/T C/G A C T GH1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G H3/ H2 A A C T T G
  50. 50. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/H1 A C H3H2 T G H1/ a12,43 H4/H3 A G H2 H3H4 T C a32,12 a12,42 H3/ H4/ H2 H2 Genotipi osservati A/T C/G A C T GH1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G H3/ H1/ H2 H2 A A C T G
  51. 51. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/H1 A C H3H2 T G H1/ a32,13 a12,43 H4/H3 A G H2 H3H4 T C a32,12 a12,42 H3/ H4/ H2 H2 Genotipi osservati A/T C/G A C T GH1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G H3/ H1/ H3/ H1/ H2 H2 H2 H3 A A C A A C T G T T G
  52. 52. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/H1 A C H3H2 T G H1/ a32,13 a12,43 H4/H3 A G H2 H3H4 T C a32,12 a12,42 H3/ H4/ H2 H2 Genotipi osservati A C a32,42 A/T C/G T GH1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G H3/ H1/ H3/ H1/ H3/ H4/ H2 H2 H2 H3 H2 H2 A A C A A C A A C T G T T G T G
  53. 53. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/H1 A C H3H2 T G H1/ a32,13 a12,43 H4/H3 A G H2 H3H4 T C a32,12 a12,42 a32,43 H3/ H4/ H2 H2 Genotipi osservati A C a32,42 A/T C/G T GH1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G H3/ H1/ H3/ H1/ H3/ H4/ H3/ H4/ H2 H2 H2 H3 H2 H2 H2 H3 A A C A A C A A C A A C T G T T G T G T T G
  54. 54. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/H1 A C H3H2 T G H1/ a32,13 a12,43 H4/H3 A G H2 H3H4 T C a32,12 a12,42 a32,43 H3/ H4/ H2 H2 Genotipi osservati A C a32,42 A/T C/G T GH1/H4 A A C T T G Similmente si aggiungono quelli che H3/ H4 iniziano con H1/H4 e H3/H4 A A C T T G
  55. 55. Esempio: a14,12 a12,13 a 14,13 Aplotipi di referenza: H1/ a12,12 H1/ H4H1 A C H3 a14,43H2 T G H1/ a32,13 a12,43 H4/H3 A G H2 a14,42 H3H4 T C a32,12 a12,42 a32,43 H3/ H4/ a a34,12 34,43 H2 H2 Genotipi osservati a34,13 H3/ A C a32,42 A/T C/G H4 T G a34,42H1/H4 A A C T T G Similmente si aggiungono quelli che H3/ H4 iniziano con H1/H4 e H3/H4 A A C T T G
  56. 56. Esempio: a14,12 a12,13 a 14,13 Aplotipi di referenza: H1/ a12,12 H1/ H4H1 A C H3 a14,43H2 T G H1/ a32,13 a12,43 H4/H3 A G H2 a14,42 H3H4 T C a32,12 a12,42 a32,43 H3/ H4/ a a34,12 34,43 H2 H2 Genotipi osservati a34,13 H3/ A G a32,42 A/T C/G H4 T C a34,42
  57. 57. Esempio: a14,12 a12,13 a 14,13 Aplotipi di referenza: H1/ a12,12 H1/ H4H1 A C H3 a14,43H2 T G H1/ a32,13 a12,43 H4/H3 A G H2 a14,42 H3H4 T C a32,12 a12,42 a32,43 H3/ H4/ a a34,12 34,43 H2 H2 Genotipi osservati a34,13 H3/ A G a32,42 A/T C/G H4 T C a34,42H1/ H1/H2 H4 A A G A A G T T C T T CH3/ H3/ aggiungere tutte le configurazioniH2 H4 con alleli GC da questi starting points A A G A A G T T C T T C
  58. 58. Esempio: Aplotipi di referenza:H1 A CH2 T GH3 A GH4 T C Genotipi osservati A/T C/G Situazioni incompatibili se non si assume erroreH1/ H?/ H2/ H?/ H3/ H?/ H4/ H?/H1 H? H2 H? H3 H? H4 H? A ? A T ? A ? A ? A ? A T ? A ? A ?
  59. 59. Esempio: Aplotipi di referenza:H1 A CH2 T GH3 A GH4 T C Genotipi osservati A/T C/G P(G1  A / T S1  ( H1 , H1 ) )  0 Situazioni incompatibili se non si assume erroreH1/ H?/ H2/ H?/ H3/ H?/ H4/ H?/H1 H? H2 H? H3 H? H4 H? A ? A T ? A ? A ? A ? A T ? A ? A ?
  60. 60. Esempio: Aplotipi di referenza:H1 A C A T TH2 T G A A CH3 A G C A TH4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H2
  61. 61. Esempio: Aplotipi di referenza:H1 A C A T TH2 T G A A CH3 A G C A TH4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H?/ H2 H?
  62. 62. Esempio: Aplotipi di referenza:H1 A C A T TH2 T G A A CH3 A G C A TH4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H?/ H?/ H2 H? H?
  63. 63. Esempio: Aplotipi di referenza:H1 A C A T TH2 T G A A CH3 A G C A TH4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H?/ H?/ H2 H? H? A/C
  64. 64. Esempio: Aplotipi di referenza:H1 A C A T TH2 T G A A CH3 A G C A TH4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H?/ H?/ H?/ H2 H? H? H? A/C T/T
  65. 65. Esempio: Aplotipi di referenza:H1 A C A T TH2 T G A A CH3 A G C A TH4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H?/ H?/ H?/ H?/ H2 H? H? H? H? A/C T/T
  66. 66. 3/7Come rappresentare questo “cammino” decisionale lungo il genoma”?
  67. 67. 3/7• Catena di Markov:modello stocastico basato sulla proprietà di Markov: la probabilità di una configurazione allo stato n+1 dipende solo dalla configurazione osservata nello stato precedente n• Catena di Markov Nascosta:gli stati seguono una catena di Markov, ma non sono noti
  68. 68. 3/7 Catena di Markov Nascosta Probabilità di transizione S1 Stati S2 S3 (aplotipi) Probabilità di emissione G1 Dati osservati G2 G3 G4 (Genotipi)Immagine adattata da Wikipedia
  69. 69. 3/7 Probabilità di emissione• Sono modellate in funzione del parametro ε che rappresenta un potenziale tasso di errore e consente di costruire anche aplotipi che sono incompatibili con i genotipi H1 A C C H2 T G A H3 H4 A T G C A A P(G1 A / A S m  ( H i , H j ) )  ?  i, j A/A ?/? C/G
  70. 70. 3/7 Probabilità di emissioneε = la probabilità di sbagliare1- ε = la probabilità di non sbagliare H1 A C C H2 T G A H3 A G A H4 T C A A/A ?/? C/G
  71. 71. 3/7 Probabilità di emissioneε = la probabilità di sbagliare1- ε = la probabilità di non sbagliare A/A H1 A P(G1 A / A S m  ( H1 , H1 ) )  1   1    C C H2 T G A H3 A G A H4 T C A A/A ?/? C/G
  72. 72. 3/7 Probabilità di emissioneε = la probabilità di sbagliare1- ε = la probabilità di non sbagliare A/A H1 A P(G1 A / A S m  ( H1 , H1 ) )  1   1    C C H2 T G A H3 A G A A/T P(G1 A / A S m  ( H1 , H 2 ) ) 1     H4 T C A A/A ?/? C/G
  73. 73. 3/7 Probabilità di emissioneε = la probabilità di sbagliare1- ε = la probabilità di non sbagliare A/A H1 A P(G1 A / A S m  ( H1 , H1 ) )  1   1    C C H2 T G A H3 A G A A/T P(G1 A / A Sm  ( H1 , H 2 ) ) 1     H4 T C A A/A ?/? C/G T/T P(G1 A / A S m  ( H 2 , H 2 ) )    
  74. 74. 3/7 Probabilità di emissioneSe e(Hi,Hj) = il genotipo risultante dagli aplotipiε = la probabilità di sbagliare1- ε = la probabilità di non sbagliare P(Gm  x / y S m  ( H i , H j ) )  – (1- ε)2 se x/y = e(Hi,Hj) e omozigote ε2 se x/y ed e(Hi,Hj) sono omozigoti opposti ε(1- ε) se x/y omozigote e e(Hi,Hj) eterogizote – ε2+(1- ε) 2 se x/y=e(Hi,Hj) e eterozigote – 2ε(1- ε) se x/y heterozigote e e(Hi,Hj) omozigote
  75. 75. 3/7 Probabilità di emissione • Nel caso di un genotipo da inferire Aplotipi di referenzaH1 A C CH2 T G AH3 A G A P(G2  ?/? S 2  ( H i , H j ) )  1H4 T C A Genotipi osservati i, j A/T ?/? C/G
  76. 76. 3/7 Probabilità di transizione• Definisce come gli stati (nascosti) cambiano da una posizione all’altra• Sono una funzione del tasso di ricombinazione ϴ P (assenza ricombinazione tra 2 aplotipi) = 1- ϴ P(ricombinazione tra 2 aplotipi) = ϴ / Naplotipi• Consentono di passare a qualsiasi aplotipo, assumendo possibile anche la ricombinazione con lo stesso aplotipo ( » states = Naplotipi2)
  77. 77. 3/7 Esempi m-1 11 m 11    (1   )  (1   )  (1   )   (1   )    N aplotipi N aplotipi N aplotipi N aplotipiNessuno deidue ricombina
  78. 78. 3/7 Esempi m-1 11 m 11    (1   )  (1   )  (1   )   (1   )    N aplotipi N aplotipi N aplotipi N aplotipiNessuno deidue ricombina Ricombina solo il primo
  79. 79. 3/7 Esempi m-1 11 m 11    (1   )  (1   )  (1   )    (1   )   N aplotipi N aplotipi N aplotipi N aplotipiNessuno deidue ricombina Ricombina Ricombina solo solo il primo il secondo
  80. 80. 3/7 Esempi m-1 11 m 11    (1   )  (1   )  (1   )    (1   )   N aplotipi N aplotipi N aplotipi N aplotipiNessuno deidue ricombina Ricombina Ricombina solo Ricombinano solo il primo il secondo entrambi
  81. 81. 3/7 Esempi m-1 11 m 11    (1   )  (1   )  (1   )    (1   )   N aplotipi N aplotipi N aplotipi N aplotipim-1 11m 33,32 2      N   aplotipi 
  82. 82. 3/7 Esempi m-1 11 m 11    (1   )  (1   )  (1   )    (1   )   N aplotipi N aplotipi N aplotipi N aplotipi m-1 11m-1 11 m 21,31,41m 33,32 2    2  (1   )         N  N aplotipi N   aplotipi   aplotipi 
  83. 83. 3/7 Formula P( S m  ( H x , H y ) S m 1  ( H i , H j ) )  2 2 (1   )   (1   )  2   se (Hx,Hy)=(Hi,Hj) N aplotipi  N aplotipi    2  (1   )       se |(Hx,Hy)-(Hi,Hj)|=1 N aplotipi N   aplotipi  2      N  se |(Hx,Hy)-(Hi,Hj)|=2  aplotipi 
  84. 84. 3/7 Algoritmo• Aggiorna ciascun individuo alla volta, costruendo la serie di aplotipi (presi dal pannello di referenza) che concordano con i genotipi osservati e calcolandone le probabilità1. Inizia considerando equiprobabile lo stato delle posizioni iniziali (primo marcatore), e poi calcola la probabilità dei dati osservati L L P(G, S)  P( S1 ) P( S j | S j 1 ) P(G j | S j ) j 2 j 12. Campiona dei nuovi stati iniziali S in maniera proporzionale a P(G,S) per riniziare la catena
  85. 85. 3/74. La catena di Markov viene ripetuta per diverse volte(rounds), fino a quando si raggiunge la convergenza Rappresentazione grafica Aplotipi iniziali equiprobabili Probabilità di ciascun stato e calcolo dei genotipi mancanti restart Campionamento degli aplotipi iniziali
  86. 86. 3/7 Sampling algorithm: Baum-Welch (forward-backward)Forward: Calcolare cumulativamente fino all’ultimomarcatore le probabilità forward per i genotipi osservati egli stati SmBackward: Campiona le assegnazioni degli aplotipisecondo le probabilità forward e le probabilità ditransizione P(Sm= (x,y)) = f(x,y),1->M * b(x,y),M->m A T T C G A G C A C T G A C T T
  87. 87. 4/7 Lettura dei datiPer ogni individuo, e ad ogni posizione inferita ottengo le probabilità per ogni possibile genotipo. Quindi:Se lo SNP ha alleli A/G, avremo, per ogni individuo, 3 probabilità: P(A/A) , P(A/G) , P(G/G) Come si utilizzano?
  88. 88. 4/7 Lettura dei dati1. Genotipo piú probabile oppure2. Dosaggio allelicoÉ una quantità che tiene traccia della incertezza dei genotipi gA = 2 * P(A/A) + P(A/G) 0≤gA≤2Rappresenta il numero atteso di copie dell’allele A
  89. 89. 4/7Pros del dosaggio allelico rispetto al genotipo • Mantiene tutte le possibili configurazioni con le loro probabilità in un unico valore • Files piú piccoli e meno parametri da considerare • Puó facilmente essere incorporato nelle analisi di associazione usando regressioni lineari o logistiche (per tratti quantitativi e discreti) • Considera i genotipi come variabile continua • La qualità puó essere valutata piú accuratamente (prossima slide)
  90. 90. 4/7Come valutare la qualità dei risultati• Se il dosaggio rappresenta il numero atteso di copie dell’allele A, e poiché ogni individuo ha due alleli, la distribuzione che lo modella é una binomiale con probabilità p=frequenza allele A – = 2 2(1−) – 2 = ()
  91. 91. 4/7Come valutare la qualità dei risultati• Se il dosaggio rappresenta il numero atteso di copie dell’allele A, e poiché ogni individuo ha due alleli, la distribuzione che lo modella é una binomiale con probabilità p=frequenza allele A – = 2 Si é stimato in dati reali che un 2 0.30 2(1−) garantisce l’eliminazione di SNPs di scarsa – 2 = () qualità. Con questo filtro, ci si aspetta di scartare il 70% di marcatori scarsamente inferiti (accuratezza 80%) e solo 0.50% di quelli bene inferiti (accuratezza 50%)
  92. 92. 5/7 Fattori che migliorano la qualità di inferenza• Alta densità dei marcatori iniziali rispetto al pannello di riferimento• Vicinanza genetica degli individui inclusi nel pannello di riferimento con la popolazione in studio• Aumento del numero di aplotipi nel pannello di riferimento
  93. 93. 5/7 Performance per diversi chip AffymetrixAffymetrix N SNPs utili N SNPs inferiti Tasso di erroreChip per inferenza MAF 5% MAF 5% MAF5% MAF 5%A100K 100,844 259,261 2,086,690 1.80 7.85A250K (Sty) 195,864 251,807 2,002,214, 1.33 4.12A250K (Nsp) 216,747 250,364 1,983,146 1.26 3.94A500K 412,611 234,049 1,809,352 0.93 2.12A1M 676,182 209,636 1,580,321 0.73 1.23 Li et al, MaCH: Using Sequence and Genotype Data to Estimate Haplotypes and Unobserved Genotypes. Genetic Epidemiology 34 : 816–834 (2010)
  94. 94. 5/7 Huang et al. Genotype-Imputation accuracy across Worldwide Human Populations. AJHG 2009
  95. 95. 5/7 Strategie di utilizzo • Supponiamo siano disponibili dati GWAS (300K-1M SNPs) su un campione di studio. Possiamo inferiredatabase pubblici • ~1.5-2 M SNPs da HapMap • ~ 13M SNPs da 1000 Genomes • sequenze Sanger (es. sequenziati per un gene dilaboratorio interesse 100 campioni di cui si hanno i dati GWAS) • sequenze intero genoma
  96. 96. 6/7Utilità dell’integrazione tramite inferenza: Diverse strategie per diversi obiettivi. Due esempi.
  97. 97. 6/7 1. Scoperta nuovi geni di suscettibilità • centinaia di pubblicazioni esistenti su scoperte effettuate tramite integrazione dei dati HapMap, una decina tramite integrazione dei dati 1000 Genomes • 882 pazienti+872 individui sani • Genotipizzati 1M SNPs (Affymetrix) • Inferenza HapMap 1000 Genomes • Identificato un gene di suscettibilità per la Sclerosi MultiplaSanna, Pitzalis, Zoledziewska et al.Variants within the immunoregulatory CBLB gene are associated with multiple sclerosisNature Genetics 2010
  98. 98. 6/72. Valutazione dettagliata di regioni già identificate tramite i GWAS • sequenziati 256 individui con il Sanger a 5 geni associati con LDL-C • Identificate nuove varianti, tra cui una rara (freq 0.5%) sardo-specifica • Le varianti identificate raddoppiano l’ereditabilità spiegata da questi geni rispetto alle varianti trovate nel GWAS Sanna, Li, Mulas et al. PlosGen 2011 (in press)
  99. 99. 7/7Scoperta e mappaggio fineDue obiettivi raggiungibili con un unico sforzo?
  100. 100. 7/7 Progetti in corsoStudio su Sclerosi Multipla Studio delle condizioni legateDiabete di Tipo 1 all’invecchiamento individui affetti e volontari sani  studia la popolazione da tutta l’isola dell’ogliastra raccogliendo un dettaglio quadro clinico, inclusi immuno-fenotipi~2500 pazienti MS ~6,000 volontari di 700~1500 pazienti T1D famiglie~2500 volontari sani Studio Longitudinale (visite ogni 3 anni, dal 2001
  101. 101. 7/7 Sequenze 2,000 Sardi @ 3x in media Pannello di sequenze di riferimento con for 2,000 IndividuiGenotipi da arrays Genotipi da arraysper 6,500 individui Inferenza per 6,000 individui(MS T1D GWAS) Statistica (Studio in Ogliastra) Sequenze virtuali per 12,500 individui
  102. 102. 7/7 Risultati preliminari sull’inferenza• Sequenziati+analizzati+costruzione pannello di riferimento: completato per 508 Sardi• Qualità dell’imputazione migliore rispetto ad un pannello di simili dimensioni con individui EuropeiReference Panel Imputation Accuracy (r2) IN SARDINIA MAF 1-3% MAF 3-5% MAF 5% 1000G (563) 0.75 0.88 0.94 Sardinia (508) 0.90 0.95 0.97
  103. 103. 7/7 ImplementazioneL’algoritmo discusso é implementato nei software MACH e IMPUTE (autori Abecasis e Marchini)Esistono altri algoritmi piú o meno simili (implementati in Beagle, TUNA, PLINK). Simulazioni e applicazioni su diversi data set indicano che l’algoritmo di MACH e IMPUTE é quello piú accurato. Pei et al. Analyses and Comparison of Accuracy of Different Genotype Imputation Methods. PlosOne 2008
  104. 104. Riferimenti e bibliografia• Li et al, MaCH: Using Sequence and Genotype Data to Estimate Haplotypes and Unobserved Genotypes. Genetic Epidemiology 34 : 816–834 (2010)• Marchini and Howie. Genotype imputation for genome-wide association studies. Nat Rev Gen 11:499-511 (2010)• Huang et al. Genotype-Imputation accuracy across Worldwide Human Populations. AJHG 84, 235-50, (2009)• Pei et al. Analyses and Comparison of Accuracy of Different Genotype Imputation Methods. PlosOne 3(10):e3551 (2008)• Li, Willer, Sanna e Abecasis. Genotype Imputation. Annu. Rev. Genomics Hum. Genet. 2009. 10:387–406
  105. 105. Riferimenti e bibliografia• MACHhttp://www.sph.umich.edu/csg/abecasis/MACH/• minimachttp://genome.sph.umich.edu/wiki/Minimac• IMPUTE e IMPUTE 2http://mathgen.stats.ox.ac.uk/impute/impute.html• 1000 Genomes Project • Illuminawww.1000genomes.org www.illumina.com• HapMap Project • Affymetrixwww.hapmap.org www.affymetrix.com
  106. 106. Ringraziamenti CNR-IRGB CRS4 Francesco Cucca Chris Jones Eleonora Porcu Ilenia Zara Maristella Steri Maria Valentini Carlo Sidore (1/2) Frederic Reiner il team “Progenia” (tanti!) Riccardo Berutti Rossano Atzeni University of Michigan Goncalo Abecasis Andrea Angius GSP group Hyun M Kang Lidia Leoni HPC group Carlo Sidore (1/2) Gianluigi Zanetti DC grop Tutti i volontari che partecipano alla ricercaNational Institute of Aging (USA)Università degli studi di Cagliari e SassariCliniche e ospedali della Sardegna
  107. 107. Summer Schoolhttp://www.crs4.it/web/international-project-office/sc2011
  108. 108. 7/7 Tempi e costi del calcolo• MACH/IMPUTE O(H2 * M * N) – Esempio: 1 settimana per inferire 13 M SNPs su 2000 individui genotipizzati per 500K SNPs, con 120 aplotpi di riferimento, usando 22 macchine da 8 core con 16G di RAM. Se ho il doppio degli aplotipi, il tempo va moltiplicato per 4. (4 settimane) tempi proibitivi nell’era del highthroughput!
  109. 109. 7/7 Inferenza a 2 steps 1. si costruiscono gli aplotipi degli individui in studio usando gli SNPs genotipizzati 2. inferenza aploide invece che sui genotipiImplementato in: minimac e IMPUTE v2Complessità: O(H * M * N)
  110. 110. 7/7 Inferenza a 2 steps 1. si costruiscono gli aplotipi degli individui in studio usando gli SNPs genotipizzati Tempi lunghi, ma task unitario 2. inferenza aploide invece che sui genotipi Step da ripetere ad ogni costruzione di pannello di riferimentoImplementato in: minimac e IMPUTE v2Complessità: O(H * M * N)
  111. 111. 7/7 Inferenza a 2 steps 1. si costruiscono gli aplotipi degli individui in studio usando gli SNPs genotipizzati Tempi lunghi, ma task unitario 2. inferenza aploide invece che sui genotipi Step da ripetere ad ogni costruzione di pannello di riferimentoImplementato in: minimac e IMPUTE v2Complessità: O(H * M * N) Da ripetere se si hanno nuovi individui o nuovi genotipi! Collaborazione con il gruppo di G. Zanetti del DC group del CRS4 per una nuova implementazione di MACH in Hadoop MapReduce
  112. 112. Previous equation obtained as:

×