I progressi tecnologici raggiunti nel campo delle strategie di sequenziamento degli acidi nucleici ("Next Generation Sequencing", NGS) permettono oramai di ottenere con facilità le informazioni contenute all’interno dell’intero genoma umano. Ma solo una piccola percentuale (stimata a 1,6%) del genoma umano viene tradotto nelle proteine che fanno funzionare il corpo umano. Il sequenziamento esomico ("Whole exome sequencing") si concentra proprio sulle parti del genoma che codificano le proteine ("i geni") perché la ricerca di varianti in tali regioni permette di trovare le modificazioni funzionali delle proteine che sono associate a malattie. Dovendo sequenziare solo circa 1/60 dell’intero genoma si ha la possibilità di avere una migliore accuratezza e di ridurre tempi e costi del sequenziamento. Per questo motivo il sequenziamento esomico è diventato uno dei metodi di diagnosi genetica più utilizzato dai medici (sopratutto nel caso in cui non ci siano ipotesi sui geni coinvolti nella malattia).
2. • Cosa e’ l’esoma, come si studia e perche’.
• Cosa e’ una variante, quante ce ne sono e il genoma di
riferimento
• Next Generation Sequencing e analisi dei dati generati.
• Caso studio 1
• Caso studio 2
• Conclusioni
2
Introduzione
3. 3
Cosa e’ l’esoma
• Il genoma umano è costituito da 3 miliardi di
nucleotidi o “lettere”. Solo una piccola
percentuale – 1,5% - di queste lettere è
effettivamente tradotta in proteine, le
molecole funzionali negli esseri viventi.
• L’esoma è costituito da tutti gli esoni del
genoma, che sono, appunto, le porzioni
codificanti dei geni.
4. 4
Cosa e’ l’exome sequencing
Exome sequencing (o Whole-Exome Sequencing - WES)
è il sequenziamento dell'intera regione codificante del
genoma di un individuo.
Il termine esone deriva da “regione espressa” (o ‘exon’, EXpressed
regiON), poiché sono queste le regioni che vengono tradotte, o
espresse come proteine.
L’esoma e’ la porzione di genoma che codifica le proteine.
5. 5
Perche’ l’exome sequencing
Ciò è di estremo interesse sia per la dignostica di routine che per la
ricerca scientifica. Infatti, anche se la regione codificante
rappresenta soltanto l'1% di tutto il genoma, si stima che fino
all'85% di tutte le mutazioni patogene siano contenute in questa
regione.
Identificando le varianti di un
gene possiamo capire se la
proteina e’ “mal funzionante”
e fare delle ipotesi sui
meccanismi biologici che
provocano la malattia!
6. Attraverso il sequenziamento esomico ottengo una lista di
mutazioni geniche.
6
Cosa ottengo da un exome sequencing
mutazioni silenti: non c’è alterazione della proteina prodotta (si è
determinata la formazione di un codone sinonimo)
mutazioni di senso: la proteina prodotta dal gene è alterata nella
sua sequenza amminoacidica.
mutazioni non senso: si forma un codone di stop e la proteina
prodotta è tronca rispetto al normale.
SVN
SingleNucleotideVariation Short Indels
8. 8
Vi sono situazioni cliniche in cui la valutazione dell’intero esoma è
praticamente l’unica strada percorribile!
• Condizioni patologiche in cui è probabile un’elevata eterogeneità
genetica e variabilità fenotipica (numerosi geni candidati e/o
sintomatologia riconducibile a una tra diverse condizioni);
• Quadro sintomatologico compatibile con la presenza di più
condizioni genetiche distinte nello stesso paziente;
• Situazioni compatibili con la presenza di mutazioni de novo o
comunque non ereditate attraverso la linea germinale parentale
(assenza di altri familiari affetti, assenza di specifiche mutazioni
patogeniche nei genitori, ecc);
Quando e’ inevitabile usarlo?
9. Fino a pochi anni fa il test genetico per eccellenza consisteva nel
sequenziamento di singolo gene (o di un ristretto gruppo di geni)
tramite la metodica dell'elettroforesi capillare o sequenziamento
Sanger.
9
L’avvento delle nuove tecnologie di sequenziamento (Next
Generation Sequencing - NGS o High-Throughput sequencing)
ha trasformato lo studio della genetica delle malattie umane
portando ad un'epoca di produttività senza precedenti.
Grazie ai costi e ai tempi ridotti, tramite NGS è possibile analizzare
un elevato numero di frammenti di DNA in parallelo fino ad ottenere
la sequenza dell'intera regione codificante di un individuo o
dell’intero genoma.
Metodi Next Generation Sequencing
10. 10
L’exome sequencing e’ un metodo NGS
Tutti i metodi NGS sono caratterizzati da una pipeline di questo tipo!
Grande potenza di
calcolo e spazio disco
necessaria !
Biologia
Bioinformatica
Illumina HiSEQ 2000
11. 11
Timeline del testing genetico
2011
FDA approves
NGS for Clinical
Diagnostic Application.
2007
HuRef Venter Diploid
12. 2015 Cao et al. : De-Novo assembly of a haplotype resolved
human genome.
12
Il futuro
13. • Quanto sono differenti due genomi umani? Più’ due persone
sono imparentate piu’ i loro genomi sono simili.
• Si stima che per persone senza legami familiari , due persone
prese a caso per strade ad esempio, i genomi differiscono di 1
ogni 1200 o 1500 basi di DNA.
• Quindi ci sono piu’ di tre milioni di differenze tra un genoma
umano e un altro. D’altra parte e’ anche vero che siamo simili al
99,9%.
• Ma siamo uguali solo al 99% ai nostri parenti genetici piu’ vicini:
gli scimpanze! :)
13
Variazione e Similitudine del genoma
14. 14
Variazione e Similitudine del genoma
• Se ogni genoma umano e’ diverso che cosa vuol dire
sequenziare “IL genoma umano”?
• E che cosa vuol dire cercare varianti ? Varianti rispetto a cosa?
15. • La sequenza completa del genoma umano, sia quella
completata nel 2001 che le successive, e’ in effetti una
sequenza “rappresentativa” ottenuta dal DNA di diversi
individui.
• Ad esempio la versione 19 del genoma umano , GRCh37 the
Genome Reference Consortium human genome (build 37), e’
derivata da 13 donatori anonimi di Buffalo, New York.
• Un avviso e’ stato messo sul giornale locale ed i primi 10
maschi e 10 femmine che hanno risposto all’annuncio sono
stati invitati ad un incontro con il consigliere genetico del
progetto ed a donare il loro DNA.
• Come risultato finale si ha che circa l’80% del genoma di
riferimento viene da 8 persone ed in particolare circa il 66%
proviene da un maschio designato come RP11.
15
Genoma di riferimento
16. • In effetti quindi il genoma di riferimento e’ solo una referenza che
ci serve per mappare le nostre sequenze.
• Non ci sono assunzioni medico o biologiche sulla sua sequenza !
Quindi anche trovando una variante rispetto al genoma di
riferimento bisogna sempre validarla prima di dichiararla
mutazione patogena!
16
Genoma di riferimento
Esistono molti database pubblici e metodi di predizione
di mutazioni patogene da utilizzare per validare le varianti.
17. 17
Primary processing
Initial Quality
Control (QC)
Mapping
Variant Calling
Secondary Analysis
(Filtering )
Variant annotation
Filtering by effect
Filtering by MAF
Filtering by family
segregation
Knowledge Based
Prioritazition
Proximity to other
known disease gene
Functional proximity
Network proximity
Other prioritisation
methods
FASTQ file
BAM file
VCF file
Standard per annotare le varianti trovate !
Pipeline della analisi dati
19. 19
2. Per rimuovere varianti gia’ note si usano
databases pubblici come:
dbSNP, 1000 Genomes Project .
Attenzione: una variante puo’ essere nota
come causativa di una altra patologia ma non
per quella che stiamo studiando!
1
2
3
1. Si rimuovono le mutazioni sinonime.
3. Si fanno ipotesi sul modello di ereditarieta’
della malattia e si cercano le varianti che
sono in accordo con il modello.
Attenzione: la mutazione potrebbe essere
de-novo (vedi caso studio II)!
L’analisi dei dati: filtering
20. 20
Modello di ereditarieta’
Si cercano le varianti
eterozigoti (aA) e
in omozigosi (AA)
nei malati (ma aa nei sani)
Si cercano le varianti in
omozigosi (aa) nei malati
ma in eterozigosi nei
familiari sani.(AA,aA)
Questa analisi si svolge tramite scripts di analisi del file VCF scritti ad hoc, perche’
comunque coinvolge almeno qualche centinaio di varianti!!
Riguardo al punto 3 del filtering
21. 1. Pazienti con
fenotipo di
Osteopetrosi ma
poi rivalutati a
Pycnodysostosis
21
Due casi studio di exome sequencing
2. Un caso di una
sindrome molto rara e
non ancora
geneticamente
descritta al momento
in cui abbiamo iniziato
lo studio.
22. 22
Fenotipo: Intermediate Osteopetrosis
recessive osteopetrosis with no recognized genotype
Caso Studio I
Autosomal Recessive Osteopetrosis (ARO) e’ una malattia genetica
rara che affligge l'osso, il quale ha una densità maggiore del normale
(e’ nota anche come malattia delle ossa di marmo).
23. 23
Caso Studio I
Abbiamo usato una lista di geni per prioritizzare le varianti
passando da 165 a 3. Fondamentale il lavoro dei biologi e medici
per ottenere questo risultato !!!
Abbiamo svolto lo studio di sequenziamento esomico nelle 2 sorelle
affette e raggiunto per entrambi i campioni un coverage medio di
69x sulle 62 MB di target, raggiungendo un 94% di coverage.
24. 24
Family 1: e’ stata identificata la mutazione
omozigote nell’ esone 3 del gene CTSK di un
singolo nucleotide (g.2128C > T) causante la
mutazione p.Arg46Trp; questa mutazione era
presente nei genitori come eterozigote.
Usato per rivalutare altri 4 casi come
Pycnodysostosis, patologia sempre molto rara ma a
prognosi relativamente benigna. Il fenotipo dei
pazienti non era tipico da Pycnodysostosis.
25. • Attraverso lo studio e’ stata identificata una mutazione
patogena omozigote nel gene CTSK che fino allo studio non si
conosceva.
• Importante il fatto che due campioni fossero di due sorelle
affette dalla stessa patologia!
• Sono stati quindi testati attraverso sequenziamento Sanger altri
25 pazienti diagnosticati come “recessive osteopetrosis” ed in 4
e’ stata trovata la mutazione nel gene CTSK.
• E’ stata raccomandata l’inclusione del gene CTSK nella lista di
geni da controllare per una diagnosi di patologia di accresciuta
densita’ ossea.
25
Caso Studio I : Conclusioni
27. 27
Fenotipo e’ un caso di sindrome
progeroide. La ricerca di mutazioni nel
gene LMNA non ha dato risultati!!
Genitori consanguinei : per questo
motivo si sono cercate le varianti
omozigoti nella paziente e eterozigoti nei
genitori ipotizzando che la mutazione
causale fosse ereditata da un antenato
comune.
Sono quindi stati analizzati con il
sequenziamento esomico i campioni del
trio (cioe’ i 2 genitori e la paziente).
Caso Studio II
28. • Nel 2013 viene pubblicato
un articolo che descrive una
sindrome con fenotipo simile
in 4 pazienti! La stessa
variante in POLD1 e’
presente nel nostro caso.
28
Geni su cui avevamo focalizzato
l’attenzione!
29. 29
Anche se i genitori sono consanguinei la mutazione causale e’ di
tipo de-novo! La avevamo scartata perche’ ci eravamo
focalizzati su un modello di malattia autosomico recessivo.
Mutazione nel gene POLD1
Caso Studio II
30. 30
Caso Studio II
Meccanismo patogenico: la delezione nella sequenza del gene POLD1 e’
stata legata alla presenza di una sequenza di stop della DNA polimerasi che
puo’ dare origine ad un’arresto della sintesi del DNA.
31. • Attraverso lo studio di exome sequencing e’ stato trovato il
quinto paziente di MDPL con la stessa mutazione de novo
pSer605del nel gene POLD1.
• e’ stata data ulteriore prova genetica che questa e’ una
mutazione che provoca la malattia;
• e’ stata ipotizzata una spiegazione del possibile meccanismo
per cui insorge la malattia.
• bisogna sempre considerare l’eventualita’ di una mutazione
de novo anche se in una malattia molto rara e con genitori
consanguinei! Ricordarsi di svolgere di routine la ricerca di
mutazioni de novo.
31
Caso Studio II : conclusioni
32. • Il sequenziamento esomico funziona e permette di guadagnare
molto tempo nello studio di patologie di vario tipo.
• I costi stanno velocemente diminuendo e il suo utilizzo diventa
sempre maggiore anche in ambito clinico.
• Per uno studio di successo e’ necessario avere una sinergia di
competenze (medico+biologo+bioinformatico) durante ogni fase
dello studio.
• La mole di dati prodotti (come anche i campioni raccolti per lo
studio) deve essere conservata e disponibile per studi futuri.
Necessita’ di organizzare biobanche!
32
Conclusioni
33. • Ringrazio i miei (ex) colleghi del gruppo di bioinformatica del
CRS4 , Fred Reinier, Riccardo Berutti, Ilenia Zara.
• Ringrazio i colleghi del CNR -IRGB con cui abbiamo iniziato
questo tipo di studi e con cui abbiamo fatto innumerevoli
riunioni: Serena Sanna, Laura Crisponi, Carlo Sidore e molti
altri…
• Ringrazio i biologi con cui abbiamo lavorato per la pazienza
dimostrata con chi come me di biologia conosce ben poco. In
particolare Alessandro Puddu, Manuela Oppo, Roberto
Cusano.
33
Ringraziamenti