Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

Sequenziamento esomico:
analisi dati e casi di studio
Maria Valentini
18 Novembre 2015
1

• Cosa e’ l’esoma, come si studia e perche’.
• Cosa e’ una variante, quante ce ne sono e il genoma di
riferimento
• Next Generation Sequencing e analisi dei dati generati.
• Caso studio 1
• Caso studio 2
• Conclusioni
2
Introduzione

3
Cosa e’ l’esoma
• Il genoma umano è costituito da 3 miliardi di
nucleotidi o “lettere”. Solo una piccola
percentuale – 1,5% - di queste lettere è
effettivamente tradotta in proteine, le
molecole funzionali negli esseri viventi.
• L’esoma è costituito da tutti gli esoni del
genoma, che sono, appunto, le porzioni
codiﬁcanti dei geni.

4
Cosa e’ l’exome sequencing
Exome sequencing (o Whole-Exome Sequencing - WES)
è il sequenziamento dell'intera regione codiﬁcante del
genoma di un individuo.
Il termine esone deriva da “regione espressa” (o ‘exon’, EXpressed
regiON), poiché sono queste le regioni che vengono tradotte, o
espresse come proteine.
L’esoma e’ la porzione di genoma che codiﬁca le proteine.

5
Perche’ l’exome sequencing
Ciò è di estremo interesse sia per la dignostica di routine che per la
ricerca scientifica. Infatti, anche se la regione codificante
rappresenta soltanto l'1% di tutto il genoma, si stima che fino
all'85% di tutte le mutazioni patogene siano contenute in questa
regione.
Identificando le varianti di un
gene possiamo capire se la
proteina e’ “mal funzionante”
e fare delle ipotesi sui
meccanismi biologici che
provocano la malattia!

Attraverso il sequenziamento esomico ottengo una lista di
mutazioni geniche.
6
Cosa ottengo da un exome sequencing
mutazioni silenti: non c’è alterazione della proteina prodotta (si è
determinata la formazione di un codone sinonimo)
mutazioni di senso: la proteina prodotta dal gene è alterata nella
sua sequenza amminoacidica.
mutazioni non senso: si forma un codone di stop e la proteina
prodotta è tronca rispetto al normale.
SVN
SingleNucleotideVariation Short Indels

7
Quando usarlo ?
}
Rapidamentesistapassandoadunusodi
exomesequencingpertuttiquesticasi!

8
Vi sono situazioni cliniche in cui la valutazione dell’intero esoma è
praticamente l’unica strada percorribile!
• Condizioni patologiche in cui è probabile un’elevata eterogeneità
genetica e variabilità fenotipica (numerosi geni candidati e/o
sintomatologia riconducibile a una tra diverse condizioni);
• Quadro sintomatologico compatibile con la presenza di più
condizioni genetiche distinte nello stesso paziente;
• Situazioni compatibili con la presenza di mutazioni de novo o
comunque non ereditate attraverso la linea germinale parentale
(assenza di altri familiari affetti, assenza di speciﬁche mutazioni
patogeniche nei genitori, ecc);
Quando e’ inevitabile usarlo?

Fino a pochi anni fa il test genetico per eccellenza consisteva nel
sequenziamento di singolo gene (o di un ristretto gruppo di geni)
tramite la metodica dell'elettroforesi capillare o sequenziamento
Sanger.
9
L’avvento delle nuove tecnologie di sequenziamento (Next
Generation Sequencing - NGS o High-Throughput sequencing)
ha trasformato lo studio della genetica delle malattie umane
portando ad un'epoca di produttività senza precedenti.
Grazie ai costi e ai tempi ridotti, tramite NGS è possibile analizzare
un elevato numero di frammenti di DNA in parallelo ﬁno ad ottenere
la sequenza dell'intera regione codiﬁcante di un individuo o
dell’intero genoma.
Metodi Next Generation Sequencing

10
L’exome sequencing e’ un metodo NGS
Tutti i metodi NGS sono caratterizzati da una pipeline di questo tipo!
Grande potenza di
calcolo e spazio disco
necessaria !
Biologia
Bioinformatica
Illumina HiSEQ 2000

11
Timeline del testing genetico
2011
FDA approves
NGS for Clinical
Diagnostic Application.
2007
HuRef Venter Diploid

2015 Cao et al. : De-Novo assembly of a haplotype resolved
human genome.
12
Il futuro

• Quanto sono differenti due genomi umani? Più’ due persone
sono imparentate piu’ i loro genomi sono simili.
• Si stima che per persone senza legami familiari , due persone
prese a caso per strade ad esempio, i genomi differiscono di 1
ogni 1200 o 1500 basi di DNA.
• Quindi ci sono piu’ di tre milioni di differenze tra un genoma
umano e un altro. D’altra parte e’ anche vero che siamo simili al
99,9%.
• Ma siamo uguali solo al 99% ai nostri parenti genetici piu’ vicini:
gli scimpanze! :)
13
Variazione e Similitudine del genoma

14
Variazione e Similitudine del genoma
• Se ogni genoma umano e’ diverso che cosa vuol dire
sequenziare “IL genoma umano”?
• E che cosa vuol dire cercare varianti ? Varianti rispetto a cosa?

• La sequenza completa del genoma umano, sia quella
completata nel 2001 che le successive, e’ in effetti una
sequenza “rappresentativa” ottenuta dal DNA di diversi
individui.
• Ad esempio la versione 19 del genoma umano , GRCh37 the
Genome Reference Consortium human genome (build 37), e’
derivata da 13 donatori anonimi di Buffalo, New York.
• Un avviso e’ stato messo sul giornale locale ed i primi 10
maschi e 10 femmine che hanno risposto all’annuncio sono
stati invitati ad un incontro con il consigliere genetico del
progetto ed a donare il loro DNA.
• Come risultato ﬁnale si ha che circa l’80% del genoma di
riferimento viene da 8 persone ed in particolare circa il 66%
proviene da un maschio designato come RP11.
15
Genoma di riferimento

• In effetti quindi il genoma di riferimento e’ solo una referenza che
ci serve per mappare le nostre sequenze.
• Non ci sono assunzioni medico o biologiche sulla sua sequenza !
Quindi anche trovando una variante rispetto al genoma di
riferimento bisogna sempre validarla prima di dichiararla
mutazione patogena!
16
Genoma di riferimento
Esistono molti database pubblici e metodi di predizione
di mutazioni patogene da utilizzare per validare le varianti.

17
Primary processing
Initial Quality
Control (QC)
Mapping
Variant Calling
Secondary Analysis
(Filtering )
Variant annotation
Filtering by effect
Filtering by MAF
Filtering by family
segregation
Knowledge Based
Prioritazition
Proximity to other
known disease gene
Functional proximity
Network proximity
Other prioritisation
methods
FASTQ file
BAM file
VCF file
Standard per annotare le varianti trovate !
Pipeline della analisi dati

• VCF Variant Calling File
18
File VCF

19
2. Per rimuovere varianti gia’ note si usano
databases pubblici come:
dbSNP, 1000 Genomes Project .
Attenzione: una variante puo’ essere nota
come causativa di una altra patologia ma non
per quella che stiamo studiando!
1
2
3
1. Si rimuovono le mutazioni sinonime.
3. Si fanno ipotesi sul modello di ereditarieta’
della malattia e si cercano le varianti che
sono in accordo con il modello.
Attenzione: la mutazione potrebbe essere
de-novo (vedi caso studio II)!
L’analisi dei dati: filtering

20
Modello di ereditarieta’
Si cercano le varianti
eterozigoti (aA) e
in omozigosi (AA)
nei malati (ma aa nei sani)
Si cercano le varianti in
omozigosi (aa) nei malati
ma in eterozigosi nei
familiari sani.(AA,aA)
Questa analisi si svolge tramite scripts di analisi del file VCF scritti ad hoc, perche’
comunque coinvolge almeno qualche centinaio di varianti!!
Riguardo al punto 3 del filtering

1. Pazienti con
fenotipo di
Osteopetrosi ma
poi rivalutati a
Pycnodysostosis
21
Due casi studio di exome sequencing
2. Un caso di una
sindrome molto rara e
non ancora
geneticamente
descritta al momento
in cui abbiamo iniziato
lo studio.

22
Fenotipo: Intermediate Osteopetrosis
recessive osteopetrosis with no recognized genotype
Caso Studio I
Autosomal Recessive Osteopetrosis (ARO) e’ una malattia genetica
rara che afﬂigge l'osso, il quale ha una densità maggiore del normale
(e’ nota anche come malattia delle ossa di marmo).

23
Caso Studio I
Abbiamo usato una lista di geni per prioritizzare le varianti
passando da 165 a 3. Fondamentale il lavoro dei biologi e medici
per ottenere questo risultato !!!
Abbiamo svolto lo studio di sequenziamento esomico nelle 2 sorelle
affette e raggiunto per entrambi i campioni un coverage medio di
69x sulle 62 MB di target, raggiungendo un 94% di coverage.

24
Family 1: e’ stata identiﬁcata la mutazione
omozigote nell’ esone 3 del gene CTSK di un
singolo nucleotide (g.2128C > T) causante la
mutazione p.Arg46Trp; questa mutazione era
presente nei genitori come eterozigote.
Usato per rivalutare altri 4 casi come
Pycnodysostosis, patologia sempre molto rara ma a
prognosi relativamente benigna. Il fenotipo dei
pazienti non era tipico da Pycnodysostosis.

• Attraverso lo studio e’ stata identiﬁcata una mutazione
patogena omozigote nel gene CTSK che ﬁno allo studio non si
conosceva.
• Importante il fatto che due campioni fossero di due sorelle
affette dalla stessa patologia!
• Sono stati quindi testati attraverso sequenziamento Sanger altri
25 pazienti diagnosticati come “recessive osteopetrosis” ed in 4
e’ stata trovata la mutazione nel gene CTSK.
• E’ stata raccomandata l’inclusione del gene CTSK nella lista di
geni da controllare per una diagnosi di patologia di accresciuta
densita’ ossea.
25
Caso Studio I : Conclusioni

26
Caso Studio II
Progeria o no? Un paziente con una patologia recessiva molto
rara.

27
Fenotipo e’ un caso di sindrome
progeroide. La ricerca di mutazioni nel
gene LMNA non ha dato risultati!!

Genitori consanguinei : per questo
motivo si sono cercate le varianti
omozigoti nella paziente e eterozigoti nei
genitori ipotizzando che la mutazione
causale fosse ereditata da un antenato
comune.

Sono quindi stati analizzati con il
sequenziamento esomico i campioni del
trio (cioe’ i 2 genitori e la paziente).

Caso Studio II

• Nel 2013 viene pubblicato
un articolo che descrive una
sindrome con fenotipo simile
in 4 pazienti! La stessa
variante in POLD1 e’
presente nel nostro caso.
28
Geni su cui avevamo focalizzato
l’attenzione!

29
Anche se i genitori sono consanguinei la mutazione causale e’ di
tipo de-novo! La avevamo scartata perche’ ci eravamo
focalizzati su un modello di malattia autosomico recessivo.
Mutazione nel gene POLD1
Caso Studio II

30
Caso Studio II
Meccanismo patogenico: la delezione nella sequenza del gene POLD1 e’
stata legata alla presenza di una sequenza di stop della DNA polimerasi che
puo’ dare origine ad un’arresto della sintesi del DNA.

• Attraverso lo studio di exome sequencing e’ stato trovato il
quinto paziente di MDPL con la stessa mutazione de novo
pSer605del nel gene POLD1.

• e’ stata data ulteriore prova genetica che questa e’ una
mutazione che provoca la malattia;

• e’ stata ipotizzata una spiegazione del possibile meccanismo
per cui insorge la malattia.

• bisogna sempre considerare l’eventualita’ di una mutazione
de novo anche se in una malattia molto rara e con genitori
consanguinei! Ricordarsi di svolgere di routine la ricerca di
mutazioni de novo.
31
Caso Studio II : conclusioni

• Il sequenziamento esomico funziona e permette di guadagnare
molto tempo nello studio di patologie di vario tipo.
• I costi stanno velocemente diminuendo e il suo utilizzo diventa
sempre maggiore anche in ambito clinico.
• Per uno studio di successo e’ necessario avere una sinergia di
competenze (medico+biologo+bioinformatico) durante ogni fase
dello studio.
• La mole di dati prodotti (come anche i campioni raccolti per lo
studio) deve essere conservata e disponibile per studi futuri.
Necessita’ di organizzare biobanche!
32
Conclusioni

• Ringrazio i miei (ex) colleghi del gruppo di bioinformatica del
CRS4 , Fred Reinier, Riccardo Berutti, Ilenia Zara.
• Ringrazio i colleghi del CNR -IRGB con cui abbiamo iniziato
questo tipo di studi e con cui abbiamo fatto innumerevoli
riunioni: Serena Sanna, Laura Crisponi, Carlo Sidore e molti
altri…
• Ringrazio i biologi con cui abbiamo lavorato per la pazienza
dimostrata con chi come me di biologia conosce ben poco. In
particolare Alessandro Puddu, Manuela Oppo, Roberto
Cusano.
33
Ringraziamenti

Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

Similar to Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015 (20)

More from CRS4 Research Center in Sardinia

More from CRS4 Research Center in Sardinia (20)

Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015