SlideShare a Scribd company logo
1 of 33
Download to read offline
Sequenziamento esomico:
analisi dati e casi di studio
Maria Valentini
18 Novembre 2015
1
• Cosa e’ l’esoma, come si studia e perche’.
• Cosa e’ una variante, quante ce ne sono e il genoma di
riferimento
• Next Generation Sequencing e analisi dei dati generati.
• Caso studio 1
• Caso studio 2
• Conclusioni
2
Introduzione
3
Cosa e’ l’esoma
• Il genoma umano è costituito da 3 miliardi di
nucleotidi o “lettere”. Solo una piccola
percentuale – 1,5% - di queste lettere è
effettivamente tradotta in proteine, le
molecole funzionali negli esseri viventi.
• L’esoma è costituito da tutti gli esoni del
genoma, che sono, appunto, le porzioni
codificanti dei geni.
4
Cosa e’ l’exome sequencing
Exome sequencing (o Whole-Exome Sequencing - WES)
è il sequenziamento dell'intera regione codificante del
genoma di un individuo.
Il termine esone deriva da “regione espressa” (o ‘exon’, EXpressed
regiON), poiché sono queste le regioni che vengono tradotte, o
espresse come proteine.
L’esoma e’ la porzione di genoma che codifica le proteine.
5
Perche’ l’exome sequencing
Ciò è di estremo interesse sia per la dignostica di routine che per la
ricerca scientifica. Infatti, anche se la regione codificante
rappresenta soltanto l'1% di tutto il genoma, si stima che fino
all'85% di tutte le mutazioni patogene siano contenute in questa
regione.
Identificando le varianti di un
gene possiamo capire se la
proteina e’ “mal funzionante”
e fare delle ipotesi sui
meccanismi biologici che
provocano la malattia!
Attraverso il sequenziamento esomico ottengo una lista di
mutazioni geniche.
6
Cosa ottengo da un exome sequencing
mutazioni silenti: non c’è alterazione della proteina prodotta (si è
determinata la formazione di un codone sinonimo)
mutazioni di senso: la proteina prodotta dal gene è alterata nella
sua sequenza amminoacidica.
mutazioni non senso: si forma un codone di stop e la proteina
prodotta è tronca rispetto al normale.
SVN
SingleNucleotideVariation Short Indels
7
Quando usarlo ?
}
Rapidamentesistapassandoadunusodi
exomesequencingpertuttiquesticasi!
8
Vi sono situazioni cliniche in cui la valutazione dell’intero esoma è
praticamente l’unica strada percorribile!
• Condizioni patologiche in cui è probabile un’elevata eterogeneità
genetica e variabilità fenotipica (numerosi geni candidati e/o
sintomatologia riconducibile a una tra diverse condizioni);
• Quadro sintomatologico compatibile con la presenza di più
condizioni genetiche distinte nello stesso paziente;
• Situazioni compatibili con la presenza di mutazioni de novo o
comunque non ereditate attraverso la linea germinale parentale
(assenza di altri familiari affetti, assenza di specifiche mutazioni
patogeniche nei genitori, ecc);
Quando e’ inevitabile usarlo?
Fino a pochi anni fa il test genetico per eccellenza consisteva nel
sequenziamento di singolo gene (o di un ristretto gruppo di geni)
tramite la metodica dell'elettroforesi capillare o sequenziamento
Sanger.
9
L’avvento delle nuove tecnologie di sequenziamento (Next
Generation Sequencing - NGS o High-Throughput sequencing)
ha trasformato lo studio della genetica delle malattie umane
portando ad un'epoca di produttività senza precedenti.
Grazie ai costi e ai tempi ridotti, tramite NGS è possibile analizzare
un elevato numero di frammenti di DNA in parallelo fino ad ottenere
la sequenza dell'intera regione codificante di un individuo o
dell’intero genoma.
Metodi Next Generation Sequencing
10
L’exome sequencing e’ un metodo NGS
Tutti i metodi NGS sono caratterizzati da una pipeline di questo tipo!
Grande potenza di
calcolo e spazio disco
necessaria !
Biologia
Bioinformatica
Illumina HiSEQ 2000
11
Timeline del testing genetico
2011
FDA approves
NGS for Clinical
Diagnostic Application.
2007
HuRef Venter Diploid
2015 Cao et al. : De-Novo assembly of a haplotype resolved
human genome.
12
Il futuro
• Quanto sono differenti due genomi umani? Più’ due persone
sono imparentate piu’ i loro genomi sono simili.
• Si stima che per persone senza legami familiari , due persone
prese a caso per strade ad esempio, i genomi differiscono di 1
ogni 1200 o 1500 basi di DNA.
• Quindi ci sono piu’ di tre milioni di differenze tra un genoma
umano e un altro. D’altra parte e’ anche vero che siamo simili al
99,9%.
• Ma siamo uguali solo al 99% ai nostri parenti genetici piu’ vicini:
gli scimpanze! :)
13
Variazione e Similitudine del genoma
14
Variazione e Similitudine del genoma
• Se ogni genoma umano e’ diverso che cosa vuol dire
sequenziare “IL genoma umano”?
• E che cosa vuol dire cercare varianti ? Varianti rispetto a cosa?
• La sequenza completa del genoma umano, sia quella
completata nel 2001 che le successive, e’ in effetti una
sequenza “rappresentativa” ottenuta dal DNA di diversi
individui.
• Ad esempio la versione 19 del genoma umano , GRCh37 the
Genome Reference Consortium human genome (build 37), e’
derivata da 13 donatori anonimi di Buffalo, New York.
• Un avviso e’ stato messo sul giornale locale ed i primi 10
maschi e 10 femmine che hanno risposto all’annuncio sono
stati invitati ad un incontro con il consigliere genetico del
progetto ed a donare il loro DNA.
• Come risultato finale si ha che circa l’80% del genoma di
riferimento viene da 8 persone ed in particolare circa il 66%
proviene da un maschio designato come RP11.
15
Genoma di riferimento
• In effetti quindi il genoma di riferimento e’ solo una referenza che
ci serve per mappare le nostre sequenze.
• Non ci sono assunzioni medico o biologiche sulla sua sequenza !
Quindi anche trovando una variante rispetto al genoma di
riferimento bisogna sempre validarla prima di dichiararla
mutazione patogena!
16
Genoma di riferimento
Esistono molti database pubblici e metodi di predizione
di mutazioni patogene da utilizzare per validare le varianti.
17
Primary processing
Initial Quality
Control (QC)
Mapping
Variant Calling
Secondary Analysis
(Filtering )
Variant annotation
Filtering by effect
Filtering by MAF
Filtering by family
segregation
Knowledge Based
Prioritazition
Proximity to other
known disease gene
Functional proximity
Network proximity
Other prioritisation
methods
FASTQ file
BAM file
VCF file
Standard per annotare le varianti trovate !
Pipeline della analisi dati
• VCF Variant Calling File
18
File VCF
19
2. Per rimuovere varianti gia’ note si usano
databases pubblici come:
dbSNP, 1000 Genomes Project .
Attenzione: una variante puo’ essere nota
come causativa di una altra patologia ma non
per quella che stiamo studiando!
1
2
3
1. Si rimuovono le mutazioni sinonime.
3. Si fanno ipotesi sul modello di ereditarieta’
della malattia e si cercano le varianti che
sono in accordo con il modello.
Attenzione: la mutazione potrebbe essere
de-novo (vedi caso studio II)!
L’analisi dei dati: filtering
20
Modello di ereditarieta’
Si cercano le varianti
eterozigoti (aA) e
in omozigosi (AA)
nei malati (ma aa nei sani)
Si cercano le varianti in
omozigosi (aa) nei malati
ma in eterozigosi nei
familiari sani.(AA,aA)
Questa analisi si svolge tramite scripts di analisi del file VCF scritti ad hoc, perche’
comunque coinvolge almeno qualche centinaio di varianti!!
Riguardo al punto 3 del filtering
1. Pazienti con
fenotipo di
Osteopetrosi ma
poi rivalutati a
Pycnodysostosis
21
Due casi studio di exome sequencing
2. Un caso di una
sindrome molto rara e
non ancora
geneticamente
descritta al momento
in cui abbiamo iniziato
lo studio.
22
Fenotipo: Intermediate Osteopetrosis
recessive osteopetrosis with no recognized genotype
Caso Studio I
Autosomal Recessive Osteopetrosis (ARO) e’ una malattia genetica
rara che affligge l'osso, il quale ha una densità maggiore del normale
(e’ nota anche come malattia delle ossa di marmo).
23
Caso Studio I
Abbiamo usato una lista di geni per prioritizzare le varianti
passando da 165 a 3. Fondamentale il lavoro dei biologi e medici
per ottenere questo risultato !!!
Abbiamo svolto lo studio di sequenziamento esomico nelle 2 sorelle
affette e raggiunto per entrambi i campioni un coverage medio di
69x sulle 62 MB di target, raggiungendo un 94% di coverage.
24
Family 1: e’ stata identificata la mutazione
omozigote nell’ esone 3 del gene CTSK di un
singolo nucleotide (g.2128C > T) causante la
mutazione p.Arg46Trp; questa mutazione era
presente nei genitori come eterozigote.
Usato per rivalutare altri 4 casi come
Pycnodysostosis, patologia sempre molto rara ma a
prognosi relativamente benigna. Il fenotipo dei
pazienti non era tipico da Pycnodysostosis.
• Attraverso lo studio e’ stata identificata una mutazione
patogena omozigote nel gene CTSK che fino allo studio non si
conosceva.
• Importante il fatto che due campioni fossero di due sorelle
affette dalla stessa patologia!
• Sono stati quindi testati attraverso sequenziamento Sanger altri
25 pazienti diagnosticati come “recessive osteopetrosis” ed in 4
e’ stata trovata la mutazione nel gene CTSK.
• E’ stata raccomandata l’inclusione del gene CTSK nella lista di
geni da controllare per una diagnosi di patologia di accresciuta
densita’ ossea.
25
Caso Studio I : Conclusioni
26
Caso Studio II
Progeria o no? Un paziente con una patologia recessiva molto
rara.
27
Fenotipo e’ un caso di sindrome
progeroide. La ricerca di mutazioni nel
gene LMNA non ha dato risultati!! 

Genitori consanguinei : per questo
motivo si sono cercate le varianti
omozigoti nella paziente e eterozigoti nei
genitori ipotizzando che la mutazione
causale fosse ereditata da un antenato
comune. 

Sono quindi stati analizzati con il
sequenziamento esomico i campioni del
trio (cioe’ i 2 genitori e la paziente).

Caso Studio II
• Nel 2013 viene pubblicato
un articolo che descrive una
sindrome con fenotipo simile
in 4 pazienti! La stessa
variante in POLD1 e’
presente nel nostro caso.
28
Geni su cui avevamo focalizzato
l’attenzione!
29
Anche se i genitori sono consanguinei la mutazione causale e’ di
tipo de-novo! La avevamo scartata perche’ ci eravamo
focalizzati su un modello di malattia autosomico recessivo.
Mutazione nel gene POLD1
Caso Studio II
30
Caso Studio II
Meccanismo patogenico: la delezione nella sequenza del gene POLD1 e’
stata legata alla presenza di una sequenza di stop della DNA polimerasi che
puo’ dare origine ad un’arresto della sintesi del DNA.
• Attraverso lo studio di exome sequencing e’ stato trovato il
quinto paziente di MDPL con la stessa mutazione de novo
pSer605del nel gene POLD1.

• e’ stata data ulteriore prova genetica che questa e’ una
mutazione che provoca la malattia;

• e’ stata ipotizzata una spiegazione del possibile meccanismo
per cui insorge la malattia.

• bisogna sempre considerare l’eventualita’ di una mutazione
de novo anche se in una malattia molto rara e con genitori
consanguinei! Ricordarsi di svolgere di routine la ricerca di
mutazioni de novo.
31
Caso Studio II : conclusioni
• Il sequenziamento esomico funziona e permette di guadagnare
molto tempo nello studio di patologie di vario tipo.
• I costi stanno velocemente diminuendo e il suo utilizzo diventa
sempre maggiore anche in ambito clinico.
• Per uno studio di successo e’ necessario avere una sinergia di
competenze (medico+biologo+bioinformatico) durante ogni fase
dello studio.
• La mole di dati prodotti (come anche i campioni raccolti per lo
studio) deve essere conservata e disponibile per studi futuri.
Necessita’ di organizzare biobanche!
32
Conclusioni
• Ringrazio i miei (ex) colleghi del gruppo di bioinformatica del
CRS4 , Fred Reinier, Riccardo Berutti, Ilenia Zara.
• Ringrazio i colleghi del CNR -IRGB con cui abbiamo iniziato
questo tipo di studi e con cui abbiamo fatto innumerevoli
riunioni: Serena Sanna, Laura Crisponi, Carlo Sidore e molti
altri…
• Ringrazio i biologi con cui abbiamo lavorato per la pazienza
dimostrata con chi come me di biologia conosce ben poco. In
particolare Alessandro Puddu, Manuela Oppo, Roberto
Cusano.
33
Ringraziamenti

More Related Content

What's hot

Bioinformatics tools for NGS data analysis
Bioinformatics tools for NGS data analysisBioinformatics tools for NGS data analysis
Bioinformatics tools for NGS data analysisDespoina Kalfakakou
 
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...VHIR Vall d’Hebron Institut de Recerca
 
Overview of Genome Assembly Algorithms
Overview of Genome Assembly AlgorithmsOverview of Genome Assembly Algorithms
Overview of Genome Assembly AlgorithmsNtino Krampis
 
Bioinformatics workshop Sept 2014
Bioinformatics workshop Sept 2014Bioinformatics workshop Sept 2014
Bioinformatics workshop Sept 2014LutzFr
 
Telomere-to-telomere assembly of a complete human chromosomes
Telomere-to-telomere assembly of a complete human chromosomesTelomere-to-telomere assembly of a complete human chromosomes
Telomere-to-telomere assembly of a complete human chromosomesGenome Reference Consortium
 
Single nucleotide polymorphism by kk sahu
Single nucleotide polymorphism by kk sahuSingle nucleotide polymorphism by kk sahu
Single nucleotide polymorphism by kk sahuKAUSHAL SAHU
 
Quality control of sequencing with fast qc obtained with
Quality control of sequencing with fast qc obtained withQuality control of sequencing with fast qc obtained with
Quality control of sequencing with fast qc obtained withHafiz Muhammad Zeeshan Raza
 
Mlpa (Multipleks PCR)
Mlpa (Multipleks PCR)Mlpa (Multipleks PCR)
Mlpa (Multipleks PCR)06AYDIN
 
Single-Cell Analysis - Powered by REPLI-g: Single Cell Analysis Series Part 1
Single-Cell Analysis - Powered by REPLI-g: Single Cell Analysis Series Part 1Single-Cell Analysis - Powered by REPLI-g: Single Cell Analysis Series Part 1
Single-Cell Analysis - Powered by REPLI-g: Single Cell Analysis Series Part 1QIAGEN
 
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...QIAGEN
 
Sequence to sequence (encoder-decoder) learning
Sequence to sequence (encoder-decoder) learningSequence to sequence (encoder-decoder) learning
Sequence to sequence (encoder-decoder) learningRoberto Pereira Silveira
 
Next generation-sequencing.ppt-converted
Next generation-sequencing.ppt-convertedNext generation-sequencing.ppt-converted
Next generation-sequencing.ppt-convertedShweta Tiwari
 
Controlled dropout: a different dropout for improving training speed on deep ...
Controlled dropout: a different dropout for improving training speed on deep ...Controlled dropout: a different dropout for improving training speed on deep ...
Controlled dropout: a different dropout for improving training speed on deep ...Byung Soo Ko
 
Genotyping by sequencing
Genotyping by sequencingGenotyping by sequencing
Genotyping by sequencingBhavya Sree
 
Utilization of NGS to Identify Clinically-Relevant Mutations in cfDNA: Meet t...
Utilization of NGS to Identify Clinically-Relevant Mutations in cfDNA: Meet t...Utilization of NGS to Identify Clinically-Relevant Mutations in cfDNA: Meet t...
Utilization of NGS to Identify Clinically-Relevant Mutations in cfDNA: Meet t...QIAGEN
 

What's hot (20)

Bioinformatics tools for NGS data analysis
Bioinformatics tools for NGS data analysisBioinformatics tools for NGS data analysis
Bioinformatics tools for NGS data analysis
 
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
 
Overview of Genome Assembly Algorithms
Overview of Genome Assembly AlgorithmsOverview of Genome Assembly Algorithms
Overview of Genome Assembly Algorithms
 
Bioinformatics workshop Sept 2014
Bioinformatics workshop Sept 2014Bioinformatics workshop Sept 2014
Bioinformatics workshop Sept 2014
 
Telomere-to-telomere assembly of a complete human chromosomes
Telomere-to-telomere assembly of a complete human chromosomesTelomere-to-telomere assembly of a complete human chromosomes
Telomere-to-telomere assembly of a complete human chromosomes
 
Single nucleotide polymorphism by kk sahu
Single nucleotide polymorphism by kk sahuSingle nucleotide polymorphism by kk sahu
Single nucleotide polymorphism by kk sahu
 
Quality control of sequencing with fast qc obtained with
Quality control of sequencing with fast qc obtained withQuality control of sequencing with fast qc obtained with
Quality control of sequencing with fast qc obtained with
 
Mlpa (Multipleks PCR)
Mlpa (Multipleks PCR)Mlpa (Multipleks PCR)
Mlpa (Multipleks PCR)
 
Genome sequencing
Genome sequencingGenome sequencing
Genome sequencing
 
Single-Cell Analysis - Powered by REPLI-g: Single Cell Analysis Series Part 1
Single-Cell Analysis - Powered by REPLI-g: Single Cell Analysis Series Part 1Single-Cell Analysis - Powered by REPLI-g: Single Cell Analysis Series Part 1
Single-Cell Analysis - Powered by REPLI-g: Single Cell Analysis Series Part 1
 
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...
Next-Generation Sequencing an Intro to Tech and Applications: NGS Tech Overvi...
 
Sequence to sequence (encoder-decoder) learning
Sequence to sequence (encoder-decoder) learningSequence to sequence (encoder-decoder) learning
Sequence to sequence (encoder-decoder) learning
 
Biological sequences analysis
Biological sequences analysisBiological sequences analysis
Biological sequences analysis
 
Next generation-sequencing.ppt-converted
Next generation-sequencing.ppt-convertedNext generation-sequencing.ppt-converted
Next generation-sequencing.ppt-converted
 
Clinical Applications of Next Generation Sequencing
Clinical Applications of Next Generation SequencingClinical Applications of Next Generation Sequencing
Clinical Applications of Next Generation Sequencing
 
Controlled dropout: a different dropout for improving training speed on deep ...
Controlled dropout: a different dropout for improving training speed on deep ...Controlled dropout: a different dropout for improving training speed on deep ...
Controlled dropout: a different dropout for improving training speed on deep ...
 
Overview of Next Gen Sequencing Data Analysis
Overview of Next Gen Sequencing Data AnalysisOverview of Next Gen Sequencing Data Analysis
Overview of Next Gen Sequencing Data Analysis
 
Genotyping by sequencing
Genotyping by sequencingGenotyping by sequencing
Genotyping by sequencing
 
Introduction to next generation sequencing
Introduction to next generation sequencingIntroduction to next generation sequencing
Introduction to next generation sequencing
 
Utilization of NGS to Identify Clinically-Relevant Mutations in cfDNA: Meet t...
Utilization of NGS to Identify Clinically-Relevant Mutations in cfDNA: Meet t...Utilization of NGS to Identify Clinically-Relevant Mutations in cfDNA: Meet t...
Utilization of NGS to Identify Clinically-Relevant Mutations in cfDNA: Meet t...
 

Similar to Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

Similar to Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015 (20)

Human Genome
Human GenomeHuman Genome
Human Genome
 
Gen pop1var
Gen pop1varGen pop1var
Gen pop1var
 
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencingHigh throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
 
Dna finger print
Dna finger print Dna finger print
Dna finger print
 
Dna finger print (2)
Dna finger print (2)Dna finger print (2)
Dna finger print (2)
 
Dna finger print (2)
Dna finger print (2)Dna finger print (2)
Dna finger print (2)
 
Marcatori di linea seminario 2010
Marcatori di linea seminario  2010Marcatori di linea seminario  2010
Marcatori di linea seminario 2010
 
Genetica 01
Genetica 01Genetica 01
Genetica 01
 
Genetica di Popolazioni 1
Genetica di Popolazioni 1Genetica di Popolazioni 1
Genetica di Popolazioni 1
 
Genetica 00
Genetica 00Genetica 00
Genetica 00
 
Master Restagno 27 Giu 08
Master Restagno 27 Giu 08Master Restagno 27 Giu 08
Master Restagno 27 Giu 08
 
2009 Il Progetto Genoma Umano (Shared)
2009 Il Progetto Genoma Umano (Shared)2009 Il Progetto Genoma Umano (Shared)
2009 Il Progetto Genoma Umano (Shared)
 
Restagno 07 Nov 08
Restagno 07 Nov 08Restagno 07 Nov 08
Restagno 07 Nov 08
 
Genetica forense sabrina rossi
Genetica forense sabrina rossiGenetica forense sabrina rossi
Genetica forense sabrina rossi
 
Dall'analisi molecolare ai quadri clinici delle Malattie Lisosomiali
Dall'analisi molecolare ai quadri clinici delle Malattie LisosomialiDall'analisi molecolare ai quadri clinici delle Malattie Lisosomiali
Dall'analisi molecolare ai quadri clinici delle Malattie Lisosomiali
 
Terapia Genica
Terapia GenicaTerapia Genica
Terapia Genica
 
Lab. genetica forense2010
Lab. genetica forense2010Lab. genetica forense2010
Lab. genetica forense2010
 
Test Genetici
Test GeneticiTest Genetici
Test Genetici
 
Sperimentazione animale e metodi alternativi
Sperimentazione animale e metodi alternativiSperimentazione animale e metodi alternativi
Sperimentazione animale e metodi alternativi
 
Genetica del comportamento di plomin
Genetica del comportamento di plominGenetica del comportamento di plomin
Genetica del comportamento di plomin
 

More from CRS4 Research Center in Sardinia

Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...
Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...
Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...CRS4 Research Center in Sardinia
 
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...CRS4 Research Center in Sardinia
 
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid Alfonso Damiano (Università di Cagliari) ICT per Smart Grid
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid CRS4 Research Center in Sardinia
 
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...CRS4 Research Center in Sardinia
 
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...CRS4 Research Center in Sardinia
 
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015CRS4 Research Center in Sardinia
 
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...CRS4 Research Center in Sardinia
 
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)CRS4 Research Center in Sardinia
 
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...CRS4 Research Center in Sardinia
 
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...CRS4 Research Center in Sardinia
 

More from CRS4 Research Center in Sardinia (20)

The future is close
The future is closeThe future is close
The future is close
 
The future is close
The future is closeThe future is close
The future is close
 
Presentazione Linea B2 progetto Tutti a Iscol@ 2017
Presentazione Linea B2 progetto Tutti a Iscol@ 2017Presentazione Linea B2 progetto Tutti a Iscol@ 2017
Presentazione Linea B2 progetto Tutti a Iscol@ 2017
 
Iscola linea B 2016
Iscola linea B 2016Iscola linea B 2016
Iscola linea B 2016
 
Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...
Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...
Near Surface Geoscience Conference 2015, Turin - A Spatial Velocity Analysis ...
 
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...
GIS partecipativo. Laura Muscas e Valentina Spanu (CRS4), Cagliari, 21 Ottobr...
 
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid Alfonso Damiano (Università di Cagliari) ICT per Smart Grid
Alfonso Damiano (Università di Cagliari) ICT per Smart Grid
 
Big Data Infrastructures - Hadoop ecosystem, M. E. Piras
Big Data Infrastructures - Hadoop ecosystem, M. E. PirasBig Data Infrastructures - Hadoop ecosystem, M. E. Piras
Big Data Infrastructures - Hadoop ecosystem, M. E. Piras
 
Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
 Big Data Analytics, Giovanni Delussu e Marco Enrico Piras  Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
 
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
 
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
 
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
 
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
 
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
 
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
 
SmartGeo/Eiagrid portal (Guido Satta, CRS4)
SmartGeo/Eiagrid portal (Guido Satta, CRS4)SmartGeo/Eiagrid portal (Guido Satta, CRS4)
SmartGeo/Eiagrid portal (Guido Satta, CRS4)
 
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
 
Mobile Graphics (part2)
Mobile Graphics (part2)Mobile Graphics (part2)
Mobile Graphics (part2)
 
Mobile Graphics (part1)
Mobile Graphics (part1)Mobile Graphics (part1)
Mobile Graphics (part1)
 
2015 crs4-seminar-massive-models-full
2015 crs4-seminar-massive-models-full2015 crs4-seminar-massive-models-full
2015 crs4-seminar-massive-models-full
 

Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

  • 1. Sequenziamento esomico: analisi dati e casi di studio Maria Valentini 18 Novembre 2015 1
  • 2. • Cosa e’ l’esoma, come si studia e perche’. • Cosa e’ una variante, quante ce ne sono e il genoma di riferimento • Next Generation Sequencing e analisi dei dati generati. • Caso studio 1 • Caso studio 2 • Conclusioni 2 Introduzione
  • 3. 3 Cosa e’ l’esoma • Il genoma umano è costituito da 3 miliardi di nucleotidi o “lettere”. Solo una piccola percentuale – 1,5% - di queste lettere è effettivamente tradotta in proteine, le molecole funzionali negli esseri viventi. • L’esoma è costituito da tutti gli esoni del genoma, che sono, appunto, le porzioni codificanti dei geni.
  • 4. 4 Cosa e’ l’exome sequencing Exome sequencing (o Whole-Exome Sequencing - WES) è il sequenziamento dell'intera regione codificante del genoma di un individuo. Il termine esone deriva da “regione espressa” (o ‘exon’, EXpressed regiON), poiché sono queste le regioni che vengono tradotte, o espresse come proteine. L’esoma e’ la porzione di genoma che codifica le proteine.
  • 5. 5 Perche’ l’exome sequencing Ciò è di estremo interesse sia per la dignostica di routine che per la ricerca scientifica. Infatti, anche se la regione codificante rappresenta soltanto l'1% di tutto il genoma, si stima che fino all'85% di tutte le mutazioni patogene siano contenute in questa regione. Identificando le varianti di un gene possiamo capire se la proteina e’ “mal funzionante” e fare delle ipotesi sui meccanismi biologici che provocano la malattia!
  • 6. Attraverso il sequenziamento esomico ottengo una lista di mutazioni geniche. 6 Cosa ottengo da un exome sequencing mutazioni silenti: non c’è alterazione della proteina prodotta (si è determinata la formazione di un codone sinonimo) mutazioni di senso: la proteina prodotta dal gene è alterata nella sua sequenza amminoacidica. mutazioni non senso: si forma un codone di stop e la proteina prodotta è tronca rispetto al normale. SVN SingleNucleotideVariation Short Indels
  • 8. 8 Vi sono situazioni cliniche in cui la valutazione dell’intero esoma è praticamente l’unica strada percorribile! • Condizioni patologiche in cui è probabile un’elevata eterogeneità genetica e variabilità fenotipica (numerosi geni candidati e/o sintomatologia riconducibile a una tra diverse condizioni); • Quadro sintomatologico compatibile con la presenza di più condizioni genetiche distinte nello stesso paziente; • Situazioni compatibili con la presenza di mutazioni de novo o comunque non ereditate attraverso la linea germinale parentale (assenza di altri familiari affetti, assenza di specifiche mutazioni patogeniche nei genitori, ecc); Quando e’ inevitabile usarlo?
  • 9. Fino a pochi anni fa il test genetico per eccellenza consisteva nel sequenziamento di singolo gene (o di un ristretto gruppo di geni) tramite la metodica dell'elettroforesi capillare o sequenziamento Sanger. 9 L’avvento delle nuove tecnologie di sequenziamento (Next Generation Sequencing - NGS o High-Throughput sequencing) ha trasformato lo studio della genetica delle malattie umane portando ad un'epoca di produttività senza precedenti. Grazie ai costi e ai tempi ridotti, tramite NGS è possibile analizzare un elevato numero di frammenti di DNA in parallelo fino ad ottenere la sequenza dell'intera regione codificante di un individuo o dell’intero genoma. Metodi Next Generation Sequencing
  • 10. 10 L’exome sequencing e’ un metodo NGS Tutti i metodi NGS sono caratterizzati da una pipeline di questo tipo! Grande potenza di calcolo e spazio disco necessaria ! Biologia Bioinformatica Illumina HiSEQ 2000
  • 11. 11 Timeline del testing genetico 2011 FDA approves NGS for Clinical Diagnostic Application. 2007 HuRef Venter Diploid
  • 12. 2015 Cao et al. : De-Novo assembly of a haplotype resolved human genome. 12 Il futuro
  • 13. • Quanto sono differenti due genomi umani? Più’ due persone sono imparentate piu’ i loro genomi sono simili. • Si stima che per persone senza legami familiari , due persone prese a caso per strade ad esempio, i genomi differiscono di 1 ogni 1200 o 1500 basi di DNA. • Quindi ci sono piu’ di tre milioni di differenze tra un genoma umano e un altro. D’altra parte e’ anche vero che siamo simili al 99,9%. • Ma siamo uguali solo al 99% ai nostri parenti genetici piu’ vicini: gli scimpanze! :) 13 Variazione e Similitudine del genoma
  • 14. 14 Variazione e Similitudine del genoma • Se ogni genoma umano e’ diverso che cosa vuol dire sequenziare “IL genoma umano”? • E che cosa vuol dire cercare varianti ? Varianti rispetto a cosa?
  • 15. • La sequenza completa del genoma umano, sia quella completata nel 2001 che le successive, e’ in effetti una sequenza “rappresentativa” ottenuta dal DNA di diversi individui. • Ad esempio la versione 19 del genoma umano , GRCh37 the Genome Reference Consortium human genome (build 37), e’ derivata da 13 donatori anonimi di Buffalo, New York. • Un avviso e’ stato messo sul giornale locale ed i primi 10 maschi e 10 femmine che hanno risposto all’annuncio sono stati invitati ad un incontro con il consigliere genetico del progetto ed a donare il loro DNA. • Come risultato finale si ha che circa l’80% del genoma di riferimento viene da 8 persone ed in particolare circa il 66% proviene da un maschio designato come RP11. 15 Genoma di riferimento
  • 16. • In effetti quindi il genoma di riferimento e’ solo una referenza che ci serve per mappare le nostre sequenze. • Non ci sono assunzioni medico o biologiche sulla sua sequenza ! Quindi anche trovando una variante rispetto al genoma di riferimento bisogna sempre validarla prima di dichiararla mutazione patogena! 16 Genoma di riferimento Esistono molti database pubblici e metodi di predizione di mutazioni patogene da utilizzare per validare le varianti.
  • 17. 17 Primary processing Initial Quality Control (QC) Mapping Variant Calling Secondary Analysis (Filtering ) Variant annotation Filtering by effect Filtering by MAF Filtering by family segregation Knowledge Based Prioritazition Proximity to other known disease gene Functional proximity Network proximity Other prioritisation methods FASTQ file BAM file VCF file Standard per annotare le varianti trovate ! Pipeline della analisi dati
  • 18. • VCF Variant Calling File 18 File VCF
  • 19. 19 2. Per rimuovere varianti gia’ note si usano databases pubblici come: dbSNP, 1000 Genomes Project . Attenzione: una variante puo’ essere nota come causativa di una altra patologia ma non per quella che stiamo studiando! 1 2 3 1. Si rimuovono le mutazioni sinonime. 3. Si fanno ipotesi sul modello di ereditarieta’ della malattia e si cercano le varianti che sono in accordo con il modello. Attenzione: la mutazione potrebbe essere de-novo (vedi caso studio II)! L’analisi dei dati: filtering
  • 20. 20 Modello di ereditarieta’ Si cercano le varianti eterozigoti (aA) e in omozigosi (AA) nei malati (ma aa nei sani) Si cercano le varianti in omozigosi (aa) nei malati ma in eterozigosi nei familiari sani.(AA,aA) Questa analisi si svolge tramite scripts di analisi del file VCF scritti ad hoc, perche’ comunque coinvolge almeno qualche centinaio di varianti!! Riguardo al punto 3 del filtering
  • 21. 1. Pazienti con fenotipo di Osteopetrosi ma poi rivalutati a Pycnodysostosis 21 Due casi studio di exome sequencing 2. Un caso di una sindrome molto rara e non ancora geneticamente descritta al momento in cui abbiamo iniziato lo studio.
  • 22. 22 Fenotipo: Intermediate Osteopetrosis recessive osteopetrosis with no recognized genotype Caso Studio I Autosomal Recessive Osteopetrosis (ARO) e’ una malattia genetica rara che affligge l'osso, il quale ha una densità maggiore del normale (e’ nota anche come malattia delle ossa di marmo).
  • 23. 23 Caso Studio I Abbiamo usato una lista di geni per prioritizzare le varianti passando da 165 a 3. Fondamentale il lavoro dei biologi e medici per ottenere questo risultato !!! Abbiamo svolto lo studio di sequenziamento esomico nelle 2 sorelle affette e raggiunto per entrambi i campioni un coverage medio di 69x sulle 62 MB di target, raggiungendo un 94% di coverage.
  • 24. 24 Family 1: e’ stata identificata la mutazione omozigote nell’ esone 3 del gene CTSK di un singolo nucleotide (g.2128C > T) causante la mutazione p.Arg46Trp; questa mutazione era presente nei genitori come eterozigote. Usato per rivalutare altri 4 casi come Pycnodysostosis, patologia sempre molto rara ma a prognosi relativamente benigna. Il fenotipo dei pazienti non era tipico da Pycnodysostosis.
  • 25. • Attraverso lo studio e’ stata identificata una mutazione patogena omozigote nel gene CTSK che fino allo studio non si conosceva. • Importante il fatto che due campioni fossero di due sorelle affette dalla stessa patologia! • Sono stati quindi testati attraverso sequenziamento Sanger altri 25 pazienti diagnosticati come “recessive osteopetrosis” ed in 4 e’ stata trovata la mutazione nel gene CTSK. • E’ stata raccomandata l’inclusione del gene CTSK nella lista di geni da controllare per una diagnosi di patologia di accresciuta densita’ ossea. 25 Caso Studio I : Conclusioni
  • 26. 26 Caso Studio II Progeria o no? Un paziente con una patologia recessiva molto rara.
  • 27. 27 Fenotipo e’ un caso di sindrome progeroide. La ricerca di mutazioni nel gene LMNA non ha dato risultati!! Genitori consanguinei : per questo motivo si sono cercate le varianti omozigoti nella paziente e eterozigoti nei genitori ipotizzando che la mutazione causale fosse ereditata da un antenato comune. Sono quindi stati analizzati con il sequenziamento esomico i campioni del trio (cioe’ i 2 genitori e la paziente). Caso Studio II
  • 28. • Nel 2013 viene pubblicato un articolo che descrive una sindrome con fenotipo simile in 4 pazienti! La stessa variante in POLD1 e’ presente nel nostro caso. 28 Geni su cui avevamo focalizzato l’attenzione!
  • 29. 29 Anche se i genitori sono consanguinei la mutazione causale e’ di tipo de-novo! La avevamo scartata perche’ ci eravamo focalizzati su un modello di malattia autosomico recessivo. Mutazione nel gene POLD1 Caso Studio II
  • 30. 30 Caso Studio II Meccanismo patogenico: la delezione nella sequenza del gene POLD1 e’ stata legata alla presenza di una sequenza di stop della DNA polimerasi che puo’ dare origine ad un’arresto della sintesi del DNA.
  • 31. • Attraverso lo studio di exome sequencing e’ stato trovato il quinto paziente di MDPL con la stessa mutazione de novo pSer605del nel gene POLD1. • e’ stata data ulteriore prova genetica che questa e’ una mutazione che provoca la malattia; • e’ stata ipotizzata una spiegazione del possibile meccanismo per cui insorge la malattia. • bisogna sempre considerare l’eventualita’ di una mutazione de novo anche se in una malattia molto rara e con genitori consanguinei! Ricordarsi di svolgere di routine la ricerca di mutazioni de novo. 31 Caso Studio II : conclusioni
  • 32. • Il sequenziamento esomico funziona e permette di guadagnare molto tempo nello studio di patologie di vario tipo. • I costi stanno velocemente diminuendo e il suo utilizzo diventa sempre maggiore anche in ambito clinico. • Per uno studio di successo e’ necessario avere una sinergia di competenze (medico+biologo+bioinformatico) durante ogni fase dello studio. • La mole di dati prodotti (come anche i campioni raccolti per lo studio) deve essere conservata e disponibile per studi futuri. Necessita’ di organizzare biobanche! 32 Conclusioni
  • 33. • Ringrazio i miei (ex) colleghi del gruppo di bioinformatica del CRS4 , Fred Reinier, Riccardo Berutti, Ilenia Zara. • Ringrazio i colleghi del CNR -IRGB con cui abbiamo iniziato questo tipo di studi e con cui abbiamo fatto innumerevoli riunioni: Serena Sanna, Laura Crisponi, Carlo Sidore e molti altri… • Ringrazio i biologi con cui abbiamo lavorato per la pazienza dimostrata con chi come me di biologia conosce ben poco. In particolare Alessandro Puddu, Manuela Oppo, Roberto Cusano. 33 Ringraziamenti