High throughput genotyping enext generation sequencing:nuovi strumenti e strategie di analisi       della i       d ll ric...
Il punto di partenza odierno degli studi di genomica èrappresentato dalla sequenza completa del genoma umano, dastudi che ...
In alcune malattie umane importanti come il diabete o l’asma,l eventol’evento morboso è caratterizzato dall’interazione tr...
L analisiL’analisi di linkage si è rivelata particolarmente efficace estatisticamente valida per lo studio di malattie mon...
Per le malattie complesse comuni, il metodo attualmente piùutilizzato, efficace e semplice da condurre è lo studio diassoc...
Per poter eseguire uno studio d’analisi delle malattiecomplesse è necessario predisporre uno study d i     l              ...
Inoltre possiamo contare su nuove tecniche che ci permettono dianalizzareanali are a fondo sia i marcatori con variazioni ...
Negli studi di genetica possiamo identificare 3 principali tipi divarianti rappresentate dalle variazioni di un singolo nu...
Nel caso di studi che utilizzano i CNV è utile identificare da10.000 a 1.000.000 markers e focalizzare gli studi soprattut...
Per esempio in particolare per lo study design dobbiamoanalizzare preventivamente: l’ereditarietà del tratto il fenotipo e...
Al momento esiste la possibilità di poter contare su vari databaseche sono rappresentati dalla referenza generale della se...
Un esempio concreto di queste strategie è rappresentato dalla    scelta dei markers da posizionare sugli array commerciali...
Si può notare come passando d marcatori più classici come i      ò                        d da           i iù l i imicrosa...
Esistono al momento sul mercato 2 aziende che produconoEi         l                l                 i d  h       dmicroar...
Per iò hP ciò che concerne l tecnica di produzione di questi arrays                           la     i      d i       il’A...
Il principio di b      i i i     base di tutti gli arrays è quello d ll ib id i                             i li          ...
A grandi li        di linee l metodica d li arrays Aff                  la       di degli         Affymetrix si riassume i...
Dopo l’ibridazione a temperatura controllata, opportuni lavaggichimici automatizzati utilizzando le fluidiche consentono d...
La fase successiva consiste in una analisi informatica che permettedi poter generare una lista di genotipi dei vari marcat...
Vi sono ormai molti studi che h                      l     d h hanno permesso d identificare                              ...
I risultati di questo studio hanno permesso di identificare peralcune di queste malattie dei risultati notevoli mentre per...
Lo studio della popolazione sarda ad esempio ha evidenziato la fattibilità diquesto tipo di approccio che ha portato alla ...
Al momento esiste la possibilità di poter utilizzare i Al      t    it l        ibilità di t      tili      i      microrr...
Risultati dell’analisi di espressione tramite microarrays           dell analisiLa heatmap rappresenta i valori di espress...
Sequenziamento di nuova generazioneSono stati sviluppati e utilizzati per progetti internazionali pilota, durante gli ulti...
Sequenziamento di nuova generazioneTre aziende principali presenti sul mercato:Tre aziende principali presenti sul mercato...
Si b              basano sul principio d l                       l i i i del       sequenziamento di cluster clonali      ...
Sequenziamento Sanger ad alta processività       Preparazione della libreria   Frammentazione casuale del DNA genomico    ...
Sequenziamento di nuova generazione       Preparazione della libreria   Frammentazione casuale del DNA genomico   Framment...
Vantaggi delle piattaforme di nuova generazione• No sub‐clonazione, no utilizzo di cellule batteriche      ‐ abolizione di...
Svantaggi delle piattaforme next-genSono prodotte sequenze più corteS        d tt              iù    t      ‐ relativament...
Sequenze corte• Sequenze corte, ma tecnologia in continua evoluzione:       • 454: 100 basi → 200 → 400‐500 → ?      • S l...
Risequenziamento • In presenza di un genoma di riferimento di buona qualità posso   In presenza di un genoma di riferiment...
Paired-end                               P i d d (PE) • Tutte le piattaforme next‐gen offrono la possibilità di produrre  ...
Il problema (!) d ll enorme mole di d i prodotta      bl        della         l     dati   d• E’ un problema chiave che li...
Statistiche sulle tre piattaforme
Sequencing by Synthesis [SOLEXATM system]  q      g y y          [          y    ]Il sistema SOLEXA prodotto da Illumina è...
Sequencingby Synthesisb S nthesis[SOLEXATM  system]
Seq encing b S nthesis [SOLEXATM s stem]Sequencing by Synthesis          system]La preparazione delle libraries cominciaco...
Agilent’s Lab on a chip
La flow cell è un supporto in vetro delledimensioni di un vetrino da microscopioche contiene 8 lane a loro volta suddivise...
Template immobilization strategy.Solid‐phase amplification is composed of two basic steps: initial priming and extending o...
Il concetto di base è rappresentato da una serie di cicli successivi seguiti dauna serie di fotografie che sono in grado m...
Four‐colour and one‐colour cyclicreversible termination methods.a | The four‐colour cyclic reversibletermination (CRT) met...
Vedi video[You tube: Sequencing genomes with the Illumina Genome Analyzer ][      b
Sequencing by Synthesis [SOLEXATM system]Durante quest’anno questi strumenti sono stati continuamente         quest annoog...
Sequencing by Synthesis [SOLEXATM system]Particolare importanza è stata data alla creazione e alla gestionedell’apparecchi...
Al momento esiste la possibilità di poter utilizzare i Al       t   it l        ibilità di t      tili      i     sequenzi...
ThankTh k you ….
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
High throughput genotyping e next generation sequencing
Upcoming SlideShare
Loading in …5
×

High throughput genotyping e next generation sequencing

8,495 views

Published on

Nuovi strumenti e strategie di analisi della ricerca genetica.

Speaker
Andrea Angius (CNR)

Feb 16 2011 - Collana di seminari per la valorizzazione dei risultati della ricerca al CRS4


Abstract
Vengono illustrati gli strumenti per l’identificazione, l’isolamento e la caratterizzazione delle varianti genetiche, dei geni e pathway metabolici, focalizzando l’attenzione su quelle patologie che presentano una forte componente genetica e un’elevata incidenza nella popolazione sarda.

Published in: Business, Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
8,495
On SlideShare
0
From Embeds
0
Number of Embeds
21
Actions
Shares
0
Downloads
216
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

High throughput genotyping e next generation sequencing

  1. 1. High throughput genotyping enext generation sequencing:nuovi strumenti e strategie di analisi della i d ll ricerca genetica ti Dr. Angius Andrea   16.02.2011 ‐ SALA AUDITORIUM via Roma, 253 ‐ Cagliari
  2. 2. Il punto di partenza odierno degli studi di genomica èrappresentato dalla sequenza completa del genoma umano, dastudi che ci mettono a disposizione una mappa dettagliata della p pp gvariabilità genetica e dalla possibilità di poter misurare i varifenotipi a diversi livelli di profondità.Le nuove tecnologie ci permettono ora di poter incrementare glistudi in maniera più efficace e sicuramente più veloce.Ultimamente le tecnologiead alta processività sonosempre più utilizzate eperfezionate e impiegateper diversi approcci chevanno dal genotypingall’espressione genica alla ll’ i i llproteomica.
  3. 3. In alcune malattie umane importanti come il diabete o l’asma,l eventol’evento morboso è caratterizzato dall’interazione tra diverse dall interazionevarianti genetiche e ambiente. Queste malattie definite comepoligeniche e multifattoriali o complesse, mostrano una ovviafamiliarità ma raramente obbediscono alle leggi dellatrasmissione mendeliana, e l’identificazione delle componentigenetiche risulta diffi il se non i i h i l difficile impossibile con semplici metodi ibil li i didi mappaggio quali il linkage o il clonaggio per posizione.L’approccio utilizzato fino a poco tempo fa per il loro studio eraqquello dell’analisi di linkage, che mira ad identificare quelle g , qregioni cromosomiche che vengono trasmesse ai membri affettidella famiglia in maniera simile (co‐segregazione di una porzionedel DNA con la malattia).)
  4. 4. L analisiL’analisi di linkage si è rivelata particolarmente efficace estatisticamente valida per lo studio di malattie monogeniche rare,ma al contrario, il suo potere è scarso per malattie comuni,poligeniche e con modelli di trasmissione non puramenteMendeliani.Le regioni genomiche identificate da studi di linkage per tratticomplessi sono state difficilmente replicate in altri gruppi distudio, e la loro veridicità resta quindi ancora da accertare.
  5. 5. Per le malattie complesse comuni, il metodo attualmente piùutilizzato, efficace e semplice da condurre è lo studio diassociazione caso controllo caso‐controllo.Per questo tipo di analisi si selezionano due gruppi di individui, uno di soggettiaffetti dalla malattia di interesse, i cosiddetti casi, ed uno di individui sani, icosiddetti controlli, e si ricerca una specifica variante genica che è più frequentetra i casi rispetto ai controlli.In maniera simile, questo tipo di test può essere applicato ancheallo studio di t tti quantitativi, quali l’ lt ll t di tratti tit ti i li l’altezza o l pressione la isanguigna in una popolazione sana. Si cercherà in questo casoquella variante genica che risulta più frequente tra gli individui convalori alti rispetto a quelli con valori bassi, dove alto/basso nonindica valori patologici ma solo una condizione rispetto alla mediadella popolazione normale.
  6. 6. Per poter eseguire uno studio d’analisi delle malattiecomplesse è necessario predisporre uno study d i l i di t d designben articolato e pianificato, e dimensionare ilcampione i analisi sia i t i in li i i in termini di approccio, costi e i i i titempi che della scelta delle tecnologie da utilizzare.In questo momento esiste la possibilità di avere adisposizione varie tecniche scalabili sia in termininumerici che economici che ci permettono di poterscegliere il miglior compromesso compromesso.
  7. 7. Inoltre possiamo contare su nuove tecniche che ci permettono dianalizzareanali are a fondo sia i marcatori con variazioni di n mero (CNV) aria ioni numeroche l’espressione su tutti i trascritti genici contemporaneamenteper rilevare le loro variazioni sia su diversi tessuti che sotto diversistimoli esterni naturali o indotti artificialmente.Infine la crescente bibliografia ci permette di poter contare suirisultati di una serie di consorzi a livello internazionale per poterreplicare i d ti su più di una popolazione e validare così i risultati li dati iù l i lid ì i lt tidi associazione tra varianti in associazione e/o predisponenti allamalattie complesse in studio studio.
  8. 8. Negli studi di genetica possiamo identificare 3 principali tipi divarianti rappresentate dalle variazioni di un singolo nucleotide varia ioni(SNP), le inserzioni e/o delezioni (indel) e le variazioni dinumero (CNV).Utilizzando le tecniche che prevedono l’impiego dei microarraysabbiamo la possibilità di genotipizzare contemporaneamentemigliaia di varianti. i li i i iPer gli studi di linkage è utile utilizzare da 3.000 a 10.000markers per identificare zone genomiche in associazione con lamalattia e comparati ai marcatori più tradizionali dannosicuramente notevoli benefici in termini di tempi, costi,ampiezza ridotta delle zone identificate e possibilità di falsipositivi.
  9. 9. Nel caso di studi che utilizzano i CNV è utile identificare da10.000 a 1.000.000 markers e focalizzare gli studi soprattutto su 0.000 .000.000 focali areoncogeni e/o regioni genomiche delete o duplicate.Per gli studi associazione su larga scala (GWAS) i numeri vannoda 100 mila a 1‐2 milioni di markers per un numero consistentedi individui da comparare (diverse migliaia) migliaia).I marcatori devono essere adeguatamente spaziati e tenerconto delle caratteristiche genetiche delle popolazioni diverseper etnia etc.L analisiL’analisi degli SNPs in particolare necessità di una serie diconsiderazione sullo study design, sulle strutture o sub‐strutturedi popolazione e sui metodi di analisi statistica su tutto ilgenoma.
  10. 10. Per esempio in particolare per lo study design dobbiamoanalizzare preventivamente: l’ereditarietà del tratto il fenotipo e l ereditarietà tratto,la sua variabilità, la potenza statistica del nostro campione, l’etniae la scelta del campione per la replica indipendente dei risultati.Per la selezione degli SNPs dobbiamo tenere conto dellecaratteristiche del linkage disequilibrium per selezionare imarcatori in maniera diretta nel caso le varianti siano causali dellamalattia e indiretta nel caso vengano ereditate preferenzialmenteinsieme alle varianti causali causali.I parametri principali per la selezione degli SNPs sono lefrequenze alleliche > 5% la possibilità di selezionare SNPs che 5%,codificano per aminoacidi diversi dal wild type e i pattern dilinkage disequilibrium. g q
  11. 11. Al momento esiste la possibilità di poter contare su vari databaseche sono rappresentati dalla referenza generale della sequenzadel DNA umano, dalla descrizione di vari milioni di variantigenetiche validate e studiate in varie popolazioni e dallapossibilità di assemblare mappe di marcatori molecolari adeguatealle esigenze di studi di associazione e/o di linkage.
  12. 12. Un esempio concreto di queste strategie è rappresentato dalla scelta dei markers da posizionare sugli array commerciali.Per esempio nel caso delChip Affymetrix 500K laselezione dei marcatori èpartita da circa 2 milioni dimarcatori analizzati in un ggnumero limitato di soggettidi varie etnie che hannoristretto la scelta a circa650.000 SNPs che sono statipoi ulteriormente studiati inun campione di individui piùampio, circa 400, che hapermesso di ottenere unaselezione finale di circa500.000 marcatori concaratteristiche ottimali pergli studi da effettuare.
  13. 13. Si può notare come passando d marcatori più classici come i ò d da i iù l i imicrosatelliti, il coverage del nostro genoma sia stato sicuramentemigliorato in maniera drastica e più consona alle analisi dellemalattie complesse anche se esistono delle differenze tra vari tipi dimicroarray che rendono alcuni di essi più adatti a certe popolazionipiuttosto che ad altre.
  14. 14. Esistono al momento sul mercato 2 aziende che produconoEi l l i d h dmicroarrays che vengono utilizzate in maniera massiva dallacomunità scientifica: l’Affymetrix e l’Illumina l Affymetrix l Illumina.Esistono vari prodotti delle 2 case che vanno incontro a differentiesigenze in termini di costi e obbiettivi. Ad esempio Affymetrixproduce un chip da 100K, uno da 500k ed uno da 1 milione diSNPs ed anche Illumina possiede dei prodotti paragonabili. Affymetrix Genome-Wide Illumina HumanHap300 Human SNP Array 6.0 p BeadChip
  15. 15. Per iò hP ciò che concerne l tecnica di produzione di questi arrays la i d i il’Affymetrix utilizza la fotolitografia.La fabbricazione del Chip comincia da un wafer di quarzo di 5 inch quadrati Poiché il quarzo è un 5‐inch quadrati.materiale idrossilato naturalmente, esso fornisce un eccellente substrato per l’attacco di elementichimici. Su di esso vengono quindi posizionate molecole di collegamento sintetiche (molecole“linker”) modificate con gruppi di protezione rimovibili fotochimicamente che serviranno f g pp p fsuccessivamente per posizionare le sonde sull’array. La distanza fra queste molecole “linker”determina la densità di riempimento delle sonde.
  16. 16. Il principio di b i i i base di tutti gli arrays è quello d ll ib id i i li ll della ibridazione:all’interno di ogni chip per ogni marcatore saranno posizionate 40sonde sense e 40 sonde antisense che saranno in grado diriconoscere in maniera specifica la sequenza del nostromarcatore.Le sonde che riconoscono ognuno degli alleli saranno visibilifornendo come risultato finale un segnale positivo su uno deglialleli per gli omozigoti e positivo su entrambi gli alleli neglieterozigoti.A/A A/B B/B
  17. 17. A grandi li di linee l metodica d li arrays Aff la di degli Affymetrix si riassume i i i i inalcuni passaggi fondamentali: la digestione enzimatica del DNAtotale con 2 enzimi di restrizione la legazione di opportuni adapters restrizione,che consentono di avere a livello delle estremita dei frammenti diDNA le stesse sequenze che vengono successivamente amplificatee frammentate per consentire di avere il massimo dell’efficienzanella reazione diibridazione e il lib id i legamecon un complessoantigene‐anticorpo checonsente di poterutilizzare una molecolafluorescente perindividuare l’avvenutolegame tra sonda e DNAl d DNA.
  18. 18. Dopo l’ibridazione a temperatura controllata, opportuni lavaggichimici automatizzati utilizzando le fluidiche consentono di rendereil più specifico possibile il legame e poi di portare a termine l’analisidella superficie dell’array tramite una scannerizzazione ad altissimarisoluzione. i l i Hyb Oven H b O en Fluidic Fl idic Station Scanner
  19. 19. La fase successiva consiste in una analisi informatica che permettedi poter generare una lista di genotipi dei vari marcatori per ogniindividuo analizzato.Particolare importanza deve essere data in questo caso allagestione e alla creazione e progettazione del sistema informaticoche consente la gestione di queste notevoli moli di dati. PC 1 PC 2 Fluidic control Fluidic control Scanning Scanning Cel file transfert Cel file transfert PC 4 PC 3 Cel file transfert Cel file transfert Data analysis Data analysis PC 5 Generation of the txt files Generation of the txt files Transfer of the cel files Data Backup
  20. 20. Vi sono ormai molti studi che h l d h hanno permesso d identificare di d fvarianti causali e/o in associazione con le malattie complesse tra cuitra i primi e forse più conosciuti uno studio del Wellcome Trust caseControl Consortium che ha preso in considerazione circa 14.000individui affetti da 7 diverse malattie complesse (ipertensione p (parteriosa, diabete di tipo I e II, artrite reumatoide, malattia diChron, infarto e disordini bipolari).
  21. 21. I risultati di questo studio hanno permesso di identificare peralcune di queste malattie dei risultati notevoli mentre per alcunealtre come l’ipertensione sicuramente solo dei risultati preliminarida riconfermare. Questo è ciò che era logico aspettarsi in ragionedelle diverse caratteristiche d ll did ll di tt i ti h delle diverse patologie che h t l i h hannosicuramente sia a livello epidemiologico, che fenotipico emolecolare vari gradi di complessità e variabilità variabilità.Questo studio evidenzia anche quali sono le difficoltà negli studi e q gnelle analisi di associazione e mette in evidenza come sia possibileidentificare con alcuni accorgimenti alcuni risultati falsi positivi sullabase di diffb differenziazioni etniche o l possibilità di campionamenti i i i i h la ibili à i ieterogenei o con sottogruppi sia etnici che fenotipica.
  22. 22. Lo studio della popolazione sarda ad esempio ha evidenziato la fattibilità diquesto tipo di approccio che ha portato alla pubblicazione di svariati articoliscientifici di altissimo livello nello studio delle malattie complesse.
  23. 23. Al momento esiste la possibilità di poter utilizzare i Al t it l ibilità di t tili i microrrays per svariate applicazioni 
  24. 24. Risultati dell’analisi di espressione tramite microarrays dell analisiLa heatmap rappresenta i valori di espressione in una tabella, concampioni in colonna e geni nelle righe in cui lintensità di fluorescenza righe, l intensitàe quindi lespressione dellrna sono scalati in base allintensità dicolore per facilitare la visualizzazione. p Clusterizzando per geni e per  campioni è possilile  campioni è possilile rappresentare in modo  efficace pattern di  ff p espressione. Nell esempioNell’esempio i campioni sono divisiin due classi fenotipiche (in rosso ein blu in alto).È facile notare i blocchi di geni moltoespressi (in rosso) in entrambi icampioni.
  25. 25. Sequenziamento di nuova generazioneSono stati sviluppati e utilizzati per progetti internazionali pilota, durante gli ultimianni, una serie estremamente limitata di strumenti di nuova generazione checonsentono di sequenziare per intero il genoma umano in un periodo di tempoestremamente ristretto se paragonato a pochi anni fa.Per sequenziare l’intero genoma di una persona i costi sono passati da circa 100 milioni di l interodollari a circa 10.000 dollari e da tempi di esecuzione di anni contro alcune settimane, ma iltraguardo che i biologi molecolari si sono prefissi è quello di riuscire a leggere tutto il genomain pochi giorni con costi inferiori ai 1000 dollari. p g f
  26. 26. Sequenziamento di nuova generazioneTre aziende principali presenti sul mercato:Tre aziende principali presenti sul mercato:Strumento 454 [454 GS 20, 454 GS Flex, 454 Titanium](Roche; www.roche‐applied‐science.com)(Roche; www roche applied science com)Strumento Genome Analyzer/Hiseq (GAIIx, Hiseq2000, Hiscan)(Illumina/Solexa; www.illumina.com) (Illumina/Solexa; www illumina com)Strumento SOLiD™ System (Solid 3)(Applied Biosystems; www. appliedbiosystems.com)(A li d Bi t li dbi t )Ognuna di esse utilizza un principio diverso per il sequenziamento ed è statasviluppata e immessa sula mercato in tempi diversi. La prima piattaforma è stata laRoche/454 FLX Titanium seguita dalla strumentazione Illumina, mentre AppliedBiosystems ha subito un certo ritardo rispetto alle concorrenti.
  27. 27. Si b basano sul principio d l l i i i del sequenziamento di cluster clonali qIl processo, che incomincia con una singola molecola target, prevedela creazione di targets clonali durante un processo intermedio di g pamplificazione. Copie multiple identiche sono infatti necessarie peravere un alto rapporto segnale‐rumore. Sequenziamento mediante sintesi (SBS) Sequenziamento mediante ligazione (SBL) SOLID Chimica con Chimica del terminatori pirosequenziamento SOLEXA 454
  28. 28. Sequenziamento Sanger ad alta processività Preparazione della libreria Frammentazione casuale del DNA genomico clonazione e trasformazione in batteri l i f i i b i 7-10 7 10 giorni assumendo di possedere  Raccolta delle colonie una piattaforma robotica  per alta processività per alta processività Purificazione del DNA dalle colonie Settimane anni Settimane-anni (!) Sequenziamento Sanger dipendentemente dalla  Elettroforesi capillare dimensione del genoma  (e copertura richiesta),  dal numero di sequenziatori capillariMappatura delle reads su un genoma di riferimento  ( (o assemblaggio de novo) gg )
  29. 29. Sequenziamento di nuova generazione Preparazione della libreria Frammentazione casuale del DNA genomico Frammentazione casuale del DNA genomico Ligazione degli adattatori 1 – 3 giorni Amplificazione clonale dei frammenti Sequenziamento mediante sintesi o ligazione Seq en iamento mediante sintesi o liga ione 1 – 6 giorni Processamento delle immaginiMappatura delle reads su un genoma di riferimento  (o assemblaggio de novo) ( bl d )
  30. 30. Vantaggi delle piattaforme di nuova generazione• No sub‐clonazione, no utilizzo di cellule batteriche ‐ abolizione di bias di clonazione ‐ rapidità nel preparare le librerie• Ciascuna sequenza proviene da una molecola di DNA unica. ‐ quantificazione attraverso conta digitale conta ‐ aumento del range dinamico ‐ rilevazione di varianti rare• Fornisce una eccezionale risoluzione per molti tipi di esperimenti (es. analisi di espressione, sequenziamento di DNA immunoprecipitato, di micro RNA analisi di medie/grandi inserzioni delezioni nei genomi ) RNA, inserzioni‐delezioni genomi….)• Rivoluzionaria diminuzione del costo e del tempo per generare dati di sequenza (lavorano in multi‐parallelo)• Richiesta meno robotica nelle fasi precedenti al caricamento sul sequenziatore
  31. 31. Svantaggi delle piattaforme next-genSono prodotte sequenze più corteS d tt iù t ‐ relativamente alle sequenze da sequenziatori capillari (metodo Sanger) ‐ è necessario ri‐parametrizzare l’accuratezza della procedura di è necessario ri parametrizzare l accuratezza della procedura di  chiamata delle basi ‐ enorme difficoltà nell’analisi dei dati; richiesto un grande sforzo di  programmazione per costruire nuovi algoritmi. i t i i l it iLa mole enorme di dati  traumatizza le infrastrutture informatiche.La mole enorme di dati ‘traumatizza’ le infrastrutture informatiche. ‐ da 10 Gb a diversi Tb di dati grezzi prodotti per corsa (dipende dalla  piattaforma)  ‐ il processamento delle read tramite pipeline informatiche richiede  molta capacità di calcolo (CPU) ‐ è necessario prendere accurate decisioni su cosa salvare e cosa è necessario prendere  accurate decisioni su cosa salvare e cosa  cancellare
  32. 32. Sequenze corte• Sequenze corte, ma tecnologia in continua evoluzione:  • 454: 100 basi → 200 → 400‐500 → ? • S lid 25 b i → 35 → 50 → 100 → ? Solid: 25 basi → 35 → 50 → 100 → ? • Illumina: 32 → 36 → 75‐100 → 125 → 150 → ?• Difficoltà di assemblare sequenze corte de novo, soprattutto  per il problema delle sequenze ripetute complicato ancora di  più rispetto a Sanger (lunghezza media 700‐750bp)  iù i S (l h di 700 750b )
  33. 33. Risequenziamento • In presenza di un genoma di riferimento di buona qualità posso In presenza di un genoma di riferimento di buona qualità posso  effettuare un ri‐sequenziamento e allineare tutte le reads  ottenute: Exons Introns • Non solo del genoma,  Genomic DNAma anche del trascrittoma   h d l
  34. 34. Paired-end P i d d (PE) • Tutte le piattaforme next‐gen offrono la possibilità di produrre p g p p ‘paired‐end read’, cioè la sequenza può essere derivata da ciascuna delle due estremità di ogni frammento della libreriaIn generale, le reads  PE In generale le reads PE offrono vantaggi che  dipendono dalla  complessità del genoma  l ità d l e dall’applicazione o dal  tipo di esperimento
  35. 35. Il problema (!) d ll enorme mole di d i prodotta bl della l dati d• E’ un problema chiave che limita una più ampia adozione di questi  strumenti da parte dei laboratori• 1 ABI3730xl genera fino un max di 260 milioni di paia di basi di 1 ABI3730xl genera fino un max di 260 milioni di paia di basi di  sequenza all’anno• Quando nel 2004 2005 è stato lanciato il primo 454 produceva una Quando nel 2004‐2005 è stato lanciato il primo 454 produceva una  quantità di dati in un anno superiore a quella prodotta da più di 50  ABI3730xl• Il problema dell’ ‘indigestione’ di dati è dal 2005 ulteriormente  p gg peggiorato sia per il 454 che a causa della possibilità di scelta anche  p p delle altre due piattaforme (Illumina/Solexa lanciata sul mercato nel  2006 e Solid nel 2007)• Produzione una decina di gigabytes di dati per corsa per 454, 1‐4  terabytes di dati per corsa per Illumina e Solid
  36. 36. Statistiche sulle tre piattaforme
  37. 37. Sequencing by Synthesis [SOLEXATM system] q g y y [ y ]Il sistema SOLEXA prodotto da Illumina è una piattaforma per ilsequenziamento in parallelo di segmenti di DNA amplificati inmodo clonale.La metodologia di sequenziamento è basata sulla ”sintesisequenziale" di oligonucleotidi attraverso l’utilizzo di terminatoridideossi reversibili reversibili.Il sistema SOLEXA può generare oltre 300 Gbp di dati di sequenza(sequenze di lunghezza pari a 100‐150 bp) con unaccuratezzasuperiore al 99%.
  38. 38. Sequencingby Synthesisb S nthesis[SOLEXATM system]
  39. 39. Seq encing b S nthesis [SOLEXATM s stem]Sequencing by Synthesis system]La preparazione delle libraries cominciacon la frammentazione del DNAggenomico, seguita dalla riparazione delle , g pestremità e dalla ligazione degliadattatori.
  40. 40. Agilent’s Lab on a chip
  41. 41. La flow cell è un supporto in vetro delledimensioni di un vetrino da microscopioche contiene 8 lane a loro volta suddivisein 120 tile: dei quadrati in cui è possibilefissare circa 220.000 molecole di DNA.
  42. 42. Template immobilization strategy.Solid‐phase amplification is composed of two basic steps: initial priming and extending of the single‐stranded, single‐molecule template, and bridge amplification of the immobilized template with immediately adjacent primers to formclusters.
  43. 43. Il concetto di base è rappresentato da una serie di cicli successivi seguiti dauna serie di fotografie che sono in grado mediante la colorazione dellemolecole aggiunte man mano nei vari cicli di ricostruire corte sequenze diDNA da comparare e allineare poi rispetto al DNA di riferimento in modo daleggere più volte tutte la basi del nostro acido nucleico.
  44. 44. Four‐colour and one‐colour cyclicreversible termination methods.a | The four‐colour cyclic reversibletermination (CRT) method usesIllumina/Solexa’s 3′‐O‐azidomethylreversible bl terminator chemistry h23,101 using solid‐phase‐amplifiedtemplate clusters. Following imaging, acleavage step removes the fluorescentdyes and regenerates the 3′ OH groupd d h 3′‐OHusing the reducing agent tris(2‐carboxyethyl)phosphine (TCEP)23.b | The four‐colour images highlightthe sequencing data from two clonallyamplified templates.
  45. 45. Vedi video[You tube: Sequencing genomes with the Illumina Genome Analyzer ][ b
  46. 46. Sequencing by Synthesis [SOLEXATM system]Durante quest’anno questi strumenti sono stati continuamente quest annooggetto di upgrade sia dal punto di vista dei reagenti da utilizzareche meccanico che di analisi informatica.Infatti è stato possibile partire con corse da 51+51 cicli di 51 51sequencing della durata di 5 giorni, per poi passare a 76+76 cicli disequencing (9 giorni) e infine a 101+101 cicli di sequencing delladurata di 11 giorni. Questi miglioramenti hanno portato allaproduzione di una quantità di dati di sequenza di circa 3 voltemaggiore che nelle prime corse corse.
  47. 47. Sequencing by Synthesis [SOLEXATM system]Particolare importanza è stata data alla creazione e alla gestionedell’apparecchiatura e struttura informatica.È stata creata una pipeline per il flusso dei dati che prevede insequenza: la gestione della Illumina Pipeline, il Quality Check deidati, l’utilizzo d l software MAQ l SNP analisi, il calcolo d ld ti l’ tili del ft MAQ, la SNPs li i l l delCoverage finale su ogni dato di sequenza e il Monitoraggio costantedi ogni step informatico.In particolare la Pipeline Illumina prevede l’analisi dell’immagine, laggenerazione delle sequenze e l’allineamento delle stesse contro la qreferenza.
  48. 48. Al momento esiste la possibilità di poter utilizzare i Al t it l ibilità di t tili i sequenziatori per svariate applicazioni 
  49. 49. ThankTh k you ….

×