Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

2,433 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,433
On SlideShare
0
From Embeds
0
Number of Embeds
497
Actions
Shares
0
Downloads
36
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

  1. 1. UATAPLICACIONES DE LASTECNOLOGÍAS DE NGS Rosa M. Prieto UAT
  2. 2. APLICACIONES DE LAS TECNOLOGÍAS DE NGS UAT1. ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES2. ESTUDIOS DE METAGENÓMICA3. SECUENCIACIÓN DE GENOMAS COMPLETOS4. RNAseq5. ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA
  3. 3. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES. UATHCV, HBV, HIV virus populations has special characteristics:  In an infected patient the population of viruses presents high rates of mutation and replication. It is a complex mixing of different mutants.  Goal of the study:  Detection and quantification of mutations or combination of mutations that could confer resistance to viral inhibitors in samples from infected patients.  Special interest in mutations at a low rate (minor variants).
  4. 4. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES. UAT WHY IS NGS APPROPIATED FOR THIS KIND OF STUDY?  Minor variants often play an important role in the development of resistance to antiviral treatments in patients, even if they are present in a very low percentage in the population.  Minor variants may not be detected by classical sequencing methods  You obtain hundreds of sequences with much effort and high cost  NextGen sequencing allow to detect efficiently variants at a very low rate  You obtain thousands of sequences with relatively low cost
  5. 5. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES. UAT VENTAJAS DE LA NGS Para poder detectar variantes poco frecuentes es necesario hacer una cantidad ingente de secuenciación Sanger → las técnicas de NGS generan un número muy alto de secuencias en paralelo con menos esfuerzo y menos coste por secuencia. La secuenciación de amplicones permite la “multiplexación”: secuenciación simultánea de muchas muestras añadiendo a cada amplicón una etiqueta (MID) para poder identificarlo. Rendimiento medio de la carrera: 700.000 secuencias, 450.000 bases Longitud del amplicón a secuenciar: 450 pb 50 pacientes (cada uno con un MID) Total a secuenciar = 450 pb/amplicón * 50 amplicones = 22.500 pb Cobertura media por paciente = 450.000 / 22.500 = 20x (20 lecturas del mismo amplicón) Nº secuencias por paciente = 14.000 ¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA? 454 (Roche GS FLX/GS Junior) Las lecturas largas (hasta 600 pb) permiten identificar de forma inequívoca varias mutaciones presentes en un mismo amplicón. De hecho, este tipo de estudios no puede hacerse con otras plataformas que generen secuencias más cortas que necesiten ser ensambladas.
  6. 6. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES. UAT 1. Diseño experimental apropiado: variables (n, controles, tratamientos, tiempos....) 2. Obtención de muestras de suero de pacientes infectados y tratados en las diferentes condiciones a incluir en el estudio. 3. Generación de la librería de amplicones. El amplicón debe contener las regiones susceptibles de contener las mutaciones de interés, más la secuencia del MID (si se hace “multiplex”) y las secuencias “clave” y “adaptadora”. La secuenciación es bidireccional. HBV polymerase (P) and surface (S) ORFs anillamiento de beads de captura, cebadores de emPCR y de secuenciación “clave” para la pirosecuenciación (TCAG para amplicones)
  7. 7. 1 ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES. UAT Ultra-Deep Pyrosequencing Detects Conserved Genomic Sites and Quantifies Linkage of Drug-Resistant Amino Acid Changes in the Hepatitis B Virus Genome PLoS One, Rodríguez-Frías et al., 2012 • UDPS detected minor variants comprising less than 0.1% of the HBV viral quasispecies • Identification of mutations in extremely low percentages with an acceptable degree of confidence is limited by: -the number of independent template molecules obtained from the sample analyzed -the coverage or number of reads obtained per base -the number of artifactual errors generated during PCR amplification and pyrosequencing • For these reasons, all the samples selected for the current study carried a high HBV viral load (>105 IU/mL) and the high-fidelity DNA polymerase Pfu turbo was used to bypass the artifactual errors. With this approach, variants comprising as little as 0.03% of the HBV quasispecies could be detected.
  8. 8. 2 ESTUDIOS DE METAGENÓMICA. UAT Metagenomics is the study of a collection of genetic material (genomes) from a mixed community of organisms. Metagenomics usually refers to the study of microbial communities. •The biosphere contains between 1030 and 1031 microbial genomes, at least 2–3 orders of magnitude more than the number of plant and animal cells combined. •Microbes associated with the human body outnumber human cells by at least a factor of ten. •The vast majority cannot be cultured. What can we study?
  9. 9. 2 ESTUDIOS DE METAGENÓMICA. UAT Unidirectional sequencing (16S rRNA) The 16S rRNA gene is comprised of highly conserved regions interspersed with more variable regions, allowing PCR primers to be designed that are complementary to universally conserved regions flanking variable regions. Wu et al. BMC Microbiol. 2010; 10: 206.
  10. 10. 2 ESTUDIOS DE METAGENÓMICA. UAT  Shotgun: ¿qué organismos hay y cómo funciona la comunidad? ¿variaciones en respuesta a modificaciones ambientales, p.ej, contaminación? Aplicaciones: -identificación y clasificación taxonómica de microorganismos presentes -ensamblaje de genomas -predicción y anotación de genes, estudio funcional -comparación de múltiples muestras Inconvenientes: -los organismos más abundantes son los más ampliamente representados en la secuenciación, enmascarando los menos abundantes -necesidad de cobertura alta para encontrar microorganismos poco abundantes → caro  Amplicones 16S rRNA: identificación de microorganismos presentes en la muestra (estudio taxonómico). Inconvenientes: -es posible que la región estudiada no permita asignar una secuencia de forma inequívoca -generación de quimeras durante la amplificación, que hay que eliminar durante el análisis bioinformático
  11. 11. 2 ESTUDIOS DE METAGENÓMICA. UAT VENTAJAS DE LA NGS -Secuenciación directa de muestras (la mayoría de los microorganismos no pueden ser cultivados). Muchas comunidades de muestras bacterianas no cultivadas se han estudiado mediante Sanger para determinar las secuencias 16SrRNA. -Las técnicas de NGS permiten obtener un número muy alto de secuencias en paralelo, lo que permite obtener una representación de la diversidad microbiana presente en la muestra con menor esfuerzo que usando secuenciación Sanger. ¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA? 454 (Roche GS FLX/GS Junior) With the recently capability to sequence >400 nt, it will be possible to span most hypervariable regions, multiple adjacent hypervariable regions, or possibly combinations of non-adjacent hypervariable regions through paired-end sequencing strategies (Huse et al., PLoS Genetics 2008)
  12. 12. 2 ESTUDIOS DE METAGENÓMICA. UAT Sampling and pyrosequencing methods for characterizing bacterial communities in the human gut using 16S sequence tags. Wu et al. BMC Microbiol. 2010; 10: 206. This is a study of methods for surveying bacterial communities in human feces using 454/Roche pyrosequencing of 16S rRNA gene tags. Comparison of different methods of sample storage (no effect), DNA extraction and purification (great effect), set of primers for amplification of several variable regions (effect) and GS FLX vs. GS FLX Titanium sequencing (no effect). We did find that the choice of 16S rRNA gene region used for analysis had a noticeable effect, with the V6-V9 region representing an outlier. The V6-V9 primers consistently showed the lowest percentage of taxonomic assignments at the genus level. We note that our choice of V6-V9 primer and sequencing direction did not cover the V6 regions efficiently. Composition of the gut microbiome in the ten subjects studied.
  13. 13. 2 ESTUDIOS DE METAGENÓMICA. UAT NIH Human Microbiome Project
  14. 14. 2 ESTUDIOS DE METAGENÓMICA. UAT •To establish associations between the genes of the human intestinal microbiota and our health and disease. • Focused on two disorders of increasing importance in Europe, Inflammatory Bowel Disease (IBD) and obesity.
  15. 15. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT ¿Cómo se secuencia un genoma completo? Caso A: no existe un genoma de referencia (secuenciación “de novo”) Caso B: existe un genoma de referencia (resecuenciación)
  16. 16. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT Secuenciación “de novo” (por ejemplo, bacterias, plantas....): 1) GS FLX de Roche, usando librerías de PE+librerías de shotgun: “andamio” con baja cobertura 2) Illumina o SOLiD: secuenciación con cobertura alta 3) “Rellenar huecos” mediante secuenciación Sanger 4) Análisis bioninformático (ensamblaje, anotación funcional, búsqueda de variantes, etc.) 5) Validación mediante tecnologías complementarias (ej. arrays de SNPs) 2 2 1 3 3 4
  17. 17. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT DNA genómico de alto peso molecular 500 ng mínimo 15 µg Resecuenciación Secuenciación de novo
  18. 18. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT Performance comparison of benchtop high-troughput sequencing platforms. Nat. Biotechn. 30 (5): 434-441 (2012) Secuenciación de la cepa bacteriana E. coli O104:H4 con GS Junior, MiSeq, PGM. 1. Creación de un ensamblaje de referencia (Roche GS FLX+ shotgun + 8 Kb PE, coverage 32x). Contiene 1 cromosoma (5.3 kb) y 2 plásmidos. Quedan 153 gaps correspondientes a regiones repetitivas sin resolver. 2. Secuenciación de la misma cepa usando: • 2 runs del 454 GS Junior • 2 chips 316 del Ion Torrent PGM • 1 run del MiSeq (2x150 bases)
  19. 19. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT Performance comparison of benchtop high-troughput sequencing platforms. Nat. Biotechn. 30 (5): 434-441 (2012) Conclusions: “One important conclusion from this evaluation is that saying that one has “sequenced a bacterial genome” means different things on different benchtop sequencing platforms” MiSeq GS Junior IonTorrent Throughput/run The highest The lowest The fastest Errors The lowest Intermediate(indels) Many, specially in homopolymers Read length Intermediate The longest (520 bp) The shortest (100bp) (2x150bp) Run time The longest (27 Intermediate (9 hr) The shortest (3 hr) hr) Price per Mb The cheapest The most expensive Intermediate Other Unfillable gaps Errors in homopolymers The worstest considerations performance
  20. 20. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UATResecuenciación, por ejemplo de genomas humanos:1) Secuenciación: • Illumina o SOLiD: recomendados por su rendimiento elevado (en Gb de secuencia obtenidos), precio por secuencia bajo. Tiempo de carrera largo. • Roche: no recomendado por su rendimiento medio-bajo y por su elevado coste (sólo es abordable para genomas pequeños, p.ej. microbianos). Tiempo de carrera corto. •Ion Proton: recomendado por su rendimiento medio-alto (previsto hasta 10 Gb), precio por secuencia bajo, tiempo de carrera corto. Rápidos avances en la tecnología.2) “Rellenar huecos” mediante secuenciación Sanger.3) Análisis bioinformático (ensamblaje, anotación funcional, variantes....)4) Validación mediante tecnologías complementarias
  21. 21. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT • La pequeña fracción del genoma con variaciones entre los individuos puede explicar diferencias en la susceptibilidad a una enfermedad, en la respuesta a fármacos o en la reacción a factores ambientales. El “Proyecto de los 1000 genomas” tratará de establecer un mapa del genoma humano que incluya la descripción de la mayor cantidad posible de variaciones en el mismo, mejorando de forma espectacular la información obtenida con el proyecto HapMap. • El proyecto se realiza con el soporte principal de tres instituciones: el Wellcome Trust Sanger Institute (Hinxton, Inglaterra), el Beijing Genomics Institute (Shenzen, China) y el National Human Genome Research Institute, que forma parte del NIH (National Institutes of Health, USA).
  22. 22. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT Methods: 1-Low coverage (5x) sequencing: SOLiD+Illumina 2-Whole exome sequencing (80× average coverage across a consensus target of 24 Mb spanning more than 15,000 genes)): SeqCap EZHuman Exome Library, Nimblegen, and SureSelect All Exon V2 Target Enrichment kit from Agilent. 3-SNP genotyping: Initially all samples were typed using a Sequenom MassArray SNP Genotyping panel of 23 SNPs and one gender determining assay to establish a genetic fingerprint. After gender concordance was verified the samples were placed on 96 well plates using the llumina HumanOmni2.5OQuad v1.0 B SNP array.
  23. 23. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT El proyecto publicará el genotipo de los voluntarios, junto con información detallada de su fenotipo: registros médicos, varios análisis, imágenes RM, etc. Toda la información estará disponible para cualquiera en Internet, para que investigadores puedan probar varias hipótesis acerca de las relaciones entre el genotipo, el ambiente y el fenotipo.
  24. 24. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT
  25. 25. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UATWhat is ClinVar?The goal of ClinVar is to provide a freely accessible, public archive of reports of the relationships among humanvariations and phenotypes along with supporting evidence. By so doing, ClinVar will facilitate access to andcommunication about the relationships asserted between human variation and observed health status.ClinVar collects reports of variants found in patient samples, assertions made regarding their clinical significance,information about the submitter, and other supporting data. The alleles described in the submissions are mapped toreference sequences, and reported according to the HGVS standard.
  26. 26. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT ¿Cuánto cuesta secuenciar un genoma humano completo? (human-sized genome: 3 Gb) 1ª generación 2ª generación 1ª generación 2ª generación COSTS include: •Labor, administration, management, utilities, reagents, and consumables •Sequencing instruments and other large equipment (amortized over three years) •Informatics activities directly related to sequence production •Shotgun library construction (required for preparing DNA to be sequenced) •Submission of data to a public database •Indirect Costs ‘Sequence coverage values used in calculating the cost per genome: • Sanger-based sequencing (average read length=500-600 bases): 6-fold coverage • 454 sequencing (average read length=300-400 bases): 10-fold coverage resequencing projects • Illumina and SOLiD sequencing (average read length=50-100 bases): 30-fold coverage
  27. 27. 3 SECUENCIACIÓN DE GENOMAS COMPLETOS. UAT
  28. 28. 4 RNAseq UAT ¿Cuál es el material de partida? Todas las especies de RNA: -RNA total (mRNA o especies de RNA no codificantes) -mRNA (análisis del transcriptoma) -small RNA (p.ej. microRNA) ¿Qué podemos estudiar?  Sitios de inicio de la transcripción  RNA-Seq específico de cadena  Patrones de procesamiento alternativo  Fusiones génicas  Perfil de RNAs de pequeño tamaño  Secuenciación directa de RNA (Helicos Bioscience)
  29. 29. 4 RNAseq Construcción de librerías para RNA sequencing UAT Total RNA RNA fragmentation+cDNA synthesis Small RNAs Direct RNA sequencing (Helicos) Reference genome/transcriptome “De novo” assembly
  30. 30. 4 RNAseq Consideraciones a tener en cuenta UAT• El mRNA se transcribe a partir de exones que están separados por intrones de un tamaño mucho mayor: mapear las lecturas sobre un genoma puede ser complicado, especialmente si se utilizan lecturas cortas.• El rango dinámico de los niveles de expresión génica es muy amplio, por tanto la abundancia relativa de las especies de RNA es muy variable, de 105 a 107 órdenes de magnitud.• Debido a la particularidad anterior, podemos encontrarnos con que al secuenciar una librería de cDNA la mayoría de las lecturas corresponden a una pequeña fracción de genes altamente expresados, por ejemplo, genes ribosomales. Por ello puede ser recomendable “normalizar” la librería antes de secuenciarla, es decir, reducir el rango de las especies más abundantes al de las menos abundantes con el fin de obtener una mejor representación de todos los RNAs presentes.• Los diferentes tipos de RNA tienen particularidades y tamaños muy diferentes: – Para aislar los RNAs de pequeño tamaño hay que utilizar protocolos específicos – La construcción de las librerías de cDNA puede introducir un “bias”• El RNA se degrada más fácilmente que el DNA. Hay protocolos para extracción de RNA de muestras parafinadas y para comenzar la ultrasecuenciación con muy poca cantidad de RNA y de baja calidad (teniendo en cuenta que “garbage in=garbage out”.
  31. 31. 4 RNAseq Normalización de una librería de cDNA UAT (DSN) Tránscritos muy expresados: reducción 10x Tránscritos poco expresados: enriquecimiento 10xDesventaja: en una librería normalizada no se pueden cuantificar niveles de expresión de los tránscritos.
  32. 32. 4 RNAseq UAT Comparación RNAseq. vs. microarrays para el análisis del transcriptoma 500 pg RNAt 100 pg RNAt (Illumina), 500 pg (Roche) Wang et al., Nat. Rev. Genetics 10 (2009) Lecturas largas (Roche/454) Lecturas cortas (SOLiD, Illumina) Ensamblaje de transcriptomas “de novo”, Resecuenciación de transcriptomas, secuenciación “de novo” en identificación de tránscritos de fusión (ej. en cáncer), detección combinación con la tecnología de Roche de variantes de splicing Util para transcriptomas pequeños o para generar un “andamio” Por su alto rendimiento, estas plataformas proporcionan una inicial que se rellene con lecturas cortas profundidad de lectura muy alta Para transcriptomas grandes (ej. humano), el coste es Mucho más económicas por base que la tecnología 454 prohibitivo
  33. 33. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UATLa secuenciación de un genoma completo es complejo y caro, y puede ser innecesario, p.ej. en aquellos casos donde se sospecha cuál es la región génica responsable de undeterminado fenotipo. En estos casos se puede “capturar” la región de interés antes desecuenciarla.VENTAJAS:-sistema flexible: existen arrays prediseñados (exoma) o se pueden hacer “a la carta” apartir de las coordenadas génicas de la región de interés-más barato y más sencillo que secuenciar el genoma completo (tanto técnicamente comodesde el punto de vista bioinformático). Por el mismo precio se pueden secuenciar másmuestras.-tamaño del genoma a secuenciar menor: permite aumentar el “coverage”PLATAFORMAS DE ARRAYS DE CAPTURA DE SECUENCIA:-Nimblegen-Sistema SureSelect (Agilent)-FebIt
  34. 34. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UATNimblegen Capture Arrays FormatARRAY DISEÑOExome array v3.0 Exones codificantes y miRNAs(64 Mb total)Exome array v2.0 Exones codificantes y miRNAs(44,1 Mb total)Exome +UTR Exones codificantes y miRNAs(64 Mb total), más 32 Mb de 5’ y 3’- UTRsExome plus Exones codificantes y miRNAs(64 Mb total), más 50 Mb a la cartaChoice library Captura a la carta de regiones de entre 100 Kb y 7 MbChoice library XL Captura a la carta de regiones de entre 7 y 50 MbDeveloper library Captura a la carta de regiones de interés de hasta 50 Mb en especies diferentes a la humanaPaneles prediseñados Comprehensive Cancer, Neurology, 50 MB UTR, Soybean Exome, Mouse Exome, Human MHC, Baylor Vchrome (exome)
  35. 35. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT
  36. 36. 5 Gen1 rs1 50 01 23 Gen2 D1 59 4S D1 10s 4S r 31 7 99 99 D1 16 D 56 14S 7 Gen3 68 4S D1 25rs 4S 6 71 95 72 D1 Diseño del array 10 4S 44 rs7 55 D1 102 28 4S 0s r9 72 rs8 905 82 02 3 ROI Gen4 rs1 0 rs7 0495 42 8 89 3 rs1 05 rs1 4195 00 78 13 rs2 36 9 X D1 522 56 4S 5 rs1 02 25 90 rs1 15 97 99 rs9 41 73 1-automatizable rs1 00 Gen5 79 04-manejo mayor nº muestras-no requiere equipos especiales ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT
  37. 37. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UATLimitaciones de los arrays de captura:Respecto al diseño: • Hay que conocer la secuencia para poder diseñar el array • Las sondas no cubren el 100% de la región a capturar, p.ej. se evitan siempre las regiones con secuencias repetitivas para evitar capturas “off-target”Respecto al resultado del proceso de captura: •% alto de lecturas “off-target”, sobre todo en regiones pequeñas (50-70%), y mayor en solución que en sólido •la cobertura puede no ser uniforme, especialmente en regiones ricas en GCEn el caso de Nimblegen: •aunque son más baratos que secuenciar un genoma completo, son caros (se abaratan proporcionalmente para muchas muestras) •no generan un solo array a la carta, el mínimo es de 4 o 12 arrays (según el tipo) •el tiempo de diseño & manufactura es relativamente largo (6-8 semanas)
  38. 38. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT •Roche/Nimblegens SeqCap EZ Exome Library v2.0 •Agilents SureSelect Human All Exon 50Mb •Illuminas TruSeq Exome Enrichment
  39. 39. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT Metrics of the three capture systems Method “To assess the enrichment efficiency of each platform, we sequenced libraries generated from genomic DNA derived from peripheral blood mononuclear cells (PBMCs) of a healthy volunteer of European descent. Exome DNA was enriched with each platform according to the manufacturers recommendation. For each exome library, 112–184 million (M) 101-bp paired-end reads were generated using one lane of an Illumina HiSeq 2000 and mapped using the Burrows-Wheeler Alignment tool (BWA)”.
  40. 40. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UATTarget enrichment efficiency: 10x 20x 30x % Targeted bases Total bases 98,6 % of bases 96,6 % of bases were covered at least 1x 97,1 % of bases Higher density design, higher efficiency Lower density design captures more total bases
  41. 41. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UATOff-target enrichment and GC biass: -PCR efficiency (library generation) -hybridization with the oligonucleotide probes
  42. 42. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT Exome-Seq variant statistics: Variant detection overlap between exome-seq and WGS by platform: (coverage previously normalized) Disease associated Low cov. in WGS Enrichment failure Many false positives Many false positives
  43. 43. 5 ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA UAT CONCLUSIONS •We have observed that the densely packed, overlapping baits of the Nimblegen SeqCap EZ Exome demonstrate the highest efficiency target enrichment, able to adequately cover the largest proportion of its targeted bases with the least amount of sequencing. Therefore, the Nimblegen platform is superior to the other two platforms for research restricted to the regions that it covers. •Comparison with a large database of disease-related variants classified 456 Agilent, 369 Nimblegen and 467 Illumina exome sequencing–specific SNVs as associated with human diseases. Three hundred and one of these were common between all three platforms, suggesting that some regions missed by WGS but captured by exome sequencing have clinical relevance. •It may be argued that the importance of targeted sequencing is transient and will diminish as WGS becomes less expensive. However, we found that exome sequencing can identify variants that are not evident in WGS because of greater base coverage after enrichment. Even at equivalent coverage levels, specific regions had higher read depth in exome sequencing resulting in greater sensitivity in those regions. Target capture by exome sequencing unambiguously identified some of these difficult regions through preferential selection and observation at higher local read depth.

×