Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Joseph Evaristo

25,776 views

Published on

A apresentação mostra e compara diferentes técnicas de sequenciamento de DNA desde o método de Sanger desenvolvido em 1977 até o método de sequenciamento de molécula simples de DNA, o Nanopore. Alguns links mostravam vídeos na apresentação original e caso tenham interesse entrem em contato: joseph.am.evaristo@gmail.com

Published in: Technology
  • Be the first to comment

Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Joseph Evaristo

  1. 1. SEQUENCIAMENTO DE NOVA GERAÇÃO Dr. Joseph Albert Medeiros Evaristo Departamento de Genética-LIPB CIG 2013
  2. 2. Sequenciamento de DNA • É o processo de determinação da ordem precisa de nucleotídeos na molécula de DNA. • Inclui qualquer método ou tecnologia que é usada para determinar a ordem das quatro bases nitrogenadas: Adenina, Guanina, Citosina e Timina • Com o advento de métodos rápido de sequenciamento de DNA, grandes descobertas e pesquisas médicas e biológicas tem sido aceleradas na última década.
  3. 3. Evolução da revolução do DNA
  4. 4. Gerações de Seqüenciadores 3ª Geração (single molecule) Single Molecule Real Time – SMRT (Pacific Bioscience) HeliScope (Helicos Bioscience) 454 (Roche) 2ª Geração (amplificação clonal) SOLiD (Life Technologies) HiSeq2000, HiSeq2500, MiSeq Illumina Ion Torrent- PGM, Proton (Life Technologies) GridION-Oxford Nanopore 4ª Geração (Post-Light) 1ª Geração (clonagem) Sanger
  5. 5. •Método de Sanger de sequenciamento  Premio Nobel 1980
  6. 6. Sequenciamento Sanger
  7. 7. Obtenção das bibliotecas genômicas Purificação do DNA genômico (qualidade e quantidade) Fragmentação mecânica do DNA genômico (tamanhos variados) Construção das Bibliotecas de DNA genômico (clonagem em plasmídios bacterianos ou fagos)
  8. 8. • Vantagens • Reads longos (~900bps) • Desvantagens • Baixo rendimento • Alto custo • DNA molde + dNTPs e ddNTPs + DNApolimerase + Primer • Amplificação-PCR • Eletroforese em Gel de acrilamida • Os fragmentos migram distâncias proporcionais ao seu tamanho.
  9. 9. Leroy Hood 1ª Geração de sequenciadores automáticos Automação do Sequenciamento ABI PRISM 370 (1987)
  10. 10. Sanger Sequencing •Eletroforese Capilar (1990)•Eletroforese em gel
  11. 11. Completed genome projects (october/08) Eukaryotes: 23 complete; 242 assembly, 224 in progress Viruses: 2,129 complete Bacteria: 714 complete Archaea: 52 complete Organellar: 1,709 complete Metagenomics projects: 195 NATURE Vol 464 1 April 2010
  12. 12. NATURE Vol 464 1 April 2010
  13. 13. N AT U R E | VO L 4 7 0 | 1 0 F E B R U A RY 2 0 1 1
  14. 14. NEXT-GENERATION SEQUENCING (DEEP SEQUENCING) PLATFORMS 1. Genome Analyzer IIx (GAIIx), HiSeq2000, HiSeq2500, MiSeq – Illumina 2. Genome Sequencer FLX System (454) – Roche 3. SOLiD 5500xl System – Applied Biosystem 4. HeliScope™ Single Molecule Sequencer - Helicos 5. PacBio RS - Pacific Bioscience 6. Personal Genome Machine, Ion Proton - Ion Torrent 7. GridION, MinION – Oxford Nanopore
  15. 15. FIRSTGENERATIONTECHNOLOGY (Sanger) SECONDGENERATIONTECHNOLOGY (ClonalAmplification) Abordagens de seqüenciamento Nature Biotechnol. 26,1135(2008)
  16. 16. Next Gen X Sanger
  17. 17. 2001: Human Genome Project 2.7G$, 11 years 2001: Celera 100M$, 3 years 2007: 454 1M$, 3 months 2008: ABI SOLiD 60K$, 2 weeks 2009: Illumina, Helicos 40-50K$ 2010: 5K$, a few days? 2012: 1000$, <24 hrs?
  18. 18. 2ª Geração de seqüenciamento • Genome Analyser - Seqüenciamento por término reversível (Illumina-Solexa) • 454 - Pirosequenciamento (Roche) • SOLiD - Seqüenciamento por ligação de sondas (Applied Biosystems - Life)
  19. 19. HiSeq 2000 Illumina Produz acima de 600Gb por corrida em 13 dias. Custo de resequenciar um genoma humano: UNC-CH Genome Analysis Facilit - (30x cobertura) aproximadamente $6,000 HiSeq 2500 Produz acima de 100Gb por corrida em 27h. MiSeq - Sistema de pequena capacidade - PE 2x250cycles in 27hours.
  20. 20. • Lançada comercialmente em 2006 Seqüenciamento por término reversível : Genome Analyzer • Etapas: 1) Ligação de adaptadores 2) PCR em ponte (formação de clusters) 3) Seqüenciamento
  21. 21. 1. Preparar DNA genômico 2. Ligar o DNA a superfície 3. Amplificação por ponte 4. Fragmentos se tornam dupla fita 5. Desnaturar as moléculas dupla fita 6. Amplificação completa Fragmentação randômica do DNA e ligação de adaptadores nas duas pontas de cada fragmento. Amplificação
  22. 22. 1. Preparar DNA genômico 2. Ligar o DNA a superfície 3. Amplificação por ponte 4. Fragmentos se tornam dupla fita 5. Desnaturar as moléculas dupla fita 6. Amplificação completa Ligação randômica dos fragmentos fita simples à superfície dos canais da flow cell.
  23. 23. 1. Preparar DNA genômico 2. Ligar o DNA a superfície 3. Amplificação por ponte 4. Fragmentos se tornam dupla fita 5. Desnaturar as moléculas dupla fita 6. Amplificação completa Adição de nucleotídeos não marcados e enzima para iniciar a amplificação por ponte em fase sólida.
  24. 24. 1. Preparar DNA genômico 2. Ligar o DNA a superfície 3. Amplificação por ponte 4. Fragmentos se tornam dupla fita 5. Desnaturar as moléculas dupla fita 6. Amplificação completa A enzima incorpora nucleotídeos para construir pontes de fita dupla na superfície sólida.
  25. 25. 1. Preparar DNA genômico 2. Ligar o DNA a superfície 3. Amplificação por ponte 4. Fragmentos se tornam dupla fita 5. Desnaturar as moléculas dupla fita 6. Amplificação completa Desnaturação deixa os DNA moldes fita simples ancorados ao substrato sólido.
  26. 26. 1. Preparar DNA genômico 2. Ligar o DNA a superfície 3. Amplificação por ponte 4. Fragmentos se tornam dupla fita 5. Desnaturar as moléculas dupla fita 6. Amplificação completa São gerados milhões de clusters de DNA fita simples em cada canal da flow cell.
  27. 27. 7. Determina a primeira base 8. Imagem da primeira base 9. Determina segunda base 10. Imagem do Segundo ciclo químico 11. Sequenciamento sobre multiplos ciclos químicos 12. Alinhamento dos dados O primeiro ciclo de sequenciamento começa com adição de quarto nucleotídeos marcados reversivelmente, primers e DNA polimerase. Sequenciamento
  28. 28. 7. Determina a primeira base 8. Imagem da primeira base 9. Determina segunda base 10. Imagem do Segundo ciclo químico 11. Sequenciamento sobre multiplos ciclos químicos 12. Alinhamento dos dados Após a excitação com laser, a fluoresceência emitida de cada cluster é capturada por uma câmera e a primeira base é identificada
  29. 29. 7. Determina a primeira base 8. Imagem da primeira base 9. Determina segunda base 10. Imagem do Segundo ciclo químico 11. Sequenciamento sobre multiplos ciclos químicos 12. Alinhamento dos dados O próximo ciclo repete a incorporação de quatro nucleotídeos marcados, primers e DNA polimerase
  30. 30. 7. Determina a primeira base 8. Imagem da primeira base 9. Determina segunda base 10. Imagem do Segundo ciclo químico 11. Sequenciamento sobre multiplos ciclos químicos 12. Alinhamento dos dados Após a excitação com o laser a imagem é capturada como anteriormente e a identidade da segunda base é gravada.
  31. 31. Seqüenciamento Seqüenciamento por término reversível : Genome Analyzer
  32. 32. Seqüenciamento Seqüenciamento por término reversível : Genome Analyzer
  33. 33. A T C G Seqüenciamento Seqüenciamento por término reversível : Genome Analyzer
  34. 34. A T C G Seqüenciamento Seqüenciamento por término reversível : Genome Analyzer
  35. 35. A Seqüenciamento Seqüenciamento por término reversível : Genome Analyzer
  36. 36. A T C G A Seqüenciamento Seqüenciamento por término reversível : Genome Analyzer
  37. 37. T C G A Seqüenciamento Seqüenciamento por término reversível : Genome Analyzer A
  38. 38. T Seqüenciamento Seqüenciamento por término reversível : Genome Analyzer A
  39. 39. Seqüenciamento Seqüenciamento por término reversível : Genome Analyzer 2 ciclo 1 ciclo 3 ciclo 4 ciclo 5 ciclo 6 ciclo
  40. 40. 7. Determina a primeira base 8. Imagem da primeira base 9. Determina segunda base 10. Imagem do Segundo ciclo químico 11. Sequenciamento sobre multiplos ciclos químicos 12. Alinhamento dos dados Alinhamento dos dados, comparar com uma referência e identificar diferenças na sequência
  41. 41. Illumina
  42. 42. • Comercializada em 2004 Pirosequenciamento – 454/Roche • Etapas: - Ligação de adaptadores - PCR em emulsão - Seqüenciamento
  43. 43. Pirosequenciamento – 454/Roche
  44. 44. Pirosequenciamento – 454/Roche
  45. 45. *dNTP – só um deles Pirosequenciamento – 454/Roche
  46. 46. Resultado Pirosequenciamento– 454/Roche
  47. 47. GS FLX+ System Sequencing Kit New! GS FLX Titanium XL+ GS FLX Titanium XLR70 Read Length Up to 1,000 bp Up to 600 bp Mode Read Length 700 bp 450 bp Throughput Profile - 85% of total bases from reads >500 bp - 45% of total bases from reads >700 bp - 85% of total bases from reads > 300 bp - 20% of total bases from reads > 500 bp Typical Throughput 700 Mb 450 Mb Reads per Run ~1,000,000 shotgun ~1,000,000 shotgun, ~700,000 amplicon Consensus Accuracy* 99.997% 99.995% Run Time 23 hours 10 hours Sample Input gDNA or cDNA gDNA, cDNA, or amplicons (PCR products)
  48. 48. • Data de comercialização = 2007 • Etapas: 1) Ligação de adaptadores 2) PCR em emulsão 3) Seqüenciamento Seqüenciamento por ligação de sondas (SOLiD) • SOLiD = Sequencing by Oligo Ligation and Detection
  49. 49. 3) Seqüenciamento Seqüenciamento por ligação de sondas (SOLiD)
  50. 50. Seqüenciamento por ligação de sondas (SOLiD) 3) Seqüenciamento
  51. 51. Seqüenciamento por ligação de sondas (SOLiD) 3) Seqüenciamento
  52. 52. Seqüenciamento por ligação de sondas (SOLiD)
  53. 53. 1) Anelamento do primer e ligação da sonda Seqüenciamento por ligação de sondas (SOLiD)
  54. 54. 2) Captura da imagem da cor emitida Seqüenciamento por ligação de sondas (SOLiD)
  55. 55. 3) Clivagem da sonda Seqüenciamento por ligação de sondas (SOLiD)
  56. 56. 4) As etapas de 1 a 3 se repetem 1) Anelamento da sonda 2)Captura de imagem 3) Clivagem Seqüenciamento por ligação de sondas (SOLiD)
  57. 57. 6) Fitas de DNA retornam ao estágio inicial de simples fita e ocorre anelamento do primer n - 1 Seqüenciamento por ligação de sondas (SOLiD)
  58. 58. 7) As etapas 1 – 4 são repetidas com novo primer 1) Anelamento da sonda 2)Captura de imagem 3) Clivagem 4) Repetir 1-3 n ciclos Seqüenciamento por ligação de sondas (SOLiD)
  59. 59. Seqüenciamento por ligação de sondas (SOLiD)
  60. 60. 1o Ciclo 2o Ciclo (n-1) 3o Ciclo (n-2) 4o Ciclo (n-3) 5o Ciclo (n-4) A A A T T G G G G C C G G C C T T A A G G G G C A T G G C G C T A G G C 2a Base 1aBase Seqüenciamento por ligação de sondas (SOLiD)
  61. 61. Diferenças entre as metodologias
  62. 62. Plataforma Tamanho da leitura (bases) Tempo de corrida (dias) Gb por corrida MegaBace (96 capilares) 100-1000 0,1 96kb 454 (Roche) 400 0,35 0,45 SOLiD4 (Applied Biosystems) 35 ou 50 6-16 100 Genome Analyser II (Illumina / Solexa) HiSeq2000 75 ou 100 4-9 35 200 Quantos pares de bases é capaz de seqüenciar?
  63. 63. 3ª Geração de seqüenciamento • O que mudou? - Não possui etapa de amplificação (Single molecule) - Maior sensibilidade na leitura • Pacific Bioscience
  64. 64. 3ª Geração de seqüenciamento Single Molecule Real Time (SMRT)- Pacific Bioscience
  65. 65. SamplePreparation LS – long sequencing reads • Large insert sizes (2kb-10kb) • Generates one pass on each molecule sequenced • Small insert sizes 500bp • Generates multiple passes on each molecule sequenced Standard Circular Consensus CCS – high quality sequencing reads PacBio RS – two sequencing modes
  66. 66. 4ª Geração de seqüenciamento
  67. 67. Personal Genome Machine – Ion Torrent (life technologies) Three types of semiconductor chips: 314 – 20Mb 316 - 200Mb 318 – 1Gb Read length depends on base composition 200-250bp (200cycles) System is enabled for Paired End 2x100cycles The fastest sequencing system on the market. Recommendation: Resequencing applications which require fast turnaround of samples - Amplicons (PCR products) - Small and medium size genomes - Custom DNA capture applications How it works: H+ ion is released during base incorporation. Individual polymerases attached to beads are positioned in tiny wells that rest on a tiny pH meter.
  68. 68. PGM/Ion Torrent Data 316 chip Thr. Total Number of Bases [Mbp] 77.65 ‣ Number of Q17 Bases [Mbp] 36.11 ‣ Number of Q20 Bases [Mbp] 27.33 Total Number of Reads 368,860 Mean Length [bp] 211 Longest Read [bp] 380
  69. 69. Ion Proton System - Human genome in one day - Cost of reagents $1000 per run - Error rate around 1.2% - Human Genome, RNAseq, ChIPseq Ion Proton Chip I – 10Gb (Whole Exome capture experiments) Ion Proton Chip II – 100Gb Whole human Genome resequencing
  70. 70. Ion Torrent (Life Technologies) • Jonathan M. Rothberg/454
  71. 71. Ion Torrent (Life Technologies)
  72. 72. Ion Torrent (Life Technologies)
  73. 73. Ion Torrent (Life Technologies)
  74. 74. Ion Torrent-(Life Technologies)
  75. 75. Objetivos para sequenciamento genômico Exemplo Sequenciamento de novo Sequenciamento genômico Sequenciamento de >1000 genomas de influenza DNA de org. extinto Neanderthal Metagenomica Intestino humano Resequencia- mento Genomas completos Indivíduos humanos Regiões genômicas Detecção de rearranjos ou regiões associados à doenças Mutações somáticas Em câncer Transcriptoma mRNA Definir regulação da transcrição Serial Analysis of Gene Expression (SAGE) RNAs não codificadores Identificar e quantificar microRNAs Epigenética Padrão de Methilação Avaliar padrão de metilação em câncer
  76. 76. ASSESSING QUALITY: PHRED SCORES Q = -10log10 P P=error probability of a given base call.
  77. 77. Tools for generating alignments!  There are MANY software packages available for aligning data from next generation sequencing experiments.!  Three of the most popular are:!  – BWA: http://bio-bwa.sourceforge.net!  – Bowtie: http://bowtie-bio.sourceforge.net!  – CLC Genome Workbench- Private
  78. 78. ALIGNMENT FORMATS!  SAM (Sequence Alignment/Map) format has become the de facto standard for storing alignment data.  BAM is a binary version of SAM allowing more efficient storage.
  79. 79. SEQUENCE FILE FORMATS  There are a lot of file sequence formats.  They include different information about the sequence. The most common file formats in the NGS world are:  sff,  fastq and  fasta.  Every program have different requirement, so every program asks for different file formats
  80. 80. FASTQ FORMAT! @HWUSI-EAS582_157:6:1:1:1501/1 NCACAGACACACACGAACACACAAAGACATGCCCATATGA AGAT + %.7786867:778556858746575058873/347777476035 @HWUSI-EAS582_157:6:1:1:1606/1 NCTGGCACCTTGATTTTGGACTTCCCAGCCTCCAGAACTGTGA G + %1948988888798988366898888648998788898888588 @HWUSI-EAS582_157:6:1:1:453/1 NCTGCTTGCACCCCTGAAGTCACTGATCACATTTCAGGGTCAC C + %/868998988888867668888986644788988413488885 @HWUSI-EAS582_157:6:1:1:1844/1 NGATTGACATTGGCAAAGAGGACAACTGATTGCAAACTTCAC AC + %-7;:::::;86499;75574586::635:62687666887879 @HWUSI-EAS582_157:6:1:1:1707/1 NAGGCTCAGGCGCACGGCCTACATCGTCGCTGTCGGCCAA GGGG + “Read” (sequence)! Quality scores (phred-33)!
  81. 81. FASTA  The fasta format is the most simple one.  Each sequence starts with a “>” followed by the sequence name, an space and, optionally, the description  >seq_1 description GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTT GTTCAACTCACAGTTT >seq_2 ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTAT GCATGGCTATGTGTG
  82. 82. OBRIGADO!

×