Your SlideShare is downloading. ×
03 strategies for genome assembly
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

03 strategies for genome assembly

1,238
views

Published on


0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,238
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
49
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Strategies for genome assembly, using data from next-generation sequencing (NGS) Jedson Ferreira Cardoso 1
  • 2. Agenda- Conceito: genoma, read (leitura), contigs, gráfico, k-mer- Alinhamento e Montagem de Genomas- Estratégias - Pré-processamento Avaliar Leituras (reads);  Tamanho, Homopolimeros; Remover Possíveis Contaminantes - Algoritmos de Montagem - Montagem de novo – Overlap-layout-consensus (OLC); (OLC); – Algoritmos Gulosos; – Caminho Eureliano - Montagem por Referência – Alinhamento das leituras; – Considera-se diferenças entre as sequencias (indel, SNPs); – Smith - Waterman. - Métricas de Montagem N50 - Consensu - Scaffold N50 (Métricas) 2
  • 3. Genoma• Um genoma pode ser definido como todo o conjunto de informações genéticas de um organismo, sendo constituído usualmente por uma ou mais moléculas de DNA, na vasta maioria dos seres, ou RNA, no caso de algumas famílias de vírus. 3
  • 4. Montagem de Genoma 4
  • 5. Tecnologias de Leituras (Reads) 5
  • 6. Tipos de Leituras (Reads) 6
  • 7. Strobe (Reads) (RITZ; BASHIR;7RAPHAEL, 2010)
  • 8. Leituras (reads) do genoma• Fragmentos curtos do genoma – Não sei onde eles se originam no genoma – Não sei a sua orientação (vertente)• Sobreposição - Assumindo que temos uma amostragem do genoma• Contem erros - base com erro, adição de bases e bases ignoradas• Representam todo o genoma - Você ganha mais, mas a cobertura não é uniforme Mundo Ideal  Leituras longas e livre de erros (unambiguous) (  Problema simples p/ dedução Mundo Real  Leituras curtas e propensas a erros (ambiguity) (  Problema de inferência complicada 8
  • 9. O que é a montagem do genoma? Sequenciamento Shotgun De novo: é o D Sequence each clone Leituras de NGS processo de reconstrução Individual sequence das seqüencias reads de DNA de um Contig assembly E organismo a partir de suas seqüencias de leitura. Contig A Gap Contig B 27/10/2008 9
  • 10. DeNovo ≠Reference Mapping 10
  • 11. Confusões (Montagem)• Montagem por Referência (Reference Assembly) – Temos seqüência muito semelhante ao genoma em estudo; – Leituras são alinhadas contra a referência; – Pode orientar, mas pode nos induzir em erro – Usado muito no genoma humanoMontagem De Novo (De Novo Assembly) – Não há informação prévia sobre o genoma; – Entrada somente das leituras seqüenciadas; – Necessário para novos genomas; – Ou onde ele difere do exemplo da referência, exemplo Cancer. 11
  • 12. Alinhamento e Montagem de GenomasMontagem De Novo ( Ab Initio)Consenso: Montagem com a Referência Referência Consenso:
  • 13. Draft vs Genoma Finalizado• De novo: Montagem das leituras em contigs – Fragmentos únicos do DNAAgrupando contigs em Scaffolds – Somente as leituras pareadas ou strobe – Scaffolds contém gaps de nucleotideos ambiguosFechando Gaps – Desenhando primers ao longo dos gaps – Seqüenciando o produto resultante da PCRValidando – Alinhe novamente as leituras contra o Draft do Genoma – Confira contra um mapa (SAMAD et al., 1995) 13
  • 14. A F Generate scaffold Sequencing / 454 (Verify with gsRunBrowser) (files.sff) Seg. L Seg. MB Seg. S Remove Contaminants (gsMapper) Reference G Reads Find the coding region (ORF- Finder) Seg. L ORFC Assembling / DeNovo (gsAssembler) Seg. M ORF Contigs Seg. S ORF Reads Unmapped HD Genomic Annotation / Submission (Genbank) Comparing Seqs with tBLASTx (Local) Seg. L Polimerase Contigs Seg. M Gn NSm Gc Seg. S N Database NSs (NCBI) Genbank (Databases)E Recovering viral sequences Contigs + tBLASTx + Shell script Contigs viral (output) 14
  • 15. ARQUIVO.sffESTRATÉGIA I Remover contaminantes Referência/ contaminante Leituras totais Selecionar melhor referência Montagem de novo Referência (Referência genômica viral) Leituras não mapeadas Comparar Seqs. c/ tBLASTx Contigs NCBI Montagem por referência Referência Recuperar seqs. virais Contigs Leituras não mapeadas tBLASTx + Shell script (informação) (Contigs virais) Ordenar contigs com MAUVE/ Gerar scaffold Referência Contigs 1º 2º 3º Gerar scaffold Scaffold mapeamento Scaffold de novo Retirar consenso entre scaffolds Scaffold mapeamento Realizar anotação genômica/ submeter no GENBANK Scaffold de novo Genoma completo anotado Consenso GENBANK (banco de dados) Gerar draft do genoma Draft genômico 15
  • 16. RO_22000 > Contaminants(MMusculus)numMappedReads = 75372, 91.17%;numMappedBases = 19983419, 84.45%;inferredReadError = 1.40%, 244806;numberFullyMapped = 39916, 48.28%;numberPartiallyMapped = 9567, 11.57%;NumberUnmapped = 4825, 5.84%;numberRepeat = 12551, 15.18%;numberChimeric = 13338, 16.13%;numberTooShort = 2477, 3.00%; 16
  • 17. Contigs X ReadsS 1 944 >contig00011 length=944 numreads=76LOCUS contig00011 944 bp linear 11-JUN-2012DEFINITION length=944 numreads=76 gene=isogroup00006 status=isotig.ACCESSION contig00011VERSIONKEYWORDS .SOURCE Unknown. ORGANISM Unknown. Unclassified.FEATURES Location/Qualifiers source 1..944 CDS 53..787,53..787 /note="predicted coding region" /translation="MDFIFEEDDNITISSFNPDTLYEHFVVLMTSGTSDWLKAATIFF KKMKLIKEKMKISNIAMIPLKLGDLDIDVVNTYNPNAGEQRVGELSYTLNRLSGCMAR YTLEEYEKGSKELQEKIQLAIKNPLAIVKGVRPDNFKLYMAFSAGAEMFLSKFSLFPL AIMLRRIDSDDAPAAIAGKVLKQRLDAVAAIDWQNEKNVGLLKTAMAVVGGVSWKHSK VTEESLSFLAKAGVAKHILTKIKKGE"BASE COUNT 327 a 170 c 200 g 247 tORIGIN 1 ctccgataaa catttaaaaa caaaaccctt caaaagcctt atagttccag aaatggattt 61 tatttttgaa gaagacgata atataacaat aagctctttc aatccggaca cattgtatga 121 acattttgtt gttctgatga cctctggcac ctctgattgg cttaaagcag caactatctt 181 cttcaagaag atgaagctaa ttaaggaaaa gatgaaaatc tccaatattg ctatgattcc 241 gcttaaactg ggtgatctag acattgacgt tgtaaatact tacaatccaa atgccggaga 301 acagagagtc ggggaattat cgtataccct taacaggctg tccggctgca tggctcgata 361 cacgcttgag gaatatgaaa aagggagcaa agaactgcag gagaaaatcc agcttgcaat 421 caaaaaccca cttgcaatag tcaaaggagt aaggcctgac aacttcaaac tttacatggc 481 tttcagtgca ggagcagaga tgtttctatc aaaattcagc ttgttcccac ttgcaatcat 541 gctacgcaga attgactcag atgatgcacc tgctgctatc gctgggaaag tactaaaaca 601 gaggcttgat gctgttgctg caattgattg gcagaatgag aaaaatgttg gcttgcttaa 661 aactgcaatg gctgttgttg gaggtgtttc atggaaacat tctaaggtta cagaagagtc 721 attgagcttc cttgctaagg caggtgtagc caagcatatc ctaaccaaga tcaagaaggg 781 agagtaaatc caaacgcaaa aagcagaatc agaaacaaat tggcctcaaa attcaaaacc 841 aaagatttag aatctaatta gacaaaattg ggtgggcggt aggggaatta gcagctgcta 17 901 ttattattat aaaagacggt tagggttata aaatataaat gtat//
  • 18. 18
  • 19. Esquema resumido: Montagem e anotação
  • 20. Repetição, Repetição, RepetiçãoUma repetição é um segmento de DNA que ocorre mais deuma vez no genoma DNA repetitivoRepetições espalhadas de centenas de cópias de umasequência• Sequência curta (~300 nucleótidos) – SINEs (“smallinterspersed elements”); por exemplo, sequências Alu• Sequência longa (~6-7 k-b) – LINEs (“long interspersedelements”)SINEs e LINEs são transcritos, e alguns dos LINEs codificamproteína, mas de função fisiológica desconhecida 20
  • 21. Algoritmos de Montagem• Modelo de Dados – Overlap-Layout-Consensus (OLC) – Eurelian / de Bruijn Graph (DBG) Métodos de Busca – Greedy (Gulosos) – Non-greedy (Não gulosos) Paralelização – Multi-Thread – Distribuído 21
  • 22. O Que é um K-mer?• K-mer é uma sub-sequencia de comprimento K• Uma sequencia de comprimento L tem (L-K+1) K-mers• Exemplo leitura de L=8 tem 5 K-mers quando K=4• – AGATCCGT• – AGAT• – GATC• – ATCC• – TCCG• – CCGT 22
  • 23. O Que é um Grafo (Teoria)• Não é um gráfico do Excel• Nós / Vertices – A, B, C, D, E, FLinhas / Arcos – Linhas entre nósGrafo Direcionado – Ponta na seta das bordasGrafo ponderado – Numerais nas bordas 23
  • 24. Overlap - Layout - Consensus• Overlap – Compara contra todos os pares; – Constroi grafo: nós=leituras, bordas=overlapsLayout – Analisar / simplificar / limpar o gráfico sobreposição – Determina o caminho Hamiltoniano (NP-hard)Consensus – Alinha as leituras ao longo do caminho utilizado para montagem – Bases utilizam votação ponderada 24
  • 25. OLC : Pairwise Overlap• All against all pair-wise comparison – ½ N(N-1) alignments to perform [N=no. reads] – Each alignment is O(L²) [L=read length]• In practice, use smarter heuristics – Index all k-mers from all reads – Only check pairs that share enough k-mers – Similar approach to BLAST algorithm• Both approaches parallelizable – Each comparison is independent 25
  • 26. OLC: Overlap Example 26
  • 27. OLC: Overlap Graph 27
  • 28. OLC: Layout - Consensus 28
  • 29. OLC: Softwares• Phrap, PCAP, CAP3 – Smaller scale assemblers• Celera Assembler – Sanger-era assembler for large genomes• Arachne, Edena, CABOG, Mira – Modern Sanger/hybrid assemblers• Newbler (gsAssembler) – Used for 454 NGS “long” reads – Can be used for IonTorrent flowgrams too 29
  • 30. Eulerian approach• Break all reads (length L) into (L-k+1) k-mers – L=36, k=31 gives 6 k-mers per read• Construct a de Bruijn graph (DBG) – Nodes = one for each unique k-mer – Edges = k-1 exact overlap between two nodes• Graph simplification – Merge chains, remove bubbles and tips• Find a Eulerian path through the graph – Linear time algorithm, unlike Hamiltonian 30
  • 31. DBG : simple• Sequence – AACCGG• K-mers (k=4) – AACC ACCG CCGG• Graph 31
  • 32. DBG : repeated k-mer• Sequence – AATAATA• K-mers (k=4) – AATA ATAA TAAT AATA (repeat)• Graph 32
  • 33. DBG: alternate paths• Sequence – CAATATG• K-mers (k=3) – CAA AAT ATA TAT ATG• Graph 33
  • 34. DBG: graph simplification• Remove tips or spurs – Dead ends in graph due to errors at read end• Collapse bubbles – Errors in middle of reads – But could be true SNPs or diploidity• Remove low coverage paths – Possible contamination• Makes final Eulerian path easier – And hopefully more accurate contigs 34
  • 35. DBG: Software• Velvet – Fast, relatively easy to use, multi-threaded• AllPaths-LG – Designed for larger genomes, robust• AbySS – Runs on cluster to get around RAM issues• Ray – Designed for MPI/SMP clusters 35
  • 36. AGORA: Assembly Guided by Optical Restriction Alignment• New algorithm called AGORA: Assembly Guided by Optical Restriction Alignment. AGORA is the first algorithm to use optical map information directly within the de Bruijn graph framework to help produce an accurate assembly of a genome that is consistent with the optical map information provided. Our simulations on bacterial genomes show that AGORA is effective at producing assemblies closely matching the reference sequences. (Lin et al., 2012) 36
  • 37. OLC vs DBG• DBG – More sensitive to repeats and read errors – Graph converges at repeats of length k – One read error introduces k false nodes – Parameters: kmer_size cov_cutoff ...• OLC – Less sensitive to repeats and read errors – Graph construction more demanding – Doesnt scale to voluminous short reads – Parameters: minOverlapLen %id ... 37
  • 38. Métricas de Montagem (Assembly metrics) (• Number of contigs/scaffolds – Fewer is better, one is ideal• Contig sizes – Maximum, average, median, “N50” (next slide)• Total size – Should be close to expected genome size – Repeats may only be counted once• Number of “N”s – N is the ambiguous base, fewer is better 38
  • 39. The “N50” metric• The N50 of a set of contigs is the size of the largest contig for which half the total size is contained in that contigs and those larger. – The weighted median contig sizeExample: – 7 contigs totalling 20 units: 7, 4, 3, 2, 2, 1, 1 – N50 is 4, as 7+4=11, which is > 50% of 20Warning! – Joining contigs can increase N50 eg. 7+4=11 – Higher N50 may mean more mis-assemblies 39
  • 40. Scaffolding: method• Scaffolding algorithm – constraint-based optimization problemMost assemblers include a scaffolding module – Velvet, Arachne, COBOG, AbySSStandalone scaffolder: Bambus – Part of AMOS package – Can handle various types of constraints – Uses some heuristics to find solutions 40
  • 41. 41
  • 42. O que serve para um ´DATASET´ pode não servir para o próximoBuscar alternativas que atendam ao objeto de estudo em foco. 42
  • 43. Novo paradigma Para Obter Diferencial Competitivo Devemos: Automatizar rotinas Motivar as Pessoas Desenvolver físicas Auto-capacitação 43
  • 44. Novo paradigma Tomadas de Inovação Decisões Rápidas Desafios e Organizacional rápida implicações para pesquisa Aquisição de informações Distribuição de informações mais rápidas contínuas e diretas 44
  • 45. Avaliação da Implantação de PipelineA clara avaliação dos riscos do projeto passa pela análise dos possíveisimpactos que o possa ter na pergunta biológica, lembrando-se sempre queBIOINFORMÁTICA, é estratégia e com elementos técnicos e organizacionaiscompatíveis, tendem a aumentar a produtividade sem sacrificar os objetivoshumanos e sociais. 45
  • 46. Avaliação de Sucesso e/ou Fracasso na Estratégia Combinação de diferentes estratégias são os únicos meios plausíveis de definir e superar as dificuldades. Planejamento Método de implantação da estratégia Global Desenvolvimento Antes Durante Depois 46
  • 47. Redes Computacionais e Organizacionais OBS: Ao implantar um sistema informatizado, é preciso levar em consideraçãocomo as informações são trabalhadas dentro da organização e qual o grau de compartilhamento existente entre os departamentos. Padronizar Informação 47
  • 48. “O poder oriundo da informação não está em possuí-la,mas em saber usá-la.” (Tadeu Cruz)"A mente que se abre a uma nova idéia jamais voltaráao seu tamanho original." (Albert Einstein) A maior recompensa do nosso trabalho não é o que nos pagam por ele, mas aquilo em que ele nos transforma. (John Ruskin)De nada serve ao homem queixar-se dos tempos emque vive. A única coisa boa que pode fazer é tentar melhorá-los. (Thomas Carlyle) “A morte do homem começa no instante em que ele desiste de aprender.” (Albino Teixeira) 48
  • 49. REFERENCIASLIN, H. C. et al. AGORA: Assembly Guided by Optical Restriction Alignment.BMC Bioinformatics, v. 13, n. 1, p. 189, 2012.MILLER, J. R.; KOREN, S.; SUTTON, G. Assembly algorithms for next-generation sequencing data. Genomics, v. 95, n. 6, p. 315-27, jun. 2010.MYERS, E. W. The fragment assembly string graph. Bioinformatics (Oxford,England), v. 21 Suppl 2, p. ii79-85, 1 set. 2005.PEVZNER, P. A; TANG, H.; WATERMAN, M. S. An Eulerian path approach toDNA fragment assembly. Proceedings of the National Academy of Sciencesof the United States of America, v. 98, n. 17, p. 9748-53, 14 ago. 2001.RITZ, A.; BASHIR, A.; RAPHAEL, B. J. Structural variation analysis with strobereads. Bioinformatics (Oxford, England), v. 26, n. 10, p. 1291-8, 15 maio.2010.ZHAO, X. et al. EDAR: an efficient error detection and removal algorithm fornext generation sequencing data. Journal of computational biology : a journalof computational molecular cell biology, v. 17, n. 11, p. 1549-60, nov. 2010.