Minicurso 2013

516 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
516
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
48
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Minicurso 2013

  1. 1. + Bioinformática Prof. Dr. Gabriel da Rocha Fernandes Universidade Católica de Brasília
  2. 2. + Bioinformática Prof. Dr. Gabriel da Rocha Fernandes Universidade Católica de Brasília
  3. 3. + Pré História nMendel identifica caracteres hereditários. nLinus Pauling descreve o DNA como uma hélice simples. nWatson e Crick descrevem a dupla hélice do DNA. nDogma central da biologia molecular. 2 DNA$ mRNA$ Proteínas$ Variação$Normal$ou$Patológica$
  4. 4. + A era genômica n1977 - Sanger sequencia um bacteriófago. nAnos 90 - Automatização do processo através de sequenciadores capilares. n1995 - Primeiro genoma completo (Haemophilus influenzae) nComeça o projeto genoma humano. 3
  5. 5. + A evolução 4
  6. 6. + A evolução 5
  7. 7. + A evolução 6
  8. 8. + Novas tecnologias e a era pós- genômica 7
  9. 9. + A explosão de sequências 8
  10. 10. + Análise dos dados 9
  11. 11. + Dogma Central 10 Croma&na( mRNA( ncRNA( Proteínas( Variação(Normal(ou(Patológica(Ambiente( Variação(em(seqüência( Variação(estrutural( Variação(química(na(croma&na( Epigenômica( Genômica( Transcritômica( Proteômica(
  12. 12. + Hardware nComponentes do computador: n Processadores n Memória n Discos nDesempenha as funções da máquina. 11
  13. 13. + Software nParte lógica do computador. nConjunto de instruções processados pelos hardwares. nInteração entre usuário e máquina. nTorna o computador útil. 12
  14. 14. + Sistemas operacionais nÉ um conjunto de programas que fazem a inteface do usuário e seus programas com o Hardware. 13 Programas HardwareSistema Operacional Linux, Windows, Mac
  15. 15. + Windows nMicrosoft nUser friendly. nPopular. nServiço de licenças nLimitado. 14
  16. 16. + MacOS nApple nVem de brinde nos Mac. nSistema Unix. nAmbiente gráfico => Windows. nDesenvolvimento => Linux. 15
  17. 17. + Porque usamos o Linux? nÉ livre; nÉ gratuito; nNâo é vulnerável a vírus; nRecebe apoio de grades empresas como IBM, HP, Sun etc; nMultitarefa e Multiusuário; nModularização, somente é carregado para memória o que usado durante o processamento; nNão há necessidade de reinicar o sistemas após cada modificação; 16
  18. 18. + Distribuições do Linux 17
  19. 19. + Porque usamos o Linux? nÉ livre; nÉ gratuito; nNâo é vulnerável a vírus; nRecebe apoio de grades empresas como IBM, HP, Sun etc; nMultitarefa e Multiusuário; nModularização, somente é carregado para memória o que usado durante o processamento; nNão há necessidade de reinicar o sistemas após cada modificação; 18
  20. 20. + NCBI nwww.ncbi.nlm.nih.gov 19
  21. 21. + NCBI 20 National Institute of Health National Library of Medicine
  22. 22. + A análise bioinformática 21
  23. 23. + Análise Genômica nInterdependência entre as diversas etapas de análises. nNovas metodologias e melhorias constantes. 22
  24. 24. + Como fazer um genoma nA abordagem shotgun nParte-se o DNA em pedacinhos nCorre-se um gel nEscolhe-se o tamanho dos fragmentos a trabalhar nPedacinhos são clonados em vetores (montagem da biblioteca genômica) nSequenciamento com primers do vetor nMonta-se a sequência por sobreposição 23
  25. 25. + Estratégia de sequenciamento 24
  26. 26. + Genômica 25
  27. 27. + Sequenciadores 26
  28. 28. + Base calling 27
  29. 29. + Base calling 28
  30. 30. + Base calling - PHRED nLê os arquivos – compatível com os principais formatos de arquivos: SCF (standard chrmoatogram format), ABI (373/377/3700), ESD (MegaBACE) e LI-COR. nChama as bases – atribui uma base para cada pico identificado com um taxa de erros menor do que os programas de base calling padrões. nAssina um valor de qualidade às bases – um “valor de Phred” baseado na estimativa da taxa de erros é calculado para cada base. nCria arquivos de saída – as bases chamadas e os valores de qualidade são escritos em arquivos de saída. 29
  31. 31. + Região de boa qualidade 30
  32. 32. + Região de média qualidade 31
  33. 33. + Região de baixa qualidade 32
  34. 34. + Fórmula do valor de PHRED nq = - 10 x log10 (p) n q - Valor de qualidade n p - Probabilidade estimada de erro na base nq = 20 significa p = 10-2 (1 erro em 100 bases) nq = 40 significa p = 10-4 (1 erro em 10,000 bases) 33
  35. 35. + Montagem 34
  36. 36. + Montagem do genoma nAlinhamento das sequencias para geração de um consenso. nIdentificação e eliminação dos gaps. 35
  37. 37. + O que sequenciar? nQuebrar o DNA original em fragmentos aleatórios e selecionar os fragmentos de determinado tamanho (Ex: 2Kbp) 36 singlet gap DNA original
  38. 38. + A montagem ab initio nReconstruir a sequência do genoma, dados vários (potencialmente milhões) fragmentos curtos de sequência (os reads) nOs reads têm tamanho entre 35-800 bp nOs reads podem conter erros de sequenciamento (mismatches ou indels) nA orientação (5`3` ou 3`5`) de cada read é desconhecida 37
  39. 39. + Terminologia nRead: fragmento sequenciado nContig: Pedaço contíguo de sequência formado a partir da sobreposição dos reads nSinglet: read sem sobreposição com nenhum outro nGap: região do genoma não capturada por nenhum read nCobertura:Total de bases sequenciadas dividido pelo tamanho do genoma 38
  40. 40. + Contigs e cobertura 39 nTenho um álbum de figurinhas, com 24 figurinhas em uma página.
  41. 41. + Contigs e cobertura 40 nCompro 5 pacotes, totalizando 25 figurinhas.
  42. 42. + Contigs e cobertura 41 nContigs e singlets. Contig 1 Contig 2 Contig 3
  43. 43. + Contigs e cobertura 42 nCompro mais 5 pacotes, totalizando 50 figurinhas.
  44. 44. + Contigs e cobertura 43 nCompro mais 20 pacotes, totalizando 150 figurinhas. E ainda assim faltou uma.
  45. 45. + Contigs e cobertura 44 nPrimer walking é ligar na Panini e comprar as figurinhas que faltam.
  46. 46. + Estratégias 45
  47. 47. + Problemas nSequências repetitivas. nTamanho dos reads. nSequencias Alu. 46
  48. 48. + Sequencias repetitivas. De onde veio o meu read? 47
  49. 49. + Tamanho do read 48
  50. 50. + Montando um “genoma” 49
  51. 51. + Uso dos paired-ends 50 nDecisão sobre repetições. nMontagem de scaffolds.
  52. 52. + Predição de genes nIdentificação de genes codificadores de proteínas. nCombinam métodos não comparativos e comparativos. nPredição ab initio usa informações de ORFs, uso de códons, e sequências consenso de sítios de splicing. nGeneMark, SNAP, GENSCAN... 51
  53. 53. + Predição de genes 52
  54. 54. + Arquivo GFF nGeneral Feature Format nIndica as posições no contig de cada item identificado. 53
  55. 55. + No GenBank file 54
  56. 56. + No EMBL 55
  57. 57. + Visualização nArtemis - Sanger Institute 56
  58. 58. + Análise Funcional nAssocia uma função aos genes preditos. nBaseada na homologia entre sequências. nUtiliza bases de dados de sequências conhecidas e programas de alinhamento. 57
  59. 59. + Análise funcional 58 27 0! ! Predição dos genes! 27 0! ! BLAST! Base de dados!
  60. 60. + Objetivos 59 nIdentificar as funções dos genes. nCaracterizar os processos celulares. nMapear em vias metabólicas. nElucidar o funcionamento do organismo.
  61. 61. + Ferramentas nFerramenta de alinhamento: n BLAST n HMMER nBase de dados: n COG n KEGG Orthology n PFam n Gene Ontology 60
  62. 62. + Dicas nProcurar por Hits que tenham descrição clara. n Evitar: hypothetical protein, putative.. nBuscar em várias bases de dados. n Aumentar a quantidade de entradas anotadas. n Hits não identificados em uma base podem ser anotados por outra. nObservar a cobertura do alinhamento. n BLAST faz alinhamento local. n Não classificar uma proteína como um todo baseado apenas em alinhamento a um unico domínio. 61
  63. 63. + Blast2GO 62
  64. 64. + KEGG Mapper 63
  65. 65. + iPath npathways.embl.de 64
  66. 66. + Pfam 65
  67. 67. + Arquivo de sequência - FASTA 66 >gi|197101743|ref|NP_001125556.1| myoglobin [Pongo abelii] MGLSDGEWQLVLNVWGKVEADIPSHGQEVLIRLFKGHPETLEKFDK FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ SHATKHKIPVKYLEFISESIIQVLQSKHPGDFGADAQGAMNKALEL FRKDMASNYKELGFQG >gi|386872|gb|AAA59595.1| myoglobin [Homo sapiens] MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDK FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ SHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAEGAMNKALEL FRKDMASNYKELGFQG
  68. 68. + Alinhamentos nSimples X Múltiplo n Local X Global n Heurístico X Ótimo 67 Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698
  69. 69. + Alinhamento simples n Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas 68 Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
  70. 70. + Alinhamento multiplo nAquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas 69 Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************
  71. 71. + Alinhamento global e local nGlobal: as seqs são alinhadas de ponta a ponta nLocal: pedaços das seqs é que são comparados 70
  72. 72. + Alinhamentos ótimos e heurísticos nheurística -- do dicionário Houaiss nmétodo de investigação baseado na aproximação progressiva de um dado problema nAlinhamento ótimo: produz o melhor resultado computacionalmente possível nAlinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz 71
  73. 73. + Ferramentas de alinhamento 72
  74. 74. + Elementos do alinhamento 73
  75. 75. + Matrizes de substituição 74 A C G T A 1 -2 -2 -2 C -2 1 -2 -2 G -2 -2 1 -2 T -2 -2 -2 1 A C G T A 1 -2 -1 -2 C -2 1 -2 -1 G -1 -2 1 -2 T -2 -1 -2 1
  76. 76. + Matrizes de substituição 75
  77. 77. + BLAST nBasic Local Alignment Search Tool nFerramenta de alinhamento mais utilizada no mundo nTodo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes) nDiz-se que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas nÉ um algoritmo de alinhamento simples, heurístico e local nAlinha um seqüência de entrada contra uma base de dados desejada 76
  78. 78. + Programas do BLAST 77 Formato da Seqüência de Entrada Banco de dados Formato da seqüência que é comparado Programa BLAST adequado Nucleotídeos Nucleotídeos Nucleotídeos BLASTn Proteínas Proteínas Proteínas BLASTp Nucleotídeos Proteínas Proteínas BLASTx Proteínas Nucleotídeos Proteínas TBLASTn Nucleotídeos Nucleotídeos Proteínas TBLASTtx
  79. 79. + Alinhamento multiplo 78 conservation profile conserved residues secondary structure
  80. 80. + Filogenia a partir do alinhamento nMatriz de distância entre as proteínas alinhadas nClustal: 1 - (resíduos idênticos/resíduos alinhados) 79 - .17 - .59 .60 - .59 .59 .13 - .77 .77 .75 .75 - .81 .82 .73 .74 .80 - .87 .86 .86 .88 .93 .90 - Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla 1 2 3 4 5 6 7 1 2 3 4 5 6 7
  81. 81. + Árvore filogenética nMétodo fenético nNão considera a evolução de cada caráter (coluna no alinhamento) nProduz uma árvore a partir de uma matriz de distância gerada ao considerar todo o conjunto de dados nVizinhos mais-próximos nNeighbor-joining nAverage neighbor nNearest neighbor nFarthest neighbor 80
  82. 82. + Transcritoma 81 nConjunto de todas as moléculas de RNA encontradas em uma população celular: n mRNA n tRNA n rRNA n miRNA nTotal de transcritos encontrados em um organismo, tipo celular, condição... nReflete os genes que estão sendo expressos em um determinado momento. nSnapshot da função celular.
  83. 83. + Métodos de estudo nExpressed Sequence Tags. nSequenciado por método de Sanger. nClonagem dos fragmentos usando vetores. nNão funciona em procariotos. nLow throughput. 82
  84. 84. + Métodos de estudo 83 nMicroarray. nArranjos com os genes em locais determinados. nComparação de amostras par a par. nHibridização.
  85. 85. + Next Generation Sequencing 84
  86. 86. + Custo do sequenciamento 85
  87. 87. + RNA-seq nUltra larga escala. nNão necessita de clonagem. nBaixo custo. nValores absolutos. nAnálise multi amostras. nGrande cobertura. 86
  88. 88. + Protocolo nProtocolo para montagem da biblioteca pode variar de acordo com a tecnologia e com o objetivo: nRemoção de rRNA. nAmplificação por PCR. nConversão a cDNA. nSingle read ou pair end. 87
  89. 89. + Genoma referência vs. Montagem de novo nMapeamento dos reads a um genoma referência. n Quantificação da expressão. n Identificação de variantes de splicing. nMontagem de novo do transcritoma. n Caracterização dos genes expressos. n Identificação de isoformas. n Ausência de genoma referência. 88
  90. 90. + O que sai do sequenciador? nFormato padrão para análises é o FastQ. n @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC + !”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65 nPrimeira linha: identificador da sequência. n Nome da sequência. n Informação sobre filtros. nTerceira linha: qualidade da chamada da base (em código). 89
  91. 91. + Montagem 90
  92. 92. + Mapeamento e quantificação nAs sequências produzidas são mapeadas a um genôma referência. nAlinhou em apenas uma região = ótimo. nAlinhou em mais que uma região = dilema. nO uso de replicatas é FUNDAMENTAL! 91 Repl. 1 Repl. 2 Repl. 3 Gene A 5 3 12 Gene B 16 25 35 Gene C 10 15 3 Gene D 750 500 500 Gene E 1504 1005 1030
  93. 93. + Interpretando a contagem dos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: 92
  94. 94. + Interpretando a contagem dos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. 92
  95. 95. + Interpretando a contagem dos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. 92
  96. 96. + Interpretando a contagem dos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. n Ambos os genes tem o mesmo tamanho e se expressam na mesma intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados. 92
  97. 97. + Interpretando a contagem dos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. n Ambos os genes tem o mesmo tamanho e se expressam na mesma intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados. nA causa é os três ao mesmo tempo. 92
  98. 98. + Identificando genes diferencialmente expressos. nComparar diferentes condições: controle com testes. n Célula normal com célula tumoral. n Planta sem e com estresse hídrico. n Animal sem e com parasita... nGenes em duas condições diferentes VÃO apresentar quantidades de reads diferentes. nEssa variação pode ser diferença biológica entre as duas condições, ou ruído experimental. nAplicação de testes estatísticos. 93
  99. 99. + Identificando genes diferencialmente expressos. nPara identificar uma diferença estatisticamente significantes, é necessário que a diferença de expressão entre as duas condições seja maior que a imprecisão do nível de expressão sob uma determinada condição. 94
  100. 100. + Sou pobre, não vou usar replicata. nLição de vida: n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads. n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno, tem 10 reads. n Uoua! O Gene H é duas vezes mais expresso na célula tumoral! n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2 pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo. n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé, e 22 reads na célula do Tião Torresmo. nMoral da história: quanto mais medições fizer, mais vai ter certeza dos níveis de expressão dos genes. 95
  101. 101. + Replicata técnica vs. Replicata biológica nTécnica: explica a variação encontrada que pode ter sido causada por critérios técnicos: preparação da biblioteca, qualidade do sequênciamento, cobertura do gene... nBiológica: explica a variação encontrada que pode ter sido causada pela variabilidade de expressão que não está associada à mudança nas condições do experimento. 96
  102. 102. + Fontes de variação Variância de Poisson nÉ a incerteza existente em qualquer medição em que algo é amostrado e contado. nComo é baseado no valor da contagem em si, não é específico do experimento. nEssa variância está relacionada a quantidade total de reads. nPor exemplo, a diferença na expressão de um gene medido com 1 read versus 2 reads é inerentemente menos seguro do que as diferenças na expressão de um gene medido com 100 reads versus 200 reads, apesar de ambas as diferenças serem, nominalmente, uma mudança 2X. 97
  103. 103. + Fontes de variação Variância de Poisson 98
  104. 104. + Fontes de variação Variação Técnica Não-Poisson nAssociado à incapacidade da técnica não conseguir medir a expressão perfeitamente. nVisto em replicatas técnicas. nCausas: n Seleção de miRNA. n Depleção de rRNA. n Amplificação por PCR. n Armazenamento. n RNA-later. nMoral da história: Manipule sua amostra o mínimo possível. 99
  105. 105. + Fontes de variação Variação Biológica nOcorre naturalmente nas amostras. nA expressão naturalmente flutua em células sob a mesma condição. nCausas da variações biológicas podem ser diferenças genéticas, de maquinaria celular, ou de resposta a variação do ambiente. nVariação biológica também sofre a influência das outras duas variações vistas. 100
  106. 106. + Filosofando... nMais replicatas vs. Mais reads. nComo lidar com batch-effects? nPreciso validar com RT-PCR? nEu considero como diferencialmente expresso genes com p- value < 0.01. nCalcular FDR (False discovery rate) nLeia artigos que tenham usado benchmarks. nConverse com o bioinformata que vai fazer as análises. 101
  107. 107. + Metagenômica nMetagenoma: material genético recuperado diretamente de amostras ambientais. nFornece informações sobre os organismos em seu habitat natural.
  108. 108. + Metagenômica nCerca de 99% das bactérias não são cultiváveis. nPermite o estudo de organismos que não são facilmente cultivados em laboratório. nIdentificação de funções em espécies ainda não identificadas.
  109. 109. + Análise do gene do rRNA 16s nGene altamente conservado em bactérias e archaea. nRegião hiper variável confere sequências com assinatura específica. nFornece um perfil da diversidade na amostra.
  110. 110. + Whole Genome Shotgun e nova geração de sequenciadores nPermite uma visão mais global da comunidade. nAnálise dos níveis da diversidade filogenética e polimorfismos intraespecíficos. nEstudo de genes completos e de vias metabólicas da comunidade. nReconstrução dos genomas. nDemanda intensa análise bioinformática.
  111. 111. + Etapas da análise metagenômica nFatores influentes. nInterdependências ocultas.
  112. 112. + Métodos de estudo - Funcional nIsolamento do DNA da amostra. nClonagem do DNA em um hospedeiro. nExpressão do gene e análise funcional. nAnálise das sequências.
  113. 113. + Métodos de estudo - Genômico nDNA isolado pode ser submetido a um sequenciamento aleatório ou direcionado. nPermite montagem de todo metaboloma. nAnálise filogenética. nMetagenômica comparativa.
  114. 114. + Análise filogenética e funcional
  115. 115. + Pipeline de análise
  116. 116. + Assinatura filogenética nCada read é associado a um organismo (espécie, gênero, família…) nUtiliza bases de dados de genômas referência ou base de dados NT do NCBI. nFerramenta de alinhamento. nValores de identidade para definir o nível cladístico assinado. 88% 98% 99% Bacteroides fragilis Escherichia coli 70%
  117. 117. + Assinatura filogenética nComposição geral da amostra nPrograma: MEGAN nAgrupa multiplos alinhamentos em um nível cladístico.
  118. 118. + Análise filogenética nQual clado prevalece na amostra? nExiste um perfil filogenético? nIdentificação de marcadores filogenéticos. nAssociação da presença de um clado a uma determinada característica.
  119. 119. + Anotação funcional nAvaliar o potencial genético da amostra. nMontagem dos contigs. nPredição dos genes. nAlinhamento dos genes preditos a uma base de dados.
  120. 120. + Análise funcional nQual função está mais presente? nExiste alguma função do seu interesse? nMontagem do mapa metabólico do ambiente. nRastrear a função e identificar o organismo que executa.
  121. 121. +
  122. 122. +
  123. 123. +
  124. 124. +
  125. 125. +
  126. 126. + Visualização

×