Bioinfo - Grad - Aula 2

1,033 views
1,017 views

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,033
On SlideShare
0
From Embeds
0
Number of Embeds
745
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Bioinfo - Grad - Aula 2

  1. 1. + Bioinformática Genômica,Transcritômica e Metagenômica Gabriel da Rocha Fernandes Universidade Católica de Brasília gabrielf@ucb.br - fernandes.gabriel@gmail.com
  2. 2. + Estratégia de sequenciamento 2
  3. 3. + Estratégia de sequenciamento 3
  4. 4. + Sequenciadores 4
  5. 5. + Arquivos de sequências nAB1 e ESD - Sanger nFastq - Illumina nSFF - 454 nEsses arquivos tem que ser processados e a sequencia FASTA gerada. nAlguns programas disponibilizam também o arquivo de qualidade das sequencias. nPossível montagem sem a conversão em FASTA. 5
  6. 6. + FastQ 6
  7. 7. + Qualidade 7
  8. 8. + Montagem 8
  9. 9. + Análise de sequências? nTransformar os dados do sequenciador em conhecimento biológico. nBase calling. nMontagem. nPredição de genes. nIdentificação de promotores e marcadores. nGenômica comparativa. 9
  10. 10. + Montagem do genoma nAlinhamento das sequencias para geração de um consenso. nIdentificação e eliminação dos gaps. 10
  11. 11. + Predição de genes 11
  12. 12. + Análise Funcional nAssocia uma função aos genes preditos. nBaseada na homologia entre sequências. nUtiliza bases de dados de sequências conhecidas e programas de alinhamento. 12
  13. 13. + Transcritoma 13 nConjunto de todas as moléculas de RNA encontradas em uma população celular: n mRNA n tRNA n rRNA n miRNA nTotal de transcritos encontrados em um organismo, tipo celular, condição... nReflete os genes que estão sendo expressos em um determinado momento. nSnapshot da função celular.
  14. 14. + Métodos de estudo nExpressed Sequence Tags. nSequenciado por método de Sanger. nClonagem dos fragmentos usando vetores. nNão funciona em procariotos. nLow throughput. 14
  15. 15. + Métodos de estudo 15 nMicroarray. nArranjos com os genes em locais determinados. nComparação de amostras par a par. nHibridização.
  16. 16. + Next Generation Sequencing 16
  17. 17. + Custo do sequenciamento 17
  18. 18. + RNA-seq nUltra larga escala. nNão necessita de clonagem. nBaixo custo. nValores absolutos. nAnálise multi amostras. nGrande cobertura. 18
  19. 19. + Protocolo nProtocolo para montagem da biblioteca pode variar de acordo com a tecnologia e com o objetivo: nRemoção de rRNA. nAmplificação por PCR. nConversão a cDNA. nSingle read ou pair end. 19
  20. 20. + Genoma referência vs. Montagem de novo nMapeamento dos reads a um genoma referência. n Quantificação da expressão. n Identificação de variantes de splicing. nMontagem de novo do transcritoma. n Caracterização dos genes expressos. n Identificação de isoformas. n Ausência de genoma referência. 20
  21. 21. + O que sai do sequenciador? nFormato padrão para análises é o FastQ. n @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC + !”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65 nPrimeira linha: identificador da sequência. n Nome da sequência. n Informação sobre filtros. nTerceira linha: qualidade da chamada da base (em código). 21
  22. 22. + Montagem 22
  23. 23. + Mapeamento e quantificação nAs sequências produzidas são mapeadas a um genôma referência. nAlinhou em apenas uma região = ótimo. nAlinhou em mais que uma região = dilema. nO uso de replicatas é FUNDAMENTAL! 23 Repl. 1 Repl. 2 Repl. 3 Gene A 5 3 12 Gene B 16 25 35 Gene C 10 15 3 Gene D 750 500 500 Gene E 1504 1005 1030
  24. 24. + Interpretando a contagem dos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. n Ambos os genes tem o mesmo tamanho e se expressam na mesma intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados. nA causa é os três ao mesmo tempo. nMas quando analisamos o mesmo gene em 2 condições diferentes, os efeitos 2 e 3 são desconsiderados. 24
  25. 25. + Identificando genes diferencialmente expressos. nComparar diferentes condições: controle com testes. n Célula normal com célula tumoral. n Planta sem e com estresse hídrico. n Animal sem e com parasita... nGenes em duas condições diferentes VÃO apresentar quantidades de reads diferentes. nEssa variação pode ser diferença biológica entre as duas condições, ou ruído experimental. nAplicação de testes estatísticos. 25
  26. 26. + Identificando genes diferencialmente expressos. nPara identificar uma diferença estatisticamente significantes, é necessário que a diferença de expressão entre as duas condições seja maior que a imprecisão do nível de expressão sob uma determinada condição. 26
  27. 27. + Sou pobre, não vou usar replicata. nLição de vida: n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads. n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno, tem 10 reads. n Uoua! O Gene H é duas vezes mais expresso na célula tumoral! n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2 pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo. n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé, e 22 reads na célula do Tião Torresmo. nMoral da história: quanto mais medições fizer, mais vai ter certeza dos níveis de expressão dos genes. 27
  28. 28. + Replicata técnica vs. Replicata biológica nTécnica: explica a variação encontrada que pode ter sido causada por critérios técnicos: preparação da biblioteca, qualidade do sequênciamento, cobertura do gene... nBiológica: explica a variação encontrada que pode ter sido causada pela variabilidade de expressão que não está associada à mudança nas condições do experimento. 28
  29. 29. + Fontes de variação Variância de Poisson nÉ a incerteza existente em qualquer medição em que algo é amostrado e contado. nComo é baseado no valor da contagem em si, não é específico do experimento. nEssa variância está relacionada a quantidade total de reads. nPor exemplo, a diferença na expressão de um gene medido com 1 read versus 2 reads é inerentemente menos seguro do que as diferenças na expressão de um gene medido com 100 reads versus 200 reads, apesar de ambas as diferenças serem, nominalmente, uma mudança 2X. 29
  30. 30. + Fontes de variação Variância de Poisson 30
  31. 31. + Fontes de variação Variação Técnica Não-Poisson nAssociado à incapacidade da técnica não conseguir medir a expressão perfeitamente. nVisto em replicatas técnicas. nCausas: n Seleção de miRNA. n Depleção de rRNA. n Amplificação por PCR. n Armazenamento. n RNA-later. nMoral da história: Manipule sua amostra o mínimo possível. 31
  32. 32. + Fontes de variação Variação Biológica nOcorre naturalmente nas amostras. nA expressão naturalmente flutua em células sob a mesma condição. nCausas da variações biológicas podem ser diferenças genéticas, de maquinaria celular, ou de resposta a variação do ambiente. nVariação biológica também sofre a influência das outras duas variações vistas. 32
  33. 33. + Filosofando... nMais replicatas vs. Mais reads. nComo lidar com batch-effects? nPreciso validar com RT-PCR? nEu considero como diferencialmente expresso genes com p- value < 0.01. nCalcular FDR (False discovery rate) nLeia artigos que tenham usado benchmarks. nConverse com o bioinformata que vai fazer as análises. 33
  34. 34. + Metagenômica nMetagenoma: material genético recuperado diretamente de amostras ambientais. nFornece informações sobre os organismos em seu habitat natural.
  35. 35. + Metagenômica nCerca de 99% das bactérias não são cultiváveis. nPermite o estudo de organismos que não são facilmente cultivados em laboratório. nIdentificação de funções em espécies ainda não identificadas.
  36. 36. + Análise do gene do rRNA 16s nGene altamente conservado em bactérias e archaea. nRegião hiper variável confere sequências com assinatura específica. nFornece um perfil da diversidade na amostra.
  37. 37. + Whole Genome Shotgun e nova geração de sequenciadores nPermite uma visão mais global da comunidade. nAnálise dos níveis da diversidade filogenética e polimorfismos intraespecíficos. nEstudo de genes completos e de vias metabólicas da comunidade. nReconstrução dos genomas. nDemanda intensa análise bioinformática.
  38. 38. + Etapas da análise metagenômica nFatores influentes. nInterdependências ocultas.
  39. 39. + Métodos de estudo - Funcional nIsolamento do DNA da amostra. nClonagem do DNA em um hospedeiro. nExpressão do gene e análise funcional. nAnálise das sequências.
  40. 40. + Métodos de estudo - Genômico nDNA isolado pode ser submetido a um sequenciamento aleatório ou direcionado. nPermite montagem de todo metaboloma. nAnálise filogenética. nMetagenômica comparativa.
  41. 41. + Análise filogenética e funcional
  42. 42. + Pipeline de análise
  43. 43. + Assinatura filogenética nCada read é associado a um organismo (espécie, gênero, família…) nUtiliza bases de dados de genômas referência ou base de dados NT do NCBI. nFerramenta de alinhamento. nValores de identidade para definir o nível cladístico assinado. 88% 98% 99% Bacteroides fragilis Escherichia coli 70%
  44. 44. + Assinatura filogenética nComposição geral da amostra nPrograma: MEGAN nAgrupa multiplos alinhamentos em um nível cladístico.
  45. 45. + Análise filogenética nQual clado prevalece na amostra? nExiste um perfil filogenético? nIdentificação de marcadores filogenéticos. nAssociação da presença de um clado a uma determinada característica.
  46. 46. + Anotação funcional nAvaliar o potencial genético da amostra. nMontagem dos contigs. nPredição dos genes. nAlinhamento dos genes preditos a uma base de dados.
  47. 47. + Análise funcional nQual função está mais presente? nExiste alguma função do seu interesse? nMontagem do mapa metabólico do ambiente. nRastrear a função e identificar o organismo que executa.
  48. 48. +
  49. 49. +
  50. 50. +
  51. 51. +
  52. 52. +
  53. 53. + Visualização

×