O documento discute o método de RNA-seq para estudar o transcritoma. Ele explica o que é transcritoma, métodos anteriores como ESTs e microarrays, o protocolo de RNA-seq, mapeamento de sequências, quantificação de genes, identificação de genes diferencialmente expressos e fontes de variação.
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
RNA-seq: Uma introdução ao método e análise
1. +
Universidade Católica de Brasília
RNA-seq
Prof. Dr. Gabriel da Rocha Fernandes
Universidade Católica de Brasília
gabrielf@ucb.br - fernandes.gabriel@gmail.com
2. + 2
Transcritoma
n Conjunto
de todas as moléculas de RNA encontradas em uma
população celular:
n mRNA
n tRNA
n rRNA
n miRNA
n Total
de transcritos encontrados em um organismo, tipo
celular, condição...
n Reflete
os genes que estão sendo expressos em um
determinado momento.
n Snapshot da função celular.
3. + 3
Métodos de estudo
n Expressed Sequence Tags.
n Sequenciado por método de Sanger.
n Clonagem dos fragmentos usando
vetores.
n Não funciona em procariotos.
n Low throughput.
4. + 4
Métodos de estudo
n Microarray.
n Arranjos
com os genes em locais
determinados.
n Comparação de amostras par a par.
n Hibridização.
7. + 7
RNA-seq
n Ultra larga escala.
n Não necessita de clonagem.
n Baixo custo.
n Valores absolutos.
n Análise multi amostras.
n Grande cobertura.
8. + 8
Protocolo
n Protocolo
para montagem da biblioteca pode varias de acordo
com a tecnologia e com o objetivo:
n Remoção de rRNA.
n Amplificação por PCR.
n Conversão a cDNA.
n Single read ou pair end.
9. + 9
Genoma referência vs. Montagem
de novo
n Mapeamento dos reads a um genoma referência.
n Quantificação da expressão.
n Identificação de variantes de splicing.
n Montagem de novo do transcritoma.
n Caracterização dos genes expressos.
n Identificação de isoformas.
n Ausência de genoma referência.
10. + 10
O que sai do sequenciador?
n Formato padrão para análises é o FastQ.
n @SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65
n Primeira linha: identificador da sequência.
n Nome da sequência.
n Informação sobre filtros.
n Terceira linha: qualidade da chamada da base (em código).
12. + 12
Mapeamento e quantificação
n As
sequências produzidas são mapeadas a um genôma
referência.
n Alinhou em apenas uma região = ótimo.
n Alinhou em mais que uma região = dilema.
n O uso de replicatas é FUNDAMENTAL!
Repl. 1 Repl. 2 Repl. 3
Gene A 5 3 12
Gene B 16 25 35
Gene C 10 15 3
Gene D 750 500 500
Gene E 1504 1005 1030
13. + 13
Interpretando a contagem dos
genes
n No
exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
14. + 13
Interpretando a contagem dos
genes
n No
exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
15. + 13
Interpretando a contagem dos
genes
n No
exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
16. + 13
Interpretando a contagem dos
genes
n No
exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
17. + 13
Interpretando a contagem dos
genes
n No
exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
n A causa é os três ao mesmo tempo.
18. + 14
Identificando genes
diferencialmente expressos.
n Comparar diferentes condições: controle com testes.
n Célula normal com célula tumoral.
n Planta sem e com estresse hídrico.
n Animal sem e com parasita...
n Genesem duas condições diferentes VÃO apresentar
quantidades de reads diferentes.
n Essa
variação pode ser diferença biológica entre as duas
condições, ou ruído experimental.
n Aplicação de testes estatísticos.
19. + 15
Identificando genes
diferencialmente expressos.
n Para
identificar uma diferença estatisticamente significantes, é
necessário que a diferença de expressão entre as duas
condições seja maior que a imprecisão do nível de expressão
sob uma determinada condição.
20. + 16
Sou pobre, não vou usar replicata.
n Lição de vida:
n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads.
n Omesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno,
tem 10 reads.
n Uoua! O Gene H é duas vezes mais expresso na célula tumoral!
n Ganheiuns trocados e fiz transcritoma da célula normal de mais 2
pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo.
n OGene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé,
e 22 reads na célula do Tião Torresmo.
n Moral
da história: quanto mais medições fizer, mais vai ter
certeza dos níveis de expressão dos genes.
21. + 17
Replicata técnica vs. Replicata
biológica
n Técnica: explica
a variação
encontrada que pode ter
sido causada por critérios
técnicos: preparação da
biblioteca, qualidade do
sequênciamento, cobertura
do gene...
n Biológica: explica
a
variação encontrada que
pode ter sido causada pela
variabilidade de expressão
que não está associada à
mudança nas condições do
experimento.
22. + 18
Fontes de variação
Variância de Poisson
n É
a incerteza existente em qualquer medição em que algo é
amostrado e contado.
n Como é baseado no valor da contagem em si, não é específico
do experimento.
n Essa variância está relacionada a quantidade total de reads.
n Porexemplo, a diferença na expressão de um gene medido
com 1 read versus 2 reads é inerentemente menos seguro do
que as diferenças na expressão de um gene medido com 100
reads versus 200 reads, apesar de ambas as diferenças serem,
nominalmente, uma mudança 2X.
24. + 20
Fontes de variação
Variação Técnica Não-Poisson
n Associadoà incapacidade da
técnica não conseguir medir
a expressão perfeitamente.
n Visto em replicatas técnicas.
n Causas:
n Seleção de miRNA.
n Depleção de rRNA.
n Amplificação por PCR.
n Armazenamento.
n RNA-later.
n Moral
da história: Manipule
sua amostra o mínimo
possível.
25. + 21
Fontes de variação
Variação Biológica
n Ocorre naturalmente nas amostras.
n A
expressão naturalmente flutua
em células sob a mesma condição.
n Causas
da variações biológicas
podem ser diferenças genéticas,
de maquinaria celular, ou de
resposta a variação do ambiente.
n Variaçãobiológica também sofre a
influência das outras duas
variações vistas.
26. + 22
Filosofando...
n Mais replicatas vs. Mais reads.
n Como lidar com batch-effects?
n Preciso validar com RT-PCR?
n Eu
considero como diferencialmente expresso genes com p-
value < 0.01.
n Calcular FDR (False discovery rate)
n Leia artigos que tenham usado benchmarks.
n Converse com o bioinformata que vai fazer as análises.