Uma abordagem computacional para a
determinação de polimorfismos de
base única
Miguel Galves
Orientador: Zanoni Dias
IC - ...
Roteiro
n  Conceitos Básicos
n  Motivação
n  Objetivos
n  Alinhamento de seqüências
n  Detecção de SNPs e confiabilid...
Processo básico
de tradução genética
n  A informação genética dos seres vivos é
armazenada em cadeias de nucleotídeos
n ...
Tradução
Polimorfismos e SNP
n  Polimorfismo: dois ou mais alelos diferentes
em indivíduos da mesma espécie
n  Deve aparecer em p...
Porque estudar SNPs?
n  Correspondem a mais de 90% dos
polimorfismos nos seres humanos
n  Causa de grande parte das doen...
Objetivos do trabalho
n  Estudar 3 etapas distintas no processo de
detecção e análise de SNPs:
n  Alinhamento de ESTs co...
Alinhamento de DNA com ESTs
Alinhamento de sequências
n  Inserção de espaços em duas seqüências
de forma a que elas tenham o mesmo
tamanho e possam s...
Algoritmos clássicos de alinhamento
n  Estratégias de alinhamento
n  Global
n  Semi-global
n  Local
n  Sistemas de po...
Porque estudar alinhamento
de mRNA com DNA?
Objetivos desta etapa
Determinar uma estratégia clássica e um
conjunto de parâmetros que permitam
obter bons alinhamentos ...
Metodologia
n  Desenvolvimento de um alinhador em Java
usando algoritmo de Miller e Myers
n  Criação de uma base de test...
Conjunto de dados
1.  64 genes do cromossomo Y humano com
menos de 100.000 bases
2.  40 genes completos do cromossomo Y
hu...
Resultados obtidos - Conjunto 3
Extra Gap Delta Exon Similaridade Mismatch
(1,-2,-1,0) 0.00 0.00 99.89% 0.00%
(1,-2,-10,0)...
Resultados obtidos - Conjunto 4
Resultados obtidos - Conjunto 4
Resultados obtidos
n  O alinhador semi-global com esquemas de
pontuação (1,-2,-1,0) e (1,-2,-10,0)
produzem resultados ex...
Detecção de SNPs
Base-calling e sequenciamento
Porque estudar base-calling?
n  Pacote phred ignora sinais secundários no
cromatograma
n  Apenas uma base por posição
n...
Objetivos desta etapa
n  Detecção de SNPs em cromatogramas de
seqüências de HIV
n  Estudo de métodos para determinação d...
Metodologia
n  Definir algoritmos para análise e correção
de cromatograma
n  Executar os algoritmos com diversos
parâmet...
Conjunto de dados
n  Sequências genéticas de HIV
n  1302 bp
n  Região bem conservada
n  35 lotes de amostras de indiví...
Algoritmos de correção
n  Relação das Áreas
n  Relação das Médias das Alturas
n  Limite Variável
n  Pico Único por Jan...
Relação das Áreas
Relação das Médias das Alturas
x2
x1 x1
FAKE_PEAK_HEIGHT_PERCENTAGE
MAXIMUM_FAKE_PEAK_WIDTH
MINIMUM_BORDER_DISTANCE
MINIMU...
Resultados obtidos
Verdadeiro
Positivo
Falso
Negativo
Falso
Positivo
Área 75% 23% 394%
Média das
alturas
53% 42% 317%
Poly...
Confiabilidade Estatística
n  Comparação de dois métodos de
confiablidade estatística para SNPs:
n  PolyBayes: estatísti...
Correlação de SNPs
Linkage Disequilibrium
n  Associação não aleatória entre alelos
n  Informações sobre um alelo fornece
informações sobre ...
Porque estudar LDs?
n  Doenças genéticas podem ser influenciadas
por vários SNPs correlacionados
n  LD permite efetuar m...
Objetivos desta etapa
n  Estudar LDs múltiplos
n  Analisar o efeito do uso das medidas D’ e r2
Metodologia
n  Pré-processamento do conjunto de dados
n  Definição de uma heurística para busca de
cliques em grafos
n ...
LDs múltiplos
LDs múltiplos
(j, f, i, e, g, m, n)
(k, l, h)
Conjunto de dados
n  ESTs clusterizados de cana-de-açúcar do
projeto SUCEST, com SNPs anotados
n  Genes do genoma humano...
Resultados
n  Bons resultados obtidos com tempo de
busca de 5 segundos por clique
n  D’ apresenta resultados melhores
n...
Considerações finais
n  Foram estudadas 3 etapas distintas
relacionadas a SNPs
n  Resultados bastante satisfatórios, ten...
Trabalhos publicados
n  Alinhamento
n  M. Galves e Z. Dias, "Comparison of genomic DNA to
cDNA alignment methods“. Lectu...
Relatórios técnicos
n  LDs múltiplos
n  A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo
para identificação de corre...
Upcoming SlideShare
Loading in...5
×

Uma abordagem computacional para a determinação de polimorfismos de base única

126

Published on

Tese de Mestrado em Ciência da Computação, defendida em Janeiro de 2007, na Universidade Estadual de Campinas (UNICAMP)

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
126
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Uma abordagem computacional para a determinação de polimorfismos de base única

  1. 1. Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006
  2. 2. Roteiro n  Conceitos Básicos n  Motivação n  Objetivos n  Alinhamento de seqüências n  Detecção de SNPs e confiabilidade n  Correlação de SNPs n  Conclusão
  3. 3. Processo básico de tradução genética n  A informação genética dos seres vivos é armazenada em cadeias de nucleotídeos n Bases A, C, G e T n  Proteínas são geradas a partir da leitura da cadeia de nucleotídeos n Processo de tradução n  Proteína = cadeia de aminoácidos n  1 aminoácido = 3 nucleotídeos = 1 códon
  4. 4. Tradução
  5. 5. Polimorfismos e SNP n  Polimorfismo: dois ou mais alelos diferentes em indivíduos da mesma espécie n  Deve aparecer em pelo menos 1% da população n  SNP: polimorfismo que ocorre em apenas uma base da seqüência n  SNP sinônimo: não modifica o aminoácido n  SNP não sinônimo: modifica o aminoácido
  6. 6. Porque estudar SNPs? n  Correspondem a mais de 90% dos polimorfismos nos seres humanos n  Causa de grande parte das doenças com base genética n  Grande interesse das industrias farmacêuticas n Criação de terapias específicas n  Marcadores para mapeamento fino do genoma
  7. 7. Objetivos do trabalho n  Estudar 3 etapas distintas no processo de detecção e análise de SNPs: n  Alinhamento de ESTs com DNA genômico n  Detecção de SNPs por análise de cromatograma n  Correlação de SNPs
  8. 8. Alinhamento de DNA com ESTs
  9. 9. Alinhamento de sequências n  Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas n  Exemplo: AGCTCGTTTG e ACCTTCGTTTTG AGC-TCGTTT-G ACCTTCGTTTTG n  Pontuação permite avaliar o alinhamento n  Problema de otimização: obter o alinhamento de melhor pontuação
  10. 10. Algoritmos clássicos de alinhamento n  Estratégias de alinhamento n  Global n  Semi-global n  Local n  Sistemas de pontuação n  Simples: match, mismatch, gap n  Linear: match, mismatch e gap(k) = g + hk
  11. 11. Porque estudar alinhamento de mRNA com DNA?
  12. 12. Objetivos desta etapa Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA
  13. 13. Metodologia n  Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers n  Criação de uma base de testes n  Definição de um conjunto de parâmetros de alinhamento n  Execução de alinhamentos de mRNAs com genes de origem n  Nosso alinhador, sim4, est_genome e Spidey n  Definição de métricas para avaliação dos alinhamentos obtidos
  14. 14. Conjunto de dados 1.  64 genes do cromossomo Y humano com menos de 100.000 bases 2.  40 genes completos do cromossomo Y humano com menos de 100.000 bases 3.  7376 genes completos do genoma humano com menos de 10.000 bases 4.  4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%
  15. 15. Resultados obtidos - Conjunto 3 Extra Gap Delta Exon Similaridade Mismatch (1,-2,-1,0) 0.00 0.00 99.89% 0.00% (1,-2,-10,0) 0.00 0.01 99.89% 0.00% Sim4 1.03 -0.03 99.18% 0.21% Est_genome 15.56 -0.17 58.00% 1.31% Spidey 0.12 -3.82 81.02% 0.17%
  16. 16. Resultados obtidos - Conjunto 4
  17. 17. Resultados obtidos - Conjunto 4
  18. 18. Resultados obtidos n  O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios n  O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores n  Sim4, est_genome e Spidey são mais regulares com ESTs com erros
  19. 19. Detecção de SNPs
  20. 20. Base-calling e sequenciamento
  21. 21. Porque estudar base-calling? n  Pacote phred ignora sinais secundários no cromatograma n  Apenas uma base por posição n  SNPs podem gerar sinais secundários n  PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV
  22. 22. Objetivos desta etapa n  Detecção de SNPs em cromatogramas de seqüências de HIV n  Estudo de métodos para determinação de confiabilidade dos resultados
  23. 23. Metodologia n  Definir algoritmos para análise e correção de cromatograma n  Executar os algoritmos com diversos parâmetros, para análise preliminar n  Determinação de dois algoritmos para tunning n  Determinação do melhor algoritmo e do melhor conjunto de parâmetros
  24. 24. Conjunto de dados n  Sequências genéticas de HIV n  1302 bp n  Região bem conservada n  35 lotes de amostras de indivíduos soropositivos n  6 leituras n  1 seqüência validada, com SNPs anotados manualmente n  Sequência de referência de HIV
  25. 25. Algoritmos de correção n  Relação das Áreas n  Relação das Médias das Alturas n  Limite Variável n  Pico Único por Janela n  Eliminação de Picos Ruins n  Pico Mais Baixo
  26. 26. Relação das Áreas
  27. 27. Relação das Médias das Alturas x2 x1 x1 FAKE_PEAK_HEIGHT_PERCENTAGE MAXIMUM_FAKE_PEAK_WIDTH MINIMUM_BORDER_DISTANCE MINIMUM_HEIGHT PEAK LAST POSITION FIRST POSITION
  28. 28. Resultados obtidos Verdadeiro Positivo Falso Negativo Falso Positivo Área 75% 23% 394% Média das alturas 53% 42% 317% PolyPhred 0% 100% 0% PolyBayes 0% 100% 0%
  29. 29. Confiabilidade Estatística n  Comparação de dois métodos de confiablidade estatística para SNPs: n  PolyBayes: estatística bayesiana n  MSASNP: qualidades das bases n  Conjunto de teste: SNPs anotados do SUCEST n  MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes
  30. 30. Correlação de SNPs
  31. 31. Linkage Disequilibrium n  Associação não aleatória entre alelos n  Informações sobre um alelo fornece informações sobre o outro n  Medidas para quantificar LDs n  D’ = 1, chamado de LD completo n  r2 ≥ 1/3, chamado de LD útil n  LD múltiplo: conjunto de SNPs em LD dois a dois
  32. 32. Porque estudar LDs? n  Doenças genéticas podem ser influenciadas por vários SNPs correlacionados n  LD permite efetuar mapeamento fino do genoma humano n  Técnica tradicional: definição de 1 a 2cM n  LD: definição de 0.1cM
  33. 33. Objetivos desta etapa n  Estudar LDs múltiplos n  Analisar o efeito do uso das medidas D’ e r2
  34. 34. Metodologia n  Pré-processamento do conjunto de dados n  Definição de uma heurística para busca de cliques em grafos n  Problema NP-Difícil n  Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2
  35. 35. LDs múltiplos
  36. 36. LDs múltiplos (j, f, i, e, g, m, n) (k, l, h)
  37. 37. Conjunto de dados n  ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados n  Genes do genoma humano obtidos do NCBI: n  HLA-A, HLA-B e HLA-DOB n  Genes do complexo MHC n  Região com alta densidade de SNPs anotados
  38. 38. Resultados n  Bons resultados obtidos com tempo de busca de 5 segundos por clique n  D’ apresenta resultados melhores n  Maior capacidade de agrupamento n  Menor tendência de isolamento de SNPs n  r2 gera grafos com menos arestas
  39. 39. Considerações finais n  Foram estudadas 3 etapas distintas relacionadas a SNPs n  Resultados bastante satisfatórios, tendo em vista o tipo de problema analisado n  Seria interessante implementar um fluxo de trabalho único unindo estas etapas
  40. 40. Trabalhos publicados n  Alinhamento n  M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“. Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg. Apresentado no BSB 2005, Porto Alegre - RS. n  Detecção de SNPs n  M. Galves, J. A. A. Quitzau e Z. Dias, "New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006. Apresentado no X-Meeting 2005, Caxambu - MG.
  41. 41. Relatórios técnicos n  LDs múltiplos n  A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006. n  Confiabilidade Estatística n  C. Baudet, M. Galves e Z. Dias,“Comparação de métodos para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×