Amostragem

2,572 views
2,501 views

Published on

Published in: Education
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,572
On SlideShare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
0
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Amostragem

  1. 1. Paulo Novis Rocha Nefrologista Professor Adjunto do Depto. Medicina FMB-UFBA Professor Colaborador do PPgCS Coordenador da Disciplina de Bioestatística
  2. 2. <ul><li>1. Definir a população de interesse </li></ul><ul><li>2. Selecionar uma amostra da população </li></ul><ul><li>3. Coleta de dados </li></ul><ul><li>4. Estatística descritiva </li></ul><ul><li>5. Estatística inferencial </li></ul>
  3. 3. POPULAÇÃO: Ideal! AMOSTRA: Viável! Todo pesquisador quer estudar apenas uma AMOSTRA, mas obter resultados generalizáveis para toda a POPULAÇÃO
  4. 4. Identificação da POPULAÇÃO adequada Método adequado de escolha dos indivíduos a serem estudados (AMOSTRAGEM) Seleção de um número adequado de indivíduos (TAMANHO da amostra)
  5. 5. <ul><li>População amostrada: da qual tiramos uma amostra </li></ul><ul><li>População alvo: para a qual queremos generalizar os resultados </li></ul><ul><li>IMPORTANTE: os testes estatísticos permitem generalização apenas da amostra para a população amostrada!!! </li></ul>
  6. 6. POPULAÇÃO ALVO: TODOS OS HIPERTENSOS DO BRASIL POPULAÇÃO AMOSTRADA: HIPERTENSOS DO SEU AMBULATÓRIO AMOSTRA Uma amostra feita na Bahia, será representativa à nível de Brasil?
  7. 7. Neto, AMS 2008. Bioestatística Sem Segredos POPULAÇÃO-ALVO População para a qual se deseja generalizar os resultados POPULAÇÃO AMOSTRADA População da qual retiramos a amostra AMOSTRA Indivíduos selecionados para o estudo AMOSTRAGEM Processo pelo qual a amostra é selecionada
  8. 8. Neto, AMS 2008. Bioestatística Sem Segredos TIPOS DE AMOSTRAGEM <ul><li>Aleatória </li></ul><ul><ul><li>Com reposição </li></ul></ul><ul><ul><li>Sem reposição </li></ul></ul>Simples Sistemática Por conglomerados Estratificada Proporcional Não-aleatória Por conveniência Por auto-seleção
  9. 9. POPULAÇÃO-ALVO N = 23.400 Estratificação por tipo de escola Professores de escolas grandes N = 9.240 39,5% do total Professores de escolas médias N = 7.849 33,5% do total Professores de escolas pequenas N = 6.311 27,0% do total Amostra n = 490 39,5% de 490 194 professores de escolas grandes 33,5% de 490 164 professores de escolas médias 27,0% de 490 132 professores de escolas grandes Sorteio proporcional por tipo de escola
  10. 10. <ul><li>Por conveniência X auto-seleção (voluntários) </li></ul><ul><li>Maioria dos ensaios clínicos e estudos caso-controle </li></ul><ul><li>Muito vulneráveis a vieses de seleção </li></ul><ul><li>Problemas com generalização dos achados </li></ul>
  11. 11. <ul><li>Amostragem aleatória com reposição </li></ul><ul><li>População infinita </li></ul>
  12. 12. <ul><li>Se o tamanho mínimo da amostra representar mais de 5% do tamanho da população-alvo ou amostrada, a população é finita. </li></ul><ul><li>Quando o tamanho da população-alvo não é muito maior que o da amostra, a população é finita. </li></ul>
  13. 13. <ul><li>Amostragem aleatória com reposição </li></ul><ul><li>População infinita </li></ul><ul><li>Quando: </li></ul><ul><ul><li>amostragem é feita sem reposição e </li></ul></ul><ul><ul><li>população é finita, </li></ul></ul><ul><ul><li>O erro padrão precisa ser multiplicado por um fator de correção </li></ul></ul>
  14. 14. <ul><li>Isto porque quando uma amostra pequena é retirada aleatoriamente de uma população muito grande, a probabilidade de ser sorteado é praticamente igual para cada indivíduo </li></ul>
  15. 15. Para uma média Para uma proporção
  16. 16. <ul><li>Situação ideal: estudar toda população </li></ul><ul><li>Inviável (por vários motivos já espostos)... </li></ul><ul><li>Quantos indivíduos devo estudar? </li></ul><ul><ul><li>1? 10? 100? 1000? </li></ul></ul><ul><li>Qual o meu objetivo? </li></ul><ul><ul><li>Estimar uma média (ex: glicemia média em uma população) </li></ul></ul><ul><ul><li>Estimar uma proporção (ex: prevalência de diabete) </li></ul></ul>
  17. 17. <ul><li>Qual a média de glicemia em uma determinada capital brasileira com população = 2.600.000 habitantes? </li></ul>
  18. 18. <ul><li>Já aprendemos a calcular intervalos de confiança: </li></ul><ul><li>Em todos os casos, a amplitude do IC95% depende do tamanho da amostra </li></ul><ul><ul><li>Amostra grande IC95% pequeno </li></ul></ul><ul><ul><li>Amostra pequena IC95% grande </li></ul></ul><ul><li>Se pré-determinarmos o IC95%, podemos calcular o tamanho da amostra </li></ul>
  19. 19. <ul><ul><li>ONDE: </li></ul></ul><ul><ul><li>z = valor da distribuição normal padrão correspondente ao nível de confiança desejado </li></ul></ul><ul><ul><li>σ 2 = é a variância do parâmetro a ser estudado na população-alvo </li></ul></ul><ul><ul><li>d = margem de erro permitida </li></ul></ul>
  20. 20. <ul><li>Definido arbitrariamente </li></ul><ul><li>Exemplo: revisão da literatura mostra que outros estudos encontraram média populacional de glicemia = 90 mg/dl </li></ul><ul><li>Margem de erro = 10 mg/dl (80 a 100 mg/dl) </li></ul><ul><li>Margem de erro = 5 mg/dl (85 a 95 mg/dl) </li></ul>
  21. 21. 90 90-(1,96xEP) = 85 90+(1,96xEP) = 95
  22. 23. <ul><li>Procurar estimativas de σ na literatura; </li></ul><ul><li>Realizar estudo piloto e usar o DP obtido no estudo como estimador de σ; </li></ul><ul><li>Se a média da variável cuja média queremos estimar tem uma distribuição normal na população de onde a amostra será retirada e sabendo que a amplitude de variação de uma distribuição normal é 6σ, temos que: </li></ul><ul><ul><li>σ = Amplitude/6 </li></ul></ul>
  23. 24. <ul><li>Qual a média de glicemia em uma determinada capital brasileira com população = 2.600.000 habitantes? </li></ul><ul><li>Já sabemos: </li></ul><ul><ul><li>d = 5 mg/dl </li></ul></ul><ul><ul><li>z = 1,96 </li></ul></ul><ul><ul><li>s = 19,7 mg/dl (estudo piloto com apenas 30 indivíduos) </li></ul></ul><ul><li>Como o n mínimo amostral (60) é bem menor que o N populacional (2.600.000), a população é infinita. </li></ul>
  24. 25. <ul><li>Antecipar recusas (o n mínimo é o que você precisa ter ao final da pesquisa) </li></ul><ul><li>Amostras por conglomerados (maior semelhança entre os indivíduos resulta em menor variância) </li></ul><ul><li>n final = (n mínimo calculado) x (fator) </li></ul><ul><li>O fator é definido arbitrariamente pelo pesquisador </li></ul><ul><li>Um fator de 1,2 significa ampliar o “n” em 20% </li></ul><ul><li>No exemplo anterior: (60) x (1,2) = 70 indivíduos </li></ul>
  25. 26. <ul><li>Qual a média de glicemia em professores de primeiro e segundo graus de escolas particulares, de uma cidade de médio porte de um dos estados brasileiros (digamos N = 500) ? </li></ul><ul><li>Já sabemos: </li></ul><ul><ul><li>d = 5 mg/dl </li></ul></ul><ul><ul><li>z = 1,96 </li></ul></ul><ul><ul><li>s = 19,7 mg/dl (estudo piloto com apenas 30 indivíduos) </li></ul></ul><ul><li>Já sabemos que n = 60 </li></ul><ul><li>Como 60/500 = 0,12 = 12%, a população é finita. </li></ul>
  26. 27. <ul><li>SITUAÇÃO: População finita (n / N > 5%) </li></ul><ul><ul><li>porque: </li></ul></ul><ul><ul><li>Nestes casos o EP não será σ/√n, necessitando ser multiplicado por um fator de correção </li></ul></ul>
  27. 28. <ul><li>Qual a média de glicemia em professores de primeiro e segundo graus de escolas particulares, de uma cidade de médio porte de um dos estados brasileiros (digamos N = 500) ? </li></ul><ul><li>Já sabemos: </li></ul><ul><ul><li>d = 5 mg/dl </li></ul></ul><ul><ul><li>z = 1,96 </li></ul></ul><ul><ul><li>s = 19,7 mg/dl (estudo piloto com apenas 30 indivíduos) </li></ul></ul><ul><li>Corrigindo p/ 20% de perdas: (54) x (1,2) = 65 indivíduos </li></ul>
  28. 41. <ul><li>Qual a prevalência de diabete melito em uma determinada capital brasileira com população = 2.600.000 habitantes? </li></ul><ul><li>Revisão da literatura: </li></ul><ul><ul><li>Escore de corte: 110 mg/dl (método enzimático) </li></ul></ul><ul><ul><li>Prevalência (p) = 13% </li></ul></ul><ul><li>Ponto de partida: determinar arbitrariamente a margem de erro (d). Digamos, 3%. </li></ul>
  29. 42. 13% 10% 16%
  30. 44. <ul><ul><li>ONDE: </li></ul></ul><ul><ul><li>z = valor da distribuição normal padrão correspondente ao nível de confiança desejado </li></ul></ul><ul><ul><li>p = é a prevalência do parâmetro a ser estudado na população-alvo </li></ul></ul><ul><ul><li>q = 1 – p </li></ul></ul><ul><ul><li>d = margem de erro permitida </li></ul></ul>ou
  31. 45. <ul><li>Qual a prevalência de diabete melito em uma determinada capital brasileira com população = 2.600.000 habitantes? </li></ul><ul><li>Já sabemos: </li></ul><ul><ul><li>Prevalência (p) = 13% </li></ul></ul><ul><ul><li>q = 1-p = 87% </li></ul></ul><ul><ul><li>d = 3% </li></ul></ul><ul><li>Corrigindo p/ 20% de perdas: 478x1,2 = 574 indivíduos </li></ul>
  32. 46. <ul><li>Se não souber o valor de p, chute 0.5 (50%), que resultará num “worst-case scenario” (pois pq atinge valor máximo quando p = 0.5), superestimando o n amostral mínimo. </li></ul>
  33. 47. <ul><li>Qual a prevalência de diabete melito em professores de primeiro e segundo graus de escolas particulares, de uma cidade de médio porte de um dos estados brasileiros (digamos N = 500) ? </li></ul><ul><li>Já sabemos: </li></ul><ul><ul><li>Prevalência (p) = 13% </li></ul></ul><ul><ul><li>q = 1-p = 87% </li></ul></ul><ul><ul><li>d = 3% </li></ul></ul><ul><ul><li>n/N = 478/500 = 0,956 = 95,6% = população finita </li></ul></ul><ul><li>Corrigindo p/ 20% perdas: 247x1,2 = 297 indivíduos </li></ul>
  34. 55. Qual a prevalência de DRC estágios III e IV em SSA ? <ul><li>DRC III e IV= ClCr estimado entre 15 e 60 ml/min </li></ul><ul><li>p = preval ência de DRC na literatura </li></ul><ul><li>q = 1-p </li></ul><ul><li>d = margem de erro a ser definida </li></ul><ul><li>Z (97,5%) = 1,96 </li></ul><ul><li>N = população de SSA </li></ul><ul><li>Calcular o “n” mínimo </li></ul><ul><li>Determinar se é necessário correção para população finita </li></ul><ul><li>Inflacionar o “n” mínimo em cerca de 20% </li></ul><ul><li>Proceder amostragem aleatória representativa da população de SSA </li></ul>
  35. 56. Prvalência no estágio III = 4,3% Prevalência no estágio IV = 0,2% Somando, a prevalência estimada (p) nos estágios III e IV seria de 4,5% Annals of Internal Medicine 2003
  36. 57. Qual a prevalência de DRC estágios III e IV em SSA ? (DRC III e IV= ClCr estimado entre 15 e 60 ml/min) <ul><li>p = preval ência de DRC na literatura = 0,045 (4,5%) </li></ul><ul><li>q = 1-p = 0,955 (95,5%) </li></ul><ul><li>d = margem de erro a ser definida = 0,005 (0,5%) </li></ul><ul><li>Z (97,5%) = 1,96 </li></ul><ul><li>N = população de SSA = 2.948.733 ( http://www.ibge.gov.br/home/estatistica/populacao/estimativa2008/POP_2008_TCU.pdf ) </li></ul><ul><li>Calcular o “n” mínimo </li></ul><ul><li>População finita? </li></ul><ul><ul><li>n/N = 6603/2948733 = 0,2% </li></ul></ul><ul><li>Inflacionar o “n” mínimo calculado em 20%: 6603 x 1,2 = 7.924 </li></ul><ul><li>Proceder amostragem aleatória representativa da população de SSA </li></ul>
  37. 61. Outras perguntas sobre cálculo amostral <ul><li>Será que estas fórmulas servem para ensaios clínicos com 2 grupos diferentes onde o desfecho primário é: </li></ul><ul><ul><li>Uma comparação entre duas médias? </li></ul></ul><ul><ul><li>Uma comparação entre duas proporções? </li></ul></ul><ul><ul><li>Uma comparação entre curvas de sobrevida? </li></ul></ul><ul><li>Há ajustes necessários para estudos que propõem regressão logística multivariada? </li></ul>
  38. 62. Cálculo amostral para atingir significância estatística: ensaios clínicos <ul><li>Variáveis essenciais: </li></ul><ul><ul><li>α – tipicamente definido em 0.05 (nível de significância) </li></ul></ul><ul><ul><li>β – tipicamente definido em 0.20 (probabilidade de erro tipo II, ou seja, deixar de identificar uma diferença importante) </li></ul></ul><ul><ul><ul><li>Poder = 1- β (tipicamente definido em 0.80) </li></ul></ul></ul><ul><ul><li>∆ - diferença mínima entre as médias (ou proporções) que você quer ser capaz de identificar com significância estatística </li></ul></ul><ul><ul><ul><li>É preciso mais sujeitos para identificar pequenas diferenças ! </li></ul></ul></ul><ul><ul><li>σ – desvio padrão estimado (deve ser igual entre os grupos) </li></ul></ul><ul><ul><ul><li>Obviamente irrelevante ao compararmos 2 proporções </li></ul></ul></ul>Motulsky, H . Intuitive Bioestatistics.
  39. 63. Comparação de 2 médias <ul><li>σ – pode vir de um estudo piloto ou da literatura </li></ul><ul><li>Z α – valor crítico de z para um determinado valor de α . </li></ul><ul><li>Z β – valor crítico de z para um determinado valor de β . </li></ul><ul><li>(Z α +Z β ) 2 – “power index” </li></ul><ul><li>∆ - diferença entre as médias </li></ul>Motulsky, H . Intuitive Bioestatistics. <ul><li>IMPORTANTE: </li></ul><ul><li>O resultado “n” é o número de indivíduos em cada grupo </li></ul><ul><li>Pressuposto: DPs iguais nas 2 populações </li></ul>
  40. 64. Values of the Power Index *As the values are already squared, don´t make the mistake of squaring again! **Most commonly used power index (for a 2-sided α = 5% and 80% power). Motulsky, H . Intuitive Bioestatistics. α *Power Index = (z α +z β ) 2 β =0.01 β =0.05 β =0.10 β =0.20 β =0.50 1-sided 2-sided Power=99% Power=95% Power=90% Power=80% Power=50% 0.05 0.10 15.8 10.9 8.6 6.2 2.7 0.025 0.05 18.3 13.0 10.5 7.9** 3.8 0.005 0.01 23.9 17.8 14.9 11.7 6.6
  41. 65. Variáveis <ul><li>σ – pode vir de um estudo piloto ou da literatura = 10 mmHg </li></ul><ul><li>α – 0,05. </li></ul><ul><li>β – 0,20. </li></ul><ul><li>(Z α +Z β ) 2 – “power index” = 7,9 </li></ul><ul><li>∆ – 5 </li></ul>Motulsky, H . Intuitive Bioestatistics. Quantos pacientes EM CADA GRUPO precisamos incluir num estudo para ter 80% de poder de detectar uma diferença entre as médias de TA diastólica de 5 mmHg com p bicaudado < 0,05?
  42. 67. Comparação de 2 proporções <ul><li>p av – proporção média estimada </li></ul><ul><li>Z α – valor crítico de z para um determinado valor de α . </li></ul><ul><li>Z β – valor crítico de z para um determinado valor de β . </li></ul><ul><li>(Z α +Z β ) 2 – “power index” </li></ul><ul><li>∆ - diferença entre as propoções </li></ul>Motulsky, H . Intuitive Bioestatistics. <ul><li>Pode ser usada em: </li></ul><ul><li>Estudos de corte transversal – as proporções são as prevalências em cada grupo. </li></ul><ul><li>Estudos prospectivos e experimentais – as proporções são as taxas de incidência em cada grupo. </li></ul><ul><li>Estudos caso-controle – as proporções são as frações de casos e controles expostos ao fator de risco. </li></ul>
  43. 68. Variáveis <ul><li>α – 0,05. </li></ul><ul><li>β – 0,10. </li></ul><ul><li>p av – 0,13 (0,10+0,16/2) </li></ul><ul><li>(Z α +Z β ) 2 – “power index” = 10,5 </li></ul><ul><li>∆ – 0,06 </li></ul>Motulsky, H . Intuitive Bioestatistics. Você sabe que a incidência de hipertensão em uma população é de 10% e suspeita que seja mais elevada em uma segunda população. De quantos sujeitos você precisa EM CADA GRUPO para ter 90% de poder para detectar um aumento de 6% (para 16%) na incidência, com p bi-caudado < 0,05?
  44. 70. Variáveis <ul><li>α – 0,05. </li></ul><ul><li>β – 0,10. </li></ul><ul><li>p av – 0,15 (0,20+0,10/2) </li></ul><ul><li>(Z α +Z β ) 2 – “power index” = 10,5 </li></ul><ul><li>∆ – 0,10 </li></ul>Motulsky, H . Intuitive Bioestatistics. Você sabe que 20% dos pacientes tratados para um certo tipo de tumor morrem dentro de 3 anos. Um tratamento alternativo pode ser melhor! De quantos sujeitos você precisa EM CADA GRUPO para ter 90% de poder para detectar uma queda na mortalidade para 10%, com p bi-caudado < 0,05?
  45. 72. Limitações do cálculo amostral <ul><li>As equações se baseiam em pressupostos e definições um tanto arbitrárias ( α , β , σ , ∆ ). O resultado deve ser encarado como uma estimativa e não um valor preciso. </li></ul><ul><li>O “n” mínimo calculado pela equações é o que você vai precisar ao final do estudo. É prudente inflacionar o “n” (fator de correção) para antecipar perdas. </li></ul><ul><li>O cálculo amostral é feito assumindo que você vai medir e analisar um único desfecho (desfecho primário). </li></ul><ul><li>O cálculo amostral deveria ser feito baseado em valores pré-determinados de α , β , ∆ . Só que muitas vezes, esses valores resultam num “n” muito grande... O pesquisador vai então alterando estes valores até chegar num valor de “n” “razoável”. </li></ul>

×