• Save
Amostragem
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
3,122
On Slideshare
3,119
From Embeds
3
Number of Embeds
1

Actions

Shares
Downloads
0
Comments
0
Likes
3

Embeds 3

http://www.slideshare.net 3

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Paulo Novis Rocha Nefrologista Professor Adjunto do Depto. Medicina FMB-UFBA Professor Colaborador do PPgCS Coordenador da Disciplina de Bioestatística
  • 2.
    • 1. Definir a população de interesse
    • 2. Selecionar uma amostra da população
    • 3. Coleta de dados
    • 4. Estatística descritiva
    • 5. Estatística inferencial
  • 3. POPULAÇÃO: Ideal! AMOSTRA: Viável! Todo pesquisador quer estudar apenas uma AMOSTRA, mas obter resultados generalizáveis para toda a POPULAÇÃO
  • 4. Identificação da POPULAÇÃO adequada Método adequado de escolha dos indivíduos a serem estudados (AMOSTRAGEM) Seleção de um número adequado de indivíduos (TAMANHO da amostra)
  • 5.
    • População amostrada: da qual tiramos uma amostra
    • População alvo: para a qual queremos generalizar os resultados
    • IMPORTANTE: os testes estatísticos permitem generalização apenas da amostra para a população amostrada!!!
  • 6. POPULAÇÃO ALVO: TODOS OS HIPERTENSOS DO BRASIL POPULAÇÃO AMOSTRADA: HIPERTENSOS DO SEU AMBULATÓRIO AMOSTRA Uma amostra feita na Bahia, será representativa à nível de Brasil?
  • 7. Neto, AMS 2008. Bioestatística Sem Segredos POPULAÇÃO-ALVO População para a qual se deseja generalizar os resultados POPULAÇÃO AMOSTRADA População da qual retiramos a amostra AMOSTRA Indivíduos selecionados para o estudo AMOSTRAGEM Processo pelo qual a amostra é selecionada
  • 8. Neto, AMS 2008. Bioestatística Sem Segredos TIPOS DE AMOSTRAGEM
    • Aleatória
      • Com reposição
      • Sem reposição
    Simples Sistemática Por conglomerados Estratificada Proporcional Não-aleatória Por conveniência Por auto-seleção
  • 9. POPULAÇÃO-ALVO N = 23.400 Estratificação por tipo de escola Professores de escolas grandes N = 9.240 39,5% do total Professores de escolas médias N = 7.849 33,5% do total Professores de escolas pequenas N = 6.311 27,0% do total Amostra n = 490 39,5% de 490 194 professores de escolas grandes 33,5% de 490 164 professores de escolas médias 27,0% de 490 132 professores de escolas grandes Sorteio proporcional por tipo de escola
  • 10.
    • Por conveniência X auto-seleção (voluntários)
    • Maioria dos ensaios clínicos e estudos caso-controle
    • Muito vulneráveis a vieses de seleção
    • Problemas com generalização dos achados
  • 11.
    • Amostragem aleatória com reposição
    • População infinita
  • 12.
    • Se o tamanho mínimo da amostra representar mais de 5% do tamanho da população-alvo ou amostrada, a população é finita.
    • Quando o tamanho da população-alvo não é muito maior que o da amostra, a população é finita.
  • 13.
    • Amostragem aleatória com reposição
    • População infinita
    • Quando:
      • amostragem é feita sem reposição e
      • população é finita,
      • O erro padrão precisa ser multiplicado por um fator de correção
  • 14.
    • Isto porque quando uma amostra pequena é retirada aleatoriamente de uma população muito grande, a probabilidade de ser sorteado é praticamente igual para cada indivíduo
  • 15. Para uma média Para uma proporção
  • 16.
    • Situação ideal: estudar toda população
    • Inviável (por vários motivos já espostos)...
    • Quantos indivíduos devo estudar?
      • 1? 10? 100? 1000?
    • Qual o meu objetivo?
      • Estimar uma média (ex: glicemia média em uma população)
      • Estimar uma proporção (ex: prevalência de diabete)
  • 17.
    • Qual a média de glicemia em uma determinada capital brasileira com população = 2.600.000 habitantes?
  • 18.
    • Já aprendemos a calcular intervalos de confiança:
    • Em todos os casos, a amplitude do IC95% depende do tamanho da amostra
      • Amostra grande IC95% pequeno
      • Amostra pequena IC95% grande
    • Se pré-determinarmos o IC95%, podemos calcular o tamanho da amostra
  • 19.
      • ONDE:
      • z = valor da distribuição normal padrão correspondente ao nível de confiança desejado
      • σ 2 = é a variância do parâmetro a ser estudado na população-alvo
      • d = margem de erro permitida
  • 20.
    • Definido arbitrariamente
    • Exemplo: revisão da literatura mostra que outros estudos encontraram média populacional de glicemia = 90 mg/dl
    • Margem de erro = 10 mg/dl (80 a 100 mg/dl)
    • Margem de erro = 5 mg/dl (85 a 95 mg/dl)
  • 21. 90 90-(1,96xEP) = 85 90+(1,96xEP) = 95
  • 22.  
  • 23.
    • Procurar estimativas de σ na literatura;
    • Realizar estudo piloto e usar o DP obtido no estudo como estimador de σ;
    • Se a média da variável cuja média queremos estimar tem uma distribuição normal na população de onde a amostra será retirada e sabendo que a amplitude de variação de uma distribuição normal é 6σ, temos que:
      • σ = Amplitude/6
  • 24.
    • Qual a média de glicemia em uma determinada capital brasileira com população = 2.600.000 habitantes?
    • Já sabemos:
      • d = 5 mg/dl
      • z = 1,96
      • s = 19,7 mg/dl (estudo piloto com apenas 30 indivíduos)
    • Como o n mínimo amostral (60) é bem menor que o N populacional (2.600.000), a população é infinita.
  • 25.
    • Antecipar recusas (o n mínimo é o que você precisa ter ao final da pesquisa)
    • Amostras por conglomerados (maior semelhança entre os indivíduos resulta em menor variância)
    • n final = (n mínimo calculado) x (fator)
    • O fator é definido arbitrariamente pelo pesquisador
    • Um fator de 1,2 significa ampliar o “n” em 20%
    • No exemplo anterior: (60) x (1,2) = 70 indivíduos
  • 26.
    • Qual a média de glicemia em professores de primeiro e segundo graus de escolas particulares, de uma cidade de médio porte de um dos estados brasileiros (digamos N = 500) ?
    • Já sabemos:
      • d = 5 mg/dl
      • z = 1,96
      • s = 19,7 mg/dl (estudo piloto com apenas 30 indivíduos)
    • Já sabemos que n = 60
    • Como 60/500 = 0,12 = 12%, a população é finita.
  • 27.
    • SITUAÇÃO: População finita (n / N > 5%)
      • porque:
      • Nestes casos o EP não será σ/√n, necessitando ser multiplicado por um fator de correção
  • 28.
    • Qual a média de glicemia em professores de primeiro e segundo graus de escolas particulares, de uma cidade de médio porte de um dos estados brasileiros (digamos N = 500) ?
    • Já sabemos:
      • d = 5 mg/dl
      • z = 1,96
      • s = 19,7 mg/dl (estudo piloto com apenas 30 indivíduos)
    • Corrigindo p/ 20% de perdas: (54) x (1,2) = 65 indivíduos
  • 29.  
  • 30.  
  • 31.  
  • 32.  
  • 33.  
  • 34.  
  • 35.  
  • 36.  
  • 37.  
  • 38.  
  • 39.  
  • 40.  
  • 41.
    • Qual a prevalência de diabete melito em uma determinada capital brasileira com população = 2.600.000 habitantes?
    • Revisão da literatura:
      • Escore de corte: 110 mg/dl (método enzimático)
      • Prevalência (p) = 13%
    • Ponto de partida: determinar arbitrariamente a margem de erro (d). Digamos, 3%.
  • 42. 13% 10% 16%
  • 43.  
  • 44.
      • ONDE:
      • z = valor da distribuição normal padrão correspondente ao nível de confiança desejado
      • p = é a prevalência do parâmetro a ser estudado na população-alvo
      • q = 1 – p
      • d = margem de erro permitida
    ou
  • 45.
    • Qual a prevalência de diabete melito em uma determinada capital brasileira com população = 2.600.000 habitantes?
    • Já sabemos:
      • Prevalência (p) = 13%
      • q = 1-p = 87%
      • d = 3%
    • Corrigindo p/ 20% de perdas: 478x1,2 = 574 indivíduos
  • 46.
    • Se não souber o valor de p, chute 0.5 (50%), que resultará num “worst-case scenario” (pois pq atinge valor máximo quando p = 0.5), superestimando o n amostral mínimo.
  • 47.
    • Qual a prevalência de diabete melito em professores de primeiro e segundo graus de escolas particulares, de uma cidade de médio porte de um dos estados brasileiros (digamos N = 500) ?
    • Já sabemos:
      • Prevalência (p) = 13%
      • q = 1-p = 87%
      • d = 3%
      • n/N = 478/500 = 0,956 = 95,6% = população finita
    • Corrigindo p/ 20% perdas: 247x1,2 = 297 indivíduos
  • 48.  
  • 49.  
  • 50.  
  • 51.  
  • 52.  
  • 53.  
  • 54.  
  • 55. Qual a prevalência de DRC estágios III e IV em SSA ?
    • DRC III e IV= ClCr estimado entre 15 e 60 ml/min
    • p = preval ência de DRC na literatura
    • q = 1-p
    • d = margem de erro a ser definida
    • Z (97,5%) = 1,96
    • N = população de SSA
    • Calcular o “n” mínimo
    • Determinar se é necessário correção para população finita
    • Inflacionar o “n” mínimo em cerca de 20%
    • Proceder amostragem aleatória representativa da população de SSA
  • 56. Prvalência no estágio III = 4,3% Prevalência no estágio IV = 0,2% Somando, a prevalência estimada (p) nos estágios III e IV seria de 4,5% Annals of Internal Medicine 2003
  • 57. Qual a prevalência de DRC estágios III e IV em SSA ? (DRC III e IV= ClCr estimado entre 15 e 60 ml/min)
    • p = preval ência de DRC na literatura = 0,045 (4,5%)
    • q = 1-p = 0,955 (95,5%)
    • d = margem de erro a ser definida = 0,005 (0,5%)
    • Z (97,5%) = 1,96
    • N = população de SSA = 2.948.733 ( http://www.ibge.gov.br/home/estatistica/populacao/estimativa2008/POP_2008_TCU.pdf )
    • Calcular o “n” mínimo
    • População finita?
      • n/N = 6603/2948733 = 0,2%
    • Inflacionar o “n” mínimo calculado em 20%: 6603 x 1,2 = 7.924
    • Proceder amostragem aleatória representativa da população de SSA
  • 58.  
  • 59.  
  • 60.  
  • 61. Outras perguntas sobre cálculo amostral
    • Será que estas fórmulas servem para ensaios clínicos com 2 grupos diferentes onde o desfecho primário é:
      • Uma comparação entre duas médias?
      • Uma comparação entre duas proporções?
      • Uma comparação entre curvas de sobrevida?
    • Há ajustes necessários para estudos que propõem regressão logística multivariada?
  • 62. Cálculo amostral para atingir significância estatística: ensaios clínicos
    • Variáveis essenciais:
      • α – tipicamente definido em 0.05 (nível de significância)
      • β – tipicamente definido em 0.20 (probabilidade de erro tipo II, ou seja, deixar de identificar uma diferença importante)
        • Poder = 1- β (tipicamente definido em 0.80)
      • ∆ - diferença mínima entre as médias (ou proporções) que você quer ser capaz de identificar com significância estatística
        • É preciso mais sujeitos para identificar pequenas diferenças !
      • σ – desvio padrão estimado (deve ser igual entre os grupos)
        • Obviamente irrelevante ao compararmos 2 proporções
    Motulsky, H . Intuitive Bioestatistics.
  • 63. Comparação de 2 médias
    • σ – pode vir de um estudo piloto ou da literatura
    • Z α – valor crítico de z para um determinado valor de α .
    • Z β – valor crítico de z para um determinado valor de β .
    • (Z α +Z β ) 2 – “power index”
    • ∆ - diferença entre as médias
    Motulsky, H . Intuitive Bioestatistics.
    • IMPORTANTE:
    • O resultado “n” é o número de indivíduos em cada grupo
    • Pressuposto: DPs iguais nas 2 populações
  • 64. Values of the Power Index *As the values are already squared, don´t make the mistake of squaring again! **Most commonly used power index (for a 2-sided α = 5% and 80% power). Motulsky, H . Intuitive Bioestatistics. α *Power Index = (z α +z β ) 2 β =0.01 β =0.05 β =0.10 β =0.20 β =0.50 1-sided 2-sided Power=99% Power=95% Power=90% Power=80% Power=50% 0.05 0.10 15.8 10.9 8.6 6.2 2.7 0.025 0.05 18.3 13.0 10.5 7.9** 3.8 0.005 0.01 23.9 17.8 14.9 11.7 6.6
  • 65. Variáveis
    • σ – pode vir de um estudo piloto ou da literatura = 10 mmHg
    • α – 0,05.
    • β – 0,20.
    • (Z α +Z β ) 2 – “power index” = 7,9
    • ∆ – 5
    Motulsky, H . Intuitive Bioestatistics. Quantos pacientes EM CADA GRUPO precisamos incluir num estudo para ter 80% de poder de detectar uma diferença entre as médias de TA diastólica de 5 mmHg com p bicaudado < 0,05?
  • 66.  
  • 67. Comparação de 2 proporções
    • p av – proporção média estimada
    • Z α – valor crítico de z para um determinado valor de α .
    • Z β – valor crítico de z para um determinado valor de β .
    • (Z α +Z β ) 2 – “power index”
    • ∆ - diferença entre as propoções
    Motulsky, H . Intuitive Bioestatistics.
    • Pode ser usada em:
    • Estudos de corte transversal – as proporções são as prevalências em cada grupo.
    • Estudos prospectivos e experimentais – as proporções são as taxas de incidência em cada grupo.
    • Estudos caso-controle – as proporções são as frações de casos e controles expostos ao fator de risco.
  • 68. Variáveis
    • α – 0,05.
    • β – 0,10.
    • p av – 0,13 (0,10+0,16/2)
    • (Z α +Z β ) 2 – “power index” = 10,5
    • ∆ – 0,06
    Motulsky, H . Intuitive Bioestatistics. Você sabe que a incidência de hipertensão em uma população é de 10% e suspeita que seja mais elevada em uma segunda população. De quantos sujeitos você precisa EM CADA GRUPO para ter 90% de poder para detectar um aumento de 6% (para 16%) na incidência, com p bi-caudado < 0,05?
  • 69.  
  • 70. Variáveis
    • α – 0,05.
    • β – 0,10.
    • p av – 0,15 (0,20+0,10/2)
    • (Z α +Z β ) 2 – “power index” = 10,5
    • ∆ – 0,10
    Motulsky, H . Intuitive Bioestatistics. Você sabe que 20% dos pacientes tratados para um certo tipo de tumor morrem dentro de 3 anos. Um tratamento alternativo pode ser melhor! De quantos sujeitos você precisa EM CADA GRUPO para ter 90% de poder para detectar uma queda na mortalidade para 10%, com p bi-caudado < 0,05?
  • 71.  
  • 72. Limitações do cálculo amostral
    • As equações se baseiam em pressupostos e definições um tanto arbitrárias ( α , β , σ , ∆ ). O resultado deve ser encarado como uma estimativa e não um valor preciso.
    • O “n” mínimo calculado pela equações é o que você vai precisar ao final do estudo. É prudente inflacionar o “n” (fator de correção) para antecipar perdas.
    • O cálculo amostral é feito assumindo que você vai medir e analisar um único desfecho (desfecho primário).
    • O cálculo amostral deveria ser feito baseado em valores pré-determinados de α , β , ∆ . Só que muitas vezes, esses valores resultam num “n” muito grande... O pesquisador vai então alterando estes valores até chegar num valor de “n” “razoável”.