Princípios de Estatística Inferencial - II

18,398 views

Published on

Published in: Education
0 Comments
11 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
18,398
On SlideShare
0
From Embeds
0
Number of Embeds
86
Actions
Shares
0
Downloads
0
Comments
0
Likes
11
Embeds 0
No embeds

No notes for slide
  • Incompleta Não precisamos de tabelas... O computador tem tabelas completas!!!
  • É UMA DISTRIBUIÇÃO DE MÉDIAS AMOSTRAIS QUE É UTILIZADA NA INFERÊNCIA ESTATÍSTICA SOBRE MÉDIAS.
  • EP x = √s x 2 = √ σ 2 /n = σ / √n EP (x 1 –x 2 ) = √( σ 1 2 /n 1 + √ σ 2 2 /n 2 )
  • Desvio-padrão: quanto, em média, as diferenças se desviaram da média das diferenças, na ÚNICA amostra estudada Erro-padrão: o quanto, em média, as diferenças se desviariam da média das diferenças médias, caso tivéssemos realizado numerosos estudos
  • Condições: Número de indivíduos estudados (n) Probabilidade de ocorrência do evento de interesse na amostra estudada (p)
  • Cálculo de correção para continuidade: área entre x-(1 / 2) e x+(1 / 2)
  • X=np
  • FE ou Freqüência esperada = (Total da linha x total da coluna)/Total geral Graus de liberdade = (r-1).(s-1), onde r=no. de linhas e s=no. de colunas
  • Página 279
  • Obtidas essas combinações, calculamos a probabilidade de encontrarmos cada uma delas Somamos as probabilidades de obtermos combinações tão ou mais extremas do que aquela encontrada no nosso estudo
  • Obtidas essas combinações, calculamos a probabilidade de encontrarmos cada uma delas Somamos as probabilidades de obtermos combinações tão ou mais extremas do que aquela encontrada no nosso estudo
  • Obtidas essas combinações, calculamos a probabilidade de encontrarmos cada uma delas Somamos as probabilidades de obtermos combinações tão ou mais extremas do que aquela encontrada no nosso estudo
  • Obtidas essas combinações, calculamos a probabilidade de encontrarmos cada uma delas Somamos as probabilidades de obtermos combinações tão ou mais extremas do que aquela encontrada no nosso estudo
  • Valores diferentes sugerem que a distribuição hipergeométrica não é simétrica
  • Obtidas essas combinações, calculamos a probabilidade de encontrarmos cada uma delas Somamos as probabilidades de obtermos combinações tão ou mais extremas do que aquela encontrada no nosso estudo
  • Princípios de Estatística Inferencial - II

    1. 1. Noções Básicas de Inferência Estatística - II Paulo Novis Rocha Nefrologista Professor Adjunto do Depto. Medicina FMB-UFBA Professor Colaborador do PPgCS
    2. 2. Na aula passada... <ul><li>Distribuições de freqüências reais </li></ul><ul><li>Distribuição normal: curva teórica para população infinita </li></ul><ul><ul><li>Área entre 2 pontos = probabilidade </li></ul></ul><ul><li>Distribuição normal padrão </li></ul><ul><ul><li>Média = 0, DP = EP = 1 </li></ul></ul><ul><ul><li>Todas as áreas entre 2 pontos já calculadas (Tabela Z) </li></ul></ul><ul><li>Inferência estatística, erro padrão </li></ul><ul><li>Teste de hipóteses </li></ul><ul><ul><li>Alfa, hipóteses, cálculo de z, valor-p, comparar p com alfa </li></ul></ul><ul><ul><li>Erro tipo I (alfa), tipo II (beta), poder (1-beta) </li></ul></ul><ul><li>Intervalo de confiança para 1 média </li></ul><ul><li>Determinantes da significância estatística </li></ul><ul><ul><li>Magnitude da diferença entre as médias, DP, tamanho da amostra </li></ul></ul>
    3. 3. Fórmulas importantes
    4. 4. Inferência Estatística sobre 1 Média Teste z Teste t
    5. 5. Utilização do teste z <ul><li>Objetivo: inferência estatística sobre uma média </li></ul><ul><li>Pressupostos: </li></ul><ul><ul><li>Distribuição populacional normal da variável testada </li></ul></ul><ul><ul><li>n grande (  30) </li></ul></ul><ul><ul><li>Desvio-padrão populacional, σ , conhecido </li></ul></ul>
    6. 6. Utilização do teste t <ul><li>Objetivo: inferência estatística sobre uma média </li></ul><ul><li>Pressupostos: </li></ul><ul><ul><li>Distribuição populacional normal da variável testada </li></ul></ul><ul><ul><li>n pequeno </li></ul></ul><ul><ul><ul><li>Se o n for grande, pode-se aplicar o teste z ou t </li></ul></ul></ul><ul><ul><li>Desvio-padrão populacional, σ , desconhecido </li></ul></ul><ul><ul><ul><li>Será substituído pelo DP amostral, s </li></ul></ul></ul>
    7. 7. Distribuições Z e T Distribuição T: ápice menos pontiagudo e caudas mais largas
    8. 8. Distribuição T x Distribuição Z <ul><li>SEMELHANÇAS </li></ul><ul><li>Simétrica em torno de zero </li></ul><ul><li>Varia de -∞ a +∞ </li></ul><ul><li>DIFERENÇAS </li></ul><ul><li>Variância > 1 </li></ul><ul><ul><li>Aproxima-se de 1 com aumento no n </li></ul></ul><ul><li>Uma distribuição T para cada tamanho de amostra </li></ul><ul><ul><li>Graus de liberdade ( n – 1) </li></ul></ul>Gosset WS 1908
    9. 9. Distribuições T para alguns tamanhos de amostra: n = 31, n = 6, n = 3 T Distribuição T ≈ Z quando (n-1) se aproxima de infinito. Graus de liberdade = 30 Graus de liberdade = 5 Graus de liberdade = 2
    10. 10. Teste de Hipóteses
    11. 11. Tabela T <ul><li>Relembrando: tabela Z contém valores das áreas sob a curva Z </li></ul><ul><li>Como existem várias curvas T (a depender do tamanho da amostra), há uma tabela de probabilidades sob a curva para cada uma... </li></ul><ul><li>Saída: confecção de tabela T contendo os valores críticos de T (e não as probabilidades sob a curva) para cada tamanho de amostra e níveis de significância estatística mais comumente utilizados. </li></ul>
    12. 14. Os programas de computador possuem tabelas completas! Também são capazes de fornecer o valor- p para o teste t
    13. 15. Teorema central do limite <ul><li>Mesmo quando a distribuição da variável estudada na população não tiver distribuição normal, se o n for grande , a distribuição das médias amostrais vai apresentar uma distribuição normal </li></ul><ul><ul><li>DP populacional conhecido = teste z </li></ul></ul><ul><ul><li>DP populacional desconhecido = teste t </li></ul></ul>
    14. 16. Se a distribuição da variável na população estudada não for normal e o n for pequeno.... não podemos assumir que a distribuição das médias amostrais seja normal. Solução: TESTES ESTATÍSTICOS NÃO-PARAMÉTRICOS
    15. 18. EXEMPLOS NO SPSS
    16. 19. Até o momento, só aprendemos inferência estatística sobre UMA média. O mais comum em estudos clínicos é fazermos inferência estatística sobre DUAS ou MAIS médias
    17. 20. Inferência Estatística sobre 2 Médias Teste z Teste t de Student Teste t’
    18. 21. Inferência sobre 2 médias <ul><li>Comparação de duas médias: </li></ul><ul><ul><li>Na verdade, compara-se as diferenças entre as duas médias </li></ul></ul><ul><li>Definição das hipóteses: </li></ul><ul><ul><li>H 0 : µ 1 - µ 2 = 0 ou H 0 : µ 1 = µ 2 </li></ul></ul><ul><ul><li>H A : µ 1 - µ 2 ≠ 0 ou H 0 : µ 1 ≠ µ 2 </li></ul></ul>
    19. 22. Distribuição Normal a ser utilizada ƒ( x ) Diferença entre médias INFERÊNCIA SOBRE UMA MÉDIA INFERÊNCIA SOBRE DUAS MÉDIAS µ 0 0 ƒ( x ) média
    20. 23. Pressupostos a serem considerados para escolha do teste: z, t ou t’ ? <ul><li>Os grupos comparados são independentes ? </li></ul><ul><ul><li>Se não forem, teste t para amostras emparelhadas </li></ul></ul><ul><li>A distribuição da variável testada é normal em cada grupo da população-alvo ? </li></ul><ul><ul><li>Se não for, atentar para o tamanho da amostra </li></ul></ul><ul><li>Os tamanhos das amostras investigadas são suficientemente grandes ? </li></ul><ul><ul><li>Distribuição não normal e “n” pequeno: teste não paramétrico </li></ul></ul><ul><li>Os desvios-padrão populacionais da variável testada são conhecidos para cada grupo ? </li></ul><ul><ul><li>Se forem, usar teste z (salvo em caso de distribuição não normal e n pequeno) </li></ul></ul><ul><li>Esses desvios-padrão são iguais ? </li></ul><ul><ul><li>Se forem, teste z ou t </li></ul></ul><ul><ul><li>Se não forem, teste z ou t’ </li></ul></ul>
    21. 24. Os desvios-padrão são iguais ? <ul><li>Variâncias iguais = homocedasticidade </li></ul><ul><ul><li>Teste t de Student </li></ul></ul><ul><li>Variâncias desiguais = heterocedasticidade </li></ul><ul><ul><li>Teste t’ (ou t de Welch) </li></ul></ul>
    22. 25. Teste de razão das variâncias <ul><li>α = 0,05 </li></ul><ul><li>H 0 : σ 1 2 = σ 2 2 e H A : σ 1 2 ≠ σ 2 2 </li></ul><ul><li>Cálculo do valor de F </li></ul><ul><li>Obtenção na tabela F, do valor crítico de F para um α = 0,05 e graus de liberdade do numerador e denominador </li></ul><ul><li>Comparação do valor observado de F ao valor crítico de F </li></ul>
    23. 26. Página 230
    24. 27. Inferência Estatística: 2 médias
    25. 28. The t test is also know as the Student’s t test. “It was developed by the statistician William Gosset who was employed as a quality control supervisor at the Guinness Brewery in Dublin, and who wrote under the pseudonym of Student, presumably because no one who knew his occupation would take him seriously” Norman & Streiner. PDQ Statistics. 1986.
    26. 29. Problema de Behrens–Fischer <ul><li>Como t’ não segue uma distribuição T , podem se fazer as seguintes aproximações para obtenção do valor crítico de t’ : </li></ul><ul><ul><li>Cochran </li></ul></ul><ul><ul><li>Satterwaite </li></ul></ul>
    27. 30. Amostras Dependentes Teste t para amostras emparelhadas ( paired t test )
    28. 31. Amostras Dependentes (emparelhadas) <ul><li>Ex.: Quaisquer medias antes x depois do tratamento </li></ul><ul><ul><li>TA, glicemia, colesterol, peso, etc... </li></ul></ul><ul><li>Teste t para amostras emparelhadas (paired-sample t test) </li></ul><ul><li>Basicamente: em vez de comparar a média do grupo 1 com a média do grupo 2, o teste foca nas médias das diferenças “antes-depois” (nova variável a ser testada, d) </li></ul>
    29. 32. EXEMPLOS NO SPSS
    30. 33. Inferência Estatística sobre Proporções Para uma ou duas proporções Teste z Teste do qui-quadrado Teste de Fisher
    31. 34. Inferência estatísticas sobre proporções <ul><li>Teoricamente, deveríamos utilizar a distribuição binomial (e não a normal) </li></ul><ul><li>Método pouco utilizado </li></ul><ul><li>Garantidas certas condições, a distribuição normal poderá ser utilizada como aproximação válida da distribuição binomial </li></ul><ul><li>Nestes casos, pode-se utilizar o teste z </li></ul>
    32. 35. Condições para utilização da distribuição normal como aproximação da binomial <ul><li>Número grande de indivíduos estudados </li></ul><ul><li>Probabilidade intermediária (nem muito grande nem muito pequena; ex: 0,40) de ocorrência do evento </li></ul><ul><li>Correção para continuidade </li></ul><ul><ul><li>Desnecessária se o n for suficientemente grande </li></ul></ul><ul><li>Quando o tamanho da amostra é suficientemente grande ? </li></ul><ul><ul><li>npq  5 [ n = tamanho da amostra; p =proporção esperada do evento na população; q = (1- p )] </li></ul></ul>
    33. 36. Teste z para comparar proporções <ul><li>1 PROPORÇÃO </li></ul><ul><li>2 PROPORÇÕES </li></ul>
    34. 37. Teste do qui-quadrado <ul><li>Aplicação mais comum: verificar se duas variáveis são independentes ou não </li></ul><ul><ul><li>H0: as variáveis são independentes </li></ul></ul><ul><ul><li>HA: as variáveis não são independentes </li></ul></ul><ul><li>Utiliza freqüências absolutas (em vez de proporções) </li></ul><ul><li>Ponto de partida é a elaboração de uma tabela de contingência </li></ul><ul><li>Comparar as freqüências observadas às esperadas se os eventos fossem independentes </li></ul><ul><li>P = no de eventos ocorridos /n o total de eventos </li></ul><ul><li>Se evento A e B são independentes, a probabilidade de ocorrerem simultaneamente é P(A) x P(B) </li></ul>
    35. 38. P (morar perto) x P (estar intoxicada) = (112 /250) x (176/250) = 0,315 N esperado de intoxicados na área próxima = 0,315 x 250 = 78,85 Domicílio Intoxicação por chumbo Total Sim Não Perto 90 (78,85) 22 112 Longe 86 52 138 Total 176 74 250
    36. 39. O = n o observado em cada célula E = n o esperado em cada célula i = varia entre 1 (primeira célula) e k (última célula) Domicílio Intoxicação por chumbo Total Sim Não Perto 90 (78,85) 22 (33,15) 112 Longe 86 (97,15) 52 (40,85) 138 Total 176 74 250
    37. 40. Domicílio Intoxicação por chumbo Total Sim Não Perto 90 (78,85) 22 (33,15) 112 Longe 86 (97,15) 52 (40,85) 138 Total 176 74 250
    38. 41. Distribuição Qui-quadrado <ul><li>Quando há apenas 1 grau de liberdade, ao elevarmos ao quadrado cada valor da distribuição normal, os valores de Z 2 obtidos ao estudarmos numerosas amostras distribuem-se segundo uma distribuição qui-quadrado </li></ul><ul><li>Assim como a distribuição T, a distribuição qui-quadrado é uma família de distribuições. O formato depende do número de graus de liberdade. </li></ul>
    39. 42. Distribuição Qui-quadrado
    40. 43. Tabelas de contingência <ul><li>Nas 2x2, existe apenas 1 grau de liberdade </li></ul><ul><li>v = (l-1)(c-1) , onde </li></ul><ul><ul><li>v = graus de liberdade </li></ul></ul><ul><ul><li>l = número de categorias da variável nas linhas </li></ul></ul><ul><ul><li>c = número de categorias da variável nas colunas </li></ul></ul>
    41. 44. Cálculo do qui-quadrado <ul><li>Quando há apenas 1 grau de liberdade, os valores de X 2 não assumem todos os valores possíveis para garantir sua representação por uma distribuição contínua </li></ul><ul><li>Solução: correção de continuidade de Yates: </li></ul>
    42. 46. Interpretação do teste
    43. 47. Condições para aplicação do X 2 Não usar o qui-quadrado se: <ul><li>Tabelas com 1 grau de liberdade </li></ul><ul><ul><li>n < 20 </li></ul></ul><ul><ul><li>20 <n< 40 e qualquer das freqüências esperadas for < 5 </li></ul></ul><ul><ul><li>n  40 e mais de uma freqüência esperada = 1 </li></ul></ul><ul><ul><li>ALTERNATIVA: teste exato de Fisher </li></ul></ul><ul><li>Tabelas com > 1 grau de liberdade </li></ul><ul><ul><li>> 20% das células tiverem freqüências esperadas < 5 </li></ul></ul><ul><ul><li>ALTERNATIVA: aumentar o n ou aglutinar categorias </li></ul></ul>WG Cochran
    44. 48. Teste exato de Fisher <ul><li>Proposto na década de 30, quase simultaneamente por: </li></ul><ul><ul><li>Fisher RA, 1934 </li></ul></ul><ul><ul><li>Yates F, 1934 </li></ul></ul><ul><ul><li>Irwin JO, 1935 </li></ul></ul><ul><li>Serve como uma alternativa ao qui-quadrado quando temos números pequenos </li></ul>
    45. 49. <ul><li>Tabelas com 1 grau de liberdade: não usar o qui-quadrado se, </li></ul><ul><ul><li>n < 20 </li></ul></ul><ul><ul><li>20 <n< 40 e qualquer das frequencias esperadas for < 5 </li></ul></ul><ul><ul><li>n  40 e mais de uma freqüência esperada = 1 </li></ul></ul><ul><ul><li>ALTERNATIVA: teste exato de Fisher </li></ul></ul>Domicílio Intoxicação por chumbo Total Sim Não Perto 10 (7,88) 2 (4,13) 12 Longe 11 (13,13) 9 (6,88) 20 Total 21 11 32
    46. 50. Teste de Fisher: 1 o passo Quais e quantas combinações são possíveis para a distribuição das 32 crianças na tabela, mantidos fixos os totais marginais (21, 11, 12, 20) ? Domicílio Intoxicação por chumbo Total Sim Não Perto a ? b ? 12 Longe c ? d ? 20 Total 21 11 32
    47. 51. Distribuição utilizada <ul><li>Hipergeométrica (≠ de Z , T , F ou X 2 ) </li></ul><ul><ul><li>Não é simétrica </li></ul></ul><ul><li>A distribuição é obtida com o cálculo das probabilidades exatas para cada uma das combinações específicas </li></ul><ul><li>Ao definirmos a , automaticamente ficam estabelecidos os valores de b , d , e . </li></ul>
    48. 52. Teste de Fisher: 1 o passo Domicílio Intoxicação por chumbo Total Sim Não Perto a b a+b Longe c d c+d Total a+c b+d a+b+c+d
    49. 53. Teste de Fisher: 1 o passo Subtrair 1 da freqüência mais baixa e recalcular. Continuar procedimento até que uma freqüência seja ZERO. Adicionar 1 à freqüência mais baixa e recalcular. Continuar procedimento até que uma freqüência seja ZERO. Domicílio Intoxicação por chumbo Total Sim Não Perto a = 10 b = 2 a+b = 12 Longe c = 11 d = 9 c+d = 20 Total a+c = 21 b+d = 11 a+b+c+d = 32
    50. 54. Teste de Fisher: 2 o passo Domicílio Intoxicação por chumbo Total Sim Não Perto a = 11 b = 1 a+b = 12 Longe c = 10 d = 10 c+d = 20 Total a+c = 21 b+d = 11 a+b+c+d = 32 Domicílio Intoxicação por chumbo Total Sim Não Perto a = 12 b = 0 a+b = 12 Longe c = 9 d = 11 c+d = 20 Total a+c = 21 b+d = 11 a+b+c+d = 32
    51. 55. Valor-p em uma cauda = 0,0859+0,0172+0,0013=0,1044 Valor-p outra cauda = 0,0297+0,0044+0,0003+0,00001+0,00000009+0,0859=0,1203 Valor-p bicaudado = (0,1044+0,1203)-0,0859 = 0,1388
    52. 56. Teste de Fisher <ul><li>Probabilidade observada: 0,0859 </li></ul><ul><li>Probabilidade de combinações mais extremas: </li></ul><ul><ul><li>Uma cauda: Subtrair 1 da freqüência mais baixa e recalcular. Continuar procedimento até que uma freqüência seja ZERO. Valor-p é dado pela soma da p observada com as p mais extremas. </li></ul></ul><ul><ul><li>Outra cauda: Adicionar 1 à freqüência mais baixa e recalcular. Continuar procedimento até que uma freqüência seja ZERO. Valor-p é dado pela soma da p observada com as p mais extremas. </li></ul></ul><ul><ul><li>Valor-p bi-caudado: </li></ul></ul><ul><ul><ul><li>(soma das probabilidades extremas) – probabilidade observada </li></ul></ul></ul>
    53. 57. EXEMPLOS NO SPSS

    ×