Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Princípios de Estatística Inferencial - I

21,167 views

Published on

Published in: Education

Princípios de Estatística Inferencial - I

  1. 1. <ul><li>Classificação de variáveis </li></ul><ul><li>Estatística descritiva </li></ul><ul><ul><li>Medidas de tendência central </li></ul></ul><ul><ul><ul><li>Moda, Média, Mediana </li></ul></ul></ul><ul><ul><li>Medidas de posição </li></ul></ul><ul><ul><ul><li>Média, mediana, porcentis </li></ul></ul></ul><ul><li>Medidas de dispersão </li></ul><ul><ul><li>Amplitude, Desvio-médio, Variância, DP, CV </li></ul></ul><ul><li>Medidas de Forma </li></ul><ul><ul><li>Assimetria e Curtose </li></ul></ul>
  2. 2. Paulo Novis Rocha Nefrologista Professor Adjunto do Depto. Medicina FMB-UFBA Professor Colaborador do PPgCS
  3. 3. Plano de Apresentação <ul><li>Distribuições de frequências </li></ul><ul><li>Introdução à inferência estatística </li></ul><ul><li>Testes de hipóteses estatísticas </li></ul><ul><ul><li>Nível de significância estatística </li></ul></ul><ul><ul><li>Tipos de erro </li></ul></ul><ul><li>Intervalo de confiança </li></ul>
  4. 4. Curva Normal (Gauss)
  5. 5. Distribuições de Freqüências <ul><li>Tabela de Freqüências </li></ul><ul><li>Histograma </li></ul>Neto, AMS. Biestatística Sem Segredos. 2008
  6. 6. Distribuições de Freqüências Neto, AMS. Biestatística Sem Segredos. 2008
  7. 7. Distribuições de freqüências: Variáveis contínuas Como idade é uma variável contínua, à medida que o número de observações tende a infinito, podemos abolir os intervalos de classe, sendo cada valor de idade representado na abscissa. Neto, AMS. Biestatística Sem Segredos. 2008
  8. 8. Age Distribution of 10,000 entrants in senior citizen roller derby <ul><li>Original distribution of numbers can be viewed as an expression of the probability that any individual chosen at random from the original sample may fall in a particular category </li></ul>Norman & Streiner. PDQ Statistics. 1986
  9. 9. Distribuições de freqüências: Variáveis discretas Neto, AMS. Biestatística Sem Segredos. 2008
  10. 10. Tipos de Distribuições de Freqüências <ul><li>Normal ou Gaussiana </li></ul><ul><li>Binomial </li></ul><ul><li>Poisson </li></ul><ul><li>T </li></ul><ul><li>F </li></ul><ul><li>Qui-quadrado </li></ul><ul><li>Hipergeométrica </li></ul>
  11. 11. Distribuições reais: Variáveis contínuas Neto, AMS. Biestatística Sem Segredos. 2008
  12. 12. Distribuição Normal / Gaussiana Curva teórica para população infinita Abraham de Moivre / Carl Friederich Gauss
  13. 13. Os estatísticos utilizam distribuições probabilísticas como modelo gráfico e matemático para as distribuições de freqüências A finalidade é lançar mão das propriedades teóricas das primeiras como ferramentas para inferir os resultados obtidos em uma amostra para a população mais ampla de onde esta amostra foi retirada
  14. 14. Curva de Gauss (NORMAL): Propriedades Matemáticas <ul><li>A área delimitada entre dois valores de X corresponde à probabilidade de obtermos valores de X entre esses dois valores </li></ul><ul><li>É completamente determinada por sua média e desvio-padrão </li></ul><ul><li>É simétrica em relação à sua média </li></ul><ul><li>Média = mediana = moda </li></ul><ul><li>Assintótica (extremos nunca tocam a abscissa) </li></ul>
  15. 15. Distribuições de freqüências Distribuições probabilísticas A área sob a curva representa uma probabilidade. Se X = idade, x 1 = 35 e x 2 = 45, por exemplo, a área sombreada corresponde à probabilidade de obtermos indivíduos com idade entre 35 e 45 anos. Neto, AMS. Biestatística Sem Segredos. 2008
  16. 16. Cálculo de área: Figuras geométricas perfeitas Área do círculo =  . r 2
  17. 17. Distribuições de freqüências Distribuições probabilísticas Neto, AMS. Biestatística Sem Segredos. 2008
  18. 18. 1ª Propriedade
  19. 19. Probabilidade = 95% -1,96 DP +1,96 DP Exemplo: n = 311 agentes penitenciários Média idades ± DP = 40,27 ± 7,60 anos 40,27 – [1,96x(7,60)] = 40,27 – 14,896 = 25,374 40,27 + [1,96x(7,60)] = 40,27 + 14,896 = 55,166 Probabilidade dos agentes apresentarem idade entre 25 e 55 anos = 95%
  20. 20. Curva de Gauss (NORMAL): Propriedades Matemáticas <ul><li>A área delimitada entre dois valores de X corresponde à probabilidade de obtermos valores de X entre esses dois valores </li></ul><ul><li>É completamente determinada por sua média e desvio-padrão </li></ul><ul><li>É simétrica em relação à sua média </li></ul><ul><li>Média = mediana = moda </li></ul><ul><li>Assintótica (extremos nunca tocam a abscissa) </li></ul>
  21. 21. 2ª Propriedade <ul><li>Médias iguais, DP diferentes </li></ul><ul><li>Médias diferentes, DP iguais </li></ul>É completamente determinada por sua média e desvio-padrão Neto, AMS. Biestatística Sem Segredos. 2008
  22. 22. Curva de Gauss (NORMAL): Propriedades Matemáticas <ul><li>A área delimitada entre dois valores de X corresponde à probabilidade de obtermos valores de X entre esses dois valores </li></ul><ul><li>É completamente determinada por sua média e desvio-padrão </li></ul><ul><li>É simétrica em relação à sua média </li></ul><ul><li>Média = mediana = moda </li></ul><ul><li>Assintótica (extremos nunca tocam a abscissa) </li></ul>
  23. 23. Curva Normal Padrão <ul><li>Valores de Z (unidades de desvio-padrão). </li></ul><ul><li>Todas as áreas sob a curva normal padrão já foram calculadas e colocadas sob forma de tabela (TABELA Z). </li></ul><ul><li>Em estatística uma grande aplicação da curva normal é para o cálculo de probabilidades durante a realização de testes estatísticos. </li></ul>
  24. 24. Exemplo: qual a área sob a curva correspondente a valores de Z menores do que 2,00? Neto, AMS. Biestatística Sem Segredos. 2008
  25. 26. Exemplo: qual a área sob a curva correspondente a valores de Z menores do que 2,00? Neto, AMS. Biestatística Sem Segredos. 2008 A área sob a curva entre - ∞ e z = 2,00 é 0,9772. Podemos então afirmar que há uma probabilidade de 97,72% de um valor qualquer de Z selecionado aleatoriamente estar entre - ∞ e 2,00.
  26. 27. Exemplo: n = 311 agentes penitenciários Média idade 40,27 anos com desvio padrão 7,60 anos. Qual a probabilidade de um agente penitenciário ter idade > 47 anos? - 1º passo: transformar 47 anos em um valor de Z.
  27. 29. Exemplo: n = 311 agentes penitenciários Média idade 40,27 anos com desvio padrão 7,60 anos. Qual a probabilidade de um agente penitenciário ter idade > 47 anos? - 1º passo: transformar 47 anos em um valor de Z. - 47 anos equivale a 0,88 DP acima da média - 2º passo: encontrar a área entre - ∞ e z = 0,88 na tabela - área = 0,8106 - como queremos área z > 0,88, fazemos 1-0,8106 = 0,1894 Resposta: a probabilidade de um agente penitenciário selecionado aleatoriamente dessa amostra ter idade > 47 anos = 18,94%
  28. 30. Introdução
  29. 31. POPULAÇÃO ( N = 1.000) AMOSTRA ( n = 50) RESULTADO: Tempo médio de serviço = 13,73 ± 5,23 anos Neto, AMS. Biestatística Sem Segredos. 2008
  30. 32. Inferência Estatística: definições <ul><li>Processo pelo qual tiramos conclusões sobre uma população a partir de resultados observados em uma amostra aleatória </li></ul><ul><li>Processo pelo qual avaliamos a probabilidade de resultados observados em uma amostra aleatória terem ocorrido por variação amostral </li></ul><ul><li>Não se deve fazer inferência estatística ao estudar toda a população alvo </li></ul><ul><li>Não se deve fazer inferência estatística quando a amostragem não for aleatória </li></ul>
  31. 33. POPULAÇÃO ( N = 1.000) AMOSTRA 1 ( n = 50) RESULTADO: Tempo médio de serviço = 13,73 anos AMOSTRA 2 ( n = 50) RESULTADO: Tempo médio de serviço = 13,90 anos AMOSTRA 3 ( n = 50) RESULTADO: Tempo médio de serviço = 12,60 anos AMOSTRA 4 ( n = 50) RESULTADO: Tempo médio de serviço = 19,27 anos AMOSTRA 5 ( n = 50) RESULTADO: Tempo médio de serviço = 15,80 anos
  32. 34. ƒ( x ) Tempo médio de serviço
  33. 36. Distribuição das médias amostrais Neto, AMS. Biestatística Sem Segredos. 2008
  34. 37. Definições <ul><li>Média aritmética das médias amostrais é igual à média aritmética da população </li></ul><ul><li>Desvio-padrão de resultados amostrais = erro-padrão </li></ul>
  35. 38. Teorema Central do Limite Versão Simplificada <ul><li>Dada uma população qualquer de forma funcional não-normal , a distribuição das médias computadas de amostras retiradas dessa população será aproximadamente normal, quando o tamanho da amostra for grande e o desvio-padrão populacional for conhecido . </li></ul>
  36. 39. Como Fazer Inferência Estatística: <ul><li>Teste de hipóteses estatísticas </li></ul><ul><li>Cálculo do intervalo de confiança </li></ul>
  37. 41. POPULAÇÃO ( N = 1.000) AMOSTRA ( n = 50) RESULTADO: Tempo médio de serviço = 13,73 ± 5,23 anos Tempo médio de serviço 16,5 ± 5,53 anos
  38. 42. Teste de Hipóteses <ul><li>1 a Etapa: definição do nível de significância estatística, ou α (alfa ) </li></ul><ul><ul><li>Comumente... α = 0,05 (ou 5%) </li></ul></ul><ul><ul><li>Exceções: análises multivariadas (0,15 a 0,25) </li></ul></ul>
  39. 43. ƒ( x ) Tempo médio de serviço P 2,5 P 97,5 Níveis de significância estatística 95,0% Todos os valores localizados entre estes limites de significância estatística seriam considerados como estatísticamente iguais à verdadeira média populacional Valores esperados por variação amostral Valores não esperados por variação amostral Valores não esperados por variação amostral
  40. 44. Teste de Hipóteses <ul><li>1 a Etapa: definição do nível de significância estatística, ou α (alfa ) </li></ul><ul><ul><li>Comumente... α = 0,05 (ou 5%) </li></ul></ul><ul><ul><li>Exceções: análises multivariadas (0,15 a 0,25) </li></ul></ul><ul><li>2 a Etapa: definição das hipóteses estatísticas </li></ul>
  41. 45. Hipóteses estatísticas <ul><li>H 0 = hipótese nula </li></ul><ul><li>H A = hipótese alternativa </li></ul><ul><li>Possibilidades de formulação: </li></ul><ul><ul><li>H 0 : µ = µ 0 e H A : µ ≠ µ 0 ( µ > µ 0 ou µ < µ 0 ) </li></ul></ul><ul><ul><ul><li>Teste bi-caudado </li></ul></ul></ul><ul><ul><li>H 0 : µ  µ 0 e H A : µ < µ 0 </li></ul></ul><ul><ul><li>H 0 : µ ≤ µ 0 e H A : µ > µ 0 </li></ul></ul><ul><ul><ul><li>Teste uni-caudado </li></ul></ul></ul>
  42. 46. Tempo médio de serviço =16,5 ± 5,53 anos <ul><li>Na sua única amostra (n = 50), o tempo médio de serviço foi 13,73 anos ± 5,23 anos </li></ul><ul><li>HIPÓTESES ESTATÍSTICAS </li></ul><ul><li>H0 : µ = 16,5 e HA : µ ≠ 16,5 </li></ul><ul><ul><ul><li>Teste bi-caudado </li></ul></ul></ul><ul><li>H0 : µ  16,5 e HA : µ < 16,5 </li></ul><ul><li>H0 : µ ≤ 16,5 e HA : µ > 16,5 </li></ul><ul><ul><ul><li>Teste uni-caudado </li></ul></ul></ul>
  43. 47. ƒ( x ) Tempo médio de serviço P 2,5 P 97,5 µ 0 95,0% H A : µ < 16,5 será testado nesta cauda H A : µ > 16,5 será testado nesta cauda 16,5
  44. 48. Teste de Hipóteses <ul><li>1 a Etapa: definição do nível de significância estatística ( α ) </li></ul><ul><ul><li>Comumente... α = 0,05 (ou 5%) </li></ul></ul><ul><ul><li>Exceções: análises multivariadas (0,15 a 0,25) </li></ul></ul><ul><li>2 a Etapa: definição das hipóteses estatísticas </li></ul><ul><li>3 a Etapa: cálculo do valor de z (que expressa, em números de EP, o desvio da média amostral em relação à média esperada na população) </li></ul><ul><li>4 a Etapa: utilizar o valor de z na tabela de áreas sob a curva normal padrão para encontrar o valor de p </li></ul><ul><li>5 a Etapa: Comparar o valor de p ao valor de α ou comparar o valor de z aos valores críticos de z </li></ul>
  45. 49. Distribuição NORMAL Padrão Média = ZERO DP = EP = 1 µ = 0 - ∞ + ∞ σ = 1 Z
  46. 50. Cálculo do valor de z <ul><li>Cálculo do quanto a média da amostra estudada se afasta da média esperada para a população </li></ul><ul><li>Dividimos pelo EP que seria esperado caso tivéssemos estudado numerosas amostras </li></ul>
  47. 51. No nosso exemplo...
  48. 52. Teste de Hipóteses <ul><li>1 a Etapa: definição do nível de significância estatística ( α ) </li></ul><ul><ul><li>Comumente... α = 0,05 (ou 5%) </li></ul></ul><ul><ul><li>Exceções: análises multivariadas (0,15 a 0,25) </li></ul></ul><ul><li>2 a Etapa: definição das hipóteses estatísticas </li></ul><ul><li>3 a Etapa: cálculo do valor de z (que expressa, em números de EP, o desvio da média amostral em relação à média esperada na população) </li></ul><ul><li>4 a Etapa: utilizar o valor de z na tabela de áreas sob a curva normal padrão para encontrar o valor de p </li></ul><ul><li>5 a Etapa: Comparar o valor de p ao valor de α ou comparar o valor de z aos valores críticos de z </li></ul>
  49. 54. Valor-p <ul><li>p = 0,0002 ou p = 0,02% </li></ul><ul><li>Considerando as duas caudas, p = 0,04% </li></ul>
  50. 55. Teste de Hipóteses <ul><li>1 a Etapa: definição do nível de significância estatística ( α ) </li></ul><ul><ul><li>Comumente... α = 0,05 (ou 5%) </li></ul></ul><ul><ul><li>Exceções: análises multivariadas (0,15 a 0,25) </li></ul></ul><ul><li>2 a Etapa: definição das hipóteses estatísticas </li></ul><ul><li>3 a Etapa: cálculo do valor de z (que expressa, em números de EP, o desvio da média amostral em relação à média esperada na população) </li></ul><ul><li>4 a Etapa: utilizar o valor de z na tabela de áreas sob a curva normal padrão para encontrar o valor de p </li></ul><ul><li>5 a Etapa: Comparar o valor de p ao valor de α ou comparar o valor de z aos valores críticos de z </li></ul>
  51. 56. Comparação do valor-p com o α <ul><li>α = 0,05 </li></ul><ul><li>p = 0,04 </li></ul><ul><li>p < α = estatisticamente significante (hipótese nula rejeitada) </li></ul>
  52. 57. Comparação dos valores de z com os valores críticos de z <ul><li>Valores observados de z: -3,55 e + 3,55 </li></ul><ul><li>Valores críticos de z = - 1,96 e + 1,96 </li></ul><ul><li>Como – 3,55 < - 1,96 e +3,55 > + 1,96, os valores observados de z ultrapassam os valores críticos de z = estatisticamente significante (hipótese nula rejeitada) </li></ul>
  53. 58. Teste de Hipóteses
  54. 59. Conclusões sobre Teste de Hipóteses <ul><li>Estatísticamente significante </li></ul><ul><ul><li>= Rejeição da hipótese nula </li></ul></ul><ul><ul><li>= Aceitação da hipótese alternativa </li></ul></ul><ul><ul><li>= Verdadeira média pode ser considerada estatisticamente diferente do valor populacional estabelecido na hipótese nula </li></ul></ul><ul><ul><li>= Variação amostral provavelmente não explica a diferença encontrada </li></ul></ul><ul><li>Estatísticamente insignificante </li></ul><ul><ul><li>= Aceitação da hipótese nula </li></ul></ul><ul><ul><li>= Rejeição da hipótese alternativa </li></ul></ul><ul><ul><li>= Verdadeira média não pode ser considerada estatisticamente diferente do valor populacional estabelecido na hipótese nula </li></ul></ul><ul><ul><li>= Variação amostral provavelmente explica a diferença encontrada </li></ul></ul>
  55. 60. CONCLUSÃO DO TESTE REALIDADE SOBRE H 0 É VERDADEIRA É FALSA Aceitação de H 0 (“não-significante”) Conclusão correta Erro tipo II β (0,20) Falso negativo Rejeição de H 0 (“significante”) Erro tipo I α (0,05) Falso positivo Conclusão correta (poder)
  56. 61. Sobre ALFA e BETA <ul><li>Ideal: ambos o mais próximo de ZERO possível </li></ul><ul><li>α e β são antagônicos: quando um sobe, o outro desce </li></ul><ul><li>Necessário achar um equilíbrio </li></ul><ul><ul><li>Sensibilidade, especificidade, curvas ROC </li></ul></ul><ul><li>Erro tipo I – probabilidade mais freqüentemente admitida é 5% (alfa) – MAIS GRAVE </li></ul><ul><li>Erro tipo II – probabilidade mais freqüentemente admitida é 20% (beta) – MENOS GRAVE </li></ul><ul><li>(1- β ) = Poder (80%) </li></ul>
  57. 62. Teste de Hipóteses
  58. 63. Variáveis determinantes da significância estatística <ul><li>A magnitude da diferença observada entre as médias </li></ul><ul><li>Desvio padrão </li></ul><ul><li>Tamanho amostral </li></ul>Relationship of Sample Size and Mean Values to Achieve Statistical Significance PDQ Statistics. Norman & Streiner, 1986. Sample Size Reader Mean Population Mean p 4 110.0 100.0 0.05 25 104.0 100.0 0.05 64 102.5 100.0 0.05 100 102.0 100.0 0.05 400 101.0 100.0 0.05 2500 100.4 100.0 0.05 10000 100.2 100.0 0.05
  59. 64. De uma média
  60. 65. Intervalo de Confiança de uma Média
  61. 66. Intervalo de Confiança de uma média <ul><li>Intervalo que inclui os valores médios que poderiam ser aceitos como verdadeira média populacional ( µ ) </li></ul><ul><li>Os valores dentro do intervalo são valores possíveis para µ , enquanto os fora do intervalo não são. </li></ul><ul><li>A média amostral x = 13,73 é uma estimativa pontual de µ </li></ul><ul><li>IC 95%: P {1,96 < z < 1,96} = 0,95 </li></ul><ul><ul><li>Estimativa intervalar de µ </li></ul></ul>
  62. 67. No nosso exemplo... <ul><li>Valores populacionais: 16,50 ± 5,53 </li></ul><ul><li>Valores amostrais (n = 50): 13,73 ± 5,23 </li></ul>
  63. 68. Intervalo de Confiança
  64. 69. [email_address]

×