Estatística Descritiva

30,015 views

Published on

Published in: Education
2 Comments
13 Likes
Statistics
Notes
No Downloads
Views
Total views
30,015
On SlideShare
0
From Embeds
0
Number of Embeds
170
Actions
Shares
0
Downloads
0
Comments
2
Likes
13
Embeds 0
No embeds

No notes for slide
  • Alternativas: Prova I após aula de amostragem Prova I junta com Prova II Prova I em outra data à combinar
  • SPSS Level of measurement: scale (intervalar, ratio), ordinal, nominal
  • Qualitativa: sempre discretas Dicotômica nominal: sexo Policotômica nominal: orientação sexual Policotômica ordinal: grau de instrução Quantitativa: contínua ou discreta Contínua discreta: temperatura Contínua de razão: peso, altura, idade, glicemia Discreta de razão: número de filhos, número de gestações
  • Ex 1: Hipótese: fumar leva a câncer de pulmão Variável dependente = câncer de pulmão Variável independente principal = hábito de fumar Variável independente secundária = idade Ex 2: Hipótese: condição social se associa a maior mortalidade por pneumonia em crianças Variável dependente = mortalidade por pneumonia Variável independente principal = condição social da família Variável interveniente = peso ao nascer Outros exemplos: Sepse  IRA Pneumonia  Ventilação mecânica
  • 568 720
  • Média Ponderada: peso 6x(média das 3 avaliações) + peso 4x(nota prova final); dividi-se este resultado pela soma dos pesos (10).
  • O quartil 2, ou porcentil 50 = mediana Cálculo: ¼ ou ½ ou ¾ (n +1). Revelará a posição onde se encontram estes quartis. Em seguida, determinar o valor.
  • Séries podem ser diferentes, mas ter a mesma média (e ou mediana). Dispersão = variabilidade Amplitude = valor máximo – valor mínimo Amplitude interquartil Desvio médio, variância e desvio padrão medem o quanto, em média, os valores da série afastam-se da média aritmética dos valores. Variância é o quadrado do desvio-padrão.
  • Mede a amplitude de variação dos valores mais centrais da série (enquanto a AMPLITUDE mede os extremos)
  • Mede-se o quanto cada valor se desviou da média Soma-se o módulo destes valores Divide-se pelo número de indivíduos da série (deveria ser n-1, mas, como não é utilizado para inferência estatística, isso tem pouca importância)
  • Além de anular o sinal, elevar ao quadrado aumenta a influência dos desvios maiores.
  • Além de anular o sinal, elevar ao quadrado aumenta a influência dos desvios maiores.
  • Mede-se o quanto cada valor se desviou da média Soma-se o quadrado destes valores Divide-se pelo número de indivíduos da série MENOS 1 (n-1): 1 indivíduo (ou valor) não teve a chance (liberdade) de variar. Em notações populacionais, pode dividir apenas por N (pois, se a população for muito grande, a subtração de 1 não vai alterar o resultado) O desvio-padrão é a raiz quadrada da variância
  • COEFICIENTE DE ASSIMETRIA: mede a assimetria de uma distribuição. Se a distribuição for razoavelmente simétrica assumirá um valor entre –1 e +1. Se a distribuição for assimétrica à esquerda, a cauda é mais longa deste lado. Neste caso o coeficiente terá um valor negativo. A assimetria à direita é positiva. CURTOSE: mede o achatamento de uma distribuição. Quanto menor o valor da curtose, mais curta, mais achatada é a distribuição (platicúrtica). Se a curtose for positiva, significa que a distribuição é mais alongada (leptocúrtica). Se a distribuição não for nem chata nem alongada sua curtose será igual a zero (mesocúrtica).
  • Estatística Descritiva

    1. 1. Paulo Novis Rocha Nefrologista Professor Adjunto do Depto. Medicina FMB-UFBA Professor Colaborador do PPgCS Coordenador da Disciplina de Bioestatística
    2. 3. SEMANA N o AULA DATA ASSUNTO PROFESSOR 7 1 13/04/09 <ul><li>Estatística Descritiva </li></ul><ul><li>Introdução </li></ul><ul><li>Variáveis </li></ul><ul><li>Banco de dados </li></ul><ul><li>Organização de dados, freqüências </li></ul><ul><li>Medidas de tendência central e de posição </li></ul><ul><li>Medidas de dispersão </li></ul><ul><li>Apresentação de resultados ( Tabelas, Figuras) </li></ul>Paulo Rocha 8 2 20/04/09 <ul><li>Bases da Estatística Inferencial - I </li></ul><ul><li>Distribuições de frequências </li></ul><ul><li>Erro padrão </li></ul><ul><li>Inferência sobre uma média ( Teste z) </li></ul><ul><li>Teste de hipóteses: o valor- p </li></ul>Paulo Rocha 9 3 27/04/09 <ul><li>Bases da Estatística Inferencial – II </li></ul><ul><li>Erro tipo I, tipo II, poder </li></ul><ul><li>Intervalo de confiança </li></ul><ul><li>Inferência sobre duas médias ( Testes z, t, t´) </li></ul><ul><li>Inferência sobre duas proporções ( X 2 , Fisher) </li></ul>Paulo Rocha 10 4 4/05/09 Técnicas de Amostragem e cálculo de tamanho amostral Paulo Rocha 11 5 11/05/09 ANOVA de uma via Neto 12 6 18/05/09 Outros testes não-paramétricos - Wilcoxon, Mann Whitney, Kruskal Wallis Neto 13 7 25/05/09 Correlação e regressão linear Neto 14 8 1/06/09 Análise de regressão logística – I Neto 15 9 8/06/09 Análise de regressão logística – II Neto 16 10 15/06/09 Análise de sobrevida Neto 17 11 22/06/09 Avaliação final Paulo Rocha
    3. 4. Curso de Bioestatística Último dia de aulas 5-7-10 Provas finais 12 a 17-7-10
    4. 5. Bibliografia Sugerida <ul><li>Bioestatística sem segredos. Neto AMS. 1a Ed. Bahia, 2008. </li></ul><ul><li>Bioestatística para profissionais de saúde. Guedes MLS, Guedes JS, Rio de Janeiro, Ao livro técnico, 1988. </li></ul><ul><li>Intuitive Biostatistics. Motulsky HM. 1a Ed, Oxford University Press, New York, 1995 </li></ul><ul><li>Fundamentals of Biostatistics. Hosner B. 5a Ed, Pacific Grove, Duxbury, 2000. </li></ul><ul><li>Biostatistics: a foundation for analysis in the health sciences. Daniel WW. 7a Ed, New York: John Wiley, 1999 </li></ul><ul><li>Nonparametric statistics for the behavioral sciences. Siegel S e Castellan Jr NJ. 2a Ed, New York, McGraw-Hill, 1988 </li></ul><ul><li>Applied logistic regression. Hosmer DW e Lemeshow S, 2a Ed, New York, John Wiley, 2000 </li></ul>
    5. 6. Pesquisa: Software Essencial <ul><li>Banco de dados </li></ul><ul><ul><li>SPSS, MS Excel, MS Access </li></ul></ul><ul><li>Análise estatística </li></ul><ul><ul><li>SPSS, MS Excel </li></ul></ul><ul><li>Figuras </li></ul><ul><ul><li>SPSS, MS Excel, MS Power Point, Adobe Photoshop </li></ul></ul><ul><li>Editor de texto </li></ul><ul><ul><li>MS Word: texto, tabelas </li></ul></ul><ul><li>Gerenciador de Referências </li></ul><ul><ul><li>Reference Manager , End Notes </li></ul></ul>
    6. 7. Curso para “consumidores” de estatística. Objetivos: <ul><li>Entender artigos científicos </li></ul><ul><li>Construir banco de dados e utilizar SPSS </li></ul><ul><li>Dominar estatística descritiva </li></ul><ul><ul><li>Apresentar dados sob forma de gráficos, figuras, tabelas </li></ul></ul><ul><li>Compreender estatística inferencial </li></ul><ul><ul><li>Realizar análises mais simples </li></ul></ul><ul><ul><li>Dialogar com estatísticos (sem ajuda de intérprete!) </li></ul></ul>
    7. 8. Porque precisamos de estatística ? <ul><li>Variabilidade biológica e/ou falta de precisão experimental dificultam a distinção entre diferenças reais e aleatórias </li></ul><ul><li>Tendência à generalização </li></ul><ul><ul><li>“ A 3-year-old girl recently told her buddy: You can’t become a doctor; only girls can become doctors” HM Motulsky. Intuitive Biostatistics. 1995 </li></ul></ul>
    8. 9. Podemos fazer pesquisa sem estatística (inferencial) ? <ul><li>Exemplo 1: Ciência básica </li></ul><ul><ul><li>Variabilidade biológica controlada (animais ou células geneticamente idênticos) </li></ul></ul><ul><ul><li>Interesse em grandes diferenças </li></ul></ul><ul><li>Aforismas: </li></ul><ul><ul><li>“ If you need statistics to interpret your results, you have done the wrong experiment” </li></ul></ul><ul><ul><li>“ If the data speak for themselves, don’t interrupt!” </li></ul></ul><ul><ul><li>“ Researchers use statistics like a drunkard uses a lamp post: more for support than illumination” </li></ul></ul>Norman & Streiner. PDQ Statistics. 1986 HM Motulsky. Intuitive Biostatistics. 1995
    9. 10. Podemos fazer pesquisa sem estatística (inferencial) ? <ul><li>Exemplo 2: Pesquisa clínica </li></ul><ul><ul><li>Enorme variabilidade biológica </li></ul></ul><ul><ul><ul><li>Impossibilidade de controlar todas as variáveis relevantes </li></ul></ul></ul><ul><ul><li>Imprecisão de instrumentos de medida </li></ul></ul><ul><ul><li>Interesse em efeitos pequenos (digamos, uma mudança de 20%) </li></ul></ul><ul><li>Difícil separar o sinal (efeito esperado) do ruído (variabilidade biológica e imprecisão) </li></ul>HM Motulsky. Intuitive Biostatistics. 1995
    10. 11. Sobre a estatística <ul><li>CAPAZ DE FAZER </li></ul><ul><li>INCAPAZ DE FAZER </li></ul><ul><li>Conclusões gerais a partir de dados mais limitados </li></ul><ul><ul><li>AMOSTRA->POPULAÇÃO </li></ul></ul><ul><ul><ul><li>Controle de qualidade </li></ul></ul></ul><ul><ul><ul><li>Pesquisas políticas </li></ul></ul></ul><ul><ul><ul><li>Ensaios clínicos </li></ul></ul></ul><ul><li>Controlar o erro aleatório </li></ul><ul><li>Corrigir o erro sistemático </li></ul><ul><ul><li>Erros de amostragem </li></ul></ul><ul><ul><li>Erros de medida </li></ul></ul>
    11. 12. Etapas de um estudo do ponto de vista estatístico <ul><li>1. Definir a população de interesse </li></ul><ul><li>2. Selecionar uma amostra da população </li></ul><ul><li>3. Coleta de dados </li></ul><ul><li>4. Estatística descritiva e analítica </li></ul><ul><li>5. Estatística inferencial </li></ul>
    12. 13. Neto, AMS 2008. Bioestatística Sem Segredos A Estatística pode ser dividida em três partes: Estatística Descritiva Descreve Caracterização dos indivíduos estudados Estatística Analítica Analisa Investigação das relações entre as características estudadas Estatística Inferencial Infere Avaliação da possibilidade de generalização
    13. 14. Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA DESCRITIVA Cálculo de freqüências simples, simples acumulada, relativa e relativa acumulada Cálculo de medidas de tendência central (moda, média aritmética, média ponderada, mediana) Cálculo de medidas de dispersão (amplitude, desvio médio, variância, desvio padrão, coeficiente de variação) Cálculo de medidas de posição (porcentis) Elaboração de tabelas univariáveis Elaboração de gráficos Avaliação da forma como as frequencias de uma variável se distribuem
    14. 15. Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA ANALÍTICA Elaboração de diagramas considerando mais de uma variável (ex. diagramas de dispersão) Elaboração de tabelas de contingência bivariáveis ou multivariáveis Cálculo de medidas de associação entre variáveis (razão ou diferença entre prevalências, entre incidências ou risco relativo ou atribuível, entre chances, coeficientes de correlação, coeficientes de regressão) Análise estratificada Análise multivariável
    15. 16. Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA INFERENCIAL Teste Z para uma ou duas médias Cálculo do índice capa (Teste Z) Teste t para uma ou duas médias Análise de regressão linear (Testes F ou Z) Teste t para amostras emparelhadas Teste exato de Fisher Teste Z para uma ou duas proporções Teste do sinal Teste X 2 para duas ou mais proporções Teste de Wilcoxon Teste X 2 de Mantel e Haenszel Teste da mediana Teste para uma variância Teste de Mann-Whitney Teste F para duas variâncias Teste de Kruskal-Wallis Análise de variância (Teste F) Teste de Friedman Análise de correlação intraclasse (Teste F) Análise de correlação de Spearman Análise de correlação de Pearson (Teste t) Teste de McNemar Cálculo do alfa de Cronbach (Teste F) Elaboração do diagrama de barra de erro
    16. 17. Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS ESTATÍSTICAS NÃO ABORDADAS Técnicas de análise exploratória de dados Análise de regressão de Weibull Cálculo de medidas de associação (RR, RC, etc...) Análise de regressão de Poisson Cálculo do índice de concordância capa Análise de regressão binomial negativa Cálculo do alfa de Cronbach Análise de regressão log-linear Teste qui-quadrado de Mantel e Haenszel Análise de regressão hierárquica Teste para uma variância Análise discriminante Análise de variância / An álise de correlação intra-classe Análise de variância multinomial (MANOVA) Teste do sinal Análise de correlação de Kendall Teste de Wilcoxon Análise de contingência Teste da mediana Análise de correlação canônica Teste de Mann-Whitney Análise de correlação parcial múltipla Teste de Kruskal-Wallis Análise de escala multidimensional Teste de Friedman Análise de componentes principais Teste de McNemar Análise de fator Análise de correlação de Spearman Análise de correspondência Análise de correlação de Pearson Análise de homogeneidade Análise de regressão linear Análise de agrupamento (“cluster analysis”) Análise de regressão logística Análise por redes neurais artificiais Análise de regressão de Cox
    17. 18. Variáveis: Características que variam entre os indivíduos estudados
    18. 19. CLASSIFICAÇÃO DE VARIÁVEIS <ul><li>Quanto à natureza </li></ul><ul><li>Quanto à continuidade entre seus possíveis valores </li></ul><ul><li>Quanto ao número de categorias </li></ul><ul><li>Quanto ao seu grau de expressão quantitativa </li></ul><ul><li>Quanto à posição no quadro de hipóteses </li></ul>
    19. 20. CLASSIFICAÇÃO DE VARIÁVEIS I. Quanto à natureza: <ul><li>Qualitativa (ou categórica): raça, sexo </li></ul><ul><li>Quantitativa: peso, altura, idade, glicemia </li></ul>
    20. 21. CLASSIFICAÇÃO DE VARIÁVEIS II. Quanto à continuidade: <ul><li>Discreta: raça, sexo, estado civil, n ° filhos </li></ul><ul><li>Contínua: peso, altura, idade, glicemia </li></ul>
    21. 22. CLASSIFICAÇÃO DE VARIÁVEIS III. Quanto ao número de categorias: <ul><li>Dicotômica </li></ul><ul><ul><li>Ex: sexo, hábito de fumar (respostas sim / não) </li></ul></ul><ul><li>Policotômica </li></ul><ul><ul><li>Ex: grau de instrução, raça, religião, estado civil, inserção no processo produtivo </li></ul></ul><ul><ul><ul><li>Podem ser dicotomizadas para análise </li></ul></ul></ul>Neto, AMS 2008. Bioestatística Sem Segredos
    22. 23. CLASSIFICAÇÃO DE VARIÁVEIS IV. Quanto ao grau de expressão quantitativa: <ul><li>Nominal: não há critérios para ordenamento </li></ul><ul><ul><li>Ex: sexo, raça, CEP </li></ul></ul><ul><li>Ordinal: é possível ordenar, mas não há intervalos regulares </li></ul><ul><ul><li>Ex: grau de instrução </li></ul></ul><ul><li>Intervalar: é possível ordenar, há intervalos regulares, valor ZERO não indica ausência do fenômeno </li></ul><ul><ul><li>Ex: temperatura. Outros exemplos são raros. </li></ul></ul><ul><li>De razão: é possível ordenar, há intervalos regulares, valor ZERO indica ausência do fenômeno </li></ul><ul><ul><li>Ex: idade, peso, altura, número de filhos ou gestações </li></ul></ul>Neto, AMS 2008. Bioestatística Sem Segredos
    23. 24. Misturando as classificações... NATUREZA CONTINUIDADE CATEGORIAS ESCALA Quantitativa Contínua Discreta Intervalar De razão Qualitativa (categórica) Discreta Dicotômica Policotômica Nominal Ordinal
    24. 25. CLASSIFICAÇÃO DE VARIÁVEIS V. Quanto à posição no quadro de hipóteses: Variável independente principal Variável independente secundária Variável dependente associação principal Variável interveniente Neto, AMS 2008. Bioestatística Sem Segredos
    25. 26. Neto, AMS 2008. Bioestatística Sem Segredos CLASSIFICAÇÃO DAS VARIÁVEIS QUANTO À POSIÇÃO NO QUADRO DE HIPÓTESES Dependente Supõe-se que sua ocorrência depende da influência das variáveis independentes Independente Principal Variável de interesse do estudo Secundárias Podem influenciar a associação principal Interveniente Encontra-se no caminho causal entre a variável independente principal e a variável dependente do estudo
    26. 27. CLASSIFICAÇÃO DE VARIÁVEIS VI. Quanto à fixação prévia das frequências: <ul><li>Fixa </li></ul><ul><ul><li>Igual número de casos e controles </li></ul></ul><ul><ul><li>Presença ou ausência da doença (variável dependente) seria FIXA </li></ul></ul><ul><li>Aleatória </li></ul><ul><ul><li>Hábito de fumar (variável independente) seria ALEATÓRIA </li></ul></ul>Neto, AMS 2008. Bioestatística Sem Segredos
    27. 28. CLASSIFICAÇÃO DE VARIÁVEIS VII. Quanto à individualização da informação: <ul><li>Individualizada </li></ul><ul><ul><li>Ex: sexo (M ou F), hábito de fumar (S ou N) </li></ul></ul><ul><li>Agregada </li></ul><ul><ul><li>Ex: sexo (%M, %F), hábito de fumar (%S, %N) </li></ul></ul><ul><li>Ambiental </li></ul><ul><ul><li>Ex: nível de poluição do ar, de radioatividade </li></ul></ul><ul><li>Global </li></ul><ul><ul><li>Ex: Grau de industrialização, densidade populacional </li></ul></ul>Neto, AMS 2008. Bioestatística Sem Segredos
    28. 29. Descrever para compreender.
    29. 30. Acute Renal Failure after Lung Transplantation: Incidence, Predictors and Impact on Perioperative Morbidity and Mortality. Rocha et al. American Journal of Transplantation 2005; 5: 1469–1476
    30. 31. <ul><li>Tipos de dados estatísticos: </li></ul><ul><ul><li>Frequências </li></ul></ul><ul><ul><li>Medidas de tendência central, medidas de posição, medidas de dispersão </li></ul></ul><ul><li>Apresentação de resultados </li></ul><ul><ul><li>Texto, quadros, tabelas, gráficos </li></ul></ul>
    31. 32. TIPOS DE DADOS ESTATÍSTICOS Contagens Medições
    32. 33. <ul><li>Contagens </li></ul><ul><ul><li>Sexo, raça, etc... </li></ul></ul><ul><ul><li>Codificação para banco de dados: </li></ul></ul><ul><ul><ul><li>Branco = 1 </li></ul></ul></ul><ul><ul><ul><li>Negro = 2 </li></ul></ul></ul><ul><ul><ul><li>Mulato = 3 </li></ul></ul></ul><ul><ul><ul><li>Asiático = 4 </li></ul></ul></ul><ul><ul><li>Recodificação </li></ul></ul><ul><ul><ul><li>Branco = 1 </li></ul></ul></ul><ul><ul><ul><li>Não-branco = 2 </li></ul></ul></ul><ul><li>Medições </li></ul><ul><ul><li>Glicemia, TA, colesterol, etc... </li></ul></ul><ul><ul><li>Transformação de medições em contagens: </li></ul></ul><ul><ul><ul><li>Categorização de variáveis contínuas </li></ul></ul></ul>
    33. 34. Neto, AMS 2008. Bioestatística Sem Segredos Banco de dados contendo 75 pacientes: variável idade
    34. 35. Banco de dados contendo 75 pacientes: variável idade Neto, AMS 2008. Bioestatística Sem Segredos
    35. 36. TIPOS DE FREQUENCIAS Simples Simples acumulada Relativa Relativa acumulada
    36. 37. Idade Frequência simples Frequência simples acumulada Frequência relativa (%) Frequência relativa acumulada (%) 25 1 1 4,0 4,0 31 1 2 4,0 8,0 32 2 4 8,0 16,0 34 3 7 12,0 28,0 36 2 9 8,0 36,0 38 2 11 8,0 44,0 39 1 12 4,0 48,0 40 3 15 12,0 60,0 41 4 19 16,0 76,0 45 1 20 4,0 80,0 46 2 22 8,0 88,0 47 1 23 4,0 92,0 51 1 24 4,0 96,0 52 1 25 4,0 100,0
    37. 38. Histograma contendo a distribuição de frequências de idades dos 75 pacientes do banco Neto, AMS 2008. Bioestatística Sem Segredos
    38. 39. Objetivo: resumir os dados de variáveis contínuas, apresentar resultados de forma compreensível MEDIDAS DE TENDÊNCIA CENTRAL Moda Média Mediana
    39. 40. <ul><li>Moda </li></ul><ul><ul><li>Valor mais frequente </li></ul></ul><ul><ul><li>Bimodal, trimodal, etc.. </li></ul></ul><ul><li>Média </li></ul><ul><ul><li>Aritmética </li></ul></ul><ul><ul><li>Ponderada </li></ul></ul><ul><ul><li>Geométrica – média aritmética de variáveis expressas em escala logarítmica </li></ul></ul><ul><ul><li>Harmônica – pós-teste de ANOVA </li></ul></ul><ul><li>Mediana </li></ul><ul><ul><li>Número impar de observações: posição central </li></ul></ul><ul><ul><li>Número par de observações: média aritmética dos dois valores centrais </li></ul></ul><ul><ul><li>Posição: (n+1) / 2 </li></ul></ul>
    40. 41. <ul><li>VANTAGENS </li></ul><ul><li>Simplicidade de cálculo </li></ul><ul><li>Não é afetada por valores extremos </li></ul><ul><li>Pode resumir variável nominal </li></ul><ul><li>DESVANTAGENS </li></ul><ul><li>Pode não ser única </li></ul>
    41. 42. População: (parâmetro) Amostra: (estatística)
    42. 43. População: (parâmetro) Amostra: (estatística)
    43. 44. <ul><li>VANTAGENS </li></ul><ul><li>Simplicidade de cálculo </li></ul><ul><li>Singularidade </li></ul><ul><li>Muitas técnicas disponíveis para seu uso </li></ul><ul><li>DESVANTAGENS </li></ul><ul><li>Muito influenciada por valores extremos </li></ul><ul><li>Não pode resumir variável nominal </li></ul>
    44. 45. <ul><li>Para o cálculo da mediana: </li></ul><ul><ul><li>Ordenar os valores em ordem crescente e encontrar o valor central (P 50 ) quando n é ímpar </li></ul></ul><ul><ul><li>Quando n é par: média aritmética dos valores centrais </li></ul></ul>
    45. 46. <ul><li>VANTAGENS </li></ul><ul><li>Simplicidade de cálculo </li></ul><ul><li>Singularidade </li></ul><ul><li>Não é influenciada por valores extremos </li></ul><ul><li>DESVANTAGENS </li></ul><ul><li>Menos técnicas disponíveis para seu uso </li></ul><ul><li>Não pode resumir variável nominal </li></ul>
    46. 47. * Não esquecer de checar a veracidade de valores extremos Dica: além das medidas de tendência central, checar máx. e mín. QUANDO UTILIZAR MODA, MÉDIA, MEDIANA MODA Série é unimodal MÉDIA Variável é contínua Série não contém valores extremos MEDIANA Variável é discreta e n é ímpar Série contém valores extremos*
    47. 48. MEDIDAS DE POSIÇÃO Média Mediana Porcentil
    48. 49. <ul><li>Separa os valores de uma série de observações em duas ou mais partes, delimitando um certo porcentual de valores abaixo, acima ou entre eles. </li></ul><ul><li>Ex: quartis </li></ul><ul><ul><li>Q1, P25 </li></ul></ul><ul><ul><li>Q2, P50 (= mediana) </li></ul></ul><ul><ul><li>Q3, P75 </li></ul></ul><ul><li>Aplicações: pediatria (peso, altura), academia (notas), categorização de variáveis contínuas (criação de intervalos de classe ou pontos de corte), amplitude interquartil, inferência estatística (P95, P 97,5) </li></ul>
    49. 50. Criação de intervalos de classe <ul><li>Qual o número ideal de intervalos de classe ? </li></ul><ul><li>Depende... </li></ul><ul><ul><li>Dados da literatura: ex: DRC </li></ul></ul><ul><ul><li>Fórmula de Sturges: k = 1 + 3,222 x log n </li></ul></ul><ul><ul><ul><li>k = número de intervalos de classe </li></ul></ul></ul><ul><ul><ul><li>n = tamanho da amostra </li></ul></ul></ul>
    50. 52. Cálculo do Primeiro Quartil (Q1)
    51. 53. Desorganizado Ordem Crescente
    52. 54. MEDIDAS DE DISPERSÃO Amplitude Amplitude interquartil Desvio médio Variância Desvio-padrão Coeficiente de variação
    53. 56. Número da criança na pesquisa Valores de altura (metros) 1 1,14 2 0,86 3 1,24 4 1,17 5 0,94 Número da criança na pesquisa Valores de altura (metros) 2 0,86 5 0,94 1 1,14 4 1,17 3 1,24
    54. 57. <ul><li>VANTAGENS </li></ul><ul><li>Simplicidade </li></ul><ul><li>DESVANTAGENS </li></ul><ul><li>Considera apenas mínimo e máximo </li></ul><ul><li>Menos técnicas estatísticas que a utilizam </li></ul><ul><li>Influenciada por valores extremos </li></ul>* Deve ser usada como medida complementar
    55. 58. <ul><li>Utilização de porcentis para cálculo de uma medida de dispersão </li></ul><ul><li>Distância entre o primeiro e o terceiro quartis </li></ul><ul><li>AIQ = Q3 – Q1 </li></ul>
    56. 60. Número da criança na pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13
    57. 61. <ul><li>VANTAGENS </li></ul><ul><li>Leva em conta todos os valores da série </li></ul><ul><li>Ao somar os módulos dos desvios, expressa o total de variabilidade em torno da média </li></ul><ul><li>DESVANTAGENS </li></ul><ul><li>Cálculo menos simples que a amplitude </li></ul><ul><li>Os desvios maiores não influenciam bem mais seu resultado do que os menores </li></ul><ul><li>Menos técnicas estatísticas que o utilizam (comparado ao DP) </li></ul><ul><li>Influenciado por valores extremos </li></ul>
    58. 62. População: (parâmetro) Amostra: (estatística)
    59. 63. Porque o denominador é 4 (n-1) e não 5? Número da criança na pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13
    60. 64. Graus de liberdade <ul><li>Ao calcular a média, perdemos 1 grau de liberdade </li></ul>Número da criança na pesquisa Valores de altura (metros) 1 1,14 2 0,86 3 1,24 4 1,17 5 0,94
    61. 65. Graus de liberdade: Cálculo <ul><li>Graus de liberdade = n – r </li></ul><ul><ul><li>n = número de observações (em nosso exemplo, quantidade de números a serem selecionados, ou seja, n = 2) </li></ul></ul><ul><ul><li>r = número de condições a serem atendidas por esses números </li></ul></ul>
    62. 66. População: (parâmetro) Amostra: (estatística)
    63. 67. Número da criança na pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13
    64. 68. <ul><li>VANTAGENS </li></ul><ul><li>Levam em conta todos os valores da série </li></ul><ul><li>Ao somar os quadrados dos desvios, expressam o total de variabilidade em torno da média </li></ul><ul><li>Os desvios maiores influenciam bem mais seu resultado do que os menores </li></ul><ul><li>Muitas técnicas estatísticas os utilizam </li></ul><ul><li>DESVANTAGENS </li></ul><ul><li>Cálculos menos simples que a amplitude </li></ul><ul><li>Influenciados por valores extremos </li></ul><ul><li>Variância é expressa em escala quadrática, à qual estamos menos acostumados </li></ul>
    65. 69. <ul><li>Permite comparar variações em dimensões diferentes (ex. peso, altura) </li></ul><ul><li>Permite comparar variações em trechos distintos da escala de variação de uma variável </li></ul><ul><li>Precisão de testes diagnósticos </li></ul>
    66. 70. Número da criança na pesquisa Valores de altura (metros) Valores de peso (kg) 1 1,14 20,70 2 0,86 15,40 3 1,24 21,40 4 1,17 21,10 5 0,94 17,45 Média 1,07 19,21 Desvio-padrão 0,17 2,66 Coeficiente de variação 15,89% 13,85%
    67. 71. <ul><li>Embora as medidas de dispersão consigam captar o desvio em torno do centro, não conseguem perceber o formato deste desvio. Se o desvio for igual para os dois lados da distribuição, diz-se que a distribuição é simétrica. As distribuições também podem ser mais alongadas ou mais achatadas. </li></ul><ul><li>Assimetria: deve ser entre -1 a +1 </li></ul><ul><li>Curtose: deve ser próxima de zero </li></ul>
    68. 72. <ul><li>Comparando-se a média com a mediana. </li></ul><ul><li>Pelo valor da medida de assimetria (skewness). Se o valor for negativo, a distribuição está desviada para a esquerda. Se o valor for positivo, está desviada para a direita. Uma distribuição razoavelmente simétrica tem coeficiente de assimetria variando entre –1 e +1. </li></ul><ul><li>Visualmente no gráfico (histograma ou box plot, onde se verifica a presença de valores extremos “outliers”) e se pode verificar o formato da distribuição, identificando-se assimetria ou curtose. </li></ul><ul><li>Por um teste que avalie a normalidade da distribuição (Kolmogorov-Smirnov ou Shapiro Wilk). Quando, nestes testes, o valor de p < 0.05 a distribuição não é normal. </li></ul>
    69. 73. <ul><li>Classificação de variáveis </li></ul><ul><li>Estatística descritiva </li></ul><ul><ul><li>Medidas de tendência central </li></ul></ul><ul><ul><ul><li>Moda, Média, Mediana </li></ul></ul></ul><ul><ul><li>Medidas de posição </li></ul></ul><ul><ul><ul><li>Média, mediana, porcentis </li></ul></ul></ul><ul><li>Medidas de dispersão </li></ul><ul><ul><li>Amplitude, Desvio-médio, Variância, DP, CV </li></ul></ul><ul><li>Medidas de Forma </li></ul><ul><ul><li>Assimetria e Curtose </li></ul></ul>

    ×