Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

  • 47 views
Uploaded on

 

More in: Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
47
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
1
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. BC-0005 Bases Computacionais da Ciência Aula 08 Noções de Estatística Média, desvio padrão, erro padrão Exercicíos – utilização da base de dados da turma 2009
  • 2. Roteiro da Aula  PARTE I – Noções de Estatística  O que é Estatística Descritiva e Estatística Inferencial  Medidas de Tendência Central Medidas de Dispersão   PARTE II –Exercícios Determinação da altura média, peso médio  Gráficos  idade X altura; idade x peso  Histograma de times 
  • 3. Idade Altura Peso Taxa Pulsação Pressão Sistólica Pressão diastólica Colesterol IMC (anos) (m) (Kg) bat/min mmHg mmHg mg 58 1,8 76,1 68 125 78 522 23,5 22 1,68 64,9 64 107 54 127 23 32 1,82 80,7 88 126 81 740 24,3 31 1,74 79,1 72 110 68 49 26 28 1,72 68,7 64 110 66 230 23,3 46 1,76 75,1 72 107 83 316 24,3 41 1,69 60,8 60 113 71 590 21,3 56 1,71 90,7 88 126 72 466 31,1 20 1,73 78,8 76 137 85 121 26,2 54 1,67 62,6 60 110 71 578 22,5 17 1,6 70,3 96 109 65 78 27,5 73 1,73 84 72 153 87 265 27,9 52 1,86 86 56 112 77 250 24,9 25 1,72 68,1 64 119 81 265 23,1 29 1,73 94,2 60 113 82 273 31,6 17 1,8 106,7 64 125 76 272 32,8 41 1,56 79,5 84 131 80 972 32,8 52 1,94 99,3 76 121 75 75 26,5 32 1,68 74,7 84 132 81 138 26,4 20 1,77 61,8 88 112 44 139 19,7 20 1,66 73,9 72 121 65 638 26,8 29 1,78 73,1 56 116 64 613 23,1 Estatística  Quais são a altura, peso e IMC médios desta amostra?  Qual a altura média da turma?  Qual a taxa de aprovação no vestibular de uma determinada escola?  Qual a maior torcida presente nesta sala?
  • 4. A Estastística é capaz de responder com maior exatidão essas questões  Estatística Descritiva  apresentação, organização e resumo dos dados  Pode incluir a construção de gráficos, tabelas e computação de várias medidas, tais como, medidas de tendência central (média, mediana, moda), medidas de dispersão (amplitude, desvio médio, variância, desvio padrão), percentagem e outras  O propósito desta estatística é fazer com que os dados coletados sejam compreendidos mais facilmente  Estatística Inferencial  generalização de uma amostra de dados para um grande número de sujeitos  métodos estatísticos são usados para tirar conclusões, fazer estimativas, predições e generalizações sobre todo um conjunto de dados, estudando apenas parte dele, ou seja, a estatística inferencial nos permite usar informações de pequenos grupos para fazer inferências sobre grandes grupos dos quais os dados foram retirados
  • 5. Medidas de Tendência Central  Valor médio ou típico de um conjunto de dados  Média Aritmética ou Média: utilizada para dados quantitativos  Mediana: utilizada para dados ordinais  Moda: utilizada também para dados nominais (variáveis qualitativas)
  • 6. Média Aritmética  É o centro de gravidade dos dados Soma de um conjunto de valores dividida pelo número de dados do conjunto : Alunos Notas 1 3,0 2 5,0 3 6,0 é o número total de valores do conjunto 4 4,0 é um valor do conjunto 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0 Total 53 Média 5,3 N X = N Xi ∑ i= 1 Xi N Função no Excel ou BrOffice: MÉDIA 5 6 0 1 2 3 4 8 9
  • 7. Mediana:  valor central do conjunto que divide a distribuição em duas partes iguais (mesmo número de dados abaixo e acima do valor) Os dados devem estar ordenados Notação: Mediana = X i Posição da mediana => N+1 i= 11 + 1 = 6  Posição 6  Nota 5 2      i= 2 No caso de um número par de sujeitos a mediana será a média entre os dois valores centrais. Freqüência Acumulada 2 1 1 3 1 2 4 1 3 5 3 6 6 2 8 1 9 8  Freqüência Simples 7  Notas 1 10 Dadas as alturas: 62 54 82 49 75 64 9 1 Ordene: 49 54 62 64 75 82 Função no Excel ou BrOffice: MED Med = 62+64 = 63 2 11
  • 8. Moda  3 4 5 6 Nota 7 Freq. 1 2 1 1 3 3 4 1 4 1 5 3 5 1 6 2 7 3 7 1 8 1 8 1 9 1 9 1 Distribuição Bimodal 4 3 2 1 0 2 Notas 3 Distribuição Unimodal Freq. 2 a i c n ê u q e r F  Notas é a categoria que ocorre com maior frequência A moda pode não existir OU pode não ser única Exemplos: 1,1,3,3,5,7,7,7,11,13  moda 7 3,5,8,11,13,18  não tem moda 3,5,5,5,6,6,7,7,7,11,12  tem duas modas: 5,7 (bimodal) a i c n ê u q e r F  Função no Excel ou BrOffice: MODO 8 9 4 3 2 1 0 2 3 4 5 Nota 7 8 9
  • 9. Características das medidas de tendência central Média  influência de cada amostra depende de seu valor (os valores extremos influenciam fortemente) 160000 Mediana  influência de cada amostra depende de sua posição (valor central) Moda 140000 120000 Frequência 100000 Mediana 80000 Média 60000 Moda  influência de cada amostra depende de sua frequência (valor com mais ocorrência) Mediana e Moda  são menos influenciadas por valores extremos 40000 20000 0 100 Abaixo de 100 500 300 900 700 3000 1000 Renda Média Mens al (R$) Fonte: Censo Demográfico IBGE 2000 acima de 5000 5000
  • 10. Distribuição de Renda na Califórnia e nos EUA
  • 11. Medidas de Dispersão ou Variabilidade: quanto os dados numéricos dispersam-se em torno de um valor médio  Variância: Soma dos quadrados dos desvios, onde desvio é a diferença entre cada dado e a média do conjunto. ( x − X )2 ∑ s2 = = 40 / 4 = 10 Função no Excel ou BrOffice: VAR N−1  Dados Desvios Quadrados dos Desvios (X ) (X − X ) (X − X )2 0 4 6 8 7 -5 -1 1 3 2 25 1 1 9 4 X= 5 ∑ (X − X ) = 0 ∑ ( X − X ) 2 = 40
  • 12. Medidas de Dispersão ou Variabilidade:   Desvio Padrão  reflete o quanto os dados se dispersam da média È a raiz quadrada da variância s= ∑ ( x − X )2 N−1 = 10 = 3,16 Função no Excel ou BrOffice: DESVPAD
  • 13. Erro Padrão da Média - EPM Quando se obtém uma amostra aleatória de tamanho n, estima-se a média populacional. É bastante intuitivo supor que se uma nova amostra aleatória for realizada a estimativa obtida será diferente daquela primeira. Desta forma, reconhece-se que as médias amostrais estão sujeitas à variação e formam populações de médias amostrais, quando todas as possíveis amostras são retiradas de uma população. O erro padrão analisa a variabilidade de uma média Quanto maior o número de dados, menor o erro padrão da média σ X = s N−1 Alunos Notas 1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0 Total 53 Média 5,3 DVP 2,11 EPM 0,7
  • 14. Erro Padrão da Média - EPM Não existe uma Função direta no Excel ou BrOffice para cálculo do EPM Portanto, calcula-se a partir do desvio padrão Alunos Turma A Turma B 1 5 8 2 5 9 3 5 7 4 5 7 9 5 5 2 8 6 6 5 7 7 4 2 6 8 6 0 5 9 5 2 4 10 5 10 Total 53 53 Média 5,1 5,2 DVP 0,57 3,49 EPM 0,18 1,1 EPM = s/ RAIZ (CONT.NÚM-1) σ X = s N−1 10 3 2 1 0 Turma A Turma B
  • 15. Distribuição Normal  A distribuição normal (também chamada distribuição gaussiana, em homenagem a Carl Friedrich Gauss) é um importante modelo de distribuição estatística, observado frequentemente em experimentos relacionados ao estudo de fenômenos de ciências tão distintas quanto biologia, física e economia. Exemplo Um instituto de pesquisas realiza uma amostragem com 5000 pessoas para obter uma estimativa da altura média do brasileiro adulto. Estas pessoas são sorteadas para a pesquisa através de uma estratificação adequada, que reflita os dados de toda a população do país. Observe os resultados, categorizados por faixas de altura: Cálculo da frequência relativa (porcentagem) = freq. Absoluta/ freq. total * 100 www.financasnet.com.br
  • 16. Distribuição Normal Média: 1,653 Desvio Padrão: 0,173 Ela é hipotética e essencial na tomada de decisões em estatística. Muitos dos testes estatísticos só têm validade se seus dados constituírem uma distribuição normal. www.financasnet.com.br
  • 17. Características da Distribuição Normal      Quanto mais valores são plotados em uma distribuição, mais ela se assemelha a uma normal É determinada por dois parâmetros:     - Média da população         - Desvio padrão da população    Distribuição é simétrica e unimodal em relação à média Valores de média, moda e mediana são iguais Área total sob a curva é igual a 100%, com exatos 50% distribuídos à esquerda da média e 50% à sua direita
  • 18. Áreas sob a Curva Normal      A área sob a curva de uma distribuição normal é fundamental na solução de problemas. Ela corresponde a 100% dos dados Uma área de 34,13 % da totalidade dos dados é delimitada entre a média e 1 desvio padrão da média Quando o desvio padrão da média é 2 a área aumenta para 47,87% Quando é 3 a área aumenta para 49,87%. Estas proporções são constantes em uma distribuição normal
  • 19. Tipos de distribuição Distribuição Unimodal e Simétrica: Média, Mediana e Moda são iguais!!!!  o ponto de Freqüência Máxima (moda) é também o mais central (mediana) e o centro de gravidade (média)  Em geral, em uma distribuição assimétrica:   A moda está sempre próxima ao “pico” A média está mais próxima da “cauda” (sofre influência dos valores extremos)  mediana está entre a moda e mediana   Medida de Tendência Central mais adequada:    Distribuição Simétrica  Média Distribuição Assimétrica  Mediana ou Moda Distribuição Bimodal  Modas
  • 20. Tipos de Distribuição e medidas de tendência central Distribuição Unimodal e Simétrica:    Distribuições assimétricas => mediana !!! Distribuição bimodal => Moda!!! Média, Mediana e Moda são iguais!!!! Ponto de Freqüência Máxima (moda) é também o mais central (mediana) e o centro de gravidade (média). D is trib u iç ã o As s im é tric a 5 Distribuição assimétrica:    A moda está sempre próxima ao “pico” A média está mais próxima da “cauda” (sofre influência dos valores extremos) A mediana está entre a moda e mediana 4 F re q ü ê n c ia  M oda 3 M ediana 2 1 M édia 0 2 3 4 7 N o ta 8 9 10
  • 21. Exercício 1 em sala: Calcule Média, Mediana,Moda, desvio padrão e erro padrão dos dados abaixo Idade Altura Peso Taxa Pulsação Pressão Sistólica Pressão diastólica Colesterol IMC (anos) (m) (Kg) bat/min mmHg mmHg mg 58 1,8 76,1 68 125 78 522 23,5 22 1,68 64,9 64 107 54 127 23 32 1,82 80,7 88 126 81 740 24,3 31 1,74 79,1 72 110 68 49 26 28 1,72 68,7 64 110 66 230 23,3 46 1,76 75,1 72 107 83 316 24,3 41 1,69 60,8 60 113 71 590 21,3 56 1,71 90,7 88 126 72 466 31,1 20 1,73 78,8 76 137 85 121 26,2 54 1,67 62,6 60 110 71 578 22,5 17 1,6 70,3 96 109 65 78 27,5 73 1,73 84 72 153 87 265 27,9 52 1,86 86 56 112 77 250 24,9 25 1,72 68,1 64 119 81 265 23,1 29 1,73 94,2 60 113 82 273 31,6 17 1,8 106,7 64 125 76 272 32,8 41 1,56 79,5 84 131 80 972 32,8 52 1,94 99,3 76 121 75 75 26,5 32 1,68 74,7 84 132 81 138 26,4
  • 22. Exercício 2 em sala: Um teste de memória foi aplicado a 10 idosos e 10 jovens com o objetivo de verificar o declínio de memória decorrente do processo de envelhecimento. Além do resultado do teste, foram registrados outros dados dos indivíduos, tais como: idade, sexo e anos de escolaridade (ver apostila). Estas características foram registradas pois podem influenciar o desempenho dos indivíduos nos testes. Construa uma planilha no BROffice utilizando os dados destas amostras. a) Desempenho de cada sujeito: (varia de 0 a 20) Idosos: 16/17/19/19/15/17/18/20/20/16 Jovens: 20/20/19/19/20/20/17/19/20/18 b) Calcule a média, desvio padrão e erro padrão da média do desempenho para idosos e jovens c) Faça um gráfico de colunas da média do desempenho de idosos e jovens, com o título Teste de Memória d) Inclua as barras de erros com o erro padrão da média e) Discuta a diferença do desempenho entre os grupos com base nos valores de média e erro.
  • 23. Para inserir o erro padrão no BROffice Selecionar os valores de erro calculados na planilha
  • 24. I ndivíduo Exercício 3 em Sala  Considere a seguinte tabela de dados de pressão sanguínea obtida para um grupo de 40 pessoas:  Utilizando os dados de pressão diastólica, calcule a média, desvio padrão e construa duas tabelas de frequência: 1) com intervalos de 5 batimentos (<50, 5155, 56-60, ...) 2) com intervalos de 10 batimentos (<50, 5160, 61-70, ...)  Faça os respectivos gráficos de distribuição.  Qual das duas tabelas de frequência melhor representa uma distribuição normal? Por quê? E se ao invés de 40, tomássemos a pressão sanguínea de 4000 indivíduos, qual das tabelas de frequência você acredita que seria mais adequada? Por quê? P res s ã o S is tó lic a P res s ã o dia s tólic a mmHg mmHg 1 1 25 78 2 1 07 54 3 1 26 81 4 110 68 5 110 66 6 1 07 83 7 113 71 8 1 26 72 9 1 37 85 10 110 71 11 1 09 65 12 1 53 87 13 112 77 14 119 81 15 113 82 16 1 25 76 17 1 31 80 18 1 21 75 19 1 32 81 20 112 44 21 1 21 65 22 116 64 23 95 58 24 110 70 25 110 66 26 1 25 82 27 1 24 79 28 1 31 69 29 1 09 64 30 112 79 31 1 27 72 32 1 32 74 33 116 81 34 1 25 84 35 112 77 36 1 25 77
  • 25. Exercício 1 para Casa  Escolha um cruzamento que tenha o tráfego controlado por um semáforo. Pode ser o que você observa diretamente da janela de seu apartamento ou da padaria.  Enquanto você toma um café (isso é opcional) conte o número de carros que passa (escolha uma direção e sentido) a cada intervalo de tempo em que o sinal é verde. Tome no mínimo 30 medidas. Faça uma tabela que registre cada medida. Anote o cruzamento, direção, sentido e hora da experiência. Calcule a média e o desvio padrão.  Elabore tabelas de frequência considerando diferentes intervalos (observe que o intervalo aqui é dado em número de carros). Faça os respectivos gráficos de distribuição.  Faça uma nova série de medidas para comparação. Pode ser outro cruzamento, outro horário (hora do rush/trânsito livre, dia útil/domingo) etc. Que conclusões você pode tirar comparando as duas séries? Baseie sua resposta nos valores médios, desvio padrão e forma da distribuição.
  • 26. Exercício 2 para Casa – Finalizar exercício da planilha de memória como está na apostila