Apostila estatistica 2009 mec

50,097 views
49,813 views

Published on

0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
50,097
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
801
Comments
0
Likes
7
Embeds 0
No embeds

No notes for slide

Apostila estatistica 2009 mec

  1. 1. Estatística e Probabilidade Professores:Daniela Carine Ramires de Oliveira Marcos Santos de Oliveira
  2. 2. Índice1. Introdução à Estatística 1 1.1. O que é Estatística? 1 1.2. Estatística na Prática 1 1.3. Um pouco da história da Estatística 2 1.4. Exercícios 22. Variáveis 3 2.1. Definição de Variável 3 2.2. Classificação das Variáveis 3 2.3. Exercícios 53. Amostragem 6 3.1. Por que fazer Amostragem? 6 3.2. Quando o uso de amostragem não é interessante? 6 3.3. Tipos de Amostragem 6 3.3.1. Amostragem Aleatória Simples (AAS) 6 3.3.2. Amostragem Sistemática (AS) 7 3.3.3. Amostragem Estratificada (AE) 8 3.3.4. Amostragem por Conglomerado (AC) 9 3.4. Exercícios 104. Tabulação de Variáveis 11 4.1. Variáveis Qualitativas Unidimensionais 11 4.2. Variáveis Quantitativas Unidimensionais 12 4.3. Variáveis Qualitativas e Quantitativas Bidimensionais 13 4.4. Exercícios 145. Medidas de Posição 15 5.1. Mínimo e Máximo 15 5.2. Moda 15 5.3. Média 15 5.4. Mediana 16 5.5. Exercícios 18Prof. Daniela ii ____/____/____
  3. 3. 6. Medidas de Dispersão 19 6.1. Motivação 19 6.2. Amplitude 19 6.3. Variância e Desvio Padrão 19 6.4. Intervalo Interquartil 21 6.5. Exercícios 217. Estatística Gráfica 22 7.1. Gráficos para as Variáveis Qualitativas 22 7.1.1. Gráfico em Barras 22 7.1.2. Gráfico de Composição em Setores (“Pizza”) 23 7.1.3. Gráfico de Pareto 23 7.2. Gráficos para as Variáveis Quantitativas 25 7.2.1. Gráfico em Barras 25 7.2.2. Gráfico de Pontos 26 7.2.3. Histograma 26 7.2.4. Gráfico em Linhas (ou Gráfico Temporal) 27 7.2.5. Ramo-e-Folhas 28 7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot) 29 7.3 Exercícios 318. Correlação e Regressão 32 8.1. Estudo da relação entre variáveis 32 8.2. Diagrama de Dispersão 32 8.3. Coeficiente de Correlação 35 8.4. Regressão Linear Simples 37 8.5. Coeficiente de Determinação 39 8.6. Exercícios 40Lista de Exercícios 1 419. Probabilidade 44 9.1. Processo ou Experimento Aleatório 44 9.2. Espaço Amostral (Ω) 44 9.3. Evento 45 9.4. Exercícios 46 9.5. Introdução à Probabilidade 47Prof. Daniela iii ____/____/____
  4. 4. 9.6. Definição Clássica 48 9.7. Definição Freqüentista 49 9.8. Definição Subjetiva 51 9.9. Definição Moderna 51 9.10. Probabilidade Condicional 52 9.11. Independência de Eventos 53 9.12. Regra da Probabilidade Total 54 9.13. Teorema de Bayes 5410. Variável Aleatória Discreta 56 10.1. Introdução 56 10.2. Esperança Matemática (Média) 57 10.3. Variância 58 10.4. Exercício 58 10.5. Modelo Bernoulli 58 10.6. Modelo Binomial 59 10.7. Exercícios 60 10.8. Distribuição Hipergeométrica 60 10.9 Exercício 61 10.10. Distribuição Poisson 61 10.11. Exercícios 6211. Variável Aleatória Contínua 63 11.1. Esperança e Variância 65 11.2. Distribuição Normal 66 11.3. Tabela da Distribuição Normal Padrão 69 11.4. Exercícios 73Lista de Exercícios 2 7412. Estimação 77 12.1. Inferência Estatística 77 12.2. Estimação Pontual e Intervalar para Proporção 77 12.3. Exercícios 79 12.4. Estimativa Pontual e Intervalar para a Média Populacional 79 12.5. Exercícios 81 12.6. Estimativa para a Média Populacional com Variância Desconhecida 81 12.7. Exercício 83Prof. Daniela iv ____/____/____
  5. 5. 13. Testes de Hipóteses 84 13.1. Introdução 84 13.2. Formulação das Hipóteses 84 13.3. Tipos de Erros possíveis nos Testes de Hipóteses 84 13.4. Nível de Significância de um Teste de Hipótese (α) 85 13.5. Teste de Hipóteses para a Proporção 85 13.6. Exercícios 87 13.7. Teste de Hipóteses para Média com Variância Conhecida 88 13.8 Exercícios 90 13.9 Teste de Hipóteses para Média com Variância Desconhecida 91 13.10. Exercícios 93Lista de Exercícios 3 94Apêndice A Gabarito da Lista de Exercícios 1 95 B Gabarito da Lista de Exercícios 2 101 C Gabarito da Lista de Exercícios 3 102 D Aula no Laboratório de Computação 104Prof. Daniela v ____/____/____
  6. 6. 1. INTRODUÇÃO À ESTATÍSTICA1.1. O que é Estatística? Estatística é uma ciência que nos permite coletar, organizar, descrever, analisar e interpretardados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.Estamos denominando por dados a um (ou mais) conjunto de valores, numéricos ou não. Aaplicabilidade das técnicas a serem discutidas se dá nas mais variadas áreas das atividadeshumanas. Assim, o principal objetivo da Estatística é nos auxiliar a tomar decisões ou tirarconclusões em situações de incerteza, a partir de informações numéricas.1.2. Estatística na Prática Técnicas de amostragem População Amostra (Características) Planejamento de Experimentos Análise descritiva descritiva Inferência Estatística Conclusões Informações sobre as contidas nos características Cálculo de Probabilidades dados da populaçãoPopulação: é o conjunto de todos os elementos que nos interessa estudar. Deve ser notado que naterminologia estatística, população refere-se não somente a uma coleção de indivíduos, mas ao alvono qual reside nosso interesse. Exemplos: todos os clientes de um banco, todos os alunos de umafaculdade, todos os automóveis da Ford, todo o sangue no corpo de uma pessoa, etc.Técnicas de Amostragem: ferramentas que nos auxiliam a coletar amostras.Planejamento de Experimentos: cria esquemas e teorias para verificação de hipóteses científicas.Amostra: é qualquer subconjunto da população.Análise Descritiva: Conjunto de técnicas destinadas a descrever e resumir os dados a fim detirarmos conclusões a respeito de características de interesse.Probabilidade: Teoria utilizada para se estudar a incerteza associada a fenômenos aleatórios.Inferência Estatística: Técnicas que possibilitam a extrapolação, a um grande conjunto de dados(população), das informações e conclusões obtidas a partir de um subconjunto de valores(amostra).Oliveira, D. C. R. e Oliveira, M. S. 1 ____/____/____
  7. 7. 1.3. Um pouco da história da Estatística5000 AC Registros egípcios de presos de guerra;2000 AC Censo Chinês;695 Primeira utilização da média ponderada pelos árabes na contagem de moedas;1654 Pierre de Fermat e Blaise Pascal estabelecem os Princípios do Cálculo das Probabilidades;1763 Inferência Estatística (Reverendo Bayes);1930 Controle de Qualidade nas indústrias;1959 Estudo retrospectivo de doenças (Mantel & Haenszel);1996 Profundidade da Regressão (Rousseeuw e Hubert);1997 Modelos Fatoriais;2001 100 anos da Biometrika.Maiores detalhes sobre a história da Estatística no site: http://www.redeabe.org.br/historia.htm1.4. Exercícios – Parte I – A11) Para as situações descritas a seguir, identifique a população e a amostra correspondente.(a) Para avaliar a eficácia de uma campanha de vacinação no Estado de Minas Gerais, 200 mães derecém-nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em BeloHorizonte, foram perguntadas a respeito da última vez que vacinaram seus filhos.População:Amostra:(b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia.População:Amostra:(c) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados portelefone com relação ao canal em que estavam sintonizados.População:Amostra:Oliveira, D. C. R. e Oliveira, M. S. 2 ____/____/____
  8. 8. 2. VARIÁVEIS2.1. Definição de Variável Qualquer característica associada a uma população é chamada de variável. Porque o nome variável? Porque ela “varia” de alguma forma.Exemplos: Idade: pode variar de 0, 1 , 2, ... anos Sexo: pode ser masculino ou feminino Estado Civil: pode ser solteiro, casado, divorciado, etc.2.2. Classificação das Variáveis As variáveis podem ser classificadas como Qualitativas ou Quantitativas. Algumas variáveis como sexo, grau de instrução, estado civil, região de procedência,apresentam como possíveis resultados uma qualidade (ou atributo) do indivíduo pesquisado, logo,estas variáveis são chamadas de variáveis Qualitativas. As variáveis como número de filhos, salário, idade, apresentam como possíveis resultadosnúmeros resultantes de uma contagem ou mensuração, logo, estas variáveis são chamadas devariáveis Quantitativas.Exemplo: Um pesquisador está interessado em fazer um levantamento sobre alguns aspectossocio-econômicos dos empregados da seção de orçamentos de uma empresa. Usando informaçõesobtidas do departamento pessoal, ele elaborou a Tabela 2.1. Tabela 2.1: Informações sobre estado civil, grau de instrução, número de filhos, salário (expressocomo fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos de uma Empresa. IdadeN° Estado Civil Grau de Instrução N° de Filhos Salário Anos Meses Região de Procedência 1 Solteiro Fundamental ... 4,00 26 3 Interior 2 Casado Fundamental 1 4,56 32 10 Capital... ... ... ... ... ... ... ...35 Casado Médio 2 19,40 48 11 Capital36 Casado Superior 3 23,30 42 2 InteriorFonte: Bussab e Morettin (2002)Observações sobre a Tabela 2.1. De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (oumais de um) resultado correspondendo à realização de uma característica (ou características). Porexemplo, considerando a variável estado civil, para cada empregado pode-se associar um dosresultados, solteiro ou casado (note que poderia haver outras possibilidades, como separado,divorciado, mas somente as duas mencionadas foram consideradas no estudo).Oliveira, D. C. R. e Oliveira, M. S. 3 ____/____/____
  9. 9. Dentre as variáveis Qualitativas, ainda podemos fazer uma distinção entre dois tipos:Variável Qualitativa Nominal: para a qual não existe nenhuma ordenação nos possíveisresultados.Exemplo: Região de Procedência, etc.Variável Qualitativa Ordinal: para a qual existe uma ordem natural nos seus resultados.Exemplo: Grau de instrução, etc. As variáveis Quantitativas também podem sofrer uma classificação dicotômica:Variável Quantitativa Discreta: cujos possíveis valores formam um conjunto finito ouenumerável de números, e que resultam, freqüentemente, de uma contagem.Exemplo: Nº de Filhos, etc.Variável Quantitativa Contínua: cujos possíveis valores pertencem a um intervalo de númerosreais e que resultam de uma mensuração.Exemplo: Salário, etc.ResumindoComo as variáveis são classificadas e outros exemplos: Nominal Sexo, Cor dos Olhos. Qualitativa Ordinal Estado Civil, Classe social. Discreta Números de carros. Quantitativa Contínua Peso, altura. Para cada tipo de variável existem técnicas apropriadas para resumir as informações dosdados obtidos da amostra. Por exemplo, a utilização de uma tabela é uma forma de escrever osdados de uma forma resumida. Em algumas situações podem-se atribuir valores numéricos às várias qualidades ouatributos de uma variável qualitativa e depois se proceder à análise como se esta fosse quantitativa,desde que o procedimento seja passível de interpretação. Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamadavariável dicotômica. Para essa variável podem ocorrer somente duas realizações, usualmentechamadas de sucesso e fracasso.Exemplos: Sexo (Masculino ou Feminino), Hábito de Fumar (Sim ou Não), etc.Oliveira, D. C. R. e Oliveira, M. S. 4 ____/____/____
  10. 10. 2.3. Exercícios – Parte I – A11) Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintesinformações:ID: Identificação do aluno;Turma: Turma a que o aluno foi alocado (A ou B);Sexo: Feminino (F) ou Masculino (M);Idade: Idade;Alt: Altura;Peso: Peso;Filh: Número de filhos na família;Fuma: Hábito de fumar (sim ou não);Toler: Tolerância ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M) Incomoda Muito;Exer: Horas de atividade física, por semana;Cine: Número de vezes que vai ao cinema por semana;OpCine: Opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M) muito boaTV: Horas gastas assistindo TV, por semanaOpTV: Opinião da programação na TV: (R) Ruim, (M) Média, (B) Boa e (N) não sabe. Tabela 2.2: Informações do questionário estudantil.ID Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine Opcine Tv OpTV 1 A F 17 1,60 60,5 2 Não P 0 1 B 16,5 R 2 A F 18 1,69 55,0 1 Não M 0 1 B 7 R... ... ... ... ... ... ... ... ... ... ... ... ... ...49 B M 17 1,80 71,0 1 Não P 7 0 M 14 R50 B M 18 1,83 86,0 1 Não P 7 7 M 20 BFonte: Magalhães e Lima (2004).Classifique as variáveis da Tabela 2.2. comoVariável Qualitativa Nominal:Variável Qualitativa Ordinal:Variável Quantitativa Discreta:Variável Quantitativa Contínua:Oliveira, D. C. R. e Oliveira, M. S. 5 ____/____/____
  11. 11. 3. AMOSTRAGEM A amostragem é naturalmente usada em nossa vida diária. Por exemplo, para verificar otempero de um alimento em preparação, podemos provar (observar) uma pequena porção destealimento. Estamos fazendo uma amostragem, ou seja, extraindo do todo (população), uma parte(amostra) com propósito de avaliarmos sobre a qualidade do tempero de todo o alimento.3.1. Por que fazer Amostragem? Existem várias razões para o uso de amostragem em levantamento de grandes populações.Algumas delas são: Economia: Em geral, torna-se bem mais econômico o levantamento de somente uma parte da população. Tempo: Numa pesquisa eleitoral, a três dias de uma eleição presidencial, não haveria tempo suficiente para pesquisar toda a população de eleitores do país. Operacionalidade: É mais fácil realizar operações de pequena escala. Um dos problemas típicos nos grandes censos é o controle dos entrevistadores.3.2. Quando o uso de amostragem não é interessante? População pequena: Não há necessidade de utilizar técnicas estatísticas, pois neste caso é aconselhável realizar o censo (análise de toda a população). Característica de fácil mensuração: Talvez a população não seja tão pequena, mas a variável que se quer observar é de tão fácil mensuração, que não compensa investir num plano de amostragem. Por exemplo, para verificar a porcentagem de funcionários favoráveis à mudança no horário de um turno de trabalho, podemos entrevistar toda a população no próprio local de trabalho. Esta atitude pode ser politicamente mais recomendável. Necessidade de alta precisão: A cada dez anos o IBGE realiza um Censo1 Demográfico para estudar diversas característica da população brasileira. Dentre estas características têm- se o número total de habitantes, que é fundamental para o planejamento do país. Desta forma, o número de habitantes precisa ser avaliado com grande precisão e, por isto, se pesquisa toda a população.3.3. Tipos de Amostragem3.3.1. Amostragem Aleatória Simples (AAS) A técnica de Amostragem Aleatória Simples (ou Amostragem Casual Simples) é o métodomais simples e um dos mais importantes para a seleção de uma amostra. Para a seleção de umaAAS precisamos ter uma lista completa dos elementos da população. Este tipo de amostragemconsiste em selecionar a amostra através de um sorteio. Sua principal característica está no fato detodos os elementos da população ter igual probabilidade de serem escolhidos.1 Censo: estudo de todos os elementos da população.Oliveira, D. C. R. e Oliveira, M. S. 6 ____/____/____
  12. 12. Procedimento para o uso deste método: 1) Numerar todos os elementos da população (N elementos); 2) Efetuar sucessivos sorteios até completar o tamanho da amostra (n). Para realizar este sorteio, podemos utilizar urnas, tabelas de números aleatórios ou algumsoftware que gere números aleatórios. A Tabela abaixo foi feita usando o Excel®. Tabela de Números Aleatórios 6 1 0 9 2 6 2 9 8 5 1 1 9 5 7 7 7 9 0 4 5 7 0 0 9 1 2 9 5 9 8 3 5 3 8 7 0 2 0 2 9 4 4 7 4 0 9 9 9 3 8 2 1 3 2 2 4 0 3 3 1 9 7 2 5 5 6 9 8 2 1 6 9 4 2 1 6 6 3 9 5 0 4 0 5 0 5 5 7 9 0 0 5 8 1 7 2 6 3 0 3 8 1 1 5 4 8 9 0 4 1 3 6 9 1 7 3 5 4 8 5 8 9 3 4 2 7 0 1 5 2 8 9 6 2 4 7 5 0 3 0 0 4 5 8 6 6 8 7 9 0 2 5 8 9 6 2 4 8 5 8 0 4 8 9 6 3 2 5 8 1 2 5 8 7 4 6 3 2 1 4 8 9 6 5 4 1 2 3 2 0 1 4 5 2 3 6 9 8 0 1 2 8 7 5 6 3 2 1 0 8 5 6 4 9 7 3 2 1 0 5 9 4 7 6 4 1 2 3 3 0 1 2 5 8 9 7 4 1 0 3 1 4 5 8 7 6 9 3 2 0 1 4 5 6 9 8 7 4 5 9 8 7 4 5 6 3 2 1 5 9 4 5 6 0 2 5 8 0 0 8 5 1 8 9 6 5 4 7 3 1 0 2 5 8 9 6 3 2 0 4 7 8 9 6 3 2 0 1 4 8 2 3 6 8 9 5 2 0 1 0 8 5 8 9 6 3 2 1 4 5 2 5 8 9 6 3 2 1 4 8 5 2 3 0 2 5 7 4 0 8 5 6 3 1 2 5 2 3 0 9 0 1 2 5 9 0 3 6 8 2 0 3 5 8 4 6 1 3 0 5 8 7 9 6 3 2 0 1 8 9 6 3 2 5 8 4 1 0 3 1 9 1 5 8 9 6 3 2 1 7 8 9 6 5 2 0 3 2 5 9 6 3 2 0 1 5 8 9 6 2 1 5 4 7 9 9 4 0 2 2 7 9 1 2 3 5 8 9 6 0 1 5 4 2 0 3 6 9 8 2 5 8 0 2 1 4 8 0 9 5 2 0 3 2 1 2 4 8 9 5 6 1 9 4 5 9 6 3 2 1 4 7 8 9 6 3 0 1 5 1 4 5 8 9 6 3 2 1 4 0 2 1 3 6 5 4 7 8 9 9 2 5 1 2 3 5 8 9 4 3 2 1 4 7 0 2 3 0 0 4 5 6 3 0 0 1 4 5 2 9 3 0 2 5 8 9 2 6 4 6 3 3 1 2 5 8 7 0 3 9 4 7 8 4 1 0 1 3 6 8 7 4 1 2 3 0 2 5 8 6 1 0 2 5 4 6 7 8 9Exemplo: Estamos interessados em estudar a qualidade da gasolina nos postos de umadeterminada cidade. Essa cidade possui N = 40 postos. A empresa que estudará a qualidade podeinvestigar apenas uma amostra de n = 4 postos. Para selecionarmos uma amostra, utilizando aamostragem casual simples, basta escolhermos uma posição de qualquer linha da tabela denúmeros aleatórios e extrairmos conjuntos de dois algarismos (pois N, que é o tamanho dapopulação, possui 2 casas decimais), até completarmos os 4 elementos da amostra. Se o númerosorteado não existir, simplesmente não consideramos e prosseguimos o processo. Escolhendo a primeira linha da Tabela de Números Aleatórios, temos a seguinte amostra de4 elementos: {09, 26, 29, 11}.Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população10 elementos. Obtenha uma AAS utilizando a primeira linha da Tabela de Números Aleatórios.3.3.2. Amostragem Sistemática (AS) É utilizada quando a população está naturalmente ordenada, como listas telefônicas, fichasde cadastramento, produção de garrafas da cervejas, etc. Procedimento para o uso deste método: 1) Seja N o tamanho da população e n o tamanho amostral. Calcula-se o intervalo da amostragem i = N/n (considera-se apenas a parte inteira do número).Oliveira, D. C. R. e Oliveira, M. S. 7 ____/____/____
  13. 13. 2) Sorteia-se, utilizando a tabela de números aleatórios, um número x entre 1 e i formando a amostra: x, (x + i), (x + 2*i), ... , (x + (n-1)*i).Exemplo: Numa turma com N = 36 alunos, deseja-se retirar uma amostra de n = 5 elementos paraverificar uma característica de interesse. Utilize a técnica de amostragem sistemática para retiraressa amostra.1) Calcular: i = N/n = 36/5 = 7,2. Considerando a parte inteira do número, temos que i = 7;2) Sortear um número entre 1 e 7 da Tabela de Números Aleatórios. Escolhendo a última linha e aprimeira coluna, temos que o primeiro número que está entre 1 e 7 é 6. Logo a amostra serácomposta dos elementos: {06, 13, 20, 27, 34}Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população10 elementos. Obtenha uma AS utilizando a primeira linha da Tabela de Números Aleatórios,quando for necessário.3.3.3. Amostragem Estratificada (AE) A população é dividida em subgrupos, denominados estratos (por exemplo, por sexo, renda,bairro, etc.) e a AAS é utilizada na seleção de uma amostra de cada estrato. Esses estratos devemser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo.Aqui, um conhecimento prévio sobre a população em estudo é fundamental. Estrato 1 Subgrupo 1 da amostra Estrato 2 Subgrupo 2 da amostra Amostra ... ... ... Estratificada Estrato k Subgrupo k da amostra A AE tem as seguintes características: • dentro de cada estrato há uma grande homogeneidade (pequena variabilidade); • entre os estratos há uma grande heterogeneidade (grande variabilidade). Em geral, utiliza-se a AE proporcional. Neste caso, a proporcionalidade do tamanho daamostra de cada estrato da população é mantida na amostra. Por exemplo, se um estratocorresponde a 20% do tamanho da população, ele também deve corresponder a 20% da amostra.Exemplo: Com o objetivo de realizar uma pesquisa de opinião sobre a gestão atual da reitoria emuma determinada universidade, realizaremos um levantamento por amostragem. A população écomposta por 100 professores, 100 servidores técnicos administrativos e 300 alunos, queidentificaremos da seguinte forma: População Professores P001 P002 … P100 Servidores S001 S002 ... S100 Alunos A001 A002 ... A300Oliveira, D. C. R. e Oliveira, M. S. 8 ____/____/____
  14. 14. Supondo que a opinião sobre a gestão atual da reitoria possa ser relativamente homogêneodentro de cada categoria, realizaremos uma amostragem estratificada proporcional por categoria,para obter uma amostra global de tamanho n = 10. A tabela a seguir mostra as relações deproporcionalidade. Estrato Proporção na População Tamanho do subgrupo na amostra Professores 100/500 = 0,20 (ou 20%) np = ( 0,20)*10 = 2 Servidores 100/500 = 0,20 (ou 20%) ns = ( 0,20)*10 = 2 Alunos 300/500 = 0,60 (ou 60%) na = ( 0,60)*10 = 6 Para selecionar aleatoriamente dois professores, podemos usar a Tabela de NúmerosAleatórios, tomando dois números com três algarismos. Usando, por exemplo a primeira linha databela de números aleatórios, temos os seguintes professores selecionados: {P045, P020}. Para osservidores, usando a segunda linha da tabela, temos: {S055, S058}. Usando a terceira linha databela, temos a seguinte amostra de alunos: {A050, A136, A270, A152, A247, A004}. A amostra{P045, P020, S055, S058, A050, A136, A270, A152, A247, A004} é uma amostra estratificadaproporcional da comunidade da universidade. Cada indivíduo desta amostra deverá ser pesquisadopara se obter a opinião em relação à gestão atual da reitoria.3.3.4. Amostragem por Conglomerado (AC) A população é dividida em subpopulações (conglomerados) distintas (quarteirões,residências, famílias, bairros, etc.). Alguns dos conglomerados são selecionados segundo a AAS etodos os indivíduos nos conglomerados selecionados são observados. Em geral, é menos eficienteque a AAS ou AE, mas por outro lado é bem mais econômica. Tal procedimento amostral éadequado quando é possível dividir a população em um grande número de pequenassubpopulações. A AC tem as seguintes características: • dentro de cada conglomerado há uma grande heterogeneidade (grande variabilidade); • entre os conglomerados há uma pequena variabilidade (grande homogeneidade).Exemplo: Realização de uma pesquisa eleitoral em uma cidade com 12 zonas eleitorais. Usando atécnica de amostragem por conglomerados, podemos selecionar aleatoriamente 2 zonas eleitorais e,em seguida, entrevistar todos os eleitores dessas zonas selecionadas 5 3 Zona 9 6 11 1 7 12 2 4 10 8 Entrevistar todos os eleitores dessas zonasOliveira, D. C. R. e Oliveira, M. S. 9 ____/____/____
  15. 15. Obs.: É fácil confundir amostragem estratificada com amostragem por conglomerado, porqueambas envolvem a formação de subgrupos. A diferença é que a amostragem por conglomerado usatodos os membros de uma amostra de conglomerados, enquanto a amostragem estratificada usauma amostra de membros de todos os estratos.Curiosidade Também podemos encontrar na prática a Técnica de Amostragem de Conveniência quesimplesmente usa resultados que sejam muito fáceis de obter. Ei! Você é a favor da pena de m orte?3.4. Exercícios – Parte I – A11) Um administrador especialista em avaliar através de sistemas informatizados as ações daBOVESPA, está interessado em fazer uma pesquisa nos preços das ações, para indicar aos seusclientes se hoje é um dia favorável a fazer investimentos. Ele sabe que existe N = 500 ações emvenda. Como o tempo de estudo de cada ação é de aproximadamente 10 minutos, decidiu-severificar apenas n = 25 ações. Utilizando as técnicas de amostragem aleatória simples, quais açõesserão selecionadas (Use a primeira linha da tabela de números aleatórios)?2) Um gerente de controle de qualidade estudará fontes de computador que passam numa esteiratransportadora dentro da empresa onde trabalha. Sabendo que por dia passam N = 85 fontes e naamostra deverá ter n = 10 fontes, quais serão as fontes selecionadas utilizando a técnica deamostragem sistemática? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize aprimeira linha)3) Num depósito em uma determinada empresa produtora de materiais eletrônicos possui N = 100computadores que estão separados em duas qualidades. N1 = 40 computadores Pentium 3 e N2 =60 computadores Pentium 4. O custo para verificar se cada computador está sob controle é muitoalto. O administrador responsável disse que a empresa tem condições de verificar apenas n = 12computadores. Utilizando a técnica de amostragem estratificada proporcional, quais computadoresserão selecionados? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize aprimeira linha)Oliveira, D. C. R. e Oliveira, M. S. 10 ____/____/____
  16. 16. 4. TABULAÇÃO DE VARIÁVEIS4.1. Variáveis Qualitativas Unidimensionais Quando se estuda uma variável, o maior interesse do pesquisador é conhecer ocomportamento dessa variável, analisando a ocorrência de seus possíveis resultados. A tabela a seguir apresenta a distribuição de freqüências da variável grau de instrução dosdados da Tabela 2.1. Tabela 4.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12 Médio 18 Superior 6 Total n = 36 1,0000 Fonte: Bussab e Morettin (2002)Interpretação da Tabela 4.1.: Nota-se que dos 36 empregados da seção de orçamentos, 33,33%tem nível fundamental, 50% nível médio e apenas 16,67% nível superior.Notação: Usaremos a notação ni para indicar a freqüência (absoluta) de cada classificação oucategoria da variável. A notação fi = ni/n para indicar a proporção (ou freqüência relativa) de cadacategoria, sendo o “n” o número total de observações. As proporções são muito úteis quando se querem comparar resultados de duas pesquisasdistintas. O próximo exemplo ilustra este fato.Exemplo: Suponhamos que se queira comparar a variável grau de instrução para empregados daseção de orçamentos com a mesma variável para todos os empregados da Companhia MB.Digamos que a empresa tenha 2000 empregados e que a distribuição de freqüências seja a tabelaabaixo:Tabela 4.2: Freqüências e Porcentagens dos 2000 empregados da Companhia MB, segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 650 Médio 1020 0,5100 Superior Total n = 2000 1,0000 Fonte: Bussab e Morettin (2002)Comparação entre a Tabela 4.1. e a Tabela 4.2.: Não podemos comparar diretamente as colunasdas freqüências (ni) das duas tabelas pois os totais de empregados são diferentes nos dois casos (n =36 e n = 2000). Mas as colunas das porcentagens (ou proporções) são comparáveis, pois reduzimosas freqüências relativas a um mesmo total.Oliveira, D. C. R. e Oliveira, M. S. 11 ____/____/____
  17. 17. 4.2. Variáveis Quantitativas Unidimensionais A construção de tabelas de freqüências para variáveis quantitativas necessita de certoscuidados. Por exemplo, a construção da tabela de freqüências para a variável Salário da Tabela 2.1.,usando o mesmo procedimento que o grau de instrução, não resumirá as 36 observações num grupomenor, pois não existem observações iguais.Solução: Agrupar os dados por faixas de salário. Assim, construímos uma tabela chamada Tabelade Classes de Freqüências.Exemplo: Distribuição de Freqüências dos salários dos 36 empregados da seção de orçamentos daCompanhia MB por faixas de salário: Tabela 4.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixas de salário. Classe de Salário Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) 04 |-- 08 10 0,2778 27,78% 08 |-- 12 12 12 |-- 16 8 16 |-- 20 5 20 |-- 24 1 Total 36 1,0000Obs.: Procedendo desse modo, ao resumir os dados referentes a uma variável quantitativa, perde-sealguma informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, anão ser que investiguemos a tabela original. Sem perda de muita precisão, poderíamos supor quetodos os oito salários daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14.Número de Classes A escolha dos intervalos é arbitrária. A familiaridade do pesquisador com os dados é que lheindicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que,com um número pequeno de classes, perde-se informação, e com um número grande de classes, oobjetivo de resumir os dados fica prejudicado.Solução: Normalmente, sugere-se o uso de 4 a 8 classes com a mesma amplitude. Dentre muitas regras citadas na literatura, duas tem sido universalmente adotadas, caso opesquisador não tenha idéia alguma sobre o número de classes adotar. O número ideal de classes éum número inteiro próximo de: Regra 1: C = 1 + 3,2 x log n Regra 2: C= nonde n é o número de elementos pesquisado. As duas regras são equivalentes para n ≤ 80. A partir daí, a Regra 2 fornece valores quecrescem rapidamente e desse modo a Regra 1, proposta por Sturges tem sido preferida.Oliveira, D. C. R. e Oliveira, M. S. 12 ____/____/____
  18. 18. 4.3. Variáveis Qualitativas e Quantitativas Bidimensionais As tabelas usadas neste caso são conhecidas como tabela de dupla entrada, tabela deassociação, tabela de contingência ou distribuições conjuntas de freqüências. Tabela 4.4: Distribuição dos funcionários da empresa MB, segundo o conceito em Metodologia e a Seção a que pertence. Seção Conceito em Metodologia Total por A B C Seção Dep. Pessoal 3 1 3 7 Séc. Técnica 0 4 3 7 Sec. Venda 4 3 4 11 Total por Conceito 7 8 10 25 Tabela 4.5: Vendas dos Produtos A, B, C, no supermercado Glória, no Primeiro semestre de 2005. Meses Vendas em 1000 R$ Total por A B C Mês Janeiro 40,0 25,2 8,1 73,3 Fevereiro 40,1 28,0 10,0 78,1 Março 35,1 28,0 15,4 78,5 Abril 28,2 20,2 22,3 70,7 Maio 14,1 25,6 28,1 67,8 Junho 5,0 30,0 35,2 70,2 Total por Produto 162,5 157,0 119,1 438,6 Fonte: Dados Hipotéticos. Tabela 4.6: Distribuição dos alunos da Faculdade Vitória, segundo suas notas em Matemática e Estatística. Estatística Matemática Totais em 0 |- 4 4 |- 7 7 |- 10 Estatística 0 |- 4 32 25 5 62 4 |- 7 20 183 82 285 7 |- 10 7 27 19 53 Totais em 59 235 106 400 Matemática Fonte: Dados Hipotéticos.Oliveira, D. C. R. e Oliveira, M. S. 13 ____/____/____
  19. 19. 4.4. Exercícios – Parte I – A1 Tabela 4.7: Conjuntos de dados da empresa MB Indústria e Comércio Func. Seção* Admin. Direito Redação Estat. Inglês Metodologia Política Economia 1 P 8,0 9,0 8,6 9,0 B A 9,0 8,5 2 P 8,0 9,0 7,0 9,0 B C 6,5 8,0 3 P 8,0 9,0 8,0 8,0 D B 9,0 8,5 4 P 6,0 9,0 8,6 8,0 D C 6,0 8,5 5 P 8,0 9,0 8,0 9,0 A A 6,5 9,0 6 P 8,0 9,0 8,5 10,0 B A 6,5 9,5 7 P 8,0 9,0 8,2 8,0 D C 9,0 7,0 8 T 10,0 9,0 7,5 8,0 B C 6,0 8,5 9 T 8,0 9,0 9,4 9,0 B B 10,0 8,0 10 T 10,0 9,0 7,9 8,0 B C 9,0 7,5 11 T 8,0 9,0 8,6 10,0 C B 10,0 8,5 12 T 8,0 9,0 8,3 7,0 D B 6,5 8,0 13 T 6,0 9,0 7,0 7,0 B C 6,0 8,5 14 T 10,0 9,0 8,6 9,0 A B 10,0 7,5 15 V 8,0 9,0 8,6 9,0 C B 10,0 7,0 16 V 8,0 9,0 9,5 7,0 A A 9,0 7,5 17 V 8,0 9,0 6,3 8,0 D C 10,0 7,5 18 V 6,0 9,0 7,6 9,0 C C 6,0 8,5 19 V 6,0 9,0 6,8 4,0 D C 6,0 9,5 20 V 6,0 9,0 7,5 7,0 C B 6,0 8,5 21 V 8,0 9,0 7,7 7,0 D B 6,5 8,0 22 V 6,0 9,0 8,7 8,0 C A 6,0 9,0 23 V 8,0 9,0 7,3 10,0 C C 9,0 7,0 24 V 8,0 9,0 8,5 9,0 A A 6,5 9,0 25 V 8,0 9,0 7,0 9,0 B A 9,0 8,5 (*) P = Departamento Pessoal; T = Seção Técnica e V = Seção de Vendas. Fonte: Bussab e Morettin (2002)1) Baseado na Tabela 4.7., construa a distribuição de freqüências da variável Metodologia, com asfreqüências absoluta e relativa, as porcentagens, dê um título e interprete.2) Ainda baseado na Tabela 4.7., construa uma Tabela de Classes de Freqüências para a variávelRedação, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete.3) Construa uma tabela de dupla entrada para as variáveis “seção” e conceito tirado em “Inglês” daTabela 4.7.4) Construa uma tabela de contingência para as variáveis “seção” e “notas em estatística” da Tabela4.7.5) Construa uma tabela de contingência para as variáveis “notas em redação” e “política” da Tabela4.7.Oliveira, D. C. R. e Oliveira, M. S. 14 ____/____/____
  20. 20. 5. MEDIDAS DE POSIÇÃO5.1. Mínimo e Máximo O mínimo é a menor observação do conjunto de dados, enquanto que o máximo é a maiorobservação.Exemplo: Considere o seguinte conjunto de dados: 4, 5, 4, 6, 5, 8, 4. Logo, Min = __ e Max = __.5.2. Moda Valor ou atributo que ocorre com maior freqüência.Exemplo (a): 2, 5, 2, 7, 8 Moda = __ .Exemplo (b): 3, 4, 2, 2, 4, 5 Moda = __ e __. “Conjunto _ _ _ _ _ _ _”Exemplo (c): 1, 2, 3, 4, 5 Moda = não tem “Conjunto _ _ _ _ _ _”Moda para dados agrupados em Tabelas de FreqüênciasExemplo: Uma empresa de segurança deseja estudar qual o número de ligações a cobrar maisfreqüentes que são recebidas em um determinado bairro de classe alta da cidade de São Paulo nomês de março. Foram selecionadas 30 residências e observadas 10 ligações em cada residência. Oresultado foi: Números de Ligações a Cobrar (xi) Número de Residências (ni) 0 2 1 5 2 15 3 8 Total 30Moda = __.Interpretação: __ ligações a cobrar foi o que ocorreu com maior freqüência.5.3. Média Valor que representa o centro do conjunto de dados. Considere n observações de um conjunto de dados representados por x1, x2, ..., xn. A médiadesse conjunto é obtida pela soma das n observações dividido por n, ou seja, n x1 + x 2 + x3 + L + x n ∑x i x= = i =1 (5.1) n nExemplo: Considere o seguinte conjunto de notas: 2, 5, 3, 7, 8. A média das notas é ___.Oliveira, D. C. R. e Oliveira, M. S. 15 ____/____/____
  21. 21. Média para dados agrupados em Tabelas de FreqüênciasExemplo: Considere novamente o exemplo da empresa de segurança, mas suponha que o interesseseja estudar o número médio de ligações a cobrar recebido em um determinado bairro de classealta da cidade de São Paulo no mês de março. Números de Ligações a Cobrar (xi) Número de Residências (ni) 0 2 1 5 2 15 3 8 Total 30 Nesse caso, a média é calculada levando em conta as freqüências de cada valor da variável,da seguinte forma: v ∑x n i i , x= i =1 (5.2) nonde v é a quantidade de resultados que a variável contém e ni a respectiva freqüência da i-ésimaclasse. Assim, para o exemplo temos: n ∑x n 0 x 2 + 1x5 + 2 x15 + 3x8 i i x= i =1 = = ___. n 30Logo, o número médio de ligações a cobrar recebido em um determinado bairro de classe alta dacidade de São Paulo no mês de março é ___.5.4. Mediana É o valor que divide os dados, isto é, metade dos dados será maior ou igual que a mediana emetade será menor ou igual. Considere a seguinte série de valores: 5, 2, 6, 13, 9, 15, 10. De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o conjunto devalores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a série em duas partes iguais é 9. Logo, a medianaé 9.Método prático para o cálculo da Mediana para dados em Rol1) Ordenar os valores do menor para o maior, isto é, x(1),...., x(n), onde x(1) é o mínimo e x(n) é omáximo. n +12) Calcular em que posição estará a mediana nos dados ordenados através da fórmula: p = . 23) O valor da mediana será:(a) Se p for um número inteiro, então a mediana será o valor que está na posição p nos dadosordenados, isto é Mediana = x(p)Oliveira, D. C. R. e Oliveira, M. S. 16 ____/____/____
  22. 22. (b) Se p não for inteiro, considere p- e p+ os inteiros imediatamente abaixo e acima de p,respectivamente. A mediana será a média dos valores que estão nas posições p- e p+ nos dadosordenados, ou seja, x (P− ) + x (P+ ) Mediana = 2Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 2, 51º ordenar a série: __, __, __, __, __, __, __, __, __.n = __ . Logo, P = (n + 1)/2 é dado por P = (__+1)/2 = 5, ou seja, o 5º elemento da série ordenadaserá a mediana. Assim, mediana = __ .Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 3, 5, 61º ordenar a série: __, __, __, __, __, __, __, __, __, __.n = __. P = (n + 1)/2 é dado por P = (__+1)/2 = 5.5, logo, P- = 5 e P+ = 6, ou seja, o 5º e o 6ºelementos da série ordenada, que representam os seguintes valores: __ e __, respectivamente. Peladefinição, a mediana será a média aritmética do 5º e 6º termos da série, ou seja, Mediana = (2+3)/2 = 2,5.Notas:1) Quando o número de elementos da série estatística for ímpar, haverá coincidência da medianacom um dos elementos da série.2) Quando o número de elementos da série estatística for par, a mediana será sempre a médiaaritmética dos 2 elementos centrais da série.3) Em uma série de dados, a mediana, a média e a moda não têm, necessariamente, o mesmo valor.4) A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é umadiferença marcante entre mediana e média (que se deixa influenciar, e muito, pelos valoresextremos). Vejamos: Na série: 5, 7, 10, 13, 15 Média = 10 e Mediana = 10; Na série: 5, 7, 10, 13, 65 Média = 20 e Mediana = 10,isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dosvalores extremos, ao passo que a mediana permanece a mesma.Mediana para dados agrupados em Tabelas de Freqüências Nesse caso, utilizamos a freqüência acumulada para identificar qual o valor da mediana.Exemplo: Considere novamente o exemplo da empresa de segurança que desejava estudar qual onúmero de ligações a cobrar mais freqüentes recebidas em um determinado bairro de classe alta dacidade de São Paulo no mês de março. Vamos introduzir uma nova coluna na tabela dos dadosreferentes a freqüência acumulada.Oliveira, D. C. R. e Oliveira, M. S. 17 ____/____/____
  23. 23. Números de Ligações a Cobrar (xi) Número de Residências (ni) Freqüência Acumulada (Fi) 0 2 1 5 2 15 3 8 Total 30Como o rol é par, pois n = __, a mediana é a média dos valores que estão nas posições 15 e 16.Ambos valores que estão nestas posições são __ ligações a cobrar recebida por residência, pois F3 éa primeira freqüência acumulada que contém os elementos 15 e 16.5.5. Exercícios – Parte I – A11) Os tempos de sobrevivência (em meses) de um tipo de bateria estão listados a seguir. 5, 21, 21, 23, 23, 25, 27, 29, 30, 31, 32, 32, 32, 34, 35, 36, 38, 38, 38, 42, 43, 44, 60. Calcule o mínimo, máximo, moda, média e mediana.2) Um artigo em Computers and Industrial Engineering (2001, p.51) descreve os dados de temposde falha (em horas) para motores de jatos. Alguns desses dados estão a seguir. Tabela 5.1: Dados Brutos (em horas) Máquina # Tempo de Falha Máquina # Tempo de Falha 1 150 14 171 2 291 15 197 3 93 16 200 4 53 17 262 5 2 18 255 6 65 19 286 7 183 20 206 8 144 21 179 9 223 22 232 10 197 23 165 11 187 24 155 12 197 25 203 13 213Obtenha mínimo, máximo, moda, média e mediana dos tempos de falhas das máquinas e interpreteos resultados.3) As idades dos 20 ingressantes num certo curso de pós-graduação em finanças de umauniversidade foram as seguintes: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27,28, 35 e 40. Construa uma tabela de freqüências e calcule o mínimo, máximo, moda, média emediana das idades organizadas nessa tabela.Oliveira, D. C. R. e Oliveira, M. S. 18 ____/____/____
  24. 24. 6. MEDIDAS DE DISPERSÃO6.1. Motivação Para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidosa 6 provas sobre conhecimentos específicos de interesse da empresa. Três destes candidatosdestacaram-se com as notas descritas na tabela abaixo: Tabela 6.1: Distribuição das Notas Provas Candidatos 1 2 3 4 5 6 A 7,0 7,5 8,0 8,0 8,5 9,0 B 6,0 7,0 8,0 8,0 9,0 10,0 C 7,5 8,0 8,0 8,0 8,0 8,5 Fonte: Dados HipotéticosQue candidato escolher? Um critério inicial poderia ser o de escolher o que tem a maior média,mas: Candidatos A B C MédiaDe modo análogo, nem adianta pensar em moda ou mediana, pois: Candidatos A B C Moda MedianaSolução: Um segundo critério de escolha pode ser escolher o candidato que apresentou notas maishomogêneas, isto é, aquele que apresentou menor dispersão das notas.6.2. Amplitude A amplitude é definida pelo intervalo entre o valor máximo e o valor mínimo da série dedados, ou seja, Amplitude = Máximo – Mínimo (6.1)Exemplo: Para os três candidatos temos: Candidatos A B C Amplitude6.3. Variância e Desvio Padrão A variância mede a dispersão dos dados em torno de sua média. n ( x − x ) 2 + ( x 2 − x ) 2 + ( x3 − x ) 2 + L + ( x n − x ) 2 ∑ (x i − x)2 s2 = 1 = i =1 (6.2) n −1 n −1Oliveira, D. C. R. e Oliveira, M. S. 19 ____/____/____
  25. 25. O desvio padrão é simplesmente a raiz quadrada positiva da variância s = s2 (6.3)Exemplo: Vamos calcular a variância e o desvio padrão para os três candidatos: Notas Média Candidato A 7,0 7,5 8,0 8,0 8,5 9,0 8,0 (7 − 8) 2 + (7,5 − 8) 2 + (8 − 8) 2 + (8 − 8) 2 + (8,5 − 8) 2 + (9 − 8) 2 2,5sA = 2 = = 0,5 s A = 0,5 ≅ 0,7 6 −1 5 Notas Média Candidato B 6,0 7,0 8,0 8,0 9,0 10,0 8,0sB = 2 = = sB = 6 −1 5 Notas Média Candidato C 7,5 8,0 8,0 8,0 8,0 8,5 8,0sC = 2 = = sC = 6 −1 5Resumindo Tabela 6.2: Medidas de Posição e Dispersão dos 3 melhores candidatos Candidatos Média Moda Mediana Amplitude Variância Desvio Padrão A 8,0 8,0 8,0 B 8,0 8,0 8,0 C 8,0 8,0 8,0Fórmula alternativa para o cálculo da variância Podemos calcular a variância através da seguinte fórmula alternativa: 1 ⎡⎛ n 2 ⎞ 2⎤ s2 = ⎢⎜ ∑ xi ⎟ − n ( x ) ⎥ (6.4) n − 1 ⎣⎝ i =1 ⎠ ⎦ . A fórmula (6.4) é obtida através de algumas manipulações algébricas na fórmula (6.2). Estatem a facilidade de apenas necessitar da informação da média ( x ) e da soma dos valores aoquadrado da variável ∑ xi . 2 ( )Oliveira, D. C. R. e Oliveira, M. S. 20 ____/____/____
  26. 26. 6.4. Intervalo Interquartil O intervalo interquartil é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1),ou seja, IQ = Q3 – Q1. (6.5) Essa medida nos dá a informação da amplitude dos 50% pontos centrais do conjunto dedados ordenados.6.5. Exercícios – Parte I – A11) Considere o seguinte conjunto de dados: 2, 3, 5, 7, 10. Utilize a fórmula alternativa para calculara variância, sabendo que a média é 5,4.2) Foram coletados aleatoriamente 5 empregados de 3 empresas (A, B e C) e perguntado para cadaum deles o seu salário (em salários mínimos). Se estas 3 empresas estivessem oferecendo emprego,em qual delas você trabalharia sendo que o resultado da pesquisa com os 15 funcionáriosentrevistados foi: Empresa A Empresa B Empresa C 5,5 4 5 6 5 6 6 6 6 6 6 6 6,5 9 7Obs: Obtenha a Amplitude, Variância, Desvio Padrão e o Intervalo-Interquartil de cada empresapara tomar sua decisão.3) Um laboratório clínico precisa decidir comprar um dentre três aparelhos (A, B, C) para dosagemde sangue. Para isto o responsável pelas análises preparou uma substância de concentraçãoconhecida (10 mg/ml) e extraiu várias amostras para serem dosadas pelos três aparelhos. Osresultados obtidos em cada um deles foram os seguintes: A 5 10 7 15 16 12 4 8 10 13 B 10 9 10 9 11 8 9 7 8 9 C 10 11 9 10 10 9 11 12 8 10Em medidas clínicas três termos são utilizados freqüentemente:Precisão: refere-se à dispersão dos resultadosNão-viciado: refere-se à tendência de um conjunto de medidas produzir um resultado igual ao“verdadeiro valor”Exato: refere-se ao instrumento preciso e não-viciado(a) Descreva os três instrumentos em termos das definições acima.(b) Qual instrumento lhe parece recomendável? Justifique sua resposta.Oliveira, D. C. R. e Oliveira, M. S. 21 ____/____/____
  27. 27. 7. ESTATÍSTICA GRÁFICA7.1. Gráficos para as Variáveis Qualitativas A representação gráfica da distribuição de uma variável tem a vantagem de, rápida econcisamente, informar sobre sua variabilidade. Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão ilustrados trêsdeles: Gráficos em Barras, o de Composição em Setores (“Pizza”) e o Gráfico de Pareto.7.1.1. Gráfico em Barras O gráfico em Barras consiste em construir retângulos ou barras, em que uma das dimensõesé proporcional à magnitude a ser representada (ni), sendo a outra arbitrária, porém igual para todasas barras. Essas barras são dispostas paralelamente uma às outras, horizontalmente ouverticalmente. No exemplo a seguir temos o gráfico em barras (verticais) para a variável Grau deInstrução. Tabela 7.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12 0,3333 33,33% Médio 18 0,5000 50,00% Superior 6 0,1667 16,67% Total n = 36 1,0000 100,00% Fonte: Bussab e Morettin (2002) 18 18 16 14 12 12 Freqüência (ni) 10 8 6 6 4 2 0 Fundamental Médio Superior Grau de Instrução Figura 7.1: Gráfico em Barras para a variável Grau de InstruçãoOliveira, D. C. R. e Oliveira, M. S. 22 ____/____/____
  28. 28. 7.1.2. Gráfico de Composição em Setores (“Pizza”) O gráfico de composição em setores (“pizza”), destina-se a representar a composição,usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário,representando o todo, dividido em setores, que correspondem às partes de maneira proporcional. Para o exemplo anterior temos o seguinte gráfico: 50% Fundamental Médio 33% Superior 17% Figura 7.2: Gráfico em Setores para a variável Grau de Instrução7.1.3. Gráfico de Pareto O gráfico de Pareto é um gráfico de barras representando a freqüência absoluta com umgráfico de linha, representando a porcentagem acumulada. Ele exibe a freqüência absoluta e aporcentagem acumulada no eixo vertical e as categorias da classificação no eixo horizontal (VerFigura 7.3 a seguir). Organizamos sempre as categorias em ordem decrescente da freqüência deocorrência, isto é, a de maior freqüência absoluta fica à esquerda, seguida pela segunda de maiorfreqüência, e assim por diante. 500 100 400 80 Porcentagem Acumulada Frequencia Absoluta 300 60 200 40 100 20 0 0 Modelo-Aviões MD-737 MD-777 MD-757 MD-767 MD-717 MD-747 MD-11 MD-90 Count 281 55 45 44 32 25 4 3 Percent 57,5 11,2 9,2 9,0 6,5 5,1 0,8 0,6 Cum % 57,5 68,7 77,9 86,9 93,5 98,6 99,4 100,0 Figura 7.3: Produção de aviões em 2000. (Fonte: Boeing Commercial Airplane Company)Oliveira, D. C. R. e Oliveira, M. S. 23 ____/____/____
  29. 29. A Figura 7.3 apresenta um gráfico de Pareto para a produção de aviões de transporte daBoeing Commercial Airplane Company no ano de 2000. Note que o 737 foi o modelo mais popular,seguido pelos 777, 757, 767, 717, 747, MD-11 e o MD-90. A linha no gráfico de Pareto conecta asporcentagens acumuladas dos k modelos produzidos com maior freqüência (k = 1, 2, 3, 4, 5). Nesseexemplo, os dois modelos produzidos com maior freqüência respondem aproximadamente 69% dototal dos aviões produzidos em 2000. 90 Porcentagem Acumulada 80 100 Número de Defeitos 70 80 60 50 60 40 30 40 30 21 20 20 10 6 6 5 5 4 4 0 0 Tipo de Defeito o s s a s es s s rn da ra ci da nt va ro nto ra hu ên ca ie oi ut co pa ra n qü ifi sa l s/ g O o la s/ se br s da d a lu a m ro de o rte fe n or fu ra nã Pa s/ es e F rt d Fo te s he Pa lta ar al nt Fa P E Count 30 21 6 6 5 5 4 4 Percent 37,0 25,9 7,4 7,4 6,2 6,2 4,9 4,9 Cum % 37,0 63,0 70,4 77,8 84,0 90,1 95,1 100,0 Figura 7.4: Gráfico de Pareto dos defeitos em elementos estruturais da porta. Os gráficos de Pareto são muito úteis na análise dos dados defeituosos em sistemas deprodução. A Figura 7.4 apresenta um gráfico de Pareto que mostra a freqüência com que váriostipos de defeitos ocorrem em peças de metal usadas em um componente estrutural da moldura deuma porta de automóvel. Note como o gráfico de Pareto realça os relativamente poucos defeitosque são responsáveis pela maioria dos defeitos observados na peça. O gráfico de Pareto é parteimportante no programa de melhora da qualidade, porque permite que a gerência e a engenhariaconcentrem sua atenção nos defeitos mais críticos do produto ou processo. Uma vez identificadosesses defeitos críticos, devem-se desenvolver e implementar ações corretivas para reduzi-los oueliminá-los.Curiosidade: O gráfico de Pareto tem esse nome em homenagem ao economista italiano VilfredoPareto que estabeleceu a teoria de que, em certas economias, a maior parte da riqueza (80%)pertence à minoria da população (20%).Oliveira, D. C. R. e Oliveira, M. S. 24 ____/____/____
  30. 30. 7.2. Gráficos para as Variáveis Quantitativas Para variáveis Quantitativas podemos considerar uma variedade maior de representaçõesgráficas.7.2.1. Gráfico em Barras O gráfico em Barras para as variáveis quantitativas é construído da mesma forma ao dasvariáveis qualitativas. Como ilustração, considere a variável “Número de Filhos” dos empregados casados daseção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados. Tabela 7.2: Freqüências e Porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o número de filhos. Números de Filhos (xi) Freqüência (ni) Porcentagem (100 x fi) 0 4 20 1 5 25 2 7 35 3 3 15 4 0 0 5 1 5 Total n = 20 100 Fonte: Bussab e Morettin (2002) Figura 7.5: Gráfico de Barras para a variável Números de FilhosOliveira, D. C. R. e Oliveira, M. S. 25 ____/____/____
  31. 31. 7.2.2. Gráfico de Pontos ou Gráfico de Dispersão Unidimensional (ou Dot-Plot) Quando os dados consistem em um pequeno conjunto de números, estes podem serrepresentados traçando-se uma reta com uma escala que abranja todas as mensurações observadas egrafando-se as respectivas freqüências como pontos acima da reta. Por esse motivo, é tambémconhecido como gráfico de pontos.Exemplo: Considere a variável tempo, em segundos, entre carros que passam por um cruzamento,viajando na mesma direção: 6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10. 2 3 4 5 6 7 8 9 10 Figura 7.6: Gráfico de Dispersão – Dot Plot7.2.3. Histograma O Histograma é utilizado para representar a distribuição de freqüência. É um gráfico debarras contíguas, com bases proporcionais aos intervalos de classes e a área de cada retânguloproporcional à respectiva freqüência relativa. Indicaremos a amplitude do i-ésimo intervalo por ai.Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional adi = fi/ai, que é chamada de densidade de freqüência da i-ésima classe. Quanto mais dados tivermosem cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histogramaserá 1 (um).Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da CompanhiaMB, temos os seguintes dados: Tabela 7.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB, por faixas de salário Classe de Freqüência Proporção Porcentagem Densidade de Freqüência Salário (ni) (fi) (100 x fi) (di = fi/ai) 04 |-- 08 10 0,2778 27,78 0,0695 08 |-- 12 12 0,3333 33,33 0,0833 12 |-- 16 8 0,2222 22,22 0,0556 16 |-- 20 5 0,1389 13,89 0,0347 20 |-- 24 1 0,0278 2,78 0,0070 Total n = 36 1,0000 100,00Oliveira, D. C. R. e Oliveira, M. S. 26 ____/____/____
  32. 32. 0,09 0,08 0,07 0,0833 ensidade de Freqüência 0,06 0,0695 0,05 0,0556 0,04 0,03 0,0347 D 0,02 0,01 0,007 0 04 |-- 08 08 |-- 12 12 |-- 16 16 |-- 20 20 |-- 24 Classes de Salários Figura 7.7: Histograma da variável Salário7.2.4. Gráfico em Linhas (ou Gráfico Temporal) É um gráfico utilizado para representar observações feitas ao longo do tempo, em intervalosiguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou sériestemporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo. Tabela 7.4: Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares. Ano Dívida Ano Dívida Ano Dívida 1956 2736 1973 14857 1990 123439 1957 2491 1974 20032 1991 123910 1958 2870 1975 25115 1992 135949 1959 3160 1976 32145 1993 145726 1960 3738 1977 37951 1994 148295 1961 3291 1978 52187 1995 159256 1962 3533 1979 55803 1996 179935 1963 3612 1980 64259 1997 199998 1964 3294 1981 73963 1998 241644 1965 3823 1982 85487 1999 241468 1966 3771 1983 93745 2000 236156 1967 3440 1984 102127 2001 226067 1968 4092 1985 105171 2002 227689 1969 4635 1986 111203 2003 235414 1970 6240 1987 121188 2004 220182 1971 8284 1988 113511 2005 187987 1972 11464 1989 115506 2006 191999 Fonte: IPEADATAOliveira, D. C. R. e Oliveira, M. S. 27 ____/____/____

×