Your SlideShare is downloading. ×
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Estatistica Descritiva

5,150

Published on

Introdução a estatistica …

Introdução a estatistica
Apostila 01: estatistica descritiva
Mat027apostila1; unidade I

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
5,150
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
130
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA - DEPARTAMENTO DE ESTATÍSTICAMAT 027 - ESTATISTICA IVA P O S T I L A 1: E S T A T I S T I C A D E S C R I T I V A 1
  • 2. PREFÁCIO Prefácio à primeria versão A atual estrutura complexa de nossa sociedade introduziu a necessidade de um estudo cada vez mais de-talhado acerca das informações disponíveis. Assim, todos os cursos da Universidade têm, em algum momento,necessidade de fazer uso da Estatística, como metodologia, dado o caráter quantitativo de grande parte daspesquisas realizadas. Assim, em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entenderuma massa de dados, relevante ao seu particular objeto de estudos. Se forem informações sobre uma amostraou população, ele necessitará resumir os dados para que estes sejam informativos, ou para compará-los comoutros resultados, ou ainda para julgar sua adequação a alguma teoria. Segundo BERQUÓ et alii (1981), o papel da Estatística na pesquisa científica está em contribuir juntoao investigador: na formulação das hipóteses científicas e fixação das regras de decisão; no fornecimentode técnicas para um eficiente delineamento de pesquisa; na coleta, tabulação e análise dos dados empíricos(estatística descritiva) e em prover testes de hipóteses a serem realizados de tal modo que a incerteza dainferência indutiva possa ser expressa em um nível probabilístico pré-fixado (estatística indutiva). Este curso de estatística de apenas um semestre objetiva primordialmente que o aluno conheça a linguagem(”jargão” da estatística) e as palavras-chave para poder trocar idéias e/ou consultar um estatístico, bem comoque o aluno tenha o mínimo conhecimento técnico para realização de uma futura análise, fornecendo com certasegurança as interpretações dos dados. Além disso, esse conhecimento permitirá uma leitura mais crítica deartigos de sua área de interesse. Esperamos que, apesar da abordagem ampla e superficial, este curso possa contribuir para a formação dosfuturos licenciados e bacharéis no que tange à metodologia estatística. Leila Denise Alves Ferreira em 2001. Prefácio à segunda versão Esta nova versão da apostila do curso Estatística IV, uma disciplina ministrada essencialmente aos alunosde graduação da área de saúde na UFBa, reapresenta o material inicialmente proposto pela professora Leila,agora com algumas correções que se fizeram necessárias a partir das experiências vividas pelos professores quea utilizou nesses 4 últimos semestres. Fundamentalmente, as diferenças entre as duas versões dizem respeito aalgumas falhas de impressão, detectadas principalmente em algumas fórmulas, além das figuras que receberamnova definição visual. A versão on line, agora apresentada no formato ’pdf’, pode ser ”baixada” a partir doendereço: www.est.ufba.br/mat027. O curso está dividido em três módulos: Estatística Descritiva, Probabilidade e Inferência, cujo objetivoé proporcionar ao aluno o conhecimento básico de Estatística para uso em situações relacionadas com o seucampo de estudo. Maristela D. de Oliveira e Angelo Marcio O. Sant’anna em 2002. 2
  • 3. 1 IntroduçãoA palavra estatística deriva da expressão status, em latim, e significa o ”estudo do estado”. Foi pensada pelosingleses, no século XVI, como uma ciência política, destinada a descrever características de um estado ou país,tais como população, área, riqueza e recursos naturais (Laurenti et al. 1985), envolvendo compilações de dadose gráficos. Em 1662, John Graunt publicou informes estatísticos sobre nascimentos e mortes. A partir daí deu-se início ao desenvolvimento da probabilidade e estatística, sobretudo a partir do século XVII, com o estudo dasgrandes epidemias que assolavam o mundo, dando ensejo ao desenvolvimento da demografia. Em cada séculoseguinte mais e mais áreas foram se incorporando ao conjunto das que faziam uso da estatística. Na últimadécada, com a grande revolução da informática, houve um avanço significativo das áreas de probabilidade eestatística, com o desenvolvimento de softwares mais poderosos, deixando à disposição do pesquisador muitasferramentas alternativas ao seu trabalho (BOTTER, et alii, 1996) Hoje em dia a maior parte das decisões tomadas em quase todas as áreas de atividade humana moderna(por exemplo, avaliação de novos tratamentos médicos e de novos terminais de atendimento bancário, doplanejamento de pesquisas científicas, de estratégias de marketing e investimento, para citar algumas) têmsuas bases na estatística - definida, a grosso modo, como a coleta, análise e interpretação de dados, ou deforma mais ampla, como a ”ciência da tomada de decisão perante incertezas”. Como já foi dito anteriormente, a Estatística engloba um grande leque de ferramentas de análise. Comfinalidade didática iremos dividir a estatística em dois grandes grupos: a) Estatística Descritiva: Por conta da quantidade de dados geralmente ser tão grande, é extremamentedifícil captar intuitivamente as informações que os dados contêm. É necessário, portanto, que as informaçõessejam reduzidas até o ponto em que se possa interpretá-las mais claramente. A estatística descritiva vairesumi-las através do uso de certas medidas-síntese, que tornem possível a interpretação de resultados. Nosentido mais amplo, suas funções são: • coleta de dados; • organização e classificação destes dados; • apresentação através de gráficos e tabelas; • cálculo de coeficientes (estatísticos), que permitem descrever resumidamente os fenômenos. b) Indutiva ou Inferência Estatística : Consiste em obter e generalizar conclusões; ou seja, inferirpropriedades para o todo com base na parte, no particular. É tratada através de técnicas e métodos que sefundamentam na Teoria das Probabilidades. • Em estatística utilizaremos extensivamente os termos população e amostra. Assim, definiremos esses termos no contexto da estatística: • População: conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem estudados. Con- grega todas as observações que sejam relevantes para o estudo de uma ou mais características dos indivíduos. Podem ser tanto seres animados ou inanimados. • Amostra: um subconjunto de elementos extraídos de uma população. • Censo: é uma coleção de dados relativos a todos os elementos de uma população. O esquema a seguir tenta sintetizar, com um exemplo, as etapas de uma pesquisa estatística: 3
  • 4. População Amostra Tratamento de dados Inferência estatística Estatística descritiva Teoria das probabilidades2 ESTATÍSTICA DESCRITIVA2.1 FASES DO TRABALHO ESTATÍSTICOA estatística está envolvida em todas as etapas de um projeto de pesquisa. A seguir as fases de um trabalhocientifíco são citadas do ponto de vista do trabalho estatístico. As fases do trabalho estatístico são do âmbito da Estatística Descritiva, e são as principais fases asseguintes: 1. Definição do Problema: formulação completa do problema a ser estudado. Levantamento de outros trabalhos realizados no mesmo campo e análogos, uma vez que parte da informação de que se necessita pode ser encontrado nestes últimos. 2. Planejamento: determinação do procedimento necessário para resolver o problema e, em especial, como levantar informações sobre o assunto objeto de estudo. Preocupação com a formulação correta das perguntas, qualquer que seja a modalidade de coleta de dados. É nesta fase que será escolhido o tipo de levantamento a ser utilizado, que pode ser censitário ou por amostragem. Outros elementos importantes a serem pré-estabelecidos desta fase são: o cronograma das atividades (fixação de prazo para as várias fases); os custos envolvidos; exame das informações disponíveis; o delineamento da amostra (se necessária); a forma como serão escolhidos os dados; elaboração do questionário. 3. Coleta de dados (quesitos específicos para obter informações desejadas): refere-se à obtenção, reunião e registro sistemático de dados, com um objetivo determinado. Além dos registros feitos pelo próprio pesquisador, pode-se recorrer a fontes externas de dados. 4. Crítica dos questionários: leitura dos questionários, observação de respostas incompletas, erradas. Su- pressão de valores estranhos ao levantamento. 5. Apuração dos dados: consiste em resumir os dados, através de sua contagem e agrupamento. É um trabalho de condensação e de tabulação dos dados, que chegam ao analista de forma desorganizada, tornando impossível a tarefa de apreender todo o seu significado pela simples leitura. Nos dias atuais esta apuração tornou-se sinônimo de organização de base de dados, que é realizada em computadores. 6. Apresentação dos Dados: há duas formas de apresentação: 4
  • 5. (a) Apresentação Tabular: apresentação numérica dos dados. As tabelas têm a vantagem de conseguir expor, sinteticamente, e em um só local, os resultados sobre determinado assunto, de modo a se obter uma visão global mais rápida daquilo que se pretende analisar. (b) Apresentação Gráfica: constitui uma apresentação geométrica. É de extrema importância, no sentido de permitir uma visão rápida, fácil e clara do fenômeno e sua variação. 7. Análise e Interpretação dos Dados: O interesse maior consiste em tirar conclusões que auxiliem o pesquisador a resolver seu problema. A analise dos dados estatísticos está ligada essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno. Assim, o conjunto de dados a ser analisado pode ser expresso por números-resumos, as estatísticas, que evidenciam características particulares desse conjunto. O significado exato de cada um desses valores será explicado posteriormente.2.2 CLASSIFICAÇÃO DE VARIÁVEISDefiniremos variável como qualquer atributo/característica que exerça influência no fenômeno estudado. Porexemplo, desejamos registrar a idade das pessoas ao morrer, a estatura ou peso dos indivíduos, o rendimentodas famílias em uma grande cidade, o número de empregados dispensados, por mês, em uma grande empresa,a distribuição dos alunos por sexo, etc. Antes da escolha da análise descritiva apropriada é necessária a classificação da variável de interesse, poisa adequação da técnica está diretamente relacionada ao tipo de variável em questão. De acordo com a estrutura numérica as variáveis podem ser classificadas em: • Quantitativas - se os resultados das observações serão expressos sempre através de números, que repre- sentam contagens ou medidas. Ex: Idade, Altura, Peso, Número de nascidos vivos, População. • Qualitativas - se os resultados das observações serão expressos através de categorias, que se distinguem por alguma característica não-numérica. Ex: Sexo, Nível de escolaridade, Cor da pele, Estado civil, Tipo sanguíneo. As variáveis qualitativas podem ser classicadas, por sua vez, em: 1. Nominal - caracteriza-se por dados que consistem apenas em nomes, rótulos ou categorias. Os dados não podem ser dispostos segundo um esquema ordenado. Ex: Estado civil 2. Ordinal - envolve dados que podem ser dispostos em alguma ordem, mas as diferenças entre os valores dos dados não podem ser determinadas ou não tem sentido. Ex: Nível de escolaridade. Em relação às variáveis quantitativas, estas podem ser classificadas em: 1. Discreta - só pode assumir valores pertencentes a um conjunto finito ou enumerável. Ex: Número de alunos presentes às aulas de determinado professor; número de mortos em um surto de determinada doença. Geralmente, seus valores são resultados de um processo de contagem, razão pela qual seus valores são expressos através de números inteiros não-negativos. 2. Contínua - pode assumir qualquer valor pertencente a um determinado intervalo do conjunto dos Reais. Ex: Estatura e peso de atletas de um time de voley; temperatura máxima diária. Pode-se dizer que a variável contínua resulta normalmente de mensurações. 5
  • 6. 2.3 TIPOS DE SÉRIES ESTATÍSTICASSérie estatística é uma sucessão de dados estatísticos que medem a intensidade do fenômeno, segundo suascaracterísticas qualitativas ou quantitativas. As séries estatísticas serão classificadas de acordo com a variaçãode três elementos: tempo, local e o fato. São elas: • Série Histórica - É aquela em que o elemento que serve como base de classificação é a fração do tempo, como o dia, o mês, o ano, o século, etc.. Ex: : Taxa de mortalidade infantil nos últimos 10 anos na cidade do Salvador-Ba. • Série Geográfica - É aquela que apresenta como elemento variável somente o local (fator geográfico). Ex: A produção de cereais no Brasil, em 1996, segundo os Estados produtores. • Série Específica - É aquela série que apresenta como elemento ou caráter variável o fato(ou espécie), per- manecendo fixos a época e o local. Ex: Os alunos de uma Faculdade, em determinado ano, classificados segundo o tipo sanguíneo. • Série Mista - refere-se às séries que são combinações de outros tipos de séries já estudadas. Classificação da população brasileira segundo as Unidades da Federação e o sexo.2.4 APRESENTAÇÃO DOS DADOS2.4.1 ELABORAÇÃO DE TABELASApós a apuração, há a necessidade de os dados e os resultados obtidos a partir daqueles serem dispostos deuma forma ordenada e resumida, a fim de auxiliar o pesquisador na análise e facilitar a compreensão dasconclusões apresentadas ao leitor. Os dados e os resultados são então apresentados na forma de tabelas. Uma tabela deve ser auto-suficiente, isto é, deve ter significado próprio, de modo a prescindir, quandoisolada, de consultas ao texto. A elaboração de tabelas obedece à Resolução no 886, de 26 de outubro de 1966,do Conselho Nacional de Estatística. Uma tabela possui elementos essenciais e complementares. Os elementos essenciais são: • Título - É obrigatório. Deve conter a designação do fato observado, o local e a época em que foi registrado. Deve ser claro e conciso. É colocado na parte superior da tabela. • Corpo da tabela - É o conjunto de colunas e linhas onde se encontram as informações numéricas sobre o fato observado. Casa, célula ou cela - é o cruzamento de cada linha com uma coluna, onde se tem a frequência com que a categoria aparece. • Cabeçalho - é a parte superior da tabela, onde se especifica o conteúdo de cada coluna. • Coluna indicadora - é a parte da tabela em que se especifica o conteúdo de cada linha. • Os elementos complementares são: • Fonte - é a indicação da entidade responsável pelo fornecimento ou elaboração dos dados. É colocado no rodapé da tabela. • Notas - são colocadas abaixo da fonte, se necessárias. Contém informações gerais destinadas a conceituar ou esclarecer o conteúdo das tabelas. • Chamadas - também colocadas no rodapé (se necessárias). Servem para esclarecer minúncias em relação às casas, colunas ou linhas. 6
  • 7. Algumas observações fazem-se importantes na elaboração de uma tabela. São elas: 1. Nenhuma casa da tabela deve ficar em branco. Na ausência de um dado numérico, emprega-se alguns dos sinais convencionais, como hífen, reticências, etc. (Veja explicação em sala de aula com seu professor). 2. As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, não sendo fechadas à direita ou à esquerda por linhas verticais. É facultativo o emprego de traços verticais para a separação de colunas no corpo da tabela. 3. Em publicações que compreendem muitas tabelas, estas devem ser numeradas em ordem crescente, conforme a ordem do aparecimento. 4. Os totais e subtotais devem ser destacados. 5. Deverá ser mantida a uniformidade, quanto ao número de casas decimais.2.4.2 DISTRIBUIÇÃO DE FREQUÊNCIAAs distribuições de frequências constituem-se num caso particular das séries estatísticas, nas quais todos oselementos são fixos. Agora os dados referentes ao fenômeno são apresentados através de gradações, onde éfeita a correspondência entre categorias ou valores possíveis e as frequências respectivas. A definição de alguns conceitos será importante para o uso da linguagem apropriada ao elaborarmose analisarmos as distribuições de frequências. No total, são 9 conceitos a serem apresentados. A seguirdefiniremos 5 primeiros, válidos para quaiquer distribuição de freqüências, e mais adiante apresentaremos os4 últimos, específicos para dados agrupados em classes.: 1. Dados Brutos - É o conjunto dos dados numéricos obtidos após a coleta dos dados. Ex: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993. 24 - 23 - 22 - 28 - 35 - 21 - 23 - 33 - 34 - 24 - 21 - 25 - 36 - 26 - 22 - 30 - 32 - 25 - 26 - 33 - 34 - 21 - 31 - 25 - 31 - 26 - 25 - 35 - 33 - 31 Como pode ser observado, os valores estão dispostos de forma desordenada. Em razão disso, pouca informação se consegue obter inspecionando-se os dados anotados. Mesmo uma informação tão simples como a de saber os valores mínimos e máximo requer um certo exame dos dados coletados. 2. Rol - É o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente. Ex: Utilizando os mesmos dados anteriores: 21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -32 - 33 - 33 - 33 - 34 - 34 - 34 - 35 - 35 - 36 Apresenta vantagens concretas em relação aos dados brutos. Ela torna possível visualizar, de forma bem ampla, as variações dos dados, uma vez que os valores extremos são percebidos de imediato. Mas, a análise com este tipo de disposição começa a se complicar quando o número de observações tende a crescer. 3. Amplitude total ou ”range” (A) - É a diferença entre o maior e o menor valor observado da variável em estudo. Ex: Utilizando os mesmos dados anteriores: A = 36 - 21 = 15. 4. Frequência absoluta simples (fi ) - É o número de vezes que o elemento aparece na amostra ou o número de elementos pertencentes a uma classe. 7
  • 8. 5. Frequência total (ft ) - É a soma das frequências simples absolutas de todos os elementos observados. Para condensarmos melhor os dados, é aconselhável a elaboração de distribuições de frequência. Umatabela com distribuição de frequência é uma tabela onde se procura fazer um arranjo dos valores e suasrespectivas frequências, onde a frequência de determinado valor será dado pelo número de observações ourepetições de um valor ou de uma modalidade. As tabelas de frequências podem representar tanto valoresindividuais como valores agrupados em classes. Essas tabelas podem ser classificadas em: • Distribuição de Frequências de Dados Tabulados Não-Agrupados em Classes - é uma tabela onde os valores da variável aparecem individualmente. Esse tipo de distribuição é utilizado geralmente para representar uma variável discreta, com pouca variedade de valores. Exemplo : Utilizando os mesmos dados anteriores, a tabela a seguir representa a distribuição de frequênciasde dados não agrupados. Tabela 1: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993. Idade (Xi ) fi 21 3 22 2 23 2 24 1 25 4 26 3 28 1 30 1 31 3 32 1 33 3 34 3 35 2 36 1 TOTAL (fi ) 30 Fonte: (dados hipotéticos) Este tipo de tabela não é aconselhável quando estamos trabalhando com variáveis que apresentam umagrande quantidade de valores distintos, uma vez que a tabela poderá ficar muito extensa, dificultando, alémde sua elaboração, as análises e conclusões dos dados pesquisados. Note que a soma das frequências absolutas simples é sempre igual ao número total de valores observados. • Distribuição de Frequências de Dados Agrupados em Classes. Muitas vezes com o objetivo de resumir os dados originais em uma distribuição de frequências, utilizare-mos os dados agrupados em classes e não mais individualmente. Classe pode ser definida como sendo ossubintervalos da Amplitude Total de uma variável (grupo de valores). Quando a variável objeto de estudo for contínua geralmente será conveniente agrupar os valores observadosem classes. Se, por outro lado, a variável for discreta e o número de valores representativos dessa variável formuito grande, recomenda-se o agrupamento dos dados em classes. Nesse último caso, o procedimento visa aevitar certos inconvenientes, como: 8
  • 9. 1. grande extensão da tabela, dificultando, tanto quanto os dados brutos, a leitura e a interpretação dos resultados apurados. 2. o aparecimento de diversos valores da variável com frequência nula. 3. impossibilidade ou dificuldade de visualização do comportamento do fenômeno como um todo, bem como de sua variação. Este tipo de tabela informa, de imediato, a tendência de a série se concentrar em torno de um valor central,além de proporcionar uma visão panorâmica do comportamento da variável, o que seria impossível de se fazera partir da lista dos dados brutos. Ex: Utilizando os mesmos dados anteriores, temos: Tabela 2: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993. Idade Frequências (fi ) 21 |– 24 7 24 |– 27 8 27 |– 30 1 30 |– 33 5 33 |– 36 9 TOTAL 30 Fonte: (dados hipotéticos) O símbolo |– indica a inclusão do limite inferior do intervalo naquela classe. Outras possibidades são: –| , |–| , – Para construção de tabelas de frequência para dados agrupados em classe os 4 conceitos listados a seguir,complementam os 5 primeiros já apresentados: 1. Definição do número de classes - É representado por k. É importante que a distribuição conte com um número adequado de classes. Se esse número for escasso, os dados originais ficarão tão comprimidos que pouca informação poderá ser extraída desta tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com frequência nula ou muito pequena, apresentando uma distribuição irregular e prejudicial à interpretação do fenômeno. Para determinar o número de classes há diversos métodos. Nós aprenderemos duas soluções: √ (a) k = 5, para n ≤ 25 e k = n , para n > 25. (b) Fórmula de Sturges: K = 1 + 3, 3 log10 n, onde n é o tamanho da amostra Exemplo: Se n = 49 teríamos: • pelo primeiro método: k = 7 • pelo segundo método: k = 1 + 3, 3 log10 49 ==> k = 6, 58 ==> k ≈ 7 Mesmo tendo outros critérios de determinação do número de classes, o que se deve ter em mente é que a escolha dependerá sobretudo da natureza dos dados e da unidade de medida em que eles se encontram, e não somente de regras muitas vezes arbitrárias e pouco flexíveis. Para facilitar a análise é conveniente que se mantenham os intervalos de classe sempre constantes. 2. Limites de Classe - Os limites de classe são seus valores extremos. No exemplo anterior de dis- tribuição de frequência, o valor 21 é denominado limite inferior da primeira classe, enquanto o valor 24 é denominado limite superior da primeira classe. 9
  • 10. 3. Amplitude do Intervalo de Classe (h) - A amplitude de um intervalo de classe corresponde ao comprimento desta classe. Numericamente, sua amplitude pode ser definida como a diferença existente entre os limites superior (ou inferior) de duas classes consecutivas. Ex: Utilizando os mesmos dados anteriores: h = 24 − 21 = 34. Pontos Médios ou Centrais da Classe (xj ) - É a média aritmética simples entre o limite superior e o inferior de uma mesma classe. Ex: Utilizando os mesmos dados anteriores: 24+21 x1 = 2 = 22, 5 Para obter os pontos médios das demais classes, basta acrescentar ao ponto médio da classe precedente a amplitude do intervalo de classe. TIPOS DE FREQUÊNCIAS ½ AbsolutaFrequências Simples Relativa  ½  “Abaixo de” Absoluta    (crescente)  RelativaFrequência Acumulada ½     “Acima de” Absoluta  (dcrescente) Relativa1. Frequência Simples: (a) Frequência Simples Absoluta (fi ) - é o número de repetições de um valor individual ou de uma classe de valores da variável. Trata-se do caso visto até o presente momento. (b) Frequência Simples Relativa (fri ) - representa a proporção de observações de um valor indi- vidual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de um número relativo. f Pi fi fri = fi = ft (1) Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100: fi fri = n .100 (2)2. Frequências Acumuladas: (a) Frequências Acumuladas “Abaixo de ”: i. Absoluta (Fiab ) - é a soma da frequência simples absoluta de uma classe ou de um dado valor com as frequências simples absolutas das classes ou dos valores anteriores. A expressão ”abaixo de” refere-se ao fato de que as frequências a serem acumuladas correspondem aos valores menores ou anteriores ao valor ou à classe cuja frequência acumulada se deseja obter, incluindo no cálculo a frequência do valor ou da classe. É utilizada toda vez que se procura saber quantas observações existem até uma determinada classe ou valor individual. 10
  • 11. ii. Relativa (Friab ) - é a soma da frequência simples relativa dessa classe ou desse valor com as frequências simples relativas das classes ou dos valores anteriores. (b) Frequências Acumuladas ”Acima de”: i. Absoluta (Fiac ) - representa o número de observações existentes além do valor ou da classe, incluindo no cálculo as observações correspondentes a esse valor ou a essa classe. Para obter este tipo de frequência, basta somar à frequência simples absoluta da classe ou do valor individual, as frequências simples absolutas das classes ou dos valores individuais posteriores. ii. Relativa (Friac ) - igual à soma da frequência simples relativa dessa classe ou desse valor com as frequências simples relativas das classes ou dos valores posteriores. Exemplo com as frequências apresentadas. Tabela 3: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993. Idade N o de alunos(fi ) fri fri (%) Fiab Fiab (%) Fiac Fiac (%) 21 |– 24 7 0.23 23 7 23 30 100 24 |– 27 8 0.27 27 15 50 23 77 27 |– 30 1 0.03 3 16 53 15 50 30 |– 33 5 0.17 17 21 70 14 47 33 |– 36 9 0.30 30 30 100 9 30 TOTAL 30 1.00 100 ... ... ... ... Fonte: (dados hipotéticos)2.4.3 APRESENTAÇÃO GRÁFICAA apresentação gráfica é um complemento importante da apresentação tabular. A principal vantagem de umgráfico sobre a tabela prende-se ao fato de que ele permite conseguir uma visualização imediata da distribuiçãodos valores observados. Propiciam os gráficos uma idéia preliminar mais satisfatória da concentração e dis-persão dos valores, uma vez que através deles os dados estatísticos se apresentam em termos de grandezasvisualmente interpretáveis. Os gráficos devem ser auto-explicativos e de fácil compreensão, de preferência sem comentários inseridos.Devem ser simples, atrair a atenção do leitor e inspirar confiança. Todo gráfico deve apresentar um título euma escala, dispensando esclarecimentos adicionais no texto. Os gráficos podem ser cartogramas ou diagramas. Identifiquemos cada um deles: 1. Cartogramas - são mapas geográficos ou topográficos em que as frequências das categorias de uma variável são projetadas nas áreas específicas do mapa, utilizando-se cores ou traçados cujos significa- dos constam em legendas anexadas às figuras. Em epidemiologia, os mapas alfinetados são de grande emprego para apreciar o aparecimento e expansão de certas moléstias. Esse tipo de representação gráfica é de grande utilidade em Saúde Pública, sobretudo na elaboração de inquéritos epidemiológicos em que se deseja conhecer a distribuição geográfica de casos e óbitos de uma determinada doença epidêmica. 2. Diagramas - são gráficos em que a magnitude das frequências é representada por certa mensuração de uma determinada figura geométrica. São os gráficos mais usados na representação de séries estatísticas e se apresentam através de uma grande variedade de tipos. 11
  • 12. • Tipos de Diagramas: (a) Gráficos em Linhas ou Gráficos Lineares - São frequentemente usados para a representação de séries temporais. As linhas são mais eficientes neste tipo de gráfico porque permitem a detecção de intensas flutuações nas séries e também possibilitam a representação de várias séries em um mesmo gráfico. (b) Gráficos Pictóricos (Pictogramas) - São gráficos construídos a partir de figuras ou conjunto de figuras representativas da intensidade ou das modalidades do fenômeno. São gráficos muito comuns em jornais e revistas, tendo como principal vantagem o fato de despertar a atenção do público leitor. (c) Gráficos em Barras - Têm por finalidade comparar grandezas, por meio de retângulos de igual largura e alturas proporcionais às respectivas grandezas. Cada barra representa a intensidade de uma modalidade ou atributo. (d) Gráficos em Colunas - Prestam-se à mesma finalidade dos gráficos em barras horizontais, sendo, entretanto, preferíveis a esses últimos quando as legendas a se inscreverem sob os retângulos forem breves. (e) Gráficos de Colunas Remontadas ou de Barras Agrupadas - São utilizados para estabelecer comparações entre duas ou mais categorias. (f) Gráficos em Setores - São utilizados para representar valores absolutos ou porcentagens com- plementares. Utilizados quando se pretende comparar cada valor da série com o total. A seguir podemos encontrar alguns tipos de diagramas, sendo que o Box-Plot será explicado mais adiante.a. Gráfico em linha: c. Gráfico em barras Gráfico 1. Quantidade de resíduos industriais jogados no rio Gráfico 2. A produção de cereais no Brasil, segundo os Acushnet, em partes por milhão, em New Bedford, estado de Estados produtores, em 1996. Massachussetts. 1990. 10 Bahia 21 8 7, 5 Sergipe 38 Freqüência Estados 6 5, 8 5, 7 4, 9 5, 1 4 Piauí 27 2 Maranhão 10 0 1980 1981 1982 1983 1984 0 10 20 30 40 50 Pe ríodo Freqüências 12
  • 13. d. Gráfico em colunas e. Gráfico em colunas remontadas Gráfico 3. Consumo de gasolina, em milhas por galão (mpg) Gráfico 4. Consumo de equipamentos, em milhões de de 5 modelos compactos de automóvel, em Prince, estado de unidades, de uma determinada cidade, em Pernambuco. Massachussetts. 1990 10 50 8,5 41 8 38 40 35 Freqüências Cosumo (mpg) 28 6 30 26 5 4,2 3,6 3,8 4 20 2,7 3 2,7 2,4 2 1,2 10 1,2 0,5 0 0 Mazda 808 Vega Toyota Dodge Colt Toyota Corolla Celica 1996 Modelos Produtos 1997 f. Gráfico em setores g. Box-Plot D istribuição do peso de todas as crianças prem aturas ao nascer e Gráfico 5. A produção de cereais no Brasil, segundo os após dez dias de aplicação da dieta alim entar. H ospital W W W , Estados produtores, 1996. Salvador, 1998. 2100 10% 2000 22% 1900 1800 28% 1700 1600 Maranhão 1500 Piauí Se rgipe 1400 N = 100 100 Bahia P eso ao N asc er 40% P eso após 10 dias2.4.3.1 GRÁFICOS REPRESENTATIVOS DAS DISTRIBUIÇÕES DE FREQUÊNCIAA representação gráfica das distribuições de frequência é feita através do histograma e do polígono de frequên-cia. 1. Histograma - É um gráfico formado por um conjunto de retângulos justapostos, de forma que a área de cada retângulo seja proporcional à frequência da classe que ele representa. 2. Polígonos de Frequência - Unindo por linhas retas os pontos médios das bases superiores dos retân- gulos do histograma, obtém-se outra representação dos dados, denominada polígono de frequência. Maiores informações sobre esses e outros tipos de gráfico serão fornecidas em aula pelo professor. CURIOSIDADE: Florence Nightingale Florence Nightingale (1820-1910) é conhecida por muitos como a fundadora da profissão de enfermeira,mas ela também salvou milhares de vidas utilizando a estatística. Ao encontrar um hospital em más condições 13
  • 14. sanitárias e sem suprimentos, tratou de melhorar essas condições e passou a utilizar a estatística para con-vencer as autoridades da necessidade de uma reforma médica mais ampla. Elaborou gráficos originais paramostrar que, durante a guerra da Criméia, morreram mais soldados em consequência de más condições san-itárias do que em combate. Florence Nightingale foi a pioneira na utilização não só da estatística social comodas técnicas de gráficos. Fonte: TRIOLA, Mário. Introdução à Estatística. LTC Editora, 7a edição. Rio de Janeiro, 19992.5 MEDIDAS DE TENDÊNCIA CENTRALVimos até agora a sintetização dos dados sob a forma de tabelas, gráficos e distribuições de frequências.Agora, vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados relativos àobservação de determinado fenômeno de forma resumida. As medidas de tendência central são também chamadas de medidas de posição, e estabelecem o valor emtorno do qual os dados se distribuem. Vale a pena chamar a atenção que, para o cálculo dessas medidas, é necessário que a variável seja quanti-tativa. • As principais medidas de tendência central são:2.5.1 Médias.São as medidas de tendência central mais comumente utilizadas para descrever resumidamente uma dis-tribuição de frequência.Média Aritmética 1. Média Aritmética Simples: É dada pelo quociente entre a soma dos valores observados e a frequência total ( o número total de observações). Genericamente, podemos escrever: P xi X= n (3) onde xi =valor genérico da observação n = tamanho da amostra =no . de observações Este tipo de média aritmética será calculada quando os valores não estiverem tabulados, ou seja, quando aparecerem representados individualmente como é o caso dos dados brutos, por exemplo. Ex: Temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos (em kg): 23,0 20,0 22,0 19,0 25,0 28,2 24,0 21,0 27,0 21,0 n = 10 23, 0 + 20, 0 + 22, 0 + 19, 0 + 25, 0 + 28, 2 + 24, 0 + 21, 0 + 27, 0 + 21, 0 ¯ X= =⇒ X = 23, 0 10 Isso significa que o peso médio é de 23,0 kg. É claro que foram obtidos pesos de crianças desta idade que se encontram abaixo ou acima do valor médio. No entanto, a média representa um valor típico (Soares & Siqueira,1999). 2. Média Aritmética Ponderada: É a média aritmética calculada quando os dados estiverem agrupados em distribuições de frequência. Os valores x1 , x2 , ..., xn serão ponderados pelas respectivas frequências absolutas f1 , f2 , ..., fn . 14
  • 15. Então teremos: P xi fi X= n Exemplos: (a) Para tabelas de distribuição de dados não agrupados (TABELA 4): Tabela 4: Número de cáries em crian´as de 7 anos de idade. Candeias.1990. c N o de dentes careados (xi ) No de crianças (fi ) xi fi 0 3 0 1 2 2 2 4 8 3 2 6 4 1 4 5 1 5 TOTAL 13 25 Fonte: (dados hipotéticos) 0 (3) + 1 (2) + 2 (4) + 3 (2) + 4 (1) + 5 (1) 2+8+6+4+5 25 X= = = = 1, 923 ≈ 2, 0 13 13 13 O número médio de cáries por criança é 2,0 entre a população avaliada em Candeias, ou seja, em média cada criança de 7 anos apresenta 2 cáries. (b) Para tabelas de distribuição de dados agrupados em classes (TABELA 5): Tabela 5: Casos de Aids segundo faixa etária. Bahia. 1993. Faixa Etária fi (×1000) xi (ponto médio) xi fi 15 |– 25 25 20 500 25 |– 35 30 30 900 35 |– 45 15 40 600 45 |– 55 10 50 500 TOTAL 80 ... 2500 Fonte: (dados hipotéticos) P xi fi 2500 X= = ... ==> X = 31, 25 ≈ 31, 0 n 80 Interpretação: A idade média dos pacientes de Aids na Bahia, em 1993, foi de 31 anos. A desvantagem da média aritmética relaciona-se com a existência de valores extremos (muito grandes ou muito pequenos), que podem distorcer o resultado final. Há casos em que outros tipos de média são mais adequados, como a média geométrica ou harmônica.Média Geométrica 1. Também pode ser simples ou ponderada, conforme se utilize ou não em seu cálculo uma tabela de frequências. 2. Média Geométrica Simples: A média geométrica de n valores é definida, genericamente, como a raiz n-ésima do produto entre eles. Dados n valores x1 , x2 , ..., xn , a média geométrica desses valores será: √ Xg = n x x ..... x 1 2 n (4) 15
  • 16. 3. Média Geométrica Ponderada: É a média geométrica quando os dados estiverem agrupados em uma distribuição de frequência. Será calculada por meio da expresssão: q X g = Σfi xf1 xf2 .....xfn 1 2 n (5) A média geométrica é usada principalmente em problemas envolvendo mudanças proporcionais. Em De- mografia é utilizada para se estimar a população de determinada localidade, quando se supõe crescimento geométrico. Também é utilizada em biologia para análises relacionadas com crescimento de organismos, como bactérias, por exemplo, ou contagem de ovos de parasitas.Média Harmônica: É o inverso da média aritmética dos inversos. P n xi 1 1 1 i=1 Os inversos dos valores ,X1 , X2 , ..., Xn serão: X1 , X2 , ..... Xn ,Assim, como X = , temos: n 1 1 n Xh = P n = 1 1 1 = P n 1 X1 + X +.....+ X 1 2 n xi i=1 n xi n i=1 De maneira análoga, temos a definição de média harmônica para dados agrupados em classes. Esse tipo de média é, sobretudo, usada para construção de índices econômicos. Em geral, temos :X h 6 X g 6 X. CURIOSIDADE: Um cidadão médio Um homem americano ”médio” chama-se Robert. Tem 31 anos, altura de 1,75 cm, pesa 78 kg, seumanequim é 48, calça sapatos tamanho 43 e tem 85 cm de cintura. Consome anualmente 5,6 kg de massa,11,8 kg de bananas, 1,8 kg de batatas fritas, 8,15 kg de sorvete e 35,8 kg de carne. Em cada ano, vê televisãodurante 2567 horas e recebe 585 cartas ou assemelhados pelo correio. Após comer sua porção de batatas fritas,ler a correspondência e ver televisão, ele termina o dia com 7,7 horas de sono. O dia seguinte começa com21 minutos de transporte para um emprego, onde trabalha 6,1 horas. Fonte: TRIOLA, Mário. Introdução à Estatística. LTC Editora, 7a edição. Rio de Janeiro, 1999Mediana (Md) É definido como o valor que divide uma série ordenada de tal forma que pelo menos ametade dos itens sejam iguais ou maiores do que ela, e que a outra metada dos itens sejam menores do queela. Colocados em ordem crescente, a mediana é o elemento que ocupa a posição central. Como a mediana divide os dados ordenados ao meio, ela não é sensível a valores discrepantes. A dependerde como estejam os dados, deve-se diferenciar a forma como encontra-se a mediana. 1. Determinação da Mediana de Valores não-tabulados. Processa-se a partir de um rol ou lista ordenada dos dados. Podem ocorrer duas hipóteses com relação ao número de observações n: que ele seja ímpar ou par. Veremos os dois casos: (a) Número ímpar de observações: Requer, em primeiro lugar, que se determine a ordem em que se encontra a mediana na série. Para isto encontramos: n+1 Emd = 2 (6) O passo seguinte será localizar a mediana na lista de valores, de acordo com o resultado obtido no cálculo do elemento mediano (Emd ). 16
  • 17. (b) Número par de observações: Neste caso, o elemento mediano será determinado através da expressão: n Emd = 2 (7) A mediana será determinada pela média aritmética entre os valores que ocupam a posição definida pelo elemento mediano e a posição sucessora.2. Determinação da Mediana de Valores Tabulados não-Agrupados em Classes. Da mesma forma como foi calculado anteriormente, definiremos o elemento mediano. Em seguida, acrescentaremos à tabela de frequência uma coluna de frequências acumuladas ”abaixo de” absoluta. Com o uso destas frequências encontraremos a posição definida pelo elemento mediano, na qual estará a mediana. Exemplo: Cálculo da mediana para os dados da tabela 4 da secção de média. Tabela 6: Número de cáries em crianças de 7 anos de idade. Candeias. 1990. N o de dentes careados (xi ) No de crianças (fi ) Fiab 0 3 3 1 2 5 2 4 9 3 2 11 4 1 12 5 1 13 TOTAL 13 ... Fonte: (dados hipotéticos) (n+1) 14 Solução: n = 13 ==> Emd = 2 =2 = 7. Como n é ímpar —> a mediana é definida pelo valor que ocupa a 7a posição. Com base nas informações da coluna que contém as frequências acumuladas ”abaixo de” absoluta, a mediana é igual a 2. Interpretação: 50% das crianças de 7 anos apresentaram 2 ou menos cáries numa comunidade de Candeias em 1990.3. Determinação da Mediana de Valores Tabulados Agrupados em Classes. Neste caso, encontramos o elemento mediano através da fórmula Emd = n , não se fazendo distinção 2 entre número par ou ímpar de observações. A partir daí, determinaremos a classe mediana, após a qual a mediana será calculada através da seguinte expressão: Md = l + h. Emd −Fant fmd (8) onde,l = limite inferior da classe mediana;h = amplitude do intervalo de classeEmd = elemento medianoFant = frequência acumulada até a classe anterior à classe medianaf md = frequência absoluta simples da classe mediana. 17
  • 18. Exemplo: Cálculo da mediana para os dados da Tabela 5 Casos de Aids segundo faixa etária. Bahia. 1993 Faixa Etária fi (×1000) Fiab 15 |– 25 25 25 25 |– 35 30 55 35 |– 45 15 70 45 |– 55 10 80 TOTAL 80 ... Fonte: (dados hipotéticos) n = 80 ==> Emd = 80 = 40. 2 O elemento que ocupa a 40a posição encontra-se na 2a classe. Logo, Md = 25 + 10(40−25) ==> Md = 30 30 Interpretação: 50% dos pacientes de Aids na Bahia, em 1993, tinham idade igual ou inferior a 30 anos.2.5.2 Moda (Mo)A moda é outra medida de tendência central, sendo, no entanto a menos importante. Sua vantagem é que podeser usada para variáveis qualitativas. Genericamente, pode-se definir a moda como o valor mais frequente dadistribuição. 1. Determinação da Moda de Valores Não-Tabulados. Considerando um conjunto ordenado de valores, a moda será o valor predominante, o valor mais fre- quente desse conjunto. Embora seu significado seja o mais simples possível, nem sempre a moda existe (distribuição amodal) e nem sempre é única. Se apresentar apenas uma moda diremos que é unimodal; se possuir duas modas diremos que é bimodal; se tiver várias modas (mais que duas) diremos que é multimodal. 2. Determinação da Moda para Valores Tabulados. No caso de dados tabelados não agrupados em classe, a determinação da moda é imediata, bastando para isso, consultar a tabela, localizando o valor que apresenta a maior frequência. Exemplo: Tabela 7: Indivíduos segundo o tipo sanguíneo. Tipo de Sangue Frequência O 417 A 292 B 94 AB 17 TOTAL 820 Fonte: (dados hipotéticos) Os dados apresentados mostram que na amostra o sangue tipo O ocorreu com maior frequência. Então, para esta amostra, a moda é sangue do tipo O. Tratando-se de uma tabela de frequências com valores tabulados e agrupados em classes, o procedimentonão é imediato, sendo disponíveis alguns métodos de cálculo distintos. Qualquer que seja o método adotado,o primeiro passo para determinar a moda é localizar a classe que apresenta a maior frequência, comumentechamada de classe modal. 18
  • 19. Nesse curso definiremos apenas o método da moda bruta, que consiste em tomar o ponto médio da classemodal como sendo a moda. A classe modal será aquela que apresentar a maior frequência absoluta simples. Exemplo: Tabela 8: Notas da 1a Avaliação dos Alunos de Estatística IV da UFBA. 1996.1 Notas Alunos(fi ) xi 0 |– 2 3 1 2 |– 4 5 3 4 |– 6 7 5 6 |– 8 6 7 8 |–10 1 9 TOTAL 22 ... Fonte: (dados hipotéticos) Para este exemplo temos que a terceira classe é a classe modal (fi = 7)e a moda bruta será seu pontomédio: Mo = 5. Interpretação: A nota mais frequente na 1a avaliação foi 5, 0.2.6 SEPARATRIZESSão as medidas que separam o rol ou a distribuição de frequências em partes iguais. Vimos que a medianadivide a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Agora vamosestudar outras medidas que dividem a distribuição em partes iguais, que serão as chamadas separatrizes. Sãoelas:2.6.1 Quartis (Qi):Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: Q1 Q2 Q3 0% 25% 50% 75% 100% Q1 : 1o quartil. Deixa 25% dos elementos antes do seu valor Q2 : 2o quartil. Deixa 50% dos elementos antes do seu valor. Coincide com a mediana Q3 : 3o quartil. Deixa 75% dos elementos antes do seu valor. Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a seguinteexpressão: in EQi = 4 (9)onde: i = número do quartil a ser calculado n = número de observações. Para dados agrupados em classes, encontraremos os quartis de maneira semelhante à usada para o cálculoda mediana: [EQi −Fant ] Qi = l + h. fQi (10) 19
  • 20. onde, l = limite inferior da classe que contém o quartil desejado h = amplitude do intervalo de classe EQi = elemento quartílico Fant = frequência acumulada até a classe anterior à classe mediana f Qi = frequência absoluta simples da classe quartílica.2.6.2 Decis(Di):Os decis dividem um conjunto de dados em dez partes iguais. Assim: D1 D2 D3 D4 D5 D6 D7 D8 D9 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% De maneira geral, para calcular os decis, recorreremos à expressão que define a ordem em que o decil seencontra: in EDi = 10 (11)Para dados agrupados em classes, encontraremos os decis de maneira semelhante à usada para cálculo damediana e dos quartis.2.6.3 Percentis ou Centis (Ci):São as medidas que dividem a amostra em 100 partes iguais. Assim: C1 C2 C3 C50 C97 C98 C99 0% 1% 2% 3% 50% 97% 98% 99%100% O elemento que definirá a ordem do centil será encontrado pelo emprego da expressão: in ECi = 100 (12) onde: i = número identificador do centil n = número total de observações Para dados agrupados em classes, encontraremos os centis de maneira semelhante à utilizada para cálculoda mediana, dos quartis e dos decis. Exemplo: Com base na tabela de distribuição de frequências abaixo encontre: a) Primeiro quartil ; b) Septuagésimo quinto centil ; c) Nono decil Resolução: a) Q1 Encontrar a posição do primeiro quartil: 20
  • 21. Tabela 9: Consumo médio de eletricidade (kw/hora) entre usuários. Rio de Janeiro. 1980. Consumo (Kwh) No de usuários (fi ) Fiab 5 |– 25 4 4 25 |– 45 6 10 45 |– 65 14 24 65 |– 85 26 50 85 |– 105 14 64 105 |– 125 8 72 125 |– 145 6 78 145 |– 165 2 80 TOTAL 80 ... Fonte: (dados hipotéticos) EQ1 = n = 80 = 20 4 4 O Q1 está localizado na 20a posição, logo encontra-se na 3a classe. Com base nesses dados, calcularemosQ1 da seguinte forma: Q1 = 45 + 20[20−10] = 59.29 14 Interpretação: 25% dos usuários consomem até 59,59 kwh. De maneira análoga, 75% dos usuários con-somem mais de 59,59 kwh. b) C75 Encontrar a posição do centil 75: EC75 = 75 100 = 75 (80) = 60 n 100 O C75 está localizado na 60a posição, logo encontra-se na 5a classe. Com base nesses dados, calcularemosC75 da seguinte forma: C75 = 85 + 20[60−50] = 99.29 14 Interpretação: 75% dos usuários consomem até 99,29 kwh. De maneira análoga, 25% dos usuários con-somem mais de 99,29 kwh. c) D9 Encontrar a posição do 9o decil: ED9 = 9 10 = 9 (80) = 72 n 10 O D9 está localizado na 72a posição, logo encontra-se na 6a classe. Com base nesses dados, calcularemosD9 da seguinte forma: D9 = 105 + 20[72−64] = 125 8 Interpretação: 90% dos usuários consomem até 125 kwh. De maneira análoga, 10% dos usuários consomemmais de 125 kwh.2.7 MEDIDAS DE DISPERSÃOPara avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de números, lançaremos mão dasestatísticas denominadas medidas de dispersão. Essas nos proporcionarão um conhecimento mais completodo fenômeno a ser analisado, permitindo estabelecer comparações entre fenômenos da mesma natureza emostrando até que ponto os valores se distribuem acima ou abaixo da medida de tendência central.2.7.1 TIPOS DE MEDIDAS DE DISPERSÃO 1. Amplitude Total ou Intervalo Total (A) =>É a diferença entre os valores extremos da série. A = Xm´x − Xm´n a ı 21
  • 22. A amplitude nos dá a idéia do campo de variação dos valores da série. No entanto, devemos frisar que a amplitude não é uma boa medida de dispersão porque seu cálculo se baseia apenas nos valores extremos da amostra e não em todos os dados.2. Desvio-Padrão (S) => É a medida de dispersão mais usada e mais importante. Mede a concentração dos dados em torno da média. É dado pela soma dos quadrados dos desvios dividido pelo número total de observações. (a) Desvio-padrão de dados brutos: s P (xi − x)2 n S= (13) i=1 n − 1 Exemplo: Calcular o desvio-padrão do conjunto A = {10, 12, 13, 20, 25, 34, 45}X = 22, 71 Tabela 10: Cálculo do Desvio Padrão. Xi di = (xi − x) d2 = (xi − x)2 i 10 -12,714 161,646 12 -10,714 114,790 13 -9,714 94,362 20 -2,714 7,366 25 2,286 5,226 34 11,286 127,374 45 22,286 496,666 P 2 TOTAL ... di = 1.007, 430 q 1.007,430 S= 6 = 12, 958 (b) Desvio-padrão de dados tabulados: Quando os valores vierem dispostos em uma tabela de frequências, o cálculo do desvio-padrão se fará através da seguinte fórmula: s P (xi − x)2 fi k S= (14) i=1 n−1 onde xi = ponto médio da classe Exemplo: Calcular o desvio-padrão para os dados da Tabela 12. Pk s xj fj P (xi − x)2 fi q 80.780 k X = i=1 n = 630 ==> X = 79, 5 80 S= = 79 ==> S = 31, 977 i=1 n−13. Variância (S 2 ) =>Será dada pelo quadrado do desvio-padrão. P (xi − x)2 n S2 = (15) i=1 n − 1 22
  • 23. Tabela 11: Distribuição de frequências do consumo de energia elétrica (kwh). Consumo (Kwh) N o de Usuários (fi ) xi xi fi (xi − x) (xi − x)2 (xi − x)2 fi 5 |– 25 4 15 60 -64,5 4160,25 16641,0 25 |– 45 6 35 210 -44,5 1980,25 11881,5 45 |– 65 14 55 770 -24,5 600,25 8403,5 65 |– 85 26 75 1950 -4,5 20,25 526,5 85 |– 105 14 95 1330 15,5 240,25 3363,5 105 |– 125 8 115 920 35,5 1260,25 10082,0 125 |– 145 6 135 810 55,5 3080,25 18481,5 145 |– 165 2 155 310 75,5 5700,25 11400,5 TOTAL 80 ... 6360 ... ... 80780 Fonte: (dados hipotéticos) Interpretação do desvio-padrão (análoga à da variância): • Devemos ter em mente que o desvio-padrão mede a variação entre valores. Assim: • Se os valores estiverem próximos uns dos outros, então o desvio-padrão será pequeno, e conse- quentemente os dados serão homogêneos. • Se os valores estiverem distantes uns dos outros, então o desvio-padrão será grande, e consequente- mente os dados serão heterogêneos. • A desvantagem do uso da variância perante o uso do desvio-padrão é que a unidade de medida utilizada é igual ao quadrado da unidade de medida dos dados. No entanto, por conta da maior facilidade do trato algébrico com funções quadráticas, a variância será a medida de dispersão mais utilizada quando tratarmos da inferência estatística. 4. Coeficiente de Variação (CV) => Trata-se de uma medida relativa de dispersão, útil para compara- ção em termos relativos do grau de concentração em torno da média de séries distintas. É dado por: S CV = × 100. (16) X Como o CV é uma medida que exprime a variabilidade relativa à média, é usualmente expresso emporcentagem. Exemplo: Grupo I —> CV = 66, 67%, S = 2, X = 3 GrupoII —> CV = 3, 64%, S = 2, X = 55 Como vemos, a dispersão dos dados é a mesma para os dois grupos. Entretanto as médias são diferentes.Isso determina a diferença da dispersão relativa, medida pelo coeficiente de variação. Neste caso, o desvio 2é muito mais importante para o grupo I do que para o grupo II, o que é confirmado através do CV. Obs: Para efeitos práticos, costuma-se considerar que o CV superior a 50% indica alto grau de dispersãoe, consequentemente, pequena representatividade da média. Enquanto que para valores inferiores a 50%, amédia será tanto mais representativa quanto menor for o valor de seu CV. Exemplo: A Tabela 13 representa a distribuição de recém-nascidos vivos, segundo o peso, em gramas.Calcule o desvio-padrão, a variância e o coeficiente de variação, e compare os resultados encontrados com asrespostas apresentadas. 23
  • 24. Tabela 12: Peso de recém-nascidos. Peso (em gramas) (fi ) Xi 500 |– 1000 1 750 1000 |– 1500 3 1250 1500 |– 2000 22 1750 2000 |– 2500 115 2250 2500 |– 3000 263 2750 3000 |– 3500 287 3250 3500 |– 4000 99 3750 4000 |– 4500 32 4250 TOTAL 80 ... Fonte: SAME/ FCM/ UNICAMP Solução: Inicialmente precisaremos calcular a média aritmética, cujo valor para este conjunto de dados é de 2998,8gramas. Com esta informação pode-se, então, encontrar o desvio padrão (555,2 gramas) e a variância (308.240,6gramas2). Para avaliar a variabilidade desses dados o coeficiente de variação é uma ferramenta fundamental, per-mitindo uma análise mais clara sobre a importância da dispersão dos pesos desses recém-nascidos. Assim,o Coeficiente de Variação = 18,5%, o que indica que não há uma grande variabilidade entre os pesos dosrecém-nascidos avaliados, que se apresentam homogêneos.2.8 MEDIDAS DE ASSIMETRIAAs medidas de assimetria são utilizadas para avaliar o grau de assimetria da distribuição de frequências, sendoque assimetria pode ser definida como o grau de deformação de uma curva de frequências. Vamos aprender algumas formas de avaliar a assimetria das curvas de frequência dos dados:2.8.1 Relação entre média, mediana e modaUma primeira verificação da assimetria pode ser feita através da comparação entre os valores observados paraa média, mediana e moda. Desta forma teremos abaixo esta relação, com a respectiva representação gráficaatravés de polígono de frequências. a) Se a distribuição é simétrica: (X = Md = Mo) M o d a = M ed ia = M ed iana 24
  • 25. b) Se a distribuição é assimétrica positiva ou à direita: (X > Md > Mo) Mo Med Media c) Se a distribuição é assimétrica negativa ou à esquerda: (X < Md < Mo) Media Med Mo2.8.2 Coeficiente de Assimetria de Pearson (Sk)Indica o grau de distorção da distribuição em relação à uma distribuição simétrica. É dado por: X − Mo Sk = (17) S Interpretação: Se Sk = 0, a distribuição é simétrica Se Sk > 0, a distribuição é assimétrica positiva Se Sk < 0, a distribuição é assimétrica negativa2.8.3 Coeficiente Quartil de Assimetria (eQ ) O coeficiente Quartil de Assimetria (eQ )=> É um coeficiente muito útil, sobretudo quando não temoso desvio-padrão. É dado por: Q3 − 2Md + Q1 eQ = (18) Q3 − Q1 onde −1 < eQ < 1 Interpretação: Se eQ = 0, a distribuição é simétrica Se eQ > 0, a distribuição é assimétrica positiva 25
  • 26. Se eQ < 0, a distribuição é assimétrica negativa Exemplo: Avalie a assimetria da distribuição dos pesos de recém-nascidos vivos do exemplo anterior. a) Relação entre média, mediana e moda. X = 2998, 8; Md = 3012, 2; Mo = 3250, 0 Logo : X < Md < Mo =⇒ curva assimétrica negativa b) Coeficiente de assimetria de Pearson: Sk = X−Mo = 2998,8−3250,0 = −0, 45 =⇒ curva assimétrica negativa S 555,2 c) Coeficiente quartil de assimetria: eQ = Q3 −2Md+Q1 = 3370,2−2(3012,2)+2622,6 = −0, 04 =⇒ curva assimétrica negativa Q3 −Q1 3370−2662,62.9 COMPARAÇÃO ENTRE PROPORÇÃO, RAZÃO E TAXAIremos realizar uma discussão breve destes termos e da distinção entre eles. Do ponto de vista estatísticorepresentam medidas simples, mas que permitem estabelecer comparação entre grupos.2.9.1 PROPORÇÃO (frequência relativa simples)A proporção de indivíduos de uma dada categoria é definida através do quociente entre o número de indi-víduos pertencentes a essa categoria e o número total de indivíduos considerados, devendo as categorias sermutuamente exclusivas e exaustivas. A proporção é expressa mais comumente em percentagem. Algumas medidas importantes na análise do processo saúde-doença são definidas como proporções, como,por exemplo, as seguintes:PROPORÇÕES UTILIZADAS EM MORTALIDADE 1. Mortalidade proporcional segundo a idade no de óbitos em menores de 1ano, áreaA, tempo t Exemplo: Proporc. Mort..de menores de 1ano = total de óbitos, área A, tempo tTabela 13: Proporção de óbitos por acidentes de trânsito na faixa etária de 15-29 anos de idade. RegiãoNordeste. Brasil. 1980-1995. Ano No deÓbitos por acid. trânsito entre 15 - 29 No total de óbtos por acid. trânsito Proporção 1980 1025 3462 29,61 1995 1705 5543 30,76 Fonte: MS/ DATASUS 2. Mortalidade proporcional segundo o sexo no de óbitos em ind. sexo feminino, área A, tempo t Exemplo: Mort. Proporc. para o sexo feminino = total de óbitos, área A, tempo t 3. Mortalidade proporcional segundo causas Serve para indicar a importância de determinada causa ou grupo de causas em uma determinada área e,até certo ponto, representam subsídio para o delineamento de prioridades no setor saúde. no de óbitos pela doença D, área A, tempo t Exemplo: Mort. Proporc. pela doença D = total de óbitos, área A, tempo t 26
  • 27. 2.9.2 RAZÃO ( ou índice)O termo razão é usado quando A e B representam características separadas e distintas, e calculamos oquociente entre o número de elementos que representam cada uma das categorias. Como exemplos de razõestemos: médicos/habitantes; leitos/habitantes; telefones/habitantes; cobertura vegetal/total área. Exemplo:Tabela 14: Populações masculina e feminina e razão de masculinidade (por 1000 mulheres), segundo as grandesRegiões do Brasil. 1980. Sexo Masculino Feminino Razão de Masculinidade Regiões Norte 2992144 2893392 1034,1 Nordeste 17054379 17801090 958,1 Sudeste 25731364 26014954 989,1 Sul 9529280 9509655 1002,1 Centro-Oeste 3838932 3705675 1036,0 BRASIL 59146099 59924766 987,0 Fonte: LAURENTI, Estatística de Saúde, E.P.U. 1987 Interpretação: No Brasil, em 1980, a razão de masculinidade assumiu o valor de 987.0 homens para 1000mulheres.2.9.3 TAXA ( ou Coeficiente)É usual multiplicar-se o resultado obtido por um número múltiplo de 10, que constitui a chamada basedo coeficiente à qual deve, obrigatoriamente, ser acrescentada a unidade de referência usado no denominador(habitantes, mulheres, homens, nascidos vivos, etc...). Quando se calcular um coeficiente está implícita semprea noção de risco de acontecimento do fenômeno em estudo. Assim, um coeficiente é sempre calculado paradeterminado período de tempo bem especificado e para uma área delimitada. no total de óbitos, área A, tempo t Exemplo: Coeficiente geral de mortalidade = População total, área A, tempo tTabela 15: Popula´ão, óbitos e coeficiente geral de mortalidade, em alguns subdistritos do Município de São cPaulo. 1967). Subdistrito População Óbtos Coefic. (por 1000 habitantes) Bela Vista 69000 1318 19,1 Consolação 60300 4291 71,5 Jardim América 49300 7725 159,6 Liberdade 62300 3413 54,7 Capela do Socorro 77764 280 3,6 Moóca 52967 213 4,0 Tatuapé 285000 811 2,9 Tucuruvi 345918 839 2,4 Vila Formosa 101000 418 4,1 Fonte: LAURENTI, R. A medida das doenças. In: FORATTINI, O P. Epidemiologia Geral. São Paulo, Edgard Blucher, Ed. Da Universidade de São Paulo, 1976. no casos existentes, área A, tempo t Exemplo: Coeficiente de Prevalência = População total, área A, tempo t 27
  • 28. Os coeficientes de morbidade referem-se à frequência e gravidade das doenças. Diferença entre taxa e razão: Na razão o que está expresso no denominador não está sujeito ao risco de vir aapresentar o evento que está expresso no numerador. Assim, quando se apresenta a relação óbitos/população,trata-se de um coeficiente. Está indicando que aquilo que está expresso no denominador (população) estásujeito ao risco de apresentar o evento discriminado no numerador. Já a relação hospital/população nãoexpressa risco. Dá apenas a informação do número de hospitais por habitantes.3 BOX-PLOTO box-plot é um método alternativo ao histograma para representar os dados. O box-plot fornece informaçõessobre as características de posição, dispersão, assimetria, comprimento das caudas e outliers de um conjuntode dados. No entanto, a maior importância desse tipo de gráfico está na identificação de possíveis outliers noconjunto de dados. A construção de um box-plot exige que tenhamos o valor mínimo, o primeiro quartil, a mediana, o terceiroquartil e o valor máximo. Como a mediana revela uma tendência central, ao passo que os quartis indicam adispersão dos dados (através do cálculo do intervalo interquartil), os box-plot têm a vantagem de não seremtão sensíveis a valores extremos como outras medidas baseadas na média e no desvio-padrão. Um dos aspectos mais convenientes do uso dos box-plot é a possibilidade de comparação entre dois oumais conjuntos de dados. Exemplo: Idade dos indivíduos, segundo o número de infecções por dengue. Salvador. 1998. 120 100 1534 1445 1484 1423 80 1431 1437 Idade (em anos) 1563 1551 1466 1425 1478 1504 1462 1575 1578 1471 1536 1583 1449 1452 1567 1584 1579 1540 60 40 20 0 -20 N= 476 384 655 0 1 2 Número de infecções Fonte: TEIXEIRA, Glória, et alii. Dinâmica de circulação do vírus do dengue em distintos espaçosintraurbanos de uma grande cidade submetida a um programa de combate vetorial. ISC/UFBA. 2000. Em sala de aula serão apresentados mais detalhes sobre este tópico.3.1 MEDIDA DE ASSOCIAÇÃO PARA VARIÁVEIS QUANTITATIVAS: CORRE- LAÇÃO LINEARAté o momento todas as análises foram discutidas para cada variável individualmente. A técnica a serestudada a seguir refere-se a problemas que envolvam conjuntos de dados que possuem duas ou mais variáveisquantitativas. 28
  • 29. A verificação da existência e do grau de relação entre variáveis quantitativas é objeto do estudo da corre-lação. Por exemplo, pode-se desejar saber se existe relação entre o peso e a altura de um indivíduo; ou entrea temperatura do ambiente e a produção de frutas. A investigação da relação de duas variáveis, tais como estas, usualmente começa com uma tentativa paradescobrir a forma aproximada dessa relação, representando-se graficamente os dados como pontos no planox, y. Tal gráfico denominamos gráfico de dispersão. Por meio dele pode-se prontamente verificar se existealguma relação pronunciada e, em caso positivo, se a relação pode ser tratada como aproximadamente linear. Após esta verificação, pode-se medir o grau em que as variáveis estão relacionadas. A esta medida chamare-mos de coeficiente de correlação, r, que é definido pela seguinte fórmula: P P P XY − ( X)( Y ) n r = rh (19) P 2 (P X)2 i hP 2 (P Y )2 i X − n Y − n O coeficiente de correlação, r, mede a força da associação linear entre as duas variáveis avaliadas. Noentanto, vale a pena ressaltar que esta somente é uma medida válida se as duas variáveis estão relacionadaslinearmente, ou seja, se a relação visualizada no gráfico de dispersão deve lembrar o desenho de uma reta. Como propriedade, o r deve satisfazer à seguinte condição: −1 ≤ r ≤ 1,onde os valores de r só serão iguaisa ±1 se os pontos estiverem totalmente sobre uma linha reta. Sua interpretação dependerá do valor numérico e do sinal, podendo ser classifada como: correlação linearpositiva (0 < r < 1), correlação linear perfeita positiva (r = 1), correlação negativa (−1 < r < 0), correlaçãoperfeita negativa (r = −1), correlação nula (r = 0). Quando duas variáveis forem independentes, o coeficientede correlação será nulo.3.2 MEDIDAS DE ASSOCIAÇÃO PARA VARIÁVEIS QUALITATIVASComo foi dito, o uso do coeficiente de correlação linear somente é valido para duas variáveis quantitativas. Noentanto, em muitas situações, o pesquisador se vê às voltas com variáveis qualitativas. Desta forma, a seguirapresentaremos algumas formas simples de análise da relação entre duas variáveis qualitativas.Caso 1 Tabelas bidimensionais 2 × 2 Um pesquisador está avaliando duas variáveis qualitativas, sendo que cada uma delas apresenta apenasduas modalidades mutuamente exclusivas. Deseja-se verificar independência entre as variáveis em estudo,ou seja, ausência de associação entre estas. Esta associação pode ser feita pela comparação das proporçõesem cada uma das categorias. No entanto, esta comparação não teria limites definidos para a indicação deassociação. Deste modo, estaremos propondo a utilização de uma medida singular, de limites bem definidos,que nos informe sobre a intensidade da associação, caso exista. Tabela 16: Tabela teórica de associa´ão entre duas variáveis. c Var2 Cat 21 Cat 22 TOTAL Var1 Cat 11 a b N1. Cat 12 c d N2. TOTAL N.1 N.2 N Para tabelas 2 × 2, uma medida adequada é o coeficiente de YULE, que pode ser definido por: ad − bc Y = (20) ad + bc 29
  • 30. Na interpretação do coeficiente de YULE, é preciso saber: 1. O valor de Y está compreendido no intervalo fechado de −1 até +1. 2. Y = 0 corresponde a independência 3. Y 6= 0 corresponde a associação entre as variáveis. Em termos descritivos, o coeficiente de YULE apresenta a informação que permite a verificação de asso-ciação entre duas variáveis qualitativas. Do ponto de vista da inferência estatística, outras técnicas poderãoser utilizadas. No entanto, não farão parte do conteúdo programático deste curso. Exemplo: Considere que um pesquisador toma, ao acaso, 2 amostras de cobaias isogênicas, susceptíveisa determinado vírus. As cobaias da primeira amostra são injetadas com uma vacina experimental, e asda segunda amostra são injetadas com uma substância inócua (grupo controle). Todos as cobaias são entãoexpostas ao vírus e, depois de determinado período de exposição, verificam-se os sobreviventes de cada amostra.É lícito concluir (ou pelo menos suspeitar) à luz destes dados que o uso da vacina está associado ao padrãode sobrevivência destes animais? Sobreviventes TOTAL Vacinados Sim Não Sim 130 70 200 Não 80 160 240 TOTAL 210 230 440 Solução: a = 130; b = 70; c = 80; d = 160 ad − bc (130x160) − (70x80) 20800 − 5600 15200 Cálculo do coeficiente de YULE: Y = = = = = 0.58 ad + bc (130x160) + (70x80) 20800 + 5600 26400 Logo, os dados sugerem a existência de uma associação entre o uso da vacina e o padrão de sobrevivênciaapós a exposição ao vírus em estudo.Caso 2 Tabelas bidimensionais r × s A desvantagem do uso do coeficiente de YULE é que esta medida restringe-se na análise de tabelas 2 × 2.Suponha-se, no entanto, que as duas variáveis qualitativas em estudo apresentem uma r categorias e outra scategorias mutuamente exclusivas. Neste caso, a medida a ser utilizada baseia-se na diferença entre os valoresobservados e esperados em cada uma das categorias, sendo denominada coeficiente de contingência de Pearson. O uso deste coeficiente contrapõe os resultados observados (simbolizados pela letra O) pelo pesquisadorcom aqueles resultados esperados (simbolizados pela letra E) obtidos a partir de uma hipótese teórica deindependência entre os atributos. Assim, se os resultados observados forem próximos aos esperados, istosugere independência entre os atributos; caso contrário, estaremos afastados da hipótese de independência,sugerindo-se uma associação entre os atributos. Levando-se isto em consideração, utilizaremos uma estatística chamada de Qui-quadrado, que mede adiscrepância entre os valores, e que é definida por: P [(O − E)2 ] n χ2 = (21) i=1 E Os valores esperados são encontrados mediante a suposição de independência, ou seja, caso não existaassociação entre as variáveis espera-se que os valores encontrados não se apresentem em proporções diferentessegundo as categorias. Assim, obtém-se o valor esperado correspondente a cada casela multiplicando-se o total 30
  • 31. da linha (em que se encontra a casela) pelo total da coluna (em que se encontra a casela), sendo este produtodividido pelo total geral (N) O coeficiente de contigência de Pearson é dado pela seguinte expressão: χ2 C= (22) χ2 + nInterpretação do coeficiente: C = 0 indica independência; C > 0 sugere associação. Obs: Este coeficiente é falho em determinar o sentido da associação (direta ou inversa). Além disso,há ausência de um limite superior, que varia para cada estrutura da tabela. Para contornar este segundoproblema, sugere-se o uso do coeficiente corrigido C, que tem a expressão: min(r, s) Ccor = C. (23) min(r, s) − 1onde: r = número de categorias da variável 1 s = número de categorias da variável 2 Exemplo: Neste estudo deseja-se verificar se existe associação entre as variáveis sexo e grupo sanguíneo.Os dados coletados encontram-se dispostos na tabela seguinte. Grupo Sanguíneo Sexo TOTAL Masculino Feminino A 112 88 200 B 58 42 100 AB 180 120 300 O 250 150 400 TOTAL 600 400 1000 Solução: Os valores dispostos na tabela anterior referem-se aos resultados observados no estudo em questão.Precisamos encontar os resultados esperados para cada casela. E11 = (n1.)(n.1) = (200)(600) = 120 N 1000 E12 = (n1.)(n.2) = (400)(200) = 80, e assim por diante para todas as caselas. N 1000 Assim obteremos a tabela completa (com os resultados observados fora dos parênteses e os resultadosesperados dentro dos parênteses) disposta da seguinte forma: Grupo Sanguíneo Sexo TOTAL Masculino Feminino A 112 (120) 88 (80) 200 B 58 (60) 42 (42) 100 AB 180 (180) 120 (120) 300 O 250 (240) 150 (160) 400 TOTAL 600 400 1000 Para cálculo da estatística Qui-quadrado teremos: P [(O − E)2 ] n 2 2 2 2 χ2 = = (112−120) + (88−80) + (58−60) + ..... + (150−160) 120 80 60 160 i=1 E χ2 = 2, 55 Logo, para o cálculo do coeficiente de contingência de Pearson, teremos: 2,55 C = 2,55+1000 = 0, 05 31
  • 32. Utilizando-se a correção do coeficiente de contingência, teríamos: 2 Ccor = 0.05 2−1 = 0, 10 Assim, como o resultado foi um valor próximo de zero, isto sugere independência entre sexo e gruposanguíneo, como era de se esperar. NOTAS FINAIS: 1. Apesar da existência de outras medidas de associação, essas apresentadas nesta secção podem ser con- sideradas as medidas descritivas básicas. 2. A existência de associação não significa necessariamente relação de causa e efeito.4 EXERCÍCIOS DE FIXAÇÃO1) Em um estudo estatístico a característica de interesse pode ser qualitativa (nominal ou ordinal) ou quan-titativa (discreta ou contínua). Classifique as variáveis nos exemplos que se seguem: a) população: moradores de uma certa cidade variável: cor dos olhos (pretos, castanhos, azuis, verdes) b) população: casais residentes em uma certa cidade variável 1: número de filhos variável 2: classe econômica c) população: candidatos a um exame vestibular variável 1: renda familiar variável 2: sexo (masculino, feminino) variável 3: número de pessoas na família d) população: sabonetes de certa marca variável: peso líquido e) população: aparelhos produzidos por uma linha de montagem variável: número de defeitos por unidade 2) Especifique o tipo de série estatística que deve ser construída para atender ao objetivo de cada umadas situações abaixo: a) O diretor de marketing da empresa G.L.T. S.A., fabricante de componentes eletrônicos, deseja examinara evolução de suas vendas em 1975, mês a mês, no Brasil. b) Um laboratório farmacêutico está interessado em conhecer o comportamento das vendas de três de seusprodutos no Brasil em 1994. c) O H.G.E. necessita saber o número de óbitos por principais grupos de causa em idosos no últimos 5anos. d) O A.A. (Alcoolatras Anônimos) deseja saber o número de pessoas que frequentaram as reuniões no anode 1995, em todas as capitais do Brasil. 3) Elabore tabelas com os dados abaixo, classificando a série estatística de cada uma delas: a) Segundo o Anuário Estatístico do Brasil, a produção de óleo de mamona no Ceará, em 1971, foi de8.610 toneladas, em Pernambuco, 32.100 toneladas, na Bahia foi de 28.778 toneladas, e em São Paulo foi de62.012 toneladas. b) Segundo a Equipe Técnica de Estatística Agropecuária, a produção de peles de alguns animais silvestres,na Bahia, em 1965, em toneladas, foi a seguinte: Ariranha, 159; Capivara, 1.927; Gato do mato, 27.154; Porcodo mato, 18.843. No ano de 1966, registraram-se os seguintes dados, em toneladas: Ariranha, 143; Capivara,2.410; Gato do mato, 29.800; Porco do mato, 19.635. c) Segundo a Anuário Estatístico do Brasil, editado pelo IBGE, a população presente recenseada noBrasil, segundo o sexo, foi a seguinte: em 1940, 41.236.315 habitantes; sendo 20.614.088 do sexo masculino e 32
  • 33. 20.622.227 do sexo feminino; em 1950, a população total foi 51.944.397, sendo 25.885.001 do sexo masculino.Em 1960, para o total de 70.119.071 habitantes, registrou-se a presença de 35.108.354 mulheres. E em 1970,a população total alcançou 93.204.379 habitantes, sendo 46.330.629 do sexo masculino. 4) Para os conjuntos de dados a seguir: a) Determinar o número de classes pela regra de Sturges b) Construir a tabela de frequências absolutas simples c) Determinar: c.1) as frequências simples relativas c.2) as frequências absolutas e relativas acumuladas (”abaixo de”) c.3) as frequências absolutas e relativas acumuladas (”acima de”) d) Construir um histograma e um polígono de frequências 4.1) Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinadosmunicípios do Estado: Milímetros de Chuva 144 152 159 160 160 151 157 146 154 145 141 150 142 146 142 141 141 150 143 158 4.2) Considere os seguintes dados sobre a distribuição de valores de metabolismo basal (cal/dia) em 35adolescentes: 910 1280 1220 1120 1040 1070 980 1310 1240 1140 1190 1090 1010 1380 1270 1280 1210 1110 1040 1460 960 1300 1240 1130 1070 1080 1000 1360 1260 1180 1200 1110 1020 1420 1270 5) Calcule para cada uma das distribuições abaixo as seguintes medidas: a) de tendência central: média aritmética, mediana e moda b) de dispersão: amplitude total, desvio-padrão e variância 5.1. Pesos de recém-nascidos (em kg): 2.7; 3.9; 4.1; 4.3; 5.4 5.2. Taxas sanguíneas de uréia (mg/dl): 27; 31; 32; 34; 46; 61 5.3. Idade de pacientes renais (em anos): Idade fi 26 3 28 10 30 12 32 5 37 19 TOTAL 49 33
  • 34. 5.4. Número de atendimentos em serviço médico por funcionários de uma empresa: No de Atendimento fi 0 24 1 21 2 3 3 51 4 1 TOTAL 50 5.5. Altura de 140 alunos (em cm): Estaturas (cm) 145|–150 150|–155 155|–160 160|–165 165|–170 170|–175 175|–180 180|–185 No de Alunos 2 10 27 38 27 21 8 7 c) Calcule o primeiro quartil, o quadragésimo centil e o nono decil para o conjunto de dados 5.5. d) Avalie a assimetria do conjunto de dados 5.5 6) Como parte de uma investigação sobre o efeito da variação de temperatura em ratos, a taxa de perdade água em um grupo de ratos foi determinada para um série de temperaturas pela absorção de água ocorridaem um particular tempo. Os resultados seguintes foram obtidos: Temperatura (o C) 15 20 25 30 35 Água Absorvida (mg) 2794 2924 3175 3340 3576 Considere: x = temperatura (variável independente); e y =a quantidade de água absorvida (variávelde-pendente). Analise a correlação entre estas duas variáveis. Construa inicialmente um diagrama de dispersão. 7) Os box plots a seguir mostram as distribuições de vendas de uma loja, referentes aos anos de 1995, 1996e 1997. Analise-os e descreva o comportamento dessas três distribuições: 1997 1996 1995 0 10 20 30 40 50 60 70 ( m ilh õ e s) 8) Decidiu-se investigar a distribuição salarial dos profissionais com nível universitário em duas regiões A eB. As informações pertinentes foram obtidas e encontram-se no quadro abaixo, expressas em salários mínimos.Com base nestes dados, responda: a) Que medidas podem ser calculadas a partir das que se encontram no quadro? b) Faça uma descrição rápida das principais diferenças entre o salário destes profissionais? Região Média DP Mediana Moda Q1 Q3 Min Máx A 20.000 4.00 20.32 20.15 17.32 22.68 8.00 32.00 B 20.000 6.00 18.00 17.00 16.00 24.00 14.00 42.00 34
  • 35. 9) Verifique se existe associação entre as duas variáveis dos exemplos a seguir: 9.1. Hábito de fumar e sexo: Grupo Sanguíneo Sexo TOTAL Masculino Feminino Sim 20 60 80 Não 25 75 100 TOTAL 45 135 180 9.2. Estado civil e aprovação no vestibular: Estado Civil Aprovado Reprovado TOTAL Solteiro 120 80 200 Casado 45 55 100 Separado 180 120 300 Outros 255 145 400 TOTAL 600 400 10005 BibliografiaBERQUÓ, SOUZA, GOTLIEB. Bioestatística. São Paulo: Editora Pedagógica e Universitária Ltda, 1980. BOTTER, et alii. Noções de estatística: Notas de aula. Instituto de Matemática e Estatística. USP.Fevereiro, 1996. BUSSAB, Wilton O , MORETTIN, Pedro A . Estatística Básica. 4a ed. São Paulo: Atual Editora, 1980. FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade. Curso de Estatística. 3a ed. Editora Atlas,1990. LAURENTI, et elii. Estatísticas de saúde. 2a ed. São Paulo: E.P.U., 1987. LOPES, Paulo Afonso. Probabilidades e Estatística. Editora R.A . 1999 MORETTIN, Luiz Gonzaga. Estatística Básica. 7a ed. Editora Makron Books. Vols. 1 e 2. 1999. MORAES, Lia Terezinha L.P. Notas de aulas (diversos). Departamento de Estatística. UFBA.1996. SOARES, José Francisco; SIQUEIRA, Arminda Lúcia. Introdução à Estatística Médica. 1a edição. BeloHorizonte: Departamento de Estatística. UFMG.1999. SOUNIS, Emílio. Bioestatística. São Paulo: Editora McGraw-Hill do Brasil Ltda, 1979. TOLEDO, Geraldo Luciano, OVALLE, Ivo Izidoro. Estatística Básica. 2a ed. São Paulo: Editora Atlas,1994. TRIOLA, Mário. Introdução à Estatística. 7a ed. Editora LTC. 1999 VIEIRA, Sônia. Introdução à Estatística. Rio de Janeiro: Editora Campus Ltda, 1981. 35

×