Este documento é uma apostila sobre bioestatística que introduz conceitos estatísticos básicos como métodos de amostragem, estatística descritiva, inferência estatística e testes de hipóteses. O documento está organizado em quatro partes principais que cobrem princípios, estatística descritiva, teoria da amostragem e estatística inferencial.
6. Capítulo 1
Introdução
Por Sidia C. Jaques
Na literatura cientíca, consultada por prossionais das áreas biológica e da saúde, encontramos
expressões como diferença estatisticamente signicativa, teste qui-quadrado de associaçãoe P
0,01, que reetem a importância, cada vez maior, dada pelos pesquisadores ao tratamento estatístico
de seus dados. Quais serão as razões para o emprego de métodos estatísticos nos trabalhos cientícos?
Em primeiro lugar, a estatística, longe de ser mais uma complicação matemática, tem se mostrado
um instrumento extremamente útil na organização e na interpretação dos dados. Em segundo lugar,
esta ciência propicia uma avaliação adequada da variabilidade observada nos processos biológicos. É
sabido que existem diferenças entre os indivíduos e que eles reagem de forma diferente a estímulos
idênticos; por outro lado, o mesmo indivíduo apresenta variações de um momento para outro. Em vista
disto, o pesquisador consciencioso deseja saber qual o grau de conabilidade de seus resultados. Ele
se pergunta, por exemplo, se os resultados poderiam ter sido obtidos por acaso, se o novo tratamento
proposto foi realmente mais eciente, se a associação observada entre as variáveis é real, se o método
de seleção de indivíduos foi adequado, se a análise dos dados empregou os métodos adequados s
variáveis estudadas. Todas essas questões podem ser respondidas com o auxílio da estatística.
O papel da estatística na investigação cientíca vai além de indicar a sequência de cálculos a serem
realizados com os dados obtidos. No planejamento, ela auxilia na escolha das situações experimentais
e na determinação da quantidade de indivíduos a serem examinados. Na análise dos dados, indica
técnicas para resumir e apresentar as informações, bem como para comparar as situações experimen-tais.
Na elaboração das conclusões, os vários métodos estatísticos permitem generalizar a partir dos
resultados obtidos. De um modo geral, não existe certeza sobre a correção das conclusões cientícas;
no entanto, os métodos estatísticos permitem determinar a margem de erro associada s conclusões,
com base no conhecimento da variabilidade observada nos resultados.
Inicialmente, a estatística ocupava-se em descrever quantitativamente os vários aspectos dos as-suntos
de um governo ou estado1 , remontando época em que surgiram as primeiras cidades. Come-
çava, então, a necessidade de se enumerarem coisas e pessoas para a avaliação das riquezas e para
o cadastramento das propriedades. Os censos2 já eram realizados anualmente em Atenas e, a cada
quadriênio, em Roma, nas festas de puricação da comunidade, quando era necessário saber se todos
estavam presentes ou representados.
Um dos primeiros censos de que se tem notícia escrita foi o ordenado pelo imperador romano César
Augusto, realizado na Palestina, por volta do ano zero da era cristã. Outro recenseamento famoso foi o
realizado, na Inglaterra, por Guilherme I, duque normando que havia derrotado os ingleses. O cadastro
geral das coisas inglesas com ns de tributação, feito em 1085-1086, foi chamado pelos ingleses de
1O termo estatística surge da expressão em latim statisticum collegium palestra sobre os assuntos do Estado, de onde
surgiu a palavra em língua italiana statista, que signica homem de estado, ou político, e a palavra alemã Statistik,
designando a análise de dados sobre o Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por
Schmeitzel na Universidade de Jena e adotada pelo acadêmico alemão Godofredo Achenwall. Aparece como vocabulário
na Enciclopédia Britânica em 1797, e adquiriu um signicado de coleta e classicação de dados, no início do século XIX.
2Ela vem do Latim CENSUS, lista de nomes e propriedades dos cidadãos romanos
5
7. 1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO
Domesday (ou Doomsday) Book, o livro do juízo nal, nome que bem revela as expectativas da
população quanta carga tributária por vir.
Por muito tempo, o aspecto descritivo da estatística manteve-se como a única faceta desta ciência.
As coisas começaram a mudar no século XVII, com as primeiras interpretações de dados. Em 1693,
foram publicados, em Londres, os primeiros totais anuais de falecimentos, discriminados por sexo.
Eram o resultado de levantamentos iniciados em 1517, quando a peste atacava periodicamente a
Europa. Christian Huygens (1629-1695), físico e astrônomo holandês, construiu depois uma curva de
mortalidade a partir dos dados publicados.
O estudo formal da teoria de probabilidades, iniciado por Blaise Pascal (1623-1662) e Pierre de
Fermat (1601-1665), constitui-se em importante marco no desenvolvimento da estatística. Graças
a esses conceitos, a estatística começou a ser estruturada de modo a poder desempenhar seu papel
mais nobre, o de auxiliar na tomada de decisões cientícas.
Estudiosos de diferentes campos do conhecimento zeram a ligação entre os aspectos teóricos de
probabilidade e estatística e a prática. Lambert Adolphe Jacques Quetelet (1796-1874), astrônomo
e matemático belga, foi o primeiro a usar a curva normal fora do contexto da distribuição dos erros e
aplicou conhecimentos estatísticos na solução de problemas de biologia, medicina e sociologia. Francis
Galton (1822-1911) , por sua vez, empregou a estatística no estudo da variação biológica e tentou,
sem sucesso, resolver problemas de hereditariedade. Karl Pearson (1857-1936) também interessou-se
pela aplicação dos métodos estatísticos à biologia, em especial, a estudos sobre a seleção natural. Além
de ser o pai do teste qui-quadrado, a ele se devem inúmeros estudos e medidas de correlação entre
variáveis. Um aluno de Pearson, William S. Gosset (1876-1937), dedicou-se a solucionar problemas
práticos com amostras pequenas. Um dos resultados de seus estudos é a distribuição t, de ampla
aplicação em vários campos da ciência.
Uma das guras modernas mais importantes da bioestatística (e da estatística em geral, já que
desenvolveu métodos para solucionar vários tipos de problemas) foi, sem dúvida, Fisher , que assentou
as bases para a experimentação estatisticamente controlada. Vários modos de analisar os dados de
amostras pequenas foram propostos por Fisher, que também tem importantes contribuições na análise
simultânea de muitas variáveis, dando considerável impulso ao uso da estatística em inúmeras áreas
do conhecimento, particularmente na agronomia, na biologia e na genética.
Figura 1.1: Sir Ronald Aylmer Fisher (1890-1962)
1.1 O Método Cientíco
Adaptado de
Serviço de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade do
Porto(MedStatWeb)
em http://stat2.med.up.pt/cursop/index.html
6
8. 1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO
O termo Métodorefere-se a um processo ordenado e padronizado de execução de uma determi-nada
atividade e implica num conjunto de regras que especicam o modo como o conhecimento deve
ser adquirido e apresentado e o modo de avaliação da verdade ou falsidade do mesmo.
Três ideias elementares constituem a base do Método Cientíco:
O ceticismo, isto é, a noção de que qualquer proposição ou armação, mesmo quando proferida
por grandes autoridades, está sujeita à dúvida e à análise;
O determinismo, ou seja, a noção de que a realidade está dependente de leis e causas regulares
e constantes e não dos caprichos ou desejos dos demôniosou bruxas;
O empirismo segundo o qual a investigação cientíca deve ser conduzida pela observação e veri-
cação através da experiência.
A indução é uma outra noção chave, provavelmente a mais importante e controversa do Método
Cientíco e será focada mais adiante.
Observação, descrição e medição:
A descrição dos fenômenos naturais, envolvendo o registo preciso e válido de observações sobre
pessoas, objetos ou acontecimentos, constitui a base empírica de todos os ramos da Ciência. As
observações podem ser na forma de descrições nominais ou conjuntos de medições. As percepções
pessoais e subjetivas têm que dar lugar às formulações descritivas e medições que possam ser enten-didas
e replicadas por outros investigadores. Muitos dos avanços da Ciência, ao longo dos últimos
séculos, devem-se diretamente ao desenvolvimento de instrumentos de auxílio à observação cada vez
mais potentes. Não deve ser esquecido, no entanto, que o uso de instrumentação complexa não é
indispensável à realização de observações cientícas. As características essenciais para uma obser-va
ção poder ser considerada cientíca são a precisão, validade e reprodutibilidade. As observações,
quando adequadamente sintetizadas e conrmadas por outros, constituem a base factual, empírica,
do conhecimento cientíco.
Generalização e Indução:
Armações e medições representando observações são integradas em sistemas interpretativos de-signados
Hipóteses e Teorias. A lógica subjacente à generalização inerente ao método cientíco é
designada Indução. A indução permite o estabelecimento de proposições gerais sobre uma classe de
fenômenos com base na análise de um número limitado de observações de elementos selecionados.
Por exemplo, tendo vericado que a penicilina é útil na cura da pneumonia num número limitado de
doentes, propõe-se a generalização - A administração de penicilina cura a pneumonia (em todos os
doentes).
Hipóteses:
A proposição A administração de penicilina cura a pneumoniaé uma hipótese. Hipóteses ci-ent
ícas são proposições que especicam a natureza da relação entre dois ou mais conjuntos de
observações. No exemplo exposto, o primeiro conjunto de observações relaciona-se com a adminis-tra
ção de penicilina, e o segundo, relaciona-se com as modicações das observações ou medições do
estado clínico dos doentes no que se refere à pneumonia. Uma hipótese cientíca deve ser apresentada
usando referências claras e observáveis, não podendo depender de interpretações subjetivas.
Teorias:
Teorias cientícas são, essencialmente, conjecturas que representam o nosso atual estado de
conhecimento sobre o mundo real. As hipóteses são integradas em sistemas interpretativos mais
abrangentes, designados teorias. A teoria tenta explicar as relações existentes entre diversos tipos
de observações e hipóteses. Por exemplo, uma teoria que pretenda explicar porque certos fármacos
designados antibióticos são ecazes na cura de certas doenças infecciosas terá que integrar evidências
de variadas fontes, tais como a microbiologia, a farmacologia, a siologia celular e a medicina clínica.
Deste modo, as teorias identicam as causas dos acontecimentos, e proporcionam meios conceituais
de predição e inuência sobre esses mesmos acontecimentos.
7
9. 1.2. DEFINIÇÃO DE ESTATÍSTICA CAPÍTULO 1. INTRODUÇÃO
Dedução:
As teorias cientícas devem levar à formulação de um conjunto de proposições empiricamente ve-ri
cáveis, ou seja, hipóteses. As hipóteses são deduzidas, obedecendo à lógica formal, das proposições
e/ou modelos matemáticos que especicam a relação causal postulada pela teoria. Por exemplo, se
aceitarmos a teoria de que um conjunto de neurônios, anatomicamente adjacentes, do lobo occipital
são responsáveis pela visão nos seres humanos, então, a hipótese que pode ser deduzida é a de que
a ativação desses neurônios (por exemplo, através de estimulação por eletrodos) provocará o apare-cimento
de certas sensações visuais. O teste das hipóteses através da observação deve ser levada
a cabo, preferencialmente, em condições controladas. A observação deve ser controlada de modo
a permitir o afastamento de hipóteses alternativas na explicação dos fenômenos sobre os quais se
fez a predição. Por exemplo, se quisermos demonstrar que a estimulação do lobo occipital provoca
sensações visuais, temos que mostrar que estamos controlando a observação para outro tipo de esti-mula
ção cerebral que possa estar provocando tais sensações. Inversamente, teríamos, também, que
demonstrar que a estimulação do lobo occipital não leva a uma série de outras sensações que não as
visuais.
Vericação:
Depois da evidência ter sido colhida, o investigador decide se os achados são consistentes ou não
com as predições da hipótese. Se a hipótese é conrmada pela evidência, então, a teoria de onde
proveio a hipótese é fortalecida ou vericada. Porém, quando os dados não conrmam a hipótese, a
teoria não é vericada. Se uma teoria não continua a conseguir predizer ou explicar as observações
torna-se menos útil, e é normalmente substituída por novas teorias mais fortes e consistentes. Assim,
as teorias cientícas não devem ser entendidas como verdades absolutas e nais, mas meras explicações
provisórias da evidência existente até ao momento.
Foi a aplicação do processo acima descrito que permitiu o espetacular crescimento do conhecimento
cientíco a que temos assistido nos últimos séculos e, em especial, nos últimos cem anos. É desta
forma que o método cientíco contribui para a concretização dos nossos objetivos, ajudando-nos a
descrever, explicar, predizer e, por vezes, controlar o mundo em que vivemos.
1.2 Denição de Estatística
Fonte: http://www.usp.br/aun/exibir.php?id=5023
Para Magalhães3 estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequên-cia
da ocorrência de eventos, tanto em estudos observacionais quanto em experimentos que visam a
modelar a aleatoriedade e a incerteza de forma a estimar valores nesses eventos.
É claro que nem todas as pessoas têm formação para entender os cálculos feitos por quem
trabalha na área, mas todos devem compreender as informações passadas por eles, pois lidamos com
estatística o tempo todo, armou Magalhães. A compreensão se daria a partir do momento em
que os professores desmisticam a matemática, fazendo isso, principalmente, com a alfabetização
estatística, isto é, fazer os estudantes entender grácos e diagramas encontrados no cotidiano das
pessoas, de modo a contextualizar a importância do que está sendo dito (Magalhães).
A palavra estatística de do latim STATUS que signica ESTADO. Em suma, a Estatística é a
ciência que aplica processos próprios para coletar, apresentar e interpretar adequadamente os dados,
sendo numéricos ou não. Tem como objetivo apresentar informações sobre dados em análises para
que se tenha maior compreensão dos fatos que os mesmos representam.
É considerada um método cientíco pois resulta de um conjunto de regras e princípios que pro-duzem
resultados controlados ou previsíveis a partir de dados aleatórios levando a um objetivo
almejado.
Há três ramos da estatística: descritiva, probabilística e inferencial.
3Marcos Magalhães, do Departamento de Estatística (MAE) do Instituto de Matemática e Estatística da Universidade
de São Paulo (IME-USP)
8
10. 1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO
Estatística Descritiva:
O conjunto de dados recolhidos em um estudo cientíco, pode variar desde poucas dezenas a vários
milhares de valores. Esta informação bruta dicilmente poderá ser compreendida ou interpretada sem
métodos que, de alguma forma, a sintetizem e descrevam. Estes métodos de síntese são designados
por métodos de Estatística Descritiva.
Assim, como o próprio nome diz, a estatística descritiva, organiza, sumariza e descreve um conjunto
de dados, através da construção de grácos, tabelas, e com cálculo de medidas com base em uma
coleção de dados numéricos. Ou seja, tenta tornar os dados mais fáceis de ler, interpretar e discuti-los.
Tabela: é um quadro que resume um conjunto de observações.
Grácos: são formas didáticas de apresentar os dados, com o objetivo de produzir uma impressão
mais rápida dos dados ou fenômenos.
Medidas descritivas: são formulações matemáticas usadas para interpretar grandes quantidades
de dados agrupados (médias, desvios,...).
Estatística Probabilística:
É onde se estuda o acaso, ou seja, através de cálculos matemáticos, pretende-se prever a ocorrência
de dados aleatórios.
Estatística Inferencial:
Destina-se à análise e interpretação de dados amostrais, ou seja, consiste em efetuar determinada
mensuração sobre uma parcela pequena, mas típica, de determinada população e utilizar essa infor-ma
ção para fazer inferências sobre a população toda. A exemplo: colocar a ponta do pé na água para
avaliar a temperatura desta na piscina.
1.3 Fases do Método Estatístico
Os dados estatísticos lidam com números, ou seja, envolvem a análise e interpretação de números.
Para interpretar estes números faz-se necessária uma organização racional dos dados, portanto,
inicia-se determinando a diferença entre dados e informação.
Dados são números ou valores coletados primariamente, e quase sempre não tem sentido. Já a
informação compreende o processamento dos dados, reduzindo a quantidade de detalhes e facilitando
o encontro de relações. Portanto os dados, quando coletados, são reunidos através de técnicas
estatísticas e posteriormente apresentados na forma de TABELAS ou GRÁFICOS; isto faz com que
sejam eliminados detalhes não importantes e enfatizados os aspectos cruciais dos dados.
Estes dados estatísticos são obtidos através de um processo que envolve a observação; e os
itens observados são chamados de variáveis. Variáveis são valores que tendem a exibir certo grau de
variabilidade quando se fazem mensurações sucessivas.
1.3.1 Coleta dos Dados
Após o cuidadoso planejamento e a devida determinação das características mensuráveis do fenô-
meno coletivamente típico que se quer pesquisar, damos início à coleta de dados numéricos necessários
a sua descrição.
A coleta pode ser direta ou indireta.
A coleta é direta quando feita sobre elementos informativos de registro obrigatório (nascimento,
casamento e óbitos, importação e exportação de mercadorias), elementos pertinentes aos prontuários
dos alunos de uma escola ou, ainda, quando os dados são coletados pelo próprio pesquisador através
de inquéritos e questionamentos, como e o caso das notas de vericação e de exames, do censo
demográco, etc..
A coleta direta de dados pode ser classicada relativamente ao fator tempo em:
9
11. 1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO
Contínua (registro) quando feita continuamente, tal como a de nascimento e óbitos e a de
frequência dos alunos nas aulas;
Periódica quando feita em intervalos constantes de tempo, como os censos (de 10 em 10 anos)
e as avaliações mensais dos alunos;
Ocasional quando feita extemporaneamente, a m de atender a uma conjuntura ou a uma
emergência, como no caso de epidemias.
A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhe-cimento
de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar
a pesquisa sobre a mortalidade infantil, que e feita através de dados colhidos por uma coleta direta.
Mas se levarmos em consideração a natureza dos dados estes podem ser:
Contínuos: trata-se de dados quantitativos em que as variáveis podem assumir virtualmente qual-quer
valor num intervalo de valores, ou quando feita continuamente.
Exemplo: altura, peso, comprimento, espessura, velocidade, etc.
Discretos: também são dados quantitativos que só podem assumir valores inteiros. Os dados
discretos surgem na contagem do número de itens com determinada característica.
Exemplo: número diário de clientes, alunos numa sala, número de acidentes diários numa fábrica
e outros.
Nominais: são dados qualitativos e caracterizam-se pela denominação de categorias ou nomes,
geralmente compreendem variáveis que não relacionam-se a priori com números.
Exemplo: sexo, cor dos olhos, campo de estudo, desempenho no trabalho, etc.
Por Posto: apesar de lidarem com números, são considerados dados de natureza qualitativa, pois
se referem a avaliações subjetivas; quando se dispõem os itens segundo preferência ou desempenho.
São valores relativos atribuídos para denotar ordem.
Exemplo: primeiro, segundo, terceiro ...
1.3.2 Crítica dos Dados
Obtidos os dados, eles devem ser cuidadosamente criticados a procura de possíveis falhas e im-perfei
ções, a m de não incorrermos em erros grosseiros ou de certo vulto, que possam inuir sensi-velmente
nos resultados.
A crítica é externa quando visa as causas dos erros por parte do informante, por distração ou
má interpretação das perguntas que lhe foram feitas; e interna, quando visa observar os elementos
originais dos dados da coleta.
1.3.3 Apuração dos Dados
Nada mais é do que a soma e o processamento dos dados obtidos e a disposição mediante critérios
de classicação. Pode ser manual, eletromecânica ou eletrônica.
1.3.4 Exposição ou Apresentação dos Dados
Por mais diversa que seja a nalidade que se tenha em vista, os dados devem ser apresentados
sob forma adequada (tabela ou gráco), tornando mais fácil o exame daquilo que está sendo objeto
de tratamento estatístico e ulterior obtenção de medidas típicas.
1.3.5 Análise dos Resultados
O objetivo da Estatística e tirar conclusões sobre o todo (população) a partir de informações for-necidas
por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (Estatística
Descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva
ou Inferencial e tiramos desses resultados as conclusões e previsões.
10
12. 1.4. LEITURA COMPLEMENTAR CAPÍTULO 1. INTRODUÇÃO
1.4 Leitura Complementar
INFORMAÇÃO EM SAÚDE
Arlinda B. Moreno
Claudia Medina Coeli
Sergio Munck
GÊNESE DO CONCEITO E DESENVOLVIMENTO HISTÓRICO
Para reetir sobre a expressão Informação em Saúde podemos nos remeter à necessidade existente,
desde a antiguidade, do ser humano comunicar algo a alguém (ou a alguma coletividade) sobre sua
própria saúde ou sobre a saúde de alguém (ou de algum grupo de pessoas) a ele relacionado. Ou seja,
preliminarmente, a Informação em Saúde pode ser pensada como um compósito de transmissão e/ou
recepção de eventos relacionados ao cuidado em saúde.
Assim sendo, podemos inferir que não é tarefa fácil demarcar o início do uso dessa terminologia
no campo da saúde. Mas, certamente, é a partir do século XIX, período que marca o recrudescimento
dos estudos em epidemiologia, que a necessidade de comunicar questões relacionadas à saúde das
populações se torna a grande alavanca para a disseminação das Informações em Saúde. Quase que
concomitantemente, a estatística do nal desse século XIX e início do século XX, inspiradora de
estudiosos como Benthan, Price, Laplace, Galton (Rosen, 1994) pode ser vista, também, como um
ponto de partida importante para a geração de Informações em Saúde de forma agregada e preditiva.
Daí, pode-se partir, sem muito pecado, para as primeiras peças da Informação em Saúde, compostas
pelas Estatísticas Vitais, pelas Tábuas de Sobrevida, enm, por instrumentos de predição e inferência
de estados de saúde a partir do status atual de um grupo de pessoas em determinado contexto
de saúde. E, no correr da história, numerosos desdobramentos para a expressão Informação em
Saúde transformaram-se, praticamente, em subáreas distintas e dirigidas, principalmente, a subsidiar,
não apenas a população em geral, mas também gestores da área saúde: sobre: perl da população
(de que adoece e morre, dados demográcos e socioeconômicos); serviços prestados; materiais e
medicamentos consumidos; força de trabalho envolvida; para conhecer: necessidades da população
atendida; uso potencial e real da rede instalada; investimentos necessários; a m de planejar, controlar
e avaliar as ações e serviços de saúde (EPSJV, 2005).
Como marcos históricos para tanto, tem-se, no século XVII, na Alemanha, o surgimento da cha-mada
'topograa política ou uma descrição das condições atuais do país', proposta por Leibniz, em
cuja descrição deveriam constar: o número de cidades (maiores e menores) e de aldeias; a popula-
ção total e a área do país em acres; a enumeração de soldados, mercadores, artesãos e diaristas; as
informações sobre as relações entre os ofícios; o número de mortes e das causas de morte (Rosen,
1980). Em decorrência dessa e de outras ações semelhantes, surgiram os inquéritos de morbidade e
as estatísticas dos serviços de saúde. Na gênese da vigilância epidemiológica, é inegável a inuência
de Farr, que realizou atividades de coleta, processamento e análise de dados e sua divulgação para
as autoridades sanitárias. Quando observamos o célebre estudo sobre o cólera realizado por Snow,
é impossível negar o uso das Informações em Saúde constantes dos mapas de ponto e do raciocínio
epidemiológico no controle desta doença, já no século XIX.
A essa altura é, também, de suma importância destacar o papel fundamental do desenvolvimento
das ciências da computação, no século XX, e, portanto, da informática como instrumental necessário
e multiplicador tanto das metodologias estatísticas quanto das Informações em Saúde. Ressalte-se,
também, que esse desenvolvimento tecnológico tem papel crucial em inovações intrínsecas à área da
saúde, tais como: a) a disseminação e facilitação da acessibilidade à s bases de dados em saúde; b) o
surgimento e a propagação da informática médica; c) a concepção e a implementação do prontuário
eletrônico do paciente, entre outros.
11
14. Capítulo 2
Conceitos Básicos
2.1 População e Amostra
População é o conjunto de entes portadores de, pelo menos, uma característica comum. Ex. fazer
uma pesquisa entre os alunos das escolas de Ensino Fundamental: precisamos denir quais são os
alunos que formam o universo, ou seja, os que atualmente estão no colégio ou devemos incluir os que
já passaram pela escola? A solução do problema depende de cada caso em particular. Na maioria
das vezes, por impossibilidade ou inviabilidade econômica ou temporal, limitamos a pesquisa a apenas
uma parte da população. A essa parte proveniente da população em estudo denominamos amostra.
Exemplo: O número de enfermeiros de um hospital é 233. Uma pesquisa sobre opção de horário
de trabalho pode ser feita com apenas 20 enfermeiros tomados ao acaso.
Tabela 2.1: Exemplos de População e Amostra
Variável de Interesse População Amostra
1 Insalubridade Todos os enfermeiros do hospital 20 enfermeiros do hospital
2 Tipo Sanguíneo Total de enfermeiros do hospital enfermeiros do bloco cirúrgico
3 Tipo Sanguíneo Sangue num indivíduo de 70kg 3 gotas de sangue
4 Salário Enfermeiros no território brasileiro Alguns enfermeiros de cada estado
5 Anos de Trabalho Total de enfermeiros do hospital enfermeiros do pronto socorro
6 Número de Filhos Total de enfermeiros do hospital enfermeiros da pediatria
2.2 Variáveis Estatísticas
Qualquer atributo medido numa pesquisa: renda familiar, número de indivíduos de uma família,
etc.
Variáveis Qualitativas: expressam qualidade. Representadas por palavras.
Exemplo: sexo (masculino ou feminino), grau de instrução (fundamental, médio ou superior),
estado civil (solteiro, casado, ...).
13
15. 2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS
Nominal: Os indivíduos são classicados em categorias segundo uma característica.
Exemplo: hábito de fumar (fumante, não fumante), sobrepeso (sim, não).
Não existe ordem entre as categorias e suas representações, se numéricas, são destituídas
de signicado numérico.
Exemplo: sexo masculino = 1, sexo feminino = 2. Os valores 1 e 2 são apenas rótulos.
Exemplo: Você tem diabetes? Sim. Não. Não sei.
Você é fumante? Sim. Não. Já fui.
Exemplo: Qual é o seu tipo de sangue? A. B. AB. O. Não sei.
Ordinal: Os indivíduos são classicados em categorias que possuem algum tipo inerente de
ordem. Neste caso, uma categoria pode ser maiorou menordo que outra.
Exemplo: nível sócio-econômico (A, B, C e D; onde A representa maior poder aquisitivo);
nível de retinol sérico (alto, aceitável, baixo, deciente) onde alto: maior ou igual a 50,0
g/dl; aceitável: 20,0 a 49,9 g/dl, baixo: 10,0 a 19,9 g/dl e deciente: menor ou
igual a 10,0 g/dl. Estes critérios são do Commitee on Nutrition for National Defense
ICNND/USA, 1963 (in Prado MS et al , 1995).
Variáveis Quantitativas: expressam quantidade. Representadas por números.
Discretas: o resultado numérico da mensuração é um valor inteiro.
Exemplo: número de refeições em um dia (nenhuma, uma, duas, três, quatro, ...), frequên-cia
de consumo semanal de determinado alimento (1 vez, 2 vezes, 3 vezes, 4 vezes, 5 vezes,
6 vezes, 7 vezes), número de lhos.
Contínuas: podem assumir qualquer valor do intervalo.
Exemplo: estatura, salário, nível de retinol sérico (g/dl), circunferência da cintura (cm).
Observação: É incorreto fazer a simplicação se tem número é quantitativo, pois muitas vezes,
os números podem ser meros rótulos, tal como o número na camisa de um jogador.
Exercício: Preencha o quadro abaixo VQO(variável qualitativa ordinal), VQN(variável qualitativa
nominal), VQTD(variável quantitativa discreta), VQTC(variável quantitativa contínua)
Tipos de variáveis.
População Variável Opção para a variável Classicação
Enfermeiros Salário bruto R$ 2003,52
do Brasil mensal
Odontólogos de Anos de 1,5/2/4
uma clínica trabalho
Professores do Produção 0, 1, 2, 3,...
curso de Farmácia cientíca
Funcionários Tipo A, B, AB, O
de um hospital sanguíneo
Enfermeiros Insalubridade Recebe, não recebe
de um hospital
Candidatos ao Sexo M, F
curso de Nutrição
Professores Número de 0, 1, 2, 3, ...
UNIFRA nutricionistas
Professores Nível de stress Alto, médio, baixo
de um curso
2.3 Exercícios
1. Foi encomendado um estudo para avaliação de uma entidade de ensino superior. Para isso, aplicou-se
um questionário e obtiveram-se respostas de 110 alunos. Indique:
14
16. 2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS
(a) a variável em estudo;
(b) a população em estudo;
(c) a amostra escolhida.
2. Os dados abaixo referem-se a medidas de prostaglandina (pg/ml) e cálcio (ml/dl) em pacientes com
câncer apresentando ou não hipercalcemia. Classique as variáveis envolvidas no estudo, o tamanho
amostral e as populações de interesse.
Prostaglandina e cálcio em pacientes com câncer.
IPGE Calcium status
500.00 13.30 hyper
301.00 13.40 hyper
254.00 10.10 nonhyper
150.00 8.60 nonhyper
100.00 9.70 nonhyper
3. Classique as seguintes variáveis em: Quantitativas (Discretas ou Contínuas) ou Qualitativas (Nominais
ou Ordinais).
(a) A cor da pele de pessoas (ex.: branca, negra, amarela). Variável do tipo e .
(b) O número de consultas médicas feitas por ano por um associado de certo plano de saúde. Variável
do tipo e .
(c) O teor de gordura, medido em gramas por 24 horas, nas fezes de crianças de 1 a 3 anos de idade.
(Ex: 23,4 g) Variável do tipo e .
(d) O tipo de droga que os participantes de certo estudo tomaram, registrados como: Droga A, Droga
B e placebo. Variável do tipo e .
(e) A pressão intra-ocular, medida em mmHg, em pessoas. Variável do tipo e .
(f) O número de lhos das pacientes participantes de certo estudo. Variável do tipo e
.
15
17. Capítulo 3
Tabelas e Distribuições de Frequência
As tabelas sintetizam informações relevantes sobre uma ou mais variáveis a m de que tenhamos
uma visão geral sobre a variável.
Tabela é um quadro que resume um conjunto de observações.
As tabelas devem obedecer ao seguinte postulado:
Obter um máximo de esclarecimentos com um mínimo de espaço e tempo.
Exemplos:
Taxa de Colesterol (mg/dl) em 30 pacientes.
248 157 124 124 215 312 254 156 132 145
214 256 258 298 189 178 186 231 301 265
298 178 196 152 144 185 132 289 264 256
Distribuição de idade dos pacientes portadores de mieloma múltiplo.
Idade (anos) Frequência Absoluta Frequência Relativa
10 - 19 57 18,54
20 - 29 113 37,42
30 - 39 57 18,87
40 - 49 32 10,62
50 - 59 19 6,29
60 - 69 7 2,29
70 2 0,67
Indeterminada 13 4,3
Total 302 100
Pacientes portadores de mieloma múltiplo.
Ano do Diagnóstico Sexo Total
Masculino Feminino
1998 50 44 94
1999 54 46 100
2000 59 49 108
Total 163 139 302
Uma tabela e mesmo um gráco podem ser decompostos em partes: Cabeçalho, Corpo e Rodapé.
Partes de uma tabela.
16
18. CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Cabeçalho - O cabeçalho, que é a apresentação do que a tabela está procurando representar, deve
conter o suciente para que sejam respondidas as seguintes questões: O QUÊ? (referente ao fato),
ONDE? (relativo ao lugar), QUANDO? (correspondente ao tempo).
Exemplo: Acidentes de trabalho ocorridos no Hospital X em 2006.
O quê? - (fato): Acidentes de trabalho.
Onde? - (lugar): Hospital X.
Quando? - (tempo): 2006.
Corpo - O corpo de uma tabela é representado por uma série de colunas e subcolunas, dentro das
quais são colocados os dados apurados.
Segundo o corpo, as tabelas podem ser: de Entradas Simples, de Dupla Entrada e de Múltipla
Entrada.
Rodapé - No rodapé de uma tabela devemos colocar a legenda e todas as observações que venham
a esclarecer a interpretação da tabela Geralmente também é no rodapé que se coloca a fonte dos
dados embora em alguns casos ela possa ser colocada também no cabeçalho. A fonte serve para dar
maior autenticidade à tabela.
CONSIDERAÇÕES
As tabelas utilizadas nos cálculos estatísticos em geral não servem para artigos cientícos pois são
organizadas para facilitar os cálculos e entendimento das variáveis e não para a sua apresentação.
por Sidia C. Jacques.
Abaixo seguem as principais regras para a construção de tabelas em artigos cientícos:
A tabela deve ser precedida de um título, sucientemente claro para que o leitor não necessite
voltar ao texto para entender o conteúdo da mesma.
a tabela é limitada por uma linha limitante superior e outra inferior, que indica seu nal. o
cabeçalho deve ser separado do restante do texto por uma linha horizontal.
Não se usam linhas verticais separando as colunas; usam-se espaços em branco.
As abreviaturas e os símbolos pouco conhecidos devem se explicados no rodapé da tabela.
Deve ser indicada a fonte dos dados.
17
19. 3.1. DADOS ABSOLUTOS E DCAADPOÍTSURLEOLA3T. IVTOASBELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Nosso Padrão: No Excel, as tabelas devem conter todas as células centralizadas, o título e o rodapé
devem ter o tamanho da tabela e suas células devem estar mescladas. A palavra tabela, o seu número
e o traço devem estar em negrito, bem como a palavra fonte, quando existir. A palavra fonte deve
estar também em itálico. O cabeçalho deve estar em negrito. Deve haver quatro linhas horizontais:
uma limitante superior, uma inferior, uma separando o título do cabeçalho e uma entre o cabeçalho e
o corpo da tabela. A palavra total, quando existir, deve estar em negrito.
3.1 Dados Absolutos e Dados Relativos
Os dados estatísticos resultantes da coleta direta da fonte, sem outra manipulação senão a con-tagem
ou medida, são chamados dados absolutos. A leitura dos dados absolutos é sempre cansativa
e inexpressiva; embora esses dados traduzam um resultado exato e el, não tem a virtude de ressaltar
de imediato as suas conclusões numéricas.
Dados relativos são o resultado de comparações por quociente (razões) que se estabelecem entre
dados absolutos e tem por nalidade realçar ou facilitar as comparações entre quantidades. Traduzem-se
os dados relativos, em geral, por meio de percentagens.
Exemplo: A tabela abaixo apresenta o número de irmãos relatados por 115 estudantes universi-t
ários da UFRGS (dados obtidos entre 1986 e 1992)
Quantidade de irmãos de alunos da UFRGS.
No de irmãos Frequência
0 8
1 20
2 40
3 26
4 9
5 7
6 4
7 0
8 0
9 1
Total
Determine o percentual de estudantes que têm 3 irmãos.
3.2 Distribuição de Frequências
É uma tabela, onde os dados encontram-se dispostos em classes ou não, juntamente com as
frequências correspondentes. Desta forma, podemos dividir as distribuições de frequências em dois
tipos:
Tabela de agrupamento simples
Mostram os valores obtidos e o número de vezes que cada dado foi observado. Os valores obtidos,
em geral, são colocados em ordem crescente e ao seu lado coloca-se a quantidade de vezes que cada
valor ocorreu (frequência).
Exemplo:
18
20. 3.2. DISTRIBUIÇÃO DE FREQUCÊANPCÍTIAUSLO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Número de médicos na população, países selecionados, 1984.
País Habitantes por Médico
Chile 1.230
Brasil 1.080
França 320
EUA 470
Argentina 370
Exemplo: Número de cáries dos alunos do 1o ano do Colégio X; quantidade de livros de bioesta-t
ística na biblioteca da UNIFRA.
Número de cáries por aluno em uma escola X da cidade (Santa Maria/2008).
Número de Cáries (Xi ) Número de Alunos (fi )
0 35
1 20
2 13
3 6
4 4
5 ou mais 2
Total 80
Usada para variáveis qualitativas ou então quantitativas discretas com poucos valores diferentes.
Tabela de agrupamento por intervalo de classe
As classes são cada um dos intervalos que se subdivide os dados brutos a m de condensar a
informação, mesmo que este procedimento perca algumas informações.
Usada para variáveis quantitativas contínuas ou discretas com muitos valores diferentes. Geral-mente
esta variável provém de medições.
Exemplo: A seguir temos as notas nais dos estudantes, as quais, se não forem agrupadas em
classes, geram tabelas com pouca utilidade prática.
Notas nais de 50 estudantes da disciplina de bioestatística.
22 46 9 40 57 22 22 13 50 42
35 2 15 41 34 52 32 75 69 44
26 42 60 56 30 3 17 79 45 37
0 12 62 50 45 41 59 11 66 39
43 33 70 50 47 20 36 40 67 29
Então, agrupamos os dados em classes cujas notas variam de 10 em 10 e contamos quantas notas
observadas estão em cada classe. A distribuição de frequência resultante será expressa pela tabela:
Tabela 3.1: Notas nais de estudantes da disciplina de bioestatística.
Notas fi
07!10 4
107!20 5
207!30 6
307!40 8
407!50 12
507!60 7
607!70 5
707!80 3
Total 50
Onde fi é a frequência absoluta das classes.
19
21. 3.2. DISTRIBUIÇÃO DE FREQUCÊANPCÍTIAUSLO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Para explicar a colocação das notas dos alunos, segundo uma distribuição em classes, necessitamos
de algumas denições:
1. Dados Brutos: Aqueles que não foram numericamente organizados, como é o caso das 50
notas dos alunos.
2. Rol: É o arranjo dos dados brutos em ordem de grandeza crescente ou decrescente:
0 2 3 9 11 12 13 15 17 20
22 22 22 26 29 30 32 33 34 35
36 37 39 40 40 41 41 42 42 43
44 45 45 46 47 50 50 50 52 56
57 59 60 62 66 67 69 70 75 79
3. Intervalo de Classe: Existem várias maneiras de apresentarmos o intervalo de classes: iguais
ou diferentes entre si. Porém, sempre que possível, deveremos optar por intervalos iguais, o que
facilitará os cálculos posteriores. O tamanho do intervalo de classe é denido pelo pesquisador.
Mas mesmo com intervalos iguais, as distribuições poderão apresentar-se da seguinte forma:
0 10: compreende todos os valores entre 0 e 10, exclusive os extremos.
0 `a 10: compreende todos os valores entre 0 e 10, inclusive os extremos.
0 a 10: compreende todos os valores entre 0 e 10, inclusive o 10 e exclusive o 0.
07!10 (ou 0 ` 10): compreende todos os valores entre 0 e 10, inclusive o 0 e exclusive o 10.
Como optamos por este último tipo (07! 10), podemos denir como intervalo de classe a
diferença entre o limite superior e o limite inferior da classe. Portanto, no exemplo, 10 0 = 10
é o intervalo ou amplitude da classe.
4. Amplitude Total ou Range: é a diferença entre o maior e o menor dado. Em nosso caso, a
nota maior é 79 é a menor é 0; logo, nossa amplitude total é 79 0 = 79.
5. Número de Classes (K): quantas classes serão necessárias para representar o fato? Existem
vários critérios que podem ser utilizados a m de possuirmos uma idéia do melhor número de
classes, porém tais critérios servirão apenas como indicação e nunca como regra xa, pois caberá
sempre ao pesquisador estabelecer o melhor número, levando-se em conta o intervalo de classe
e a facilidade para os posteriores cálculos numéricos.
6. Amplitude ou Intervalo de Classes (h):
h =
amplitude total
número de classes
Teríamos no exemplo:
79
7
= 12
Dessa forma, o pesquisador, usando o bom-senso e a sua experiência, vericará que seria mais
conveniente a utilização de um intervalo de classe igual a 10 e de um número de classes igual a
8, para que facilite as operações posteriores. Assim sendo:
Exemplo de intervalos de classe.
Classe (i) Notas (ci ) Freq. (fi )
1 07! 10 4
2 107! 20 5
3 207! 30 6
4 307! 40 8
5 407! 50 12
6 507! 60 7
7 607! 70 5
8 707! 80 3
Total 50
20
22. 3.3. EXERCÍCIOS NO EXCEL CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Observação: O número de classes e a amplitude são usados como base para a montagem de
uma tabela. Podemos aumentar ou diminuir o número de classes e arredondar uma amplitude
decimal. Use o bom senso.
7. Frequência Relativa da Classe
Corresponde ao quociente entre a frequência absoluta da classe e o total de elementos.
No exemplo, a frequência relativa da 7a classe é: fr7 =
5
50
= 0; 1 = 10%
Resumindo, teríamos:
Tabela 3.2: Exemplo de intervalos de classe.
Classe (i) Notas (ci ) Freq. (fi ) F.Rel.(f(r i))
1 07! 10 4
2 107! 20 5
3 207! 30 6
4 307! 40 8
5 407! 50 12
6 507! 60 7
7 607! 70 5 10
8 707! 80 3
Total 50
3.3 Exercícios no Excel
1. Os pesos dos 40 alunos de uma classe estão abaixo descritos:
Pesos de 40 alunos.
69 57 72 54 93 68 72 58 64 62 65 76 60 49 74
59 66 83 70 45 60 81 71 67 63 64 53 73 81 50
67 68 53 75 65 58 80 60 63 53
Construir a distribuição de frequência simples desta tabela.
2. Organizar os dados em uma tabela de frequência simples e relativa.
Dados brutos.
154 160 164 166 170 155 160 164 166 170 156
160 164 166 171 157 161 164 167 172 158 161
164 167 172 158 161 165 168 173 159 162 165
168 173 159 162 165 168 174 159 162 165 169
176 159 164 165 169 177
3. Os dados abaixo referem-se à taxa de creatinina na urina de 24 horas (mg/100 ml), em uma
amostra de 36 homens normais. Distribua os dados em classes e represente sua frequência
absoluta e relativa.
Nível de creatinina na urina (24h)
1,51 1,61 1,69 1,49 1,67 2,18 1,46 1,89 1,76 1,08
1,66 1,52 1,40 1,22 1,46 1,43 1,49 1,54 1,38 1,47
1,73 1,60 1,43 1,58 1,66 1,26 1,59 1,40 1,44 1,52
1,37 1,86 2,02 1,75 1,83 1,66
21
23. 3.4. GRÁFICOS DE COLUNAS CEAHPIÍSTTUOLGOR3A.MTAASBELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
4. Os dados da tabela mostram o peso (kg) de 80 mulheres. Apresente-os em uma tabela de
frequência.
Pesos de 80 mulheres.
5. Substituir por uma única tabela o trecho do relatório a seguir: Assim sendo, podemos concluir
que este banco, em 1995, contou com a colaboração de 345 funcionários, distribuídos pelas
nossas 5 agências, a saber: Niterói, 43; Rio de Janeiro, 102; São Paulo, 98; Belo Horizonte,
75; Vitória, 27. Em Niterói, 38 eram do sexo masculino e no Rio de Janeiro, 87. Apenas em
Vitória não existiam funcionárias, mas em São Paulo trabalharam 11 delas, enquanto que em
Belo Horizonte, apenas 3.
6. A taxa de mortalidade infantil corresponde ao número médio de mortes, dentre 1000 crianças
nascidas vivas, antes de completarem um ano de vida. Os dados da tabela representam a Taxa de
mortalidade infantil dos municípios da Microrregião Oeste Catarinense (1982) e foram extraídos
da publicação Municípios Catarinenses - Dados Básicos, 1987, GAPLAN - SC, que utiliza dados
levantados pelo IBGE.
Taxa de mortalidade infantil da microrregião.
32,3 62,2 10,3 22,0 13,1 9,9 18,3 33,0 20,0
22,7 27,2 11,9 36,4 23,5 18,0 22,6 20,3 38,3
32,9 29,9 29,7 39,2 25,4 19,6 28,9 18,4 27,3
21,7 23,7 13,9 23,8 15,7 17,0 36,3
Agrupe convenientemente os dados da tabela em classes (Distribuição de frequências).
3.4 Grácos de Colunas e Histogramas
Os grácos de colunas (bastões) são comumente utilizados para representarem distribuições de
frequências de grupamento simples enquanto que os histogramas representam distribuições em classes.
Um histograma é composto por retângulos justapostos onde a base de cada um deles corresponde
ao intervalo de classe e a sua altura à respectiva frequência.
Exemplo: Construa o histograma da distribuição de frequência abaixo:
Pressão arterial sistólica de 96 recém-nacidos.
PAS(mmHg) f
55 ` 59 3
59 ` 63 5
63 ` 67 40
67 ` 71 24
71 ` 75 15
75 ` 79 8
79 ` 83 1
No Excel: Copie a tabela para o grid do Excel:
22
24. 3.4. GRÁFICOS DE COLUNAS CEAHPIÍSTTUOLGOR3A.MTAASBELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Selecione toda a tabela e clique sobre inserir colunas colunas 2D (primeira opção)
Você vai obter o seguinte gráco de colunas:
Agora basta transformar este gráco de colunas num histograma, para isto, clique com o botão
direito sobre qualquer uma das colunas e selecione Formatar Séries de Dados. Na janela que se
abre, dena Largura do Espaçamento como 0% e clique sobre fechar. Você obterá o histograma
abaixo.
23
25. 3.5. GRÁFICO DE PIZZA CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indica-dor
da distribuição de dados. Podem indicar se uma distribuição aproxima-se de uma função normal,
como pode indicar mistura de populações quando se apresentam bimodais.
3.5 Gráco de Pizza
Um gráco de setores (pizza) apresenta uma circunferência onde as fatiastêm tamanhos pro-porcionais
à s frequências da distribuição considerada.
Para o exemplo da pressão arterial visto acima, criamos um gráco de pizza selecionando: inserir
pizza pizza 2D (primeira opção), obtendo a gura abaixo:
24
26. 3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
3.6 Box Plots
O boxplot (gráco de caixa) é um gráco utilizado para avaliar a distribuição do dados. O boxplot
é formado pelo primeiro e terceiro quartil e pela mediana.
As linhas que se projetam para fora da caixa em ambos os lados estendem-se para valores adjacentes
do gráco. Os valores adjacentes são as observações mais extremas no conjunto de dados que não
estão a mais de 1,5 vez a altura da caixa além dos quartis. Todos os pontos fora do intervalo dos
dados adjacentes são repesentados por círculos. Essas observações são consideradas fora do padrão
e são chamadas de valores extremos.
Exemplo: A tabela abaixo categoriza 10614 visitas ao consultório de especialistas de doenças
cardiovasculares por duração de cada visita. Uma duração de 0 minuto implica que o paciente não
teve contato direto com o especialista.
25
27. 3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Duração Visitas
(min) (milhares)
0 390
1 a 5 227
6 a 10 1023
11 a 15 3390
16 a 30 4431
31 a 60 968
mais de 61 185
No Bioestat:
Grácos Box-Plot: mediana e quartis
Obs: O Bioestat não mostra os valores extremos para o gráco Box-Plot: mediana e quartis.
Para saber quais são os valores mostrados no gráco é preciso fazer a estatística descritiva:
Estatísticas Estatística Descritiva
26
28. 3.7. A DISTRIBUIÇÃO NORMAL CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
3.7 A Distribuição Normal
Suponha que você faça um gráco das probabilidades dos números de caras esperados em 15
jogadas sucessivas de uma moeda, ou suponha 1.000 pessoas na rua, escolhidas aleatoriamente, para
cujas alturas você faz um diagrama de frequência:
Distribuição de probabilidade.
Histograma
27
29. 3.8. DISTRIBUIÇÃO DE PROBACBAPILÍITDUALDOE3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
Esses dois grácos são semelhantes. Essa curva em forma de sino, chamada curva normal, é a
curva mais importante da estatística. Há inúmeros exemplos de grandezas que se distribuem segundo
a curva normal:
a altura, o peso, ou o QI de uma população;
os resultados da medida de uma grandeza física, como o peso molecular de um composto
químico;
o total que aparece quando vários dados são jogados simultaneamente;
o número de clientes semanais em muitos negócios.
A distribuição normal se aplica frequentemente em situações em que valores extremos são menos
prováveis do que valores moderados.
3.8 Distribuição de Probabilidade
A frequência relativa de um valor estima a probabilidade de ocorrência deste valor.
Exemplo: A tabela tem sua representação gráca dada pelo gráco de colunas.
Número de irmãos relatados por 115 estudantes da UFRGS entre 1986 e 1992.
No de irmãos f fr Fr
0 8 0,07 0,07
1 20 0,17 0,24
2 40 0,35 0,59
3 26 0,23 0,82
4 9 0,08 0,90
5 7 0,06 0,96
6 4 0,03 0,99
7 0 0,00 0,99
8 0 0,00 0,99
9 1 0,01 1,00
Gráco de colunas relativo à tabela.
28
30. 3.8. DISTRIBUIÇÃO DE PROBACBAPILÍITDUALDOE3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA
A frequência relativa associada a x = 2 irmãos é de 0,35 na amostra estudada. Estima-se, então,
que 35% dos universitários tem 2 irmãos. Isto equivale a dizer que se estima em 0,35 a probabilidade
de que um universitário, selecionado ao acaso desta população, tenha dois irmãos. No gráco de
bastões, a probabilidade estimada para cada valor é a altura do bastão.
Exemplo: A tabela tem sua representação gráca dada pelo histograma.
Pesos (kg) de 256 alunas da UFRGS.
Peso (kg) f fr
407! 45 9 0,035
457! 50 36 0,141
507! 55 78 0,304
557! 60 55 0,215
607! 65 53 0,207
657! 70 11 0,043
707! 75 7 0,027
757! 80 5 0,020
807! 85 1 0,004
857! 90 1 0,004 P
256 1,000
Histograma relativo à tabela.
No histograma, a área do retângulo referente ao intervalo 457! 50 corresponde a 14% da área
de todo o histograma (100%). Portanto, a área deste retângulo é a representação geométrica da
probabilidade estimada de se encontrar valores entre 45 e 50 na população.
29
31. Capítulo 4
Medidas de Posição
4.1 Introdução
O estudo que zemos sobre distribuições de frequência, até agora, permite-nos descrever, de modo
geral, os grupos dos valores que uma variável pode assumir. Dessa forma, podemos localizar a maior
concentração de valores de uma dada distribuição, isto é, se ela se localiza no início, no meio ou no
nal, ou ainda, se há uma distribuição por igual.
Porém, para ressaltar as tendências características de cada distribuição, isoladamente, ou em con-fronto
com outras, necessitamos introduzir conceitos que se expressem através de números, que nos
permitam traduzir essas tendências. Esses conceitos são denominados elementos típicos da distribui-
ção e são as:
a. medidas de posição;
b. medidas de variabilidade ou dispersão;
c. medidas de assimetria;
d. medidas de curtose.
Dentre os elementos típicos, destacamos, nesta unidade, as medidas de posição: estatísticas que
representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo
horizontal (eixo das abscissas).
As medidas de posição mais importantes são as medidas de tendência central, que recebem tal
denominação pelo fato de os dados observados tenderem, em geral, a se agrupar em torno dos valores
centrais. Dentre as medidas de tendência central, destacamos: a média aritmética; a mediana e a
moda.
As outras medidas de posição são as separatrizes, que englobam a própria mediana; os quartis e
os percentis.
4.2 Média Aritmética (x)
Existem vários tipos de média (aritmética, ponderada, geométrica, harmônica, etc.), mas estuda-remos
apenas a média aritmética.
Média aritmética é o quociente da divisão da soma dos valores da variável pela quantidade deles:
x =
P
xi
n
onde, x é a média aritmética, xi são os valores da variável e n é a quantidade de valores.
Dados com agrupamento simples
Quando desejamos conhecer a média dos dados não-agrupados, determinamos a média aritmética
simples.
30
32. 4.2. MÉDIA ARITMÉTICA (X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO
Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10,
14, 13, 15, 16, 18 e 12 litros, temos, para produção média da semana:
x =
10 + 14 + 13 + 15 + 16 + 18 + 12
7
=
98
7
= 14
Logo, a média da produção de leite foi de 14 litros por dia.
Às vezes, a média pode ser um número diferente de todos os da série de dados que ela representa.
É o que acontece quando temos os valores 2, 4, 8 e 9, para os quais a média é 5. Esse será o número
representativo dessa série de valores, embora não esteja nos dados originais. Neste caso, diz-se que a
média não tem existência concreta.
Exemplo: Determine a média dos volumes respiratórios forçados em um segundo para 10 adoles-centes
que sofrem de asma, representados na tabela:
Volumes respiratórios por indivíduo.
Indivíduo FEV(litros)
1 2,30
2 2,15
3 3,50
4 2,60
5 2,75
6 2,82
7 4,05
8 2,25
9 2,68
10 3,00 P
=
Resp.: 2,81 litros
Consideremos a distribuição relativa a 34 famílias de 4 lhos, tomando para variável o número de
lhos do sexo masculino:
Número de lhos por família.
Número de meninos fi
0 2
1 6
2 10
3 12
4 4 P
= 34
Neste caso, como as frequências são números indicadores da intensidade de cada valor da variável,
elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada,
dada pela fórmula:
x =
P
xi fi P
fi
Um modo prático de obtenção da média ponderada é abrir, na tabela, uma coluna correspondente aos
produtos xi fi . Assim, temos:
Número de lhos por família.
Número de meninos fi xi fi
0 2
1 6
2 10
3 12
4 4
TOTAL 34
31
33. 4.2. MÉDIA ARITMÉTICA (X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO
Observação: O valor médio obtido acima de 2,3 meninos sugere, neste caso, que o maior número
de famílias tem 2 meninos e 2 meninas, sendo, porém, a tendência geral uma leve superioridade
numérica em relação ao número de meninos.
Com Intervalos de Classes
Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe
coincidem com o seu ponto médio, P
e determinamos a sua média aritmética ponderada por meio da
fórmula que já conhecemos: x =
Pxi fi
fi
, porém, agora, xi é o ponto médio de cada classe.
Exemplo:
Altura de 40 alunos da escola X - Santa Maria - 2007.
i Estaturas (cm) fi
1 150 ` 154 4
2 154 ` 158 9
3 158 ` 162 11
4 162 ` 166 8
5 166 ` 170 5
6 170 ` 174 3
TOTAL 40
Primeiro vamos abrir uma coluna para os pontos médios e outra para os produtos xi fi .
Altura de 40 alunos da escola X - Santa Maria - 2007.
i Estaturas (cm) fi xi xi fi
1 150 ` 154 4
2 154 ` 158 9
3 158 ` 162 11
4 162 ` 166 8
5 166 ` 170 5
6 170 ` 174 3
TOTAL 40
Resp.: 161cm
Exercício:
Determine a média de níveis séricos de colesterol entre os homens indicados na tabela:
Níveis séricos de colesterol para homens de Santa Maria com idades entre 25 e 34 anos.
Nível de colesterol(mg=10ml) fi xi xi fi
80 ` 120 13
120 ` 160 150
160 ` 200 442
200 ` 240 299
240 ` 280 115
280 ` 320 34
320 ` 360 9
360 ` 400 5
TOTAL 1067
Resp.: 199,34
Vantagens e desvantagens da média aritmética
Por ser muito inuenciada por valores extremos da série, a média aritmética não representa bem
as distribuições em que existem valores extremos em relação aos demais, como, por exemplo, a série
32
34. 4.3. MODA (MO) CAPÍTULO 4. MEDIDAS DE POSIÇÃO
cujos elementos são os seguintes: 18, 20, 22, 24 e 850 (onde a média aritmética é igual a 186,8,
resultado que foi muito inuenciado pelo elemento 850).
1) Apesar de a média aritmética situar-se entre o menor e o maior resultado da distribuição de
frequências, ela não tem, necessariamente, a existência real. Podemos obter, por exemplo, uma média
do tamanho de família de 4,5 pessoas, que é um valor inexistente.
2) Pode ser calculada para distribuições com classes, mas os seus resultados não são considerados
reais.
3) Pode ser calculada diretamente usando qualquer calculadora eletrônica.
4) Depende de todos os valores da distribuição.
5) Evidencia bastante estabilidade de amostra para amostra, ou seja, se pesquisarmos numerosas
amostras extraídas de uma mesma população, os valores das médias obtidas tendem a variar pouco
(pouca variabilidade com amostras da mesma população).
4.3 Moda (Mo)
Denominamos moda o valor que ocorre com maior frequência em uma série de valores.
Dados com agrupamento simples
Quando lidamos com valores não-agrupados, a moda é facilmente reconhecida: basta procurar o
valor que mais se repete.
Exemplo: A série de dados: 7, 8, 9, 10, 10, 10, 11, 12, 13, 15 tem moda igual a 10.
Podemos, entretanto, encontrar séries nas quais não exista valor modal, isto é, nas quais nenhum
valor apareça mais vezes que outros.
É o caso da série: 3, 5, 8, 10, 12, 13, que não apresenta moda (amodal).
Em outros casos, ao contrário, pode haver dois ou mais valores de concentração.
Dizemos, então, que a série tem dois ou mais valores modais. Na série: 2, 3, 4, 4, 4, 5, 6, 7, 7,
7, 8, 9 temos duas modas: 4 e 7 (bimodal).
A moda é utilizada:
quando desejamos obter uma medida rápida e aproximada de posição;
quando a medida de posição deve ser o valor mais típico da distribuição.
33
35. 4.4. MEDIANA (MD) CAPÍTULO 4. MEDIDAS DE POSIÇÃO
4.4 Mediana (Md)
A mediana é outra medida de posição, denida como o número que se encontra no centro de
uma série de números, estando estes dispostos segundo uma ordem (em Rol). Em outras palavras, a
mediana de um conjunto de valores, ordenados segundo uma ordem de grandeza, é o valor situado de
tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos.
Exemplo: Seja a seguinte série de valores: 5, 13, 10, 2, 18, 15, 6, 16, 9. O primeiro passo é
ordenar os números (ordem crescente ou decrescente): 2, 5, 6, 9, 10, 13, 15, 16, 18.
Em seguida, tomamos aquele valor central que apresenta o mesmo número de elementos à direita
e à esquerda. Em nosso exemplo, esse valor é o 10, já que, há quatro elementos acima dele e quatro
abaixo.
Temos, então: Md = 10
Se, porém, a série dada tiver um número par de termos, a mediana será, por denição, qualquer
dos números compreendidos entre os dois valores centrais da série. Convencionou-se utilizar o ponto
médio. Assim, a série de valores: 2, 6, 7, 10, 12, 13, 18, 21 tem para mediana a média aritmética
entre 10 e 12.
Md =
10 + 12
2
= 11
Vericamos que, estando ordenados os valores de uma série e sendo n o número de elementos da
série, o valor mediano será:
o termo de ordem n+1
2 , se n for ímpar;
a média aritmética dos termos de ordem n
2 e n
2 + 1 , se n for par.
A mediana é utilizada:
quando desejamos obter o ponto que divide a distribuição em partes iguais;
quando há valores extremos que afetam de uma maneira acentuada a média.
Observação: No cálculo da média, todos os valores da amostra são levados em conta, ao passo
que no caso da mediana isto não acontece. Por esta razão, valores muito grandes ou muito pequenos,
comparados aos demais valores da amostra, causam grandes variações na média, o que em geral não
ocorre com a mediana. Por isso, dizemos que a mediana é robusta, isto é, ela é resistente a valores
atípicos.
4.5 Exercícios no Excel
1. A tabela abaixo lista as durações das terapias para dez pacientes inscritos em um estudo que
investiga os efeitos da interrupção das transfusões de sangue. Determine a média desses valores.
Duração da terapia de transfusão para 10 pacientes com doenças falciformes.
Indivíduo Duração
1 12
2 11
3 12
4 6
5 11
6 11
7 8
8 5
9 5
10 5
TOTAL
Resp.: 8,6 anos
34
36. 4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO
2. Na sequência temos a massa (peso) em gramas, de ratos da raça Wistar com 30 dias de idade.
(Fonte: Vieira, S., 1980). Calcule a média aritmética.
50 62 70 86 66 55 60 77 82 64 58 74
Resp.: 67
3. Os tempos de reação de um indivíduo a determinados estímulos foram medidos por um psico-logista
como sendo 0,53; 0,46; 0,50; 0,49; 0,52; 0,53; 0,44 e 0,55 segundos, respectivamente.
Determinar: os tempos médio, modal e mediano de reação do indivíduo a esses estímulos.
Resp.: 0,50; 0,53; 0,51
4. Calcule a média dos números de dentes perdidos ou danicados em uma amostra de 50 pessoas
tratadas em determinada clínica dentária (Fonte: Callegari- Jacques, S. 2003).
Dentes perdidos ou danicados.
Número de dentes (x) Número de pessoas (fi ) x fi
0 9
1 5
2 6
3 7
4 9
5 5
6 4
7 3
8 2
TOTAL 50
Resp.: 3,2 dentes
5. Calcule o número médio de dentes cariados, para cada sexo, a partir dos dados apresentados na
tabela a seguir:
Resp.: Masc.: 0,88 e Fem.: 1,6
Número de dentes cariados das pessoas tratadas em uma clínica dentária Santa Maria/RS.
Número de Sexo
dentes cariados Masculino Feminino
0 16 14
1 2 6
2 3 7
3 2 8
4 2 5
Total
Resp.: Média Masc.: 0,88; Média Fem.: 1,6
6. Quinze indivíduos foram sujeitos à recolha de urina em dois momentos, antes da toma de um
diurético e após a tomada desse diurético, tendo-se obtido os valores em litros/dia mostrados
na tabela:
Coleta de urina.
Indiv. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Sem 1,2 1,2 1,2 1,2 1,1 1,3 1,8 1,2 1,1 1,4 1,1 1,3 1,1 1,2 1,3
Com 1,4 1,3 1,5 1,4 1,3 1,6 2,1 1,4 1,3 1,5 1,2 1,4 1,2 1,2 1,3
35
37. 4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO
a) Determine as medidas de localização central da urina sem diurético.
Resp.: x = 1; 25; Md = 1; 2 e Mo = 1; 2.
b) Determine as medidas de tendência central da urina com diurético.
Resp.: x = 1; 41; Md = 1; 4 e Mo = 1; 3 e 1; 4.
7. Durante uma epidemia de escarlatina, recolheu-se um certo número de mortos, em 40 cidades
de um país, obtendo-se os dados da tabela .(DIAZ e LOPEZ, 2007)
Quantidade de mortos devido à escarlatina.
Mortos(número) 0 1 2 3 4 5 6 7
Cidades 7 11 10 7 1 2 1 1
a) Calcule as medidas de posição central. Resp.: x = 1; 98; Md = 2 e Mo = 1.
b) Calcule a porcentagem de cidades com pelo menos dois mortos. Resp.: 55%
c) Calcule a porcentagem de cidades com no máximo 2 mortos. Resp.: 70%
d) Calcule a porcentagem de cidades com no mínimo 3 mortos. Resp.: 30%
8. A tabela mostra a composição por idade e sexo de um grupo de trabalhadores, com tuberculose
pulmonar, numa determinada cidade.
Distribuição da tuberculose por sexo.
Idade(anos) Homem Mulher Total
14 ` 19 2 2 4
19 ` 24 10 5 15
24 ` 29 33 9 42
29 ` 34 45 12 57
34 ` 39 39 8 47
39 ` 44 21 4 25
Total
Pede-se:
Qual é a média de idade dos trabalhadores do sexo masculino e feminino com tuberculose
pulmonar.
Resp.: F: 30,38 anos; M: 32,23 anos
36
38. Capítulo 5
Separatrizes
Como vimos, a mediana separa uma série de valores em dois grupos que apresentam a mesma
quantidade de elementos.
Assim, além das medidas de posição que estudamos, há outras que, consideradas individualmente,
não são medidas de tendência central, já que se baseiam em sua posição na série. Essas medidas
os quartis, os percentis e os decis são, juntamente com a mediana, conhecidas pelo nome genérico
de separatrizes.
5.1 Quartis
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há, portanto,
três quartis:
a) O primeiro quartil (Q1): valor situado de tal modo na série que uma quarta parte (25%) dos
dados é menor que ele e as três quartas partes restantes (75%) são maiores.
b) O segundo quartil (Q2): evidentemente, coincide com a mediana (Q2 = Md ).
c) O terceiro quartil (Q3) valor situado de tal modo que as três quartas partes (75%) dos
termos são menores que ele e uma quarta parte (25%) é maior.
5.2 Decis e Percentis
Os decis Di são valores que dividem os dados em 10 partes iguais enquanto que os percen-tis
são os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos por
P1; P2; P3; ; P32; ; P99.
P50 = Md , P25 = Q1 e P75 = Q3
5.3 Exercícios no Excel
1. Com o objetivo de estudar a ecácia de um regime alimentar para tratamento de diabetes
foram recolhidas 12 amostras de sangue em diabéticos e analisada a quantidade de açúcar.
37
39. 5.3. EXERCÍCIOS NO EXCEL CAPÍTULO 5. SEPARATRIZES
Obtiveram-se os resultados mostrados na tabela abaixo:
Glicose de amostras sanguíneas (mg/100ml)
187.45 187.57 187.37 187.49 187.58 187.37
187.46 187.62 187.47 187.53 187.39 187.46
(a) Determine a média, moda e mediana. Resp.: x = 187:48 ; Mo = 187:37; Md = 187:465
(b) Determine os quartis Q1 e Q3. Resp.: Q1 = 187:42 ; Q3 = 187:55
2. Os dados referentes ao número de dentes cariados, perdidos ou obturados em uma amostra de
20 pessoas tratadas em uma determinada clínica dentária estão apresentados na tabela a seguir.
Considerando dados brutos, pede-se:
Dentes cariados, perdidos ou obturados.
6 4 1 0 2 3 0 5 0 4
4 6 0 1 3 5 8 3 2 7
Primeiro e o terceiro quartil . Interprete os resultados.
Resp.: Q1 = 1 (25% do total tem 0 ou 1 cárie); Q3 = 3
3. Considerando 12 observações (ordenadas) do tempo de internação (dias) de acidentados no
trabalho, em um certo hospital: 1, 4, 7, 9, 10, 13, 15, 17, 17, 18, 19, 21. Obtenha os quartis
e interprete estes valores.
Resp.: Q1 = 8, Q2 = 14 Q3 = 17; 5
38
40. Capítulo 6
Medidas de Dispersão
6.1 Dispersão ou Variabilidade
As medidas de dispersão procuram vericar o quanto os dados estão dispersos em torno de uma
medida de posição (média, mediana ou moda), ou seja, elas informam o quanto os dados estão
afastados, em média, do ponto central.
Assim, não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um
conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades
é a mesma, e igual a 24C, ainda assim somos levados a pensar a respeito do clima dessas cidades.
Em uma delas poderá a temperatura variar entre limites de muito calor e de muito frio e haver, ainda,
uma temperatura média de 24C. A outra poderá ter uma variação pequena de temperatura e possuir,
portanto, no que se refere à temperatura, um clima mais favorável.
Vemos, então, que a média ainda que considerada como um número que tem a faculdade de
representar uma série de valores não pode, por si mesma, destacar o grau de homogeneidade ou
heterogeneidade que existe entre os valores que compõem o conjunto.
Exemplo: Consideremos os seguintes conjuntos de valores das variáveis x, y e z:
X: 70, 70, 70, 70, 70.
Y: 68, 69, 70, 71, 72.
Z: 5, 15, 50, 120, 160.
Calculando a média aritmética de cada um desses conjuntos, obtemos:
X =
350
5
= 70 , Y =
350
5
= 70 e Z =
350
5
= 70.
Vemos, então, que os três conjuntos apresentam a mesma média aritmética: 70.
Entretanto, é fácil notar que o conjunto X é mais homogênea que os conjuntos Y e Z, já que
todos os valores são iguais à média.
O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversicação
entre cada um de seus valores e a média representativa.
Chamando de dispersão ou variabilidade a maior ou menor diversicação dos valores de uma variável
em torno de um valor de tendência central tomado como ponto de comparação, podemos dizer que o
conjunto X apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma dispersão ou
variabilidade menor que o conjunto Z.
Portanto, para qualicar os valores de uma dada variável, ressaltando a maior ou menor dispersão
ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre à s medidas de
dispersão ou de variabilidade.
Dessas medidas, estudaremos a amplitude total, a variância, o desvio padrão e o coeciente de
variação.
39
41. 6.2. AMPLITUDE TOTAL CAPÍTULO 6. MEDIDAS DE DISPERSÃO
6.2 Amplitude Total
É a diferença entre o maior e o menor valores observados e serve para ajudar a entender a dispersão
dos dados, assim, amplitudes grandes indicam dados dispersos enquanto que amplitudes pequenas
indicam que os dados são mais homogêneos.
Exemplo: Consideremos quatro grupos de alunos cujas notas são:
Grupo A 7, 5, 6, 9 e 8;
Grupo B 9, 10, 4, 1, 8 e 10;
Grupo C 5, 7, 7, 7,7, 7, 7, 7, 7 e 9;
Grupo D 7, 7, 7 e 7.
Com base na amplitude ou intervalo total, qual é o mais homogêneo?
Resp.: Grupo B, Grupos A e C (empatados) e Grupo D.
Comentário: Vimos acima que os grupos A e C são considerados igualmente homogêneos por
terem o mesmo intervalo total. No entanto, um simples exame visual das notas respectivas nos leva
a concluir que certamente o grupo C é o mais homogêneo, uma vez que dá para perceber que os seus
elementos estão mais próximos entre si que os elementos do grupo A.
O que de fato ocorre é que, infelizmente, o intervalo total não é uma medida capaz de quanticar
de modo eciente a dispersão de uma série, uma vez que no seu cálculo interferem apenas os elemen-tos
extremos (máximo e mínimo) da série, não avaliando o comportamento dos demais elementos.
Utilizamos, assim, o intervalo total apenas para ter uma primeira informação sobre a dispersão da
série, visando quase que somente a identicar o campo de variação dos seus elementos.
6.3 Variância e Desvio Padrão
Como vimos, a amplitude total é instável, por se deixar inuenciar pelos valores extremos, que
são, na sua maioria, devidos ao acaso.
A variância e o desvio padrão são medidas que fogem a essa falha, pois levam em consideração a
totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis
e, por isso mesmo, os mais geralmente empregados.
A variância baseia-se nos desvios em torno da média aritmética, porém determinando a média
aritmética dos quadrados dos desvios. Assim, representando a variância por S2, temos:
S2 =
P
(xi x)2
P
fi
Sendo a variância calculada a partir dos quadrados dos desvios, ela é um número em unidade
quadrada em relação à variável em questão, o que, sob o ponto de vista prático, é um inconveniente.
Por isso mesmo, imaginou-se uma nova medida que tem utilidade e interpretações práticas, deno-minada
desvio padrão, denida como a raiz quadrada da variância e representada por s. Assim:
S = pS2
Observações: Tanto o desvio padrão como a variância são usados como medidas de dispersão ou
variabilidade. O uso de uma ou de outra dependerá da nalidade que se tenha em vista.
A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extrema-mente
importante na inferência estatística e em combinações de amostras.
6.4 Exercícios no Excel
1. Quatorze indivíduos que deram entrada no serviço de urgência de um Hospital apresentavam as
seguintes pressões arteriais sistólicas:
Ind. 1 2 3 4 5 6 7 8 9 10 11 12 13 14
PAS 115 125 128 135 126 124 112 125 127 133 119 127 121 120
40
42. 6.5. COEFICIENTE DE VARIAÇÃO CAPÍTULO 6. MEDIDAS DE DISPERSÃO
(a) Determine as medidas de tendência central da PAS e comente os resultados.
Resp.: x = 124; 07, Me = 125, Mo = 125e127
(b) Determine o desvio padrão. Resp.: 6,08
(c) Determine os quartis. Resp.: Q1 = 120 Q2 = 125 Q3 = 127
2. Foram analisados os níveis de concentração de albumina em dez adultos tendo-se obtido os
seguintes resultados (g/l):
Indivíduo 1 2 3 4 5 6 7 8 9 10
Albumina 19,7 19,9 20,9 20,7 20,9 20,8 20,9 21 19,5 19,4
a) Determine as medidas de localização de tendência central que conhece.
Resp.: x = 20; 37 Me = 20; 75 Mo = 20; 9
b) Determine o desvio padrão. Resp.: 0,62
6.5 Coeciente de Variação
O desvio padrão por si só não nos diz muita coisa. Assim, um desvio padrão de duas unidades
pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a
média for igual a 20, o mesmo não pode ser dito.
Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu
emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão
ou variabilidade, quando expressas em unidades diferentes.
Para contornar essas diculdades e limitações, podemos caracterizar a dispersão ou variabilidade
dos dados em termos relativos a seu valor médio, medida essa denominada coeciente de variação
(CV).
CV =
S
x 100
Exemplo: Tomemos os resultados das medidas das estaturas e dos pesos de um mesmo grupo de
indivíduos:
x S
Estaturas 175 cm 5 cm
Pesos 68 kg 2 kg
CVE =
5
175 100 = 2; 85% CVP =
2
68 100 = 2; 94%
Conclui-se que neste grupo de indivíduos, os pesos apresentam maior grau de dispersão que as
estaturas.
Exemplo: Admitamos, por exemplo, ser do nosso interesse comparar entre si, tendo em vista
a homogeneidade, as séries relacionadas a seguir, juntamente com suas médias aritméticas e seus
desvios padrões:
Série Média Aritmética Desvio Padrão
A(t) 80,8 t 10,0 t cm
B(cm) 450,0 cm 10,0 cm
C(oC) 32,6 oC 4,2 oC
D(oC) 30,0 oC 2,6 oC
E(oC) 8200,0 t 700,0 t
Vamos calcular o coeciente de variação para cada uma das séries do exemplo acima:
41
43. 6.6. EXERCÍCIOS NO EXCEL CAPÍTULO 6. MEDIDAS DE DISPERSÃO
série A: V = 100 X 10,0/80,8 = 12,4% série D: V = 100 X 2,6/30,0 = 8,7%
série B : V = 100 X 10,0/450,0 = 2,2% série E: V = 100 X 700,0/8 200,0 = 8,5
série C : V = 100 X 4,2/32,6 = 12,9%
Podemos, assim, por possuir o menor coeciente de variação, armar que:
a série B é mais homogênea que a série A;
a série D é mais homogênea que a série C;
a série E é mais homogênea que a série A.
Listando as séries em questão, em ordem crescente de homogeneidade ou decrescente de dispersão,
quanticada pela medida mais conveniente no caso, que é o coeciente de variação, temos: série C,
série A, série D, série E e série B.
Conforme acabamos de ver, além de ter o seu uso recomendado para a análise da dispersão de
séries heterogêneas (unidades de medidas diferentes: metros, toneladas, litros etc.), o coeciente de
variação serve ainda para compararmos séries que apresentam ordens de grandeza diferenciadas dos
seus elementos (unidades, dezenas etc.). Como desvantagens, podemos citar a impossibilidade de
usarmos o coeciente de variação para séries com médias aritméticas nulas e sua inconveniência de
uso (como toda percentagem que se preza) no caso de termos séries com médias aritméticas muito
pequenas (ou próximas de zero) que, ao sofrerem uma reduzida alteração, normalmente provocam
grandes variações no coeciente de variação.
6.6 Exercícios no Excel
1. Em um exame nal de Matemática, o grau médio de um grupo de 150 alunos foi 7,8 e o desvio
padrão, 0,80. Em Estatística, entretanto, o grau médio nal foi 7,3 e o desvio padrão, 0,76.
Em que disciplina foi maior a dispersão? Resp.: Estatística
2. Medidas as estaturas de 1.017 indivíduos, obtivemos x = 162; 2 cm e S = 8,01 cm. O peso
médio desses mesmos indivíduos é 52 kg, com um desvio padrão de 2,3 kg. Esses indivíduos
apresentam maior variabilidade em estatura ou em peso? Resp.: Estatura
3. Um grupo de 85 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97
cm. Outro grupo de 125 moças tem uma estatura média de 161,9 cm, sendo o desvio padrão
igual a 6,01 cm. Qual é o coeciente de variação de cada um dos grupos? Qual o grupo mais
homogêneo?
Resp.: 3,72 e 3,71, respectivamente; o segundo grupo
4. Um estudo foi realizado por um professor em três turmas, obtendo a média e o desvio padrão
das notas de sua disciplina, conforme abaixo. Qual a turma com menor variabilidade? Justique
adequadamente.
Turma A B C
Média 6,5 8,0 cm 8,0
Desvio Padrão 2,2 cm 1,7 2,0
Resp.: Turma B
5. [Excel] São fornecidos valores de nível de triglicérides (mg/dL) de 9 pessoas:
166 158 202 162 135 82 150 86 121
Calcule, apresentando o desenvolvimento da fórmula:
a) o nível médio de triglicérides; Resp.: 140,22
b) o nível mediano de triglicérides; Resp.: 150
c) o desvio padrão do nível de triglicérides; Resp.: 36,66
d) o coeciente de variação do nível de triglicérides. Resp.: 26,14%
42
44. 6.6. EXERCÍCIOS NO EXCEL CAPÍTULO 6. MEDIDAS DE DISPERSÃO
6. Considere as seguintes medidas descritivas das notas nais dos alunos de três turmas de Bioes-tat
ística. Com base nesses dados, considere as seguintes armativas:
Turma N. alunos Média Desvio Padrão
A 15 6 1,31
B 15 6 3,51
C 14 6 2,61
1. Apesar de as médias serem iguais nas três turmas, as notas dos alunos da turma B foram as
que se apresentaram mais heterogêneas.
2. As três turmas tiveram a mesma média, mas com variação diferente.
3. As notas da turma A se apresentaram mais dispersas em torno da média.
Assinale a alternativa correta:
a) Somente a armativa 3 é verdadeira.
b) Somente a armativa 2 é verdadeira.
c) Somente as armativas 2 e 3 são verdadeiras.
d) Somente as armativas 1 e 2 são verdadeiras.
e) Somente as armativas 1 e 3 são verdadeiras.
Resp.: d
43
45. Capítulo 7
Assimetria e Curtose
As medidas de assimetria e curtose complementam as medidas de posição e de dispersão e dão
uma interpretação da forma da distribuição.
7.1 Assimetria
Mede a deformação da distribuição relativamente à sua simetria, ou seja, mede o quanto a distri-bui
ção é assimétrica em relação a um eixo central.
Exemplo: Seja o seguinte conjunto de dados:
O gráco de colunas relativo a estes dados é o seguinte:
Perceba que existe uma caudapara a direita destes dados, o que evidencia a sua assimetria:
44
46. 7.2. TRABALHO 02 CAPÍTULO 7. ASSIMETRIA E CURTOSE
A assimetria pode ser calculada através do coeciente de assimetria de Pearson (CA):
CA =
x Mo
s
onde,
x é a média aritmética.
Mo é a moda.
Existem outras fórmulas para o cálculo do coeciente, mas não nos servem agora.
Intensidade da assimetria (interpretação do coeciente de Pearson):
7.2 Trabalho 02
Instruções:
As questões deverão ser respondidas no Excel;
Cada planilha deve conter uma questão. O nome da planilha deve indicar o número da questão,
por exemplo: Questão 1.
As perguntas e os comentários das respostas devem estar em caixas de texto dentro da respectiva
planilha.
O nome do arquivo deve conter o seu nome e o nome do curso, por exemplo: RodrigoMatema-tica;
O arquivo deve ser enviado para o e-mail rodrigopereira@unifra.br
O assunto do email será Trabalho 02.
Utilize o seu email da Unifra (acesse-o através do Alunonet).
1. Os dados abaixo representam as alturas de 60 indivíduos. Calcule a estatística descritiva (média,
mediana, desvio padrão, Q1, Q3 e o coeciente de variação).
159 159 159 160 160 160 161 161 162 162 162 163 163 163 164
164 164 165 165 165 166 166 166 167 167 167 168 168 169 169
169 170 170 170 171 171 171 172 172 172 173 173 173 174 174
174 175 175 176 176 176 177 177 177 178 178 178 179 179 179
Responda:
(a) Por que o CV deu um resultado tão baixo?
45
47. 7.2. TRABALHO 02 CAPÍTULO 7. ASSIMETRIA E CURTOSE
(b) Explique o valor da mediana?
(c) Explique o valor do Q3?
(d) Construa um histograma para esta distribuição no Excel e responda se é uma distribuição
normal ou não.
2. As amostras de exames bioquímicos de sangue de 3 diferentes laboratórios apresentaram os
níveis de creatinina mostrados no quadro:
Exame 1 2 3 4 5 6 7
Laboratório A 0,6 0,4 0,5 0,8 0,2 0,8 -
Laboratório B 0,7 0,8 0,6 0,9 0,5 1,1 0,3
Laboratório C 0,6 0,7 2,0 0,5 0,8 0,9 0,9
a) Calcule a média das creatininas de cada um dos laboratórios.
b) Qual dos 3 laboratórios teve a menor dispersão? Qual das medidas estatísticas explica a tua
resposta?
46
49. Capítulo 8
Amostragem
De uma forma geral, as populações ou universos nos quais o pesquisador está interessado são
grandes demais para serem estudados na sua totalidade. O tempo necessário para estudar toda a
população, as despesas e o número de pessoas envolvidas são de tal monta que tornam o estudo
proibitivo. Por isso, o mais comum é se estudarem amostras retiradas da população de interesse.
Para que os resultados obtidos em uma amostra possam ser generalizados para a população, isto
é, para que se possam realizar inferências válidas, a amostra deve ser representativa da população. A
melhor maneira de se obter uma amostra representativa é empregar um procedimento aleatório para
a seleção dos indivíduos.
Uma vantagem de se usarem amostras aleatórias é que, para este tipo de amostras, existem
inúmeros métodos estatísticos que poderão auxiliar o pesquisador. Além disto, tal tipo de amostragem
não dá oportunidade ao pesquisador de escolher, mesmo de forma inconsciente, uma amostra que
favoreça a hipótese que ele gostaria de ver conrmada.
8.1 Amostragem vs Censo
Quando estudamos todos os elementos de uma população, estamos realizando o que denominamos
censo. O IBGE, por exemplo, realiza periodicamente (de dez em dez anos) o censo relativo a inúmeras
características do Brasil; obtém dados a respeito da saúde, ensino, habitação, produção vegetal e
animal, prestação de serviços, etc., em todo o território nacional, pesquisando todos os elementos da
população.
O censo, porém, nem sempre pode ou deve ser utilizado, devido à impossibilidade de estudar a
população, por apresentar pouca precisão e em razão de seu custo econômico.
Custo Reduzido
Sendo os dados obtidos apenas de uma fração da população, as despesas são menores do que as
oriundas de um censo. Tratando-se de grandes populações, pode-se obter resultados sucientemente
precisos, para serem úteis, de amostras que representam apenas uma pequena fração da população.
Segundo COCHRAN (1977), nos Estados Unidos, os mais importantes levantamentos periódicos,
realizados pelo governo, usavam amostras de cerca de 100.000 pessoas, ou, aproximadamente uma
pessoa em cada 1800.
Maior Rapidez
Os dados podem ser apurados e sintetizados mais rapidamente em uma amostragem do que
em uma contagem completa. Este é um fator primordial, quando se necessita urgentemente das
informações. O objetivo de uma investigação é o de conhecer a situação de um determinado fenômeno,
no momento da coleta da informação, para que de acordo com a informação obtida, se possam tomar
as medidas possíveis para resolver algum problema. Se o resultado dessa pesquisa for conhecido
muito tempo depois, é bem possível que a situação que se pretendia resolver, seja nesse momento,
completamente diferente da que existia no momento da coleta dos dados.
48
50. 8.1. AMOSTRAGEM VS CENSO CAPÍTULO 8. AMOSTRAGEM
Maior Amplitude e Flexibilidade
Em certos tipos de investigação, tem-se que utilizar pessoal bem treinado e equipamento altamente
especializado, cuja disponibilidade é limitada para a obtenção de dados. O censo completo torna-se
impraticável e resta a escolha entre obter as informações por meio de uma amostra, ou não consegui-las
de todo. Dessa forma, os levantamentos que se fundamentam na amostragem tem maior amplitude
e exibilidade.
Maior Exatidão
Em virtude de se poder empregar pessoal de melhor qualidade e intensivamente treinado, e por
se tornar exeqüível a supervisão mais cuidadosa do campo de trabalho e do processamento de dados,
dada a redução no volume de trabalho, portanto, uma amostragem pode, na realidade, proporcionar
resultados mais exatos que o censo.
Não Destruição da População
Pode ser impraticável investigar toda a população em determinados procedimentos de controle de
qualidade. Por exemplo, se quisermos vericar a qualidade de uma marca de fósforos, necessitaremos
riscá-los a m de vericar o seu funcionamento. Se inspecionarmos toda a população de fósforos,
riscando-os, acabaremos com a população, pois o processo de aferição da qualidade do fósforo o
destrói. Novamente, o estudo da população torna-se impraticável.
Representatividade da Amostra
Para que as conclusões da teoria de amostragem sejam válidas, as amostras devem ser escolhidas
de modo a serem representativas da população. Isso signica que a amostra deve possuir as mesmas
características básicas da população, no que diz respeito a (s) variável (eis) que desejamos estudar.
Um plano de amostragem deve ser formulado para garantir a representatividade.
Alguns procedimentos básicos para a obtenção de amostras aleatórias são apresentados a seguir:
49
51. 8.2. AMOSTRAGEM PROBABILÍSTICA CAPÍTULO 8. AMOSTRAGEM
8.2 Amostragem Probabilística
Note-se bem que o termo probabilístico se aplica a amostra escolhida de forma aleatória. Por
envolver o sorteio, a seleção independe do pesquisador e elimina-se a possível tendenciosidade do
mesmo. As amostragens probabilísticas geram amostras probabilísticas e os resultados podem ser
projetáveis para a população total
8.2.1 Amostragem Aleatória Simples
Uma amostra aleatória simples é aquela obtida de tal modo que todos os indivíduos da população
têm igual probabilidade de serem selecionados.
Para se obter uma amostra aleatória simples, atribui-se, inicialmente, um número a cada elemento
da população. A seguir, por meio de um dispositivo aleatório qualquer (sorteio), seleciona-se a quan-tidade
desejada de indivíduos. Um procedimento aleatório a ser utilizado pode ser colocar em uma
urna todos os números que serão submetidos ao sorteio, retirando depois alguns à s cegas. Pode-se
ainda usar os números de loteria sorteados nos últimos anos, ou uma tabela de números aleatórios,
ou ainda programas de computador para selecionar aleatoriamente os componentes da amostra.
Um ponto importante a salientar é que, usando este procedimento, nenhum indivíduo, por ter
esta ou aquela característica, terá oportunidade maior de ser escolhido, pois a escolha independe da
vontade do selecionador da amostra.
Podemos realizar uma amostragem aleatória simples através do programa Bioestat, vejamos um
exemplo:
Exemplo: Um hospital precisa selecionar uma amostra contendo 5 de seus enfermeiros. Os nomes
de todos os enfermeiros do hospital são mostrados a seguir:
População: Lista dos enfermeiros do hospital.
Aristóteles Anastácia Arnaldo Bartolomeu Bernardino Cardoso Carlito
Cláudio Ermílio Ercílio Ernestino Endevaldo Francisco Felício
Fabrício Geraldo Gabriel Getúlio Hiraldo João Joana
Joaquim José Josena Mauro Paula Paulo
Primeiro precisamos associar cada elemento da população a um número. Por simplicidade, con-sideraremos
números inteiros sucessivos, com a mesma quantidade de algarismos, iniciando-se por 1
(um).
Numeração dos elementos da população:
População: Lista dos enfermeiros do hospital.
01.Aristóteles 02.Anastácia 03.Arnaldo 04.Bartolomeu 05.Bernardino 06.Cardoso
07.Carlito 08.Cláudio 09.Ermílio 10.Ercílio 11.Ernestino 12.Endevaldo
13.Francisco 14.Felício 15.Fabrício 16.Geraldo 17.Gabriel 18.Getúlio
19.Hiraldo 20.João 21.Joana 22.Joaquim 23.José 24.Josena
25.Mauro 26.Paula 27.Paulo
Para extrairmos uma amostra aleatória simples de tamanho n = 5, precisamos sortear 5 números
dentre os N = 27 disponíveis.
No Bioestat: Estatísticas Amostragem Aleatória Sem Reposição
Com isto obtemos a janela abaixo, onde inserimos os valores N = 27 e n = 5:
50
52. 8.2. AMOSTRAGEM PROBABILÍSTICA CAPÍTULO 8. AMOSTRAGEM
Em seguida, clicamos em Executare teremos uma janela semelhante a esta:
Os números sorteados pelo Bioestat foram: 1-2-10-11-24
Estes números correspondem aos enfermeiros: Aristóteles - Anastácia - Ercílio - Ernestino - Jose-
na, que são os 5 enfermeiros que irão compor a amostra.
8.2.2 Amostragem Aleatória Estraticada
Às vezes, a população é constituída de subpopulações ou estratos e pode ser razoável supor que a
variável de interesse apresenta comportamento diferente em cada estrato. Neste caso, para que uma
amostra seja representativa, ela deve apresentar a mesma estraticação do universo de origem. Para
garantir que o procedimento aleatório produza uma amostra estraticada adequada, devemos:
1. Vericar quais os estratos presentes na população.
2. Calcular seus tamanhos relativos (proporções).
3. Determinar o tamanho dos estratos na amostra, observando estas mesmas proporções.
4. Obter aleatoriamente os elementos para cada estrato, ou sorteando dentro de cada estrato, ou
sorteando dentro da população e preenchendo os espaços reservados para cada estrato.
Exemplo: Deseja-se avaliar o número médio de cáries em escolares de 8 anos de certa escola.
Como parece razoável supor que esta variável depende do nível socioeconômico da criança, o
procedimento de amostragem escolhido é o de amostragem por estratos. Para tanto:
1. Vericamos, inicialmente, quais os níveis socioeconômicos existentes nessa escola (suponha que
sejam três: A, B e C).
2. Avaliamos a participação relativa de cada um, por exemplo, o nível A abrange 3% da população,
o nível B, 22% e o C, 75%.
3. Determinamos então que, para uma amostra de 120 crianças, quatro deverão ser do nível A
(pois 3% de 120 é 3,6), 26 do nível B e 90 do C.
4. Sorteamos, aleatoriamente, quatro dentre as crianças do nível A, 26 do B e 90 do C. Ou então
realizamos o sorteio diretamente do total de crianças da escola e preenchemos as subamostras
conforme os indivíduos vão sendo selecionados. Caso seja sorteado um número que corresponda
a um aluno A e já tenham sido selecionadas quatro crianças para este estrato, o número é
desprezado e o sorteio prossegue.
51