SlideShare a Scribd company logo
1 of 113
Download to read offline
Apostila 
Bioestatística - MTM 364 
Clandio Marques e Rodrigo Fioravanti
Conteúdo 
I Princípios 4 
1 Introdução 5 
1.1 O Método Cientíco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 
1.2 Denição de Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 
1.3 Fases do Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 
1.3.1 Coleta dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 
1.3.2 Crítica dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 
1.3.3 Apuração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 
1.3.4 Exposição ou Apresentação dos Dados . . . . . . . . . . . . . . . . . . . . . 10 
1.3.5 Análise dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 
1.4 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 
II Estatística Descritiva 12 
2 Conceitos Básicos 13 
2.1 População e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 
2.2 Variáveis Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 
2.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 
3 Tabelas e Distribuições de Frequência 16 
3.1 Dados Absolutos e Dados Relativos . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 
3.2 Distribuição de Frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 
3.3 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 
3.4 Grácos de Colunas e Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 
3.5 Gráco de Pizza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 
3.6 Box Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 
3.7 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 
3.8 Distribuição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 
4 Medidas de Posição 30 
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 
4.2 Média Aritmética (x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 
4.3 Moda (Mo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 
4.4 Mediana (Md ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 
4.5 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 
5 Separatrizes 37 
5.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 
5.2 Decis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 
5.3 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 
1
CONTEÚDO CONTEÚDO 
6 Medidas de Dispersão 39 
6.1 Dispersão ou Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 
6.2 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 
6.3 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 
6.4 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 
6.5 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 
6.6 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 
7 Assimetria e Curtose 44 
7.1 Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 
7.2 Trabalho 02 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 
III Teoria da Amostragem 
com Bioestat 47 
8 Amostragem 48 
8.1 Amostragem vs Censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 
8.2 Amostragem Probabilística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 
8.2.1 Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 50 
8.2.2 Amostragem Aleatória Estraticada . . . . . . . . . . . . . . . . . . . . . . . 51 
8.2.3 Amostragem Aleatória Sistemática . . . . . . . . . . . . . . . . . . . . . . . . 52 
8.2.4 Amostragem Aleatória por Conglomerados . . . . . . . . . . . . . . . . . . . 53 
8.3 Amostragem Não-Probabilística: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 
8.4 Exercícios no Bioestat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 
8.5 Tamanho Mínimo da Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 
8.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 
8.7 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 
8.8 Trabalho 03 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 
IV Estatística Inferencial 
com Bioestat 64 
9 Probabilidade 66 
9.1 Interpretações da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 
9.2 A Interpretação da Probabilidade Segundo o Jogador . . . . . . . . . . . . . . . . . . 68 
9.3 Probabilidade de Ocorrência de Um Evento . . . . . . . . . . . . . . . . . . . . . . . 68 
9.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 
9.5 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 
9.6 Nível de Conança e de Signicância . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 
10 Estimação de Parâmetros 71 
10.1 Estimativas pontuais e intervalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 
10.2 Intervalo de Conança para Média Populacional quando a Variância é Conhecida . . . 71 
10.3 Intervalo de Conança para Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . 73 
10.4 Exercícios no Bioestat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 
11 Testes de Hipóteses 77 
11.1 A Hipótese Nula e a Hipótese Alternativa . . . . . . . . . . . . . . . . . . . . . . . . 77 
11.2 Erro Tipo 1 e Tipo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 
11.3 Uso dos Testes de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 
11.3.1 Testes uni e bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 
11.3.2 Testes Paramétricos e Não-Paramétricos . . . . . . . . . . . . . . . . . . . . 82 
2
CONTEÚDO CONTEÚDO 
12 Testes Paramétricos 84 
12.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 
12.2 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 
12.3 Análise de Variância - ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 
12.4 Teste de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 
13 Teste Não-Paramétricos 92 
13.1 Vantagens e Desvantagens dos Testes Não-Paramétricos . . . . . . . . . . . . . . . . 92 
13.2 Teste Qui-Quadrado para Independência . . . . . . . . . . . . . . . . . . . . . . . . . 93 
13.2.1 Aplicação do Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 93 
13.2.2 Detalhes do Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 94 
13.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 
13.4 Trabalho 04 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 
13.5 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 
13.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 
13.7 Teste de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 
13.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 
13.9 Trabalho 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 
14 Correlação Linear 104 
14.1 Diagrama de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 
14.2 Coeciente de Correlação Linear - r . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 
14.3 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 
14.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 
3
Parte I 
Princípios 
4
Capítulo 1 
Introdução 
Por Sidia C. Jaques 
Na literatura cientíca, consultada por prossionais das áreas biológica e da saúde, encontramos 
expressões como diferença estatisticamente signicativa, teste qui-quadrado de associaçãoe P  
0,01, que reetem a importância, cada vez maior, dada pelos pesquisadores ao tratamento estatístico 
de seus dados. Quais serão as razões para o emprego de métodos estatísticos nos trabalhos cientícos? 
Em primeiro lugar, a estatística, longe de ser mais uma complicação matemática, tem se mostrado 
um instrumento extremamente útil na organização e na interpretação dos dados. Em segundo lugar, 
esta ciência propicia uma avaliação adequada da variabilidade observada nos processos biológicos. É 
sabido que existem diferenças entre os indivíduos e que eles reagem de forma diferente a estímulos 
idênticos; por outro lado, o mesmo indivíduo apresenta variações de um momento para outro. Em vista 
disto, o pesquisador consciencioso deseja saber qual o grau de conabilidade de seus resultados. Ele 
se pergunta, por exemplo, se os resultados poderiam ter sido obtidos por acaso, se o novo tratamento 
proposto foi realmente mais eciente, se a associação observada entre as variáveis é real, se o método 
de seleção de indivíduos foi adequado, se a análise dos dados empregou os métodos adequados s 
variáveis estudadas. Todas essas questões podem ser respondidas com o auxílio da estatística. 
O papel da estatística na investigação cientíca vai além de indicar a sequência de cálculos a serem 
realizados com os dados obtidos. No planejamento, ela auxilia na escolha das situações experimentais 
e na determinação da quantidade de indivíduos a serem examinados. Na análise dos dados, indica 
técnicas para resumir e apresentar as informações, bem como para comparar as situações experimen-tais. 
Na elaboração das conclusões, os vários métodos estatísticos permitem generalizar a partir dos 
resultados obtidos. De um modo geral, não existe certeza sobre a correção das conclusões cientícas; 
no entanto, os métodos estatísticos permitem determinar a margem de erro associada s conclusões, 
com base no conhecimento da variabilidade observada nos resultados. 
Inicialmente, a estatística ocupava-se em descrever quantitativamente os vários aspectos dos as-suntos 
de um governo ou estado1 , remontando época em que surgiram as primeiras cidades. Come- 
çava, então, a necessidade de se enumerarem coisas e pessoas para a avaliação das riquezas e para 
o cadastramento das propriedades. Os censos2 já eram realizados anualmente em Atenas e, a cada 
quadriênio, em Roma, nas festas de puricação da comunidade, quando era necessário saber se todos 
estavam presentes ou representados. 
Um dos primeiros censos de que se tem notícia escrita foi o ordenado pelo imperador romano César 
Augusto, realizado na Palestina, por volta do ano zero da era cristã. Outro recenseamento famoso foi o 
realizado, na Inglaterra, por Guilherme I, duque normando que havia derrotado os ingleses. O cadastro 
geral das coisas inglesas com ns de tributação, feito em 1085-1086, foi chamado pelos ingleses de 
1O termo estatística surge da expressão em latim statisticum collegium palestra sobre os assuntos do Estado, de onde 
surgiu a palavra em língua italiana statista, que signica homem de estado, ou político, e a palavra alemã Statistik, 
designando a análise de dados sobre o Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por 
Schmeitzel na Universidade de Jena e adotada pelo acadêmico alemão Godofredo Achenwall. Aparece como vocabulário 
na Enciclopédia Britânica em 1797, e adquiriu um signicado de coleta e classicação de dados, no início do século XIX. 
2Ela vem do Latim CENSUS, lista de nomes e propriedades dos cidadãos romanos 
5
1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO 
Domesday (ou Doomsday) Book, o livro do juízo nal, nome que bem revela as expectativas da 
população quanta carga tributária por vir. 
Por muito tempo, o aspecto descritivo da estatística manteve-se como a única faceta desta ciência. 
As coisas começaram a mudar no século XVII, com as primeiras interpretações de dados. Em 1693, 
foram publicados, em Londres, os primeiros totais anuais de falecimentos, discriminados por sexo. 
Eram o resultado de levantamentos iniciados em 1517, quando a peste atacava periodicamente a 
Europa. Christian Huygens (1629-1695), físico e astrônomo holandês, construiu depois uma curva de 
mortalidade a partir dos dados publicados. 
O estudo formal da teoria de probabilidades, iniciado por Blaise Pascal (1623-1662) e Pierre de 
Fermat (1601-1665), constitui-se em importante marco no desenvolvimento da estatística. Graças 
a esses conceitos, a estatística começou a ser estruturada de modo a poder desempenhar seu papel 
mais nobre, o de auxiliar na tomada de decisões cientícas. 
Estudiosos de diferentes campos do conhecimento zeram a ligação entre os aspectos teóricos de 
probabilidade e estatística e a prática. Lambert Adolphe Jacques Quetelet (1796-1874), astrônomo 
e matemático belga, foi o primeiro a usar a curva normal fora do contexto da distribuição dos erros e 
aplicou conhecimentos estatísticos na solução de problemas de biologia, medicina e sociologia. Francis 
Galton (1822-1911) , por sua vez, empregou a estatística no estudo da variação biológica e tentou, 
sem sucesso, resolver problemas de hereditariedade. Karl Pearson (1857-1936) também interessou-se 
pela aplicação dos métodos estatísticos à biologia, em especial, a estudos sobre a seleção natural. Além 
de ser o pai do teste qui-quadrado, a ele se devem inúmeros estudos e medidas de correlação entre 
variáveis. Um aluno de Pearson, William S. Gosset (1876-1937), dedicou-se a solucionar problemas 
práticos com amostras pequenas. Um dos resultados de seus estudos é a distribuição t, de ampla 
aplicação em vários campos da ciência. 
Uma das guras modernas mais importantes da bioestatística (e da estatística em geral, já que 
desenvolveu métodos para solucionar vários tipos de problemas) foi, sem dúvida, Fisher , que assentou 
as bases para a experimentação estatisticamente controlada. Vários modos de analisar os dados de 
amostras pequenas foram propostos por Fisher, que também tem importantes contribuições na análise 
simultânea de muitas variáveis, dando considerável impulso ao uso da estatística em inúmeras áreas 
do conhecimento, particularmente na agronomia, na biologia e na genética. 
Figura 1.1: Sir Ronald Aylmer Fisher (1890-1962) 
1.1 O Método Cientíco 
Adaptado de 
Serviço de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade do 
Porto(MedStatWeb) 
em http://stat2.med.up.pt/cursop/index.html 
6
1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO 
O termo Métodorefere-se a um processo ordenado e padronizado de execução de uma determi-nada 
atividade e implica num conjunto de regras que especicam o modo como o conhecimento deve 
ser adquirido e apresentado e o modo de avaliação da verdade ou falsidade do mesmo. 
Três ideias elementares constituem a base do Método Cientíco: 
O ceticismo, isto é, a noção de que qualquer proposição ou armação, mesmo quando proferida 
por grandes autoridades, está sujeita à dúvida e à análise; 
O determinismo, ou seja, a noção de que a realidade está dependente de leis e causas regulares 
e constantes e não dos caprichos ou desejos dos demôniosou bruxas; 
O empirismo segundo o qual a investigação cientíca deve ser conduzida pela observação e veri- 
cação através da experiência. 
A indução é uma outra noção chave, provavelmente a mais importante e controversa do Método 
Cientíco e será focada mais adiante. 
Observação, descrição e medição: 
A descrição dos fenômenos naturais, envolvendo o registo preciso e válido de observações sobre 
pessoas, objetos ou acontecimentos, constitui a base empírica de todos os ramos da Ciência. As 
observações podem ser na forma de descrições nominais ou conjuntos de medições. As percepções 
pessoais e subjetivas têm que dar lugar às formulações descritivas e medições que possam ser enten-didas 
e replicadas por outros investigadores. Muitos dos avanços da Ciência, ao longo dos últimos 
séculos, devem-se diretamente ao desenvolvimento de instrumentos de auxílio à observação cada vez 
mais potentes. Não deve ser esquecido, no entanto, que o uso de instrumentação complexa não é 
indispensável à realização de observações cientícas. As características essenciais para uma obser-va 
ção poder ser considerada cientíca são a precisão, validade e reprodutibilidade. As observações, 
quando adequadamente sintetizadas e conrmadas por outros, constituem a base factual, empírica, 
do conhecimento cientíco. 
Generalização e Indução: 
Armações e medições representando observações são integradas em sistemas interpretativos de-signados 
Hipóteses e Teorias. A lógica subjacente à generalização inerente ao método cientíco é 
designada Indução. A indução permite o estabelecimento de proposições gerais sobre uma classe de 
fenômenos com base na análise de um número limitado de observações de elementos selecionados. 
Por exemplo, tendo vericado que a penicilina é útil na cura da pneumonia num número limitado de 
doentes, propõe-se a generalização - A administração de penicilina cura a pneumonia (em todos os 
doentes). 
Hipóteses: 
A proposição A administração de penicilina cura a pneumoniaé uma hipótese. Hipóteses ci-ent 
ícas são proposições que especicam a natureza da relação entre dois ou mais conjuntos de 
observações. No exemplo exposto, o primeiro conjunto de observações relaciona-se com a adminis-tra 
ção de penicilina, e o segundo, relaciona-se com as modicações das observações ou medições do 
estado clínico dos doentes no que se refere à pneumonia. Uma hipótese cientíca deve ser apresentada 
usando referências claras e observáveis, não podendo depender de interpretações subjetivas. 
Teorias: 
Teorias cientícas são, essencialmente, conjecturas que representam o nosso atual estado de 
conhecimento sobre o mundo real. As hipóteses são integradas em sistemas interpretativos mais 
abrangentes, designados teorias. A teoria tenta explicar as relações existentes entre diversos tipos 
de observações e hipóteses. Por exemplo, uma teoria que pretenda explicar porque certos fármacos 
designados antibióticos são ecazes na cura de certas doenças infecciosas terá que integrar evidências 
de variadas fontes, tais como a microbiologia, a farmacologia, a siologia celular e a medicina clínica. 
Deste modo, as teorias identicam as causas dos acontecimentos, e proporcionam meios conceituais 
de predição e inuência sobre esses mesmos acontecimentos. 
7
1.2. DEFINIÇÃO DE ESTATÍSTICA CAPÍTULO 1. INTRODUÇÃO 
Dedução: 
As teorias cientícas devem levar à formulação de um conjunto de proposições empiricamente ve-ri 
cáveis, ou seja, hipóteses. As hipóteses são deduzidas, obedecendo à lógica formal, das proposições 
e/ou modelos matemáticos que especicam a relação causal postulada pela teoria. Por exemplo, se 
aceitarmos a teoria de que um conjunto de neurônios, anatomicamente adjacentes, do lobo occipital 
são responsáveis pela visão nos seres humanos, então, a hipótese que pode ser deduzida é a de que 
a ativação desses neurônios (por exemplo, através de estimulação por eletrodos) provocará o apare-cimento 
de certas sensações visuais. O teste das hipóteses através da observação deve ser levada 
a cabo, preferencialmente, em condições controladas. A observação deve ser controlada de modo 
a permitir o afastamento de hipóteses alternativas na explicação dos fenômenos sobre os quais se 
fez a predição. Por exemplo, se quisermos demonstrar que a estimulação do lobo occipital provoca 
sensações visuais, temos que mostrar que estamos controlando a observação para outro tipo de esti-mula 
ção cerebral que possa estar provocando tais sensações. Inversamente, teríamos, também, que 
demonstrar que a estimulação do lobo occipital não leva a uma série de outras sensações que não as 
visuais. 
Vericação: 
Depois da evidência ter sido colhida, o investigador decide se os achados são consistentes ou não 
com as predições da hipótese. Se a hipótese é conrmada pela evidência, então, a teoria de onde 
proveio a hipótese é fortalecida ou vericada. Porém, quando os dados não conrmam a hipótese, a 
teoria não é vericada. Se uma teoria não continua a conseguir predizer ou explicar as observações 
torna-se menos útil, e é normalmente substituída por novas teorias mais fortes e consistentes. Assim, 
as teorias cientícas não devem ser entendidas como verdades absolutas e nais, mas meras explicações 
provisórias da evidência existente até ao momento. 
Foi a aplicação do processo acima descrito que permitiu o espetacular crescimento do conhecimento 
cientíco a que temos assistido nos últimos séculos e, em especial, nos últimos cem anos. É desta 
forma que o método cientíco contribui para a concretização dos nossos objetivos, ajudando-nos a 
descrever, explicar, predizer e, por vezes, controlar o mundo em que vivemos. 
1.2 Denição de Estatística 
Fonte: http://www.usp.br/aun/exibir.php?id=5023 
Para Magalhães3 estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequên-cia 
da ocorrência de eventos, tanto em estudos observacionais quanto em experimentos que visam a 
modelar a aleatoriedade e a incerteza de forma a estimar valores nesses eventos. 
É claro que nem todas as pessoas têm formação para entender os cálculos feitos por quem 
trabalha na área, mas todos devem compreender as informações passadas por eles, pois lidamos com 
estatística o tempo todo, armou Magalhães. A compreensão se daria a partir do momento em 
que os professores desmisticam a matemática, fazendo isso, principalmente, com a alfabetização 
estatística, isto é, fazer os estudantes entender grácos e diagramas encontrados no cotidiano das 
pessoas, de modo a contextualizar a importância do que está sendo dito (Magalhães). 
A palavra estatística de do latim STATUS que signica ESTADO. Em suma, a Estatística é a 
ciência que aplica processos próprios para coletar, apresentar e interpretar adequadamente os dados, 
sendo numéricos ou não. Tem como objetivo apresentar informações sobre dados em análises para 
que se tenha maior compreensão dos fatos que os mesmos representam. 
É considerada um método cientíco pois resulta de um conjunto de regras e princípios que pro-duzem 
resultados controlados ou previsíveis a partir de dados aleatórios levando a um objetivo 
almejado. 
Há três ramos da estatística: descritiva, probabilística e inferencial. 
3Marcos Magalhães, do Departamento de Estatística (MAE) do Instituto de Matemática e Estatística da Universidade 
de São Paulo (IME-USP) 
8
1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO 
Estatística Descritiva: 
O conjunto de dados recolhidos em um estudo cientíco, pode variar desde poucas dezenas a vários 
milhares de valores. Esta informação bruta dicilmente poderá ser compreendida ou interpretada sem 
métodos que, de alguma forma, a sintetizem e descrevam. Estes métodos de síntese são designados 
por métodos de Estatística Descritiva. 
Assim, como o próprio nome diz, a estatística descritiva, organiza, sumariza e descreve um conjunto 
de dados, através da construção de grácos, tabelas, e com cálculo de medidas com base em uma 
coleção de dados numéricos. Ou seja, tenta tornar os dados mais fáceis de ler, interpretar e discuti-los. 
Tabela: é um quadro que resume um conjunto de observações. 
Grácos: são formas didáticas de apresentar os dados, com o objetivo de produzir uma impressão 
mais rápida dos dados ou fenômenos. 
Medidas descritivas: são formulações matemáticas usadas para interpretar grandes quantidades 
de dados agrupados (médias, desvios,...). 
Estatística Probabilística: 
É onde se estuda o acaso, ou seja, através de cálculos matemáticos, pretende-se prever a ocorrência 
de dados aleatórios. 
Estatística Inferencial: 
Destina-se à análise e interpretação de dados amostrais, ou seja, consiste em efetuar determinada 
mensuração sobre uma parcela pequena, mas típica, de determinada população e utilizar essa infor-ma 
ção para fazer inferências sobre a população toda. A exemplo: colocar a ponta do pé na água para 
avaliar a temperatura desta na piscina. 
1.3 Fases do Método Estatístico 
Os dados estatísticos lidam com números, ou seja, envolvem a análise e interpretação de números. 
Para interpretar estes números faz-se necessária uma organização racional dos dados, portanto, 
inicia-se determinando a diferença entre dados e informação. 
Dados são números ou valores coletados primariamente, e quase sempre não tem sentido. Já a 
informação compreende o processamento dos dados, reduzindo a quantidade de detalhes e facilitando 
o encontro de relações. Portanto os dados, quando coletados, são reunidos através de técnicas 
estatísticas e posteriormente apresentados na forma de TABELAS ou GRÁFICOS; isto faz com que 
sejam eliminados detalhes não importantes e enfatizados os aspectos cruciais dos dados. 
Estes dados estatísticos são obtidos através de um processo que envolve a observação; e os 
itens observados são chamados de variáveis. Variáveis são valores que tendem a exibir certo grau de 
variabilidade quando se fazem mensurações sucessivas. 
1.3.1 Coleta dos Dados 
Após o cuidadoso planejamento e a devida determinação das características mensuráveis do fenô- 
meno coletivamente típico que se quer pesquisar, damos início à coleta de dados numéricos necessários 
a sua descrição. 
A coleta pode ser direta ou indireta. 
A coleta é direta quando feita sobre elementos informativos de registro obrigatório (nascimento, 
casamento e óbitos, importação e exportação de mercadorias), elementos pertinentes aos prontuários 
dos alunos de uma escola ou, ainda, quando os dados são coletados pelo próprio pesquisador através 
de inquéritos e questionamentos, como e o caso das notas de vericação e de exames, do censo 
demográco, etc.. 
A coleta direta de dados pode ser classicada relativamente ao fator tempo em: 
9
1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO 
Contínua (registro)  quando feita continuamente, tal como a de nascimento e óbitos e a de 
frequência dos alunos nas aulas; 
Periódica  quando feita em intervalos constantes de tempo, como os censos (de 10 em 10 anos) 
e as avaliações mensais dos alunos; 
Ocasional  quando feita extemporaneamente, a m de atender a uma conjuntura ou a uma 
emergência, como no caso de epidemias. 
A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhe-cimento 
de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar 
a pesquisa sobre a mortalidade infantil, que e feita através de dados colhidos por uma coleta direta. 
Mas se levarmos em consideração a natureza dos dados estes podem ser: 
Contínuos: trata-se de dados quantitativos em que as variáveis podem assumir virtualmente qual-quer 
valor num intervalo de valores, ou quando feita continuamente. 
Exemplo: altura, peso, comprimento, espessura, velocidade, etc. 
Discretos: também são dados quantitativos que só podem assumir valores inteiros. Os dados 
discretos surgem na contagem do número de itens com determinada característica. 
Exemplo: número diário de clientes, alunos numa sala, número de acidentes diários numa fábrica 
e outros. 
Nominais: são dados qualitativos e caracterizam-se pela denominação de categorias ou nomes, 
geralmente compreendem variáveis que não relacionam-se a priori com números. 
Exemplo: sexo, cor dos olhos, campo de estudo, desempenho no trabalho, etc. 
Por Posto: apesar de lidarem com números, são considerados dados de natureza qualitativa, pois 
se referem a avaliações subjetivas; quando se dispõem os itens segundo preferência ou desempenho. 
São valores relativos atribuídos para denotar ordem. 
Exemplo: primeiro, segundo, terceiro ... 
1.3.2 Crítica dos Dados 
Obtidos os dados, eles devem ser cuidadosamente criticados a procura de possíveis falhas e im-perfei 
ções, a m de não incorrermos em erros grosseiros ou de certo vulto, que possam inuir sensi-velmente 
nos resultados. 
A crítica é externa quando visa as causas dos erros por parte do informante, por distração ou 
má interpretação das perguntas que lhe foram feitas; e interna, quando visa observar os elementos 
originais dos dados da coleta. 
1.3.3 Apuração dos Dados 
Nada mais é do que a soma e o processamento dos dados obtidos e a disposição mediante critérios 
de classicação. Pode ser manual, eletromecânica ou eletrônica. 
1.3.4 Exposição ou Apresentação dos Dados 
Por mais diversa que seja a nalidade que se tenha em vista, os dados devem ser apresentados 
sob forma adequada (tabela ou gráco), tornando mais fácil o exame daquilo que está sendo objeto 
de tratamento estatístico e ulterior obtenção de medidas típicas. 
1.3.5 Análise dos Resultados 
O objetivo da Estatística e tirar conclusões sobre o todo (população) a partir de informações for-necidas 
por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (Estatística 
Descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva 
ou Inferencial e tiramos desses resultados as conclusões e previsões. 
10
1.4. LEITURA COMPLEMENTAR CAPÍTULO 1. INTRODUÇÃO 
1.4 Leitura Complementar 
INFORMAÇÃO EM SAÚDE 
Arlinda B. Moreno 
Claudia Medina Coeli 
Sergio Munck 
GÊNESE DO CONCEITO E DESENVOLVIMENTO HISTÓRICO 
Para reetir sobre a expressão Informação em Saúde podemos nos remeter à necessidade existente, 
desde a antiguidade, do ser humano comunicar algo a alguém (ou a alguma coletividade) sobre sua 
própria saúde ou sobre a saúde de alguém (ou de algum grupo de pessoas) a ele relacionado. Ou seja, 
preliminarmente, a Informação em Saúde pode ser pensada como um compósito de transmissão e/ou 
recepção de eventos relacionados ao cuidado em saúde. 
Assim sendo, podemos inferir que não é tarefa fácil demarcar o início do uso dessa terminologia 
no campo da saúde. Mas, certamente, é a partir do século XIX, período que marca o recrudescimento 
dos estudos em epidemiologia, que a necessidade de comunicar questões relacionadas à saúde das 
populações se torna a grande alavanca para a disseminação das Informações em Saúde. Quase que 
concomitantemente, a estatística do nal desse século XIX e início do século XX, inspiradora de 
estudiosos como Benthan, Price, Laplace, Galton (Rosen, 1994) pode ser vista, também, como um 
ponto de partida importante para a geração de Informações em Saúde de forma agregada e preditiva. 
Daí, pode-se partir, sem muito pecado, para as primeiras peças da Informação em Saúde, compostas 
pelas Estatísticas Vitais, pelas Tábuas de Sobrevida, enm, por instrumentos de predição e inferência 
de estados de saúde a partir do status atual de um grupo de pessoas em determinado contexto 
de saúde. E, no correr da história, numerosos desdobramentos para a expressão Informação em 
Saúde transformaram-se, praticamente, em subáreas distintas e dirigidas, principalmente, a subsidiar, 
não apenas a população em geral, mas também gestores da área saúde: sobre: perl da população 
(de que adoece e morre, dados demográcos e socioeconômicos); serviços prestados; materiais e 
medicamentos consumidos; força de trabalho envolvida; para conhecer: necessidades da população 
atendida; uso potencial e real da rede instalada; investimentos necessários; a m de planejar, controlar 
e avaliar as ações e serviços de saúde (EPSJV, 2005). 
Como marcos históricos para tanto, tem-se, no século XVII, na Alemanha, o surgimento da cha-mada 
'topograa política ou uma descrição das condições atuais do país', proposta por Leibniz, em 
cuja descrição deveriam constar: o número de cidades (maiores e menores) e de aldeias; a popula- 
ção total e a área do país em acres; a enumeração de soldados, mercadores, artesãos e diaristas; as 
informações sobre as relações entre os ofícios; o número de mortes e das causas de morte (Rosen, 
1980). Em decorrência dessa e de outras ações semelhantes, surgiram os inquéritos de morbidade e 
as estatísticas dos serviços de saúde. Na gênese da vigilância epidemiológica, é inegável a inuência 
de Farr, que realizou atividades de coleta, processamento e análise de dados e sua divulgação para 
as autoridades sanitárias. Quando observamos o célebre estudo sobre o cólera realizado por Snow, 
é impossível negar o uso das Informações em Saúde constantes dos mapas de ponto e do raciocínio 
epidemiológico no controle desta doença, já no século XIX. 
A essa altura é, também, de suma importância destacar o papel fundamental do desenvolvimento 
das ciências da computação, no século XX, e, portanto, da informática como instrumental necessário 
e multiplicador tanto das metodologias estatísticas quanto das Informações em Saúde. Ressalte-se, 
também, que esse desenvolvimento tecnológico tem papel crucial em inovações intrínsecas à área da 
saúde, tais como: a) a disseminação e facilitação da acessibilidade à s bases de dados em saúde; b) o 
surgimento e a propagação da informática médica; c) a concepção e a implementação do prontuário 
eletrônico do paciente, entre outros. 
11
Parte II 
Estatística Descritiva 
12
Capítulo 2 
Conceitos Básicos 
2.1 População e Amostra 
População é o conjunto de entes portadores de, pelo menos, uma característica comum. Ex. fazer 
uma pesquisa entre os alunos das escolas de Ensino Fundamental: precisamos denir quais são os 
alunos que formam o universo, ou seja, os que atualmente estão no colégio ou devemos incluir os que 
já passaram pela escola? A solução do problema depende de cada caso em particular. Na maioria 
das vezes, por impossibilidade ou inviabilidade econômica ou temporal, limitamos a pesquisa a apenas 
uma parte da população. A essa parte proveniente da população em estudo denominamos amostra. 
Exemplo: O número de enfermeiros de um hospital é 233. Uma pesquisa sobre opção de horário 
de trabalho pode ser feita com apenas 20 enfermeiros tomados ao acaso. 
Tabela 2.1: Exemplos de População e Amostra 
Variável de Interesse População Amostra 
1 Insalubridade Todos os enfermeiros do hospital 20 enfermeiros do hospital 
2 Tipo Sanguíneo Total de enfermeiros do hospital enfermeiros do bloco cirúrgico 
3 Tipo Sanguíneo Sangue num indivíduo de 70kg 3 gotas de sangue 
4 Salário Enfermeiros no território brasileiro Alguns enfermeiros de cada estado 
5 Anos de Trabalho Total de enfermeiros do hospital enfermeiros do pronto socorro 
6 Número de Filhos Total de enfermeiros do hospital enfermeiros da pediatria 
2.2 Variáveis Estatísticas 
Qualquer atributo medido numa pesquisa: renda familiar, número de indivíduos de uma família, 
etc. 
 Variáveis Qualitativas: expressam qualidade. Representadas por palavras. 
Exemplo: sexo (masculino ou feminino), grau de instrução (fundamental, médio ou superior), 
estado civil (solteiro, casado, ...). 
13
2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS 
 Nominal: Os indivíduos são classicados em categorias segundo uma característica. 
Exemplo: hábito de fumar (fumante, não fumante), sobrepeso (sim, não). 
Não existe ordem entre as categorias e suas representações, se numéricas, são destituídas 
de signicado numérico. 
Exemplo: sexo masculino = 1, sexo feminino = 2. Os valores 1 e 2 são apenas rótulos. 
Exemplo: Você tem diabetes? Sim. Não. Não sei. 
Você é fumante? Sim. Não. Já fui. 
Exemplo: Qual é o seu tipo de sangue? A. B. AB. O. Não sei. 
 Ordinal: Os indivíduos são classicados em categorias que possuem algum tipo inerente de 
ordem. Neste caso, uma categoria pode ser maiorou menordo que outra. 
Exemplo: nível sócio-econômico (A, B, C e D; onde A representa maior poder aquisitivo); 
nível de retinol sérico (alto, aceitável, baixo, deciente) onde alto: maior ou igual a 50,0 
g/dl; aceitável: 20,0 a 49,9 g/dl, baixo: 10,0 a 19,9 g/dl e deciente: menor ou 
igual a 10,0 g/dl. Estes critérios são do Commitee on Nutrition for National Defense 
ICNND/USA, 1963 (in Prado MS et al , 1995). 
 Variáveis Quantitativas: expressam quantidade. Representadas por números. 
 Discretas: o resultado numérico da mensuração é um valor inteiro. 
Exemplo: número de refeições em um dia (nenhuma, uma, duas, três, quatro, ...), frequên-cia 
de consumo semanal de determinado alimento (1 vez, 2 vezes, 3 vezes, 4 vezes, 5 vezes, 
6 vezes, 7 vezes), número de lhos. 
 Contínuas: podem assumir qualquer valor do intervalo. 
Exemplo: estatura, salário, nível de retinol sérico (g/dl), circunferência da cintura (cm). 
Observação: É incorreto fazer a simplicação se tem número é quantitativo, pois muitas vezes, 
os números podem ser meros rótulos, tal como o número na camisa de um jogador. 
Exercício: Preencha o quadro abaixo VQO(variável qualitativa ordinal), VQN(variável qualitativa 
nominal), VQTD(variável quantitativa discreta), VQTC(variável quantitativa contínua) 
Tipos de variáveis. 
População Variável Opção para a variável Classicação 
Enfermeiros Salário bruto R$ 2003,52 
do Brasil mensal 
Odontólogos de Anos de 1,5/2/4 
uma clínica trabalho 
Professores do Produção 0, 1, 2, 3,... 
curso de Farmácia cientíca 
Funcionários Tipo A, B, AB, O 
de um hospital sanguíneo 
Enfermeiros Insalubridade Recebe, não recebe 
de um hospital 
Candidatos ao Sexo M, F 
curso de Nutrição 
Professores Número de 0, 1, 2, 3, ... 
UNIFRA nutricionistas 
Professores Nível de stress Alto, médio, baixo 
de um curso 
2.3 Exercícios 
1. Foi encomendado um estudo para avaliação de uma entidade de ensino superior. Para isso, aplicou-se 
um questionário e obtiveram-se respostas de 110 alunos. Indique: 
14
2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS 
(a) a variável em estudo; 
(b) a população em estudo; 
(c) a amostra escolhida. 
2. Os dados abaixo referem-se a medidas de prostaglandina (pg/ml) e cálcio (ml/dl) em pacientes com 
câncer apresentando ou não hipercalcemia. Classique as variáveis envolvidas no estudo, o tamanho 
amostral e as populações de interesse. 
Prostaglandina e cálcio em pacientes com câncer. 
IPGE Calcium status 
500.00 13.30 hyper 
301.00 13.40 hyper 
254.00 10.10 nonhyper 
150.00 8.60 nonhyper 
100.00 9.70 nonhyper 
3. Classique as seguintes variáveis em: Quantitativas (Discretas ou Contínuas) ou Qualitativas (Nominais 
ou Ordinais). 
(a) A cor da pele de pessoas (ex.: branca, negra, amarela). Variável do tipo e . 
(b) O número de consultas médicas feitas por ano por um associado de certo plano de saúde. Variável 
do tipo e . 
(c) O teor de gordura, medido em gramas por 24 horas, nas fezes de crianças de 1 a 3 anos de idade. 
(Ex: 23,4 g) Variável do tipo e . 
(d) O tipo de droga que os participantes de certo estudo tomaram, registrados como: Droga A, Droga 
B e placebo. Variável do tipo e . 
(e) A pressão intra-ocular, medida em mmHg, em pessoas. Variável do tipo e . 
(f) O número de lhos das pacientes participantes de certo estudo. Variável do tipo e 
. 
15
Capítulo 3 
Tabelas e Distribuições de Frequência 
As tabelas sintetizam informações relevantes sobre uma ou mais variáveis a m de que tenhamos 
uma visão geral sobre a variável. 
Tabela é um quadro que resume um conjunto de observações. 
As tabelas devem obedecer ao seguinte postulado: 
Obter um máximo de esclarecimentos com um mínimo de espaço e tempo. 
Exemplos: 
Taxa de Colesterol (mg/dl) em 30 pacientes. 
248 157 124 124 215 312 254 156 132 145 
214 256 258 298 189 178 186 231 301 265 
298 178 196 152 144 185 132 289 264 256 
Distribuição de idade dos pacientes portadores de mieloma múltiplo. 
Idade (anos) Frequência Absoluta Frequência Relativa 
10 - 19 57 18,54 
20 - 29 113 37,42 
30 - 39 57 18,87 
40 - 49 32 10,62 
50 - 59 19 6,29 
60 - 69 7 2,29 
 70 2 0,67 
Indeterminada 13 4,3 
Total 302 100 
Pacientes portadores de mieloma múltiplo. 
Ano do Diagnóstico Sexo Total 
Masculino Feminino 
1998 50 44 94 
1999 54 46 100 
2000 59 49 108 
Total 163 139 302 
Uma tabela e mesmo um gráco podem ser decompostos em partes: Cabeçalho, Corpo e Rodapé. 
Partes de uma tabela. 
16
CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
Cabeçalho - O cabeçalho, que é a apresentação do que a tabela está procurando representar, deve 
conter o suciente para que sejam respondidas as seguintes questões: O QUÊ? (referente ao fato), 
ONDE? (relativo ao lugar), QUANDO? (correspondente ao tempo). 
Exemplo: Acidentes de trabalho ocorridos no Hospital X em 2006. 
O quê? - (fato): Acidentes de trabalho. 
Onde? - (lugar): Hospital X. 
Quando? - (tempo): 2006. 
Corpo - O corpo de uma tabela é representado por uma série de colunas e subcolunas, dentro das 
quais são colocados os dados apurados. 
Segundo o corpo, as tabelas podem ser: de Entradas Simples, de Dupla Entrada e de Múltipla 
Entrada. 
Rodapé - No rodapé de uma tabela devemos colocar a legenda e todas as observações que venham 
a esclarecer a interpretação da tabela Geralmente também é no rodapé que se coloca a fonte dos 
dados embora em alguns casos ela possa ser colocada também no cabeçalho. A fonte serve para dar 
maior autenticidade à tabela. 
CONSIDERAÇÕES 
As tabelas utilizadas nos cálculos estatísticos em geral não servem para artigos cientícos pois são 
organizadas para facilitar os cálculos e entendimento das variáveis e não para a sua apresentação. 
por Sidia C. Jacques. 
Abaixo seguem as principais regras para a construção de tabelas em artigos cientícos: 
 A tabela deve ser precedida de um título, sucientemente claro para que o leitor não necessite 
voltar ao texto para entender o conteúdo da mesma. 
 a tabela é limitada por uma linha limitante superior e outra inferior, que indica seu nal. o 
cabeçalho deve ser separado do restante do texto por uma linha horizontal. 
 Não se usam linhas verticais separando as colunas; usam-se espaços em branco. 
 As abreviaturas e os símbolos pouco conhecidos devem se explicados no rodapé da tabela. 
 Deve ser indicada a fonte dos dados. 
17
3.1. DADOS ABSOLUTOS E DCAADPOÍTSURLEOLA3T. IVTOASBELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
Nosso Padrão: No Excel, as tabelas devem conter todas as células centralizadas, o título e o rodapé 
devem ter o tamanho da tabela e suas células devem estar mescladas. A palavra tabela, o seu número 
e o traço devem estar em negrito, bem como a palavra fonte, quando existir. A palavra fonte deve 
estar também em itálico. O cabeçalho deve estar em negrito. Deve haver quatro linhas horizontais: 
uma limitante superior, uma inferior, uma separando o título do cabeçalho e uma entre o cabeçalho e 
o corpo da tabela. A palavra total, quando existir, deve estar em negrito. 
3.1 Dados Absolutos e Dados Relativos 
Os dados estatísticos resultantes da coleta direta da fonte, sem outra manipulação senão a con-tagem 
ou medida, são chamados dados absolutos. A leitura dos dados absolutos é sempre cansativa 
e inexpressiva; embora esses dados traduzam um resultado exato e el, não tem a virtude de ressaltar 
de imediato as suas conclusões numéricas. 
Dados relativos são o resultado de comparações por quociente (razões) que se estabelecem entre 
dados absolutos e tem por nalidade realçar ou facilitar as comparações entre quantidades. Traduzem-se 
os dados relativos, em geral, por meio de percentagens. 
Exemplo: A tabela abaixo apresenta o número de irmãos relatados por 115 estudantes universi-t 
ários da UFRGS (dados obtidos entre 1986 e 1992) 
Quantidade de irmãos de alunos da UFRGS. 
No de irmãos Frequência 
0 8 
1 20 
2 40 
3 26 
4 9 
5 7 
6 4 
7 0 
8 0 
9 1 
Total 
Determine o percentual de estudantes que têm 3 irmãos. 
3.2 Distribuição de Frequências 
É uma tabela, onde os dados encontram-se dispostos em classes ou não, juntamente com as 
frequências correspondentes. Desta forma, podemos dividir as distribuições de frequências em dois 
tipos: 
Tabela de agrupamento simples 
Mostram os valores obtidos e o número de vezes que cada dado foi observado. Os valores obtidos, 
em geral, são colocados em ordem crescente e ao seu lado coloca-se a quantidade de vezes que cada 
valor ocorreu (frequência). 
Exemplo: 
18
3.2. DISTRIBUIÇÃO DE FREQUCÊANPCÍTIAUSLO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
Número de médicos na população, países selecionados, 1984. 
País Habitantes por Médico 
Chile 1.230 
Brasil 1.080 
França 320 
EUA 470 
Argentina 370 
Exemplo: Número de cáries dos alunos do 1o ano do Colégio X; quantidade de livros de bioesta-t 
ística na biblioteca da UNIFRA. 
Número de cáries por aluno em uma escola X da cidade (Santa Maria/2008). 
Número de Cáries (Xi ) Número de Alunos (fi ) 
0 35 
1 20 
2 13 
3 6 
4 4 
5 ou mais 2 
Total 80 
Usada para variáveis qualitativas ou então quantitativas discretas com poucos valores diferentes. 
Tabela de agrupamento por intervalo de classe 
As classes são cada um dos intervalos que se subdivide os dados brutos a m de condensar a 
informação, mesmo que este procedimento perca algumas informações. 
Usada para variáveis quantitativas contínuas ou discretas com muitos valores diferentes. Geral-mente 
esta variável provém de medições. 
Exemplo: A seguir temos as notas nais dos estudantes, as quais, se não forem agrupadas em 
classes, geram tabelas com pouca utilidade prática. 
Notas nais de 50 estudantes da disciplina de bioestatística. 
22 46 9 40 57 22 22 13 50 42 
35 2 15 41 34 52 32 75 69 44 
26 42 60 56 30 3 17 79 45 37 
0 12 62 50 45 41 59 11 66 39 
43 33 70 50 47 20 36 40 67 29 
Então, agrupamos os dados em classes cujas notas variam de 10 em 10 e contamos quantas notas 
observadas estão em cada classe. A distribuição de frequência resultante será expressa pela tabela: 
Tabela 3.1: Notas nais de estudantes da disciplina de bioestatística. 
Notas fi 
07!10 4 
107!20 5 
207!30 6 
307!40 8 
407!50 12 
507!60 7 
607!70 5 
707!80 3 
Total 50 
Onde fi é a frequência absoluta das classes. 
19
3.2. DISTRIBUIÇÃO DE FREQUCÊANPCÍTIAUSLO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
Para explicar a colocação das notas dos alunos, segundo uma distribuição em classes, necessitamos 
de algumas denições: 
1. Dados Brutos: Aqueles que não foram numericamente organizados, como é o caso das 50 
notas dos alunos. 
2. Rol: É o arranjo dos dados brutos em ordem de grandeza crescente ou decrescente: 
0 2 3 9 11 12 13 15 17 20 
22 22 22 26 29 30 32 33 34 35 
36 37 39 40 40 41 41 42 42 43 
44 45 45 46 47 50 50 50 52 56 
57 59 60 62 66 67 69 70 75 79 
3. Intervalo de Classe: Existem várias maneiras de apresentarmos o intervalo de classes: iguais 
ou diferentes entre si. Porém, sempre que possível, deveremos optar por intervalos iguais, o que 
facilitará os cálculos posteriores. O tamanho do intervalo de classe é denido pelo pesquisador. 
Mas mesmo com intervalos iguais, as distribuições poderão apresentar-se da seguinte forma: 
0  10: compreende todos os valores entre 0 e 10, exclusive os extremos. 
0 `a 10: compreende todos os valores entre 0 e 10, inclusive os extremos. 
0 a 10: compreende todos os valores entre 0 e 10, inclusive o 10 e exclusive o 0. 
07!10 (ou 0 ` 10): compreende todos os valores entre 0 e 10, inclusive o 0 e exclusive o 10. 
Como optamos por este último tipo (07! 10), podemos denir como intervalo de classe a 
diferença entre o limite superior e o limite inferior da classe. Portanto, no exemplo, 10  0 = 10 
é o intervalo ou amplitude da classe. 
4. Amplitude Total ou Range: é a diferença entre o maior e o menor dado. Em nosso caso, a 
nota maior é 79 é a menor é 0; logo, nossa amplitude total é 79  0 = 79. 
5. Número de Classes (K): quantas classes serão necessárias para representar o fato? Existem 
vários critérios que podem ser utilizados a m de possuirmos uma idéia do melhor número de 
classes, porém tais critérios servirão apenas como indicação e nunca como regra xa, pois caberá 
sempre ao pesquisador estabelecer o melhor número, levando-se em conta o intervalo de classe 
e a facilidade para os posteriores cálculos numéricos. 
6. Amplitude ou Intervalo de Classes (h): 
h = 
amplitude total 
número de classes 
Teríamos no exemplo: 
79 
7 
= 12 
Dessa forma, o pesquisador, usando o bom-senso e a sua experiência, vericará que seria mais 
conveniente a utilização de um intervalo de classe igual a 10 e de um número de classes igual a 
8, para que facilite as operações posteriores. Assim sendo: 
Exemplo de intervalos de classe. 
Classe (i) Notas (ci ) Freq. (fi ) 
1 07! 10 4 
2 107! 20 5 
3 207! 30 6 
4 307! 40 8 
5 407! 50 12 
6 507! 60 7 
7 607! 70 5 
8 707! 80 3 
Total 50 
20
3.3. EXERCÍCIOS NO EXCEL CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
Observação: O número de classes e a amplitude são usados como base para a montagem de 
uma tabela. Podemos aumentar ou diminuir o número de classes e arredondar uma amplitude 
decimal. Use o bom senso. 
7. Frequência Relativa da Classe 
Corresponde ao quociente entre a frequência absoluta da classe e o total de elementos. 
No exemplo, a frequência relativa da 7a classe é: fr7 = 
5 
50 
= 0; 1 = 10% 
Resumindo, teríamos: 
Tabela 3.2: Exemplo de intervalos de classe. 
Classe (i) Notas (ci ) Freq. (fi ) F.Rel.(f(r i)) 
1 07! 10 4 
2 107! 20 5 
3 207! 30 6 
4 307! 40 8 
5 407! 50 12 
6 507! 60 7 
7 607! 70 5 10 
8 707! 80 3 
Total 50 
3.3 Exercícios no Excel 
1. Os pesos dos 40 alunos de uma classe estão abaixo descritos: 
Pesos de 40 alunos. 
69 57 72 54 93 68 72 58 64 62 65 76 60 49 74 
59 66 83 70 45 60 81 71 67 63 64 53 73 81 50 
67 68 53 75 65 58 80 60 63 53 
Construir a distribuição de frequência simples desta tabela. 
2. Organizar os dados em uma tabela de frequência simples e relativa. 
Dados brutos. 
154 160 164 166 170 155 160 164 166 170 156 
160 164 166 171 157 161 164 167 172 158 161 
164 167 172 158 161 165 168 173 159 162 165 
168 173 159 162 165 168 174 159 162 165 169 
176 159 164 165 169 177 
3. Os dados abaixo referem-se à taxa de creatinina na urina de 24 horas (mg/100 ml), em uma 
amostra de 36 homens normais. Distribua os dados em classes e represente sua frequência 
absoluta e relativa. 
Nível de creatinina na urina (24h) 
1,51 1,61 1,69 1,49 1,67 2,18 1,46 1,89 1,76 1,08 
1,66 1,52 1,40 1,22 1,46 1,43 1,49 1,54 1,38 1,47 
1,73 1,60 1,43 1,58 1,66 1,26 1,59 1,40 1,44 1,52 
1,37 1,86 2,02 1,75 1,83 1,66 
21
3.4. GRÁFICOS DE COLUNAS CEAHPIÍSTTUOLGOR3A.MTAASBELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
4. Os dados da tabela mostram o peso (kg) de 80 mulheres. Apresente-os em uma tabela de 
frequência. 
Pesos de 80 mulheres. 
5. Substituir por uma única tabela o trecho do relatório a seguir: Assim sendo, podemos concluir 
que este banco, em 1995, contou com a colaboração de 345 funcionários, distribuídos pelas 
nossas 5 agências, a saber: Niterói, 43; Rio de Janeiro, 102; São Paulo, 98; Belo Horizonte, 
75; Vitória, 27. Em Niterói, 38 eram do sexo masculino e no Rio de Janeiro, 87. Apenas em 
Vitória não existiam funcionárias, mas em São Paulo trabalharam 11 delas, enquanto que em 
Belo Horizonte, apenas 3. 
6. A taxa de mortalidade infantil corresponde ao número médio de mortes, dentre 1000 crianças 
nascidas vivas, antes de completarem um ano de vida. Os dados da tabela representam a Taxa de 
mortalidade infantil dos municípios da Microrregião Oeste Catarinense (1982) e foram extraídos 
da publicação Municípios Catarinenses - Dados Básicos, 1987, GAPLAN - SC, que utiliza dados 
levantados pelo IBGE. 
Taxa de mortalidade infantil da microrregião. 
32,3 62,2 10,3 22,0 13,1 9,9 18,3 33,0 20,0 
22,7 27,2 11,9 36,4 23,5 18,0 22,6 20,3 38,3 
32,9 29,9 29,7 39,2 25,4 19,6 28,9 18,4 27,3 
21,7 23,7 13,9 23,8 15,7 17,0 36,3 
Agrupe convenientemente os dados da tabela em classes (Distribuição de frequências). 
3.4 Grácos de Colunas e Histogramas 
Os grácos de colunas (bastões) são comumente utilizados para representarem distribuições de 
frequências de grupamento simples enquanto que os histogramas representam distribuições em classes. 
Um histograma é composto por retângulos justapostos onde a base de cada um deles corresponde 
ao intervalo de classe e a sua altura à respectiva frequência. 
Exemplo: Construa o histograma da distribuição de frequência abaixo: 
Pressão arterial sistólica de 96 recém-nacidos. 
PAS(mmHg) f 
55 ` 59 3 
59 ` 63 5 
63 ` 67 40 
67 ` 71 24 
71 ` 75 15 
75 ` 79 8 
79 ` 83 1 
No Excel: Copie a tabela para o grid do Excel: 
22
3.4. GRÁFICOS DE COLUNAS CEAHPIÍSTTUOLGOR3A.MTAASBELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
Selecione toda a tabela e clique sobre inserir  colunas  colunas 2D (primeira opção) 
Você vai obter o seguinte gráco de colunas: 
Agora basta transformar este gráco de colunas num histograma, para isto, clique com o botão 
direito sobre qualquer uma das colunas e selecione Formatar Séries de Dados. Na janela que se 
abre, dena Largura do Espaçamento como 0% e clique sobre fechar. Você obterá o histograma 
abaixo. 
23
3.5. GRÁFICO DE PIZZA CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indica-dor 
da distribuição de dados. Podem indicar se uma distribuição aproxima-se de uma função normal, 
como pode indicar mistura de populações quando se apresentam bimodais. 
3.5 Gráco de Pizza 
Um gráco de setores (pizza) apresenta uma circunferência onde as fatiastêm tamanhos pro-porcionais 
à s frequências da distribuição considerada. 
Para o exemplo da pressão arterial visto acima, criamos um gráco de pizza selecionando: inserir 
 pizza  pizza 2D (primeira opção), obtendo a gura abaixo: 
24
3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
3.6 Box Plots 
O boxplot (gráco de caixa) é um gráco utilizado para avaliar a distribuição do dados. O boxplot 
é formado pelo primeiro e terceiro quartil e pela mediana. 
As linhas que se projetam para fora da caixa em ambos os lados estendem-se para valores adjacentes 
do gráco. Os valores adjacentes são as observações mais extremas no conjunto de dados que não 
estão a mais de 1,5 vez a altura da caixa além dos quartis. Todos os pontos fora do intervalo dos 
dados adjacentes são repesentados por círculos. Essas observações são consideradas fora do padrão 
e são chamadas de valores extremos. 
Exemplo: A tabela abaixo categoriza 10614 visitas ao consultório de especialistas de doenças 
cardiovasculares por duração de cada visita. Uma duração de 0 minuto implica que o paciente não 
teve contato direto com o especialista. 
25
3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
Duração Visitas 
(min) (milhares) 
0 390 
1 a 5 227 
6 a 10 1023 
11 a 15 3390 
16 a 30 4431 
31 a 60 968 
mais de 61 185 
No Bioestat: 
Grácos  Box-Plot: mediana e quartis 
Obs: O Bioestat não mostra os valores extremos para o gráco Box-Plot: mediana e quartis. 
Para saber quais são os valores mostrados no gráco é preciso fazer a estatística descritiva: 
Estatísticas  Estatística Descritiva 
26
3.7. A DISTRIBUIÇÃO NORMAL CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
3.7 A Distribuição Normal 
Suponha que você faça um gráco das probabilidades dos números de caras esperados em 15 
jogadas sucessivas de uma moeda, ou suponha 1.000 pessoas na rua, escolhidas aleatoriamente, para 
cujas alturas você faz um diagrama de frequência: 
Distribuição de probabilidade. 
Histograma 
27
3.8. DISTRIBUIÇÃO DE PROBACBAPILÍITDUALDOE3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
Esses dois grácos são semelhantes. Essa curva em forma de sino, chamada curva normal, é a 
curva mais importante da estatística. Há inúmeros exemplos de grandezas que se distribuem segundo 
a curva normal: 
 a altura, o peso, ou o QI de uma população; 
 os resultados da medida de uma grandeza física, como o peso molecular de um composto 
químico; 
 o total que aparece quando vários dados são jogados simultaneamente; 
 o número de clientes semanais em muitos negócios. 
A distribuição normal se aplica frequentemente em situações em que valores extremos são menos 
prováveis do que valores moderados. 
3.8 Distribuição de Probabilidade 
A frequência relativa de um valor estima a probabilidade de ocorrência deste valor. 
Exemplo: A tabela tem sua representação gráca dada pelo gráco de colunas. 
Número de irmãos relatados por 115 estudantes da UFRGS entre 1986 e 1992. 
No de irmãos f fr Fr 
0 8 0,07 0,07 
1 20 0,17 0,24 
2 40 0,35 0,59 
3 26 0,23 0,82 
4 9 0,08 0,90 
5 7 0,06 0,96 
6 4 0,03 0,99 
7 0 0,00 0,99 
8 0 0,00 0,99 
9 1 0,01 1,00 
Gráco de colunas relativo à tabela. 
28
3.8. DISTRIBUIÇÃO DE PROBACBAPILÍITDUALDOE3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 
A frequência relativa associada a x = 2 irmãos é de 0,35 na amostra estudada. Estima-se, então, 
que 35% dos universitários tem 2 irmãos. Isto equivale a dizer que se estima em 0,35 a probabilidade 
de que um universitário, selecionado ao acaso desta população, tenha dois irmãos. No gráco de 
bastões, a probabilidade estimada para cada valor é a altura do bastão. 
Exemplo: A tabela tem sua representação gráca dada pelo histograma. 
Pesos (kg) de 256 alunas da UFRGS. 
Peso (kg) f fr 
407! 45 9 0,035 
457! 50 36 0,141 
507! 55 78 0,304 
557! 60 55 0,215 
607! 65 53 0,207 
657! 70 11 0,043 
707! 75 7 0,027 
757! 80 5 0,020 
807! 85 1 0,004 
857! 90 1 0,004 P 
256 1,000 
Histograma relativo à tabela. 
No histograma, a área do retângulo referente ao intervalo 457! 50 corresponde a 14% da área 
de todo o histograma (100%). Portanto, a área deste retângulo é a representação geométrica da 
probabilidade estimada de se encontrar valores entre 45 e 50 na população. 
29
Capítulo 4 
Medidas de Posição 
4.1 Introdução 
O estudo que zemos sobre distribuições de frequência, até agora, permite-nos descrever, de modo 
geral, os grupos dos valores que uma variável pode assumir. Dessa forma, podemos localizar a maior 
concentração de valores de uma dada distribuição, isto é, se ela se localiza no início, no meio ou no 
nal, ou ainda, se há uma distribuição por igual. 
Porém, para ressaltar as tendências características de cada distribuição, isoladamente, ou em con-fronto 
com outras, necessitamos introduzir conceitos que se expressem através de números, que nos 
permitam traduzir essas tendências. Esses conceitos são denominados elementos típicos da distribui- 
ção e são as: 
a. medidas de posição; 
b. medidas de variabilidade ou dispersão; 
c. medidas de assimetria; 
d. medidas de curtose. 
Dentre os elementos típicos, destacamos, nesta unidade, as medidas de posição: estatísticas que 
representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo 
horizontal (eixo das abscissas). 
As medidas de posição mais importantes são as medidas de tendência central, que recebem tal 
denominação pelo fato de os dados observados tenderem, em geral, a se agrupar em torno dos valores 
centrais. Dentre as medidas de tendência central, destacamos: a média aritmética; a mediana e a 
moda. 
As outras medidas de posição são as separatrizes, que englobam a própria mediana; os quartis e 
os percentis. 
4.2 Média Aritmética (x) 
Existem vários tipos de média (aritmética, ponderada, geométrica, harmônica, etc.), mas estuda-remos 
apenas a média aritmética. 
Média aritmética é o quociente da divisão da soma dos valores da variável pela quantidade deles: 
x = 
P 
xi 
n 
onde, x é a média aritmética, xi são os valores da variável e n é a quantidade de valores. 
Dados com agrupamento simples 
Quando desejamos conhecer a média dos dados não-agrupados, determinamos a média aritmética 
simples. 
30
4.2. MÉDIA ARITMÉTICA (X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO 
Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10, 
14, 13, 15, 16, 18 e 12 litros, temos, para produção média da semana: 
x = 
10 + 14 + 13 + 15 + 16 + 18 + 12 
7 
= 
98 
7 
= 14 
Logo, a média da produção de leite foi de 14 litros por dia. 
Às vezes, a média pode ser um número diferente de todos os da série de dados que ela representa. 
É o que acontece quando temos os valores 2, 4, 8 e 9, para os quais a média é 5. Esse será o número 
representativo dessa série de valores, embora não esteja nos dados originais. Neste caso, diz-se que a 
média não tem existência concreta. 
Exemplo: Determine a média dos volumes respiratórios forçados em um segundo para 10 adoles-centes 
que sofrem de asma, representados na tabela: 
Volumes respiratórios por indivíduo. 
Indivíduo FEV(litros) 
1 2,30 
2 2,15 
3 3,50 
4 2,60 
5 2,75 
6 2,82 
7 4,05 
8 2,25 
9 2,68 
10 3,00 P 
= 
Resp.: 2,81 litros 
Consideremos a distribuição relativa a 34 famílias de 4 lhos, tomando para variável o número de 
lhos do sexo masculino: 
Número de lhos por família. 
Número de meninos fi 
0 2 
1 6 
2 10 
3 12 
4 4 P 
= 34 
Neste caso, como as frequências são números indicadores da intensidade de cada valor da variável, 
elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, 
dada pela fórmula: 
x = 
P 
xi  fi P 
fi 
Um modo prático de obtenção da média ponderada é abrir, na tabela, uma coluna correspondente aos 
produtos xi  fi . Assim, temos: 
Número de lhos por família. 
Número de meninos fi xi  fi 
0 2 
1 6 
2 10 
3 12 
4 4 
TOTAL 34 
31
4.2. MÉDIA ARITMÉTICA (X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO 
Observação: O valor médio obtido acima de 2,3 meninos sugere, neste caso, que o maior número 
de famílias tem 2 meninos e 2 meninas, sendo, porém, a tendência geral uma leve superioridade 
numérica em relação ao número de meninos. 
Com Intervalos de Classes 
Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe 
coincidem com o seu ponto médio, P 
e determinamos a sua média aritmética ponderada por meio da 
fórmula que já conhecemos: x = 
Pxi fi 
fi 
, porém, agora, xi é o ponto médio de cada classe. 
Exemplo: 
Altura de 40 alunos da escola X - Santa Maria - 2007. 
i Estaturas (cm) fi 
1 150 ` 154 4 
2 154 ` 158 9 
3 158 ` 162 11 
4 162 ` 166 8 
5 166 ` 170 5 
6 170 ` 174 3 
TOTAL 40 
Primeiro vamos abrir uma coluna para os pontos médios e outra para os produtos xi  fi . 
Altura de 40 alunos da escola X - Santa Maria - 2007. 
i Estaturas (cm) fi xi xi  fi 
1 150 ` 154 4 
2 154 ` 158 9 
3 158 ` 162 11 
4 162 ` 166 8 
5 166 ` 170 5 
6 170 ` 174 3 
TOTAL 40  
Resp.: 161cm 
Exercício: 
Determine a média de níveis séricos de colesterol entre os homens indicados na tabela: 
Níveis séricos de colesterol para homens de Santa Maria com idades entre 25 e 34 anos. 
Nível de colesterol(mg=10ml) fi xi xi  fi 
80 ` 120 13 
120 ` 160 150 
160 ` 200 442 
200 ` 240 299 
240 ` 280 115 
280 ` 320 34 
320 ` 360 9 
360 ` 400 5 
TOTAL 1067  
Resp.: 199,34 
Vantagens e desvantagens da média aritmética 
Por ser muito inuenciada por valores extremos da série, a média aritmética não representa bem 
as distribuições em que existem valores extremos em relação aos demais, como, por exemplo, a série 
32
4.3. MODA (MO) CAPÍTULO 4. MEDIDAS DE POSIÇÃO 
cujos elementos são os seguintes: 18, 20, 22, 24 e 850 (onde a média aritmética é igual a 186,8, 
resultado que foi muito inuenciado pelo elemento 850). 
1) Apesar de a média aritmética situar-se entre o menor e o maior resultado da distribuição de 
frequências, ela não tem, necessariamente, a existência real. Podemos obter, por exemplo, uma média 
do tamanho de família de 4,5 pessoas, que é um valor inexistente. 
2) Pode ser calculada para distribuições com classes, mas os seus resultados não são considerados 
reais. 
3) Pode ser calculada diretamente usando qualquer calculadora eletrônica. 
4) Depende de todos os valores da distribuição. 
5) Evidencia bastante estabilidade de amostra para amostra, ou seja, se pesquisarmos numerosas 
amostras extraídas de uma mesma população, os valores das médias obtidas tendem a variar pouco 
(pouca variabilidade com amostras da mesma população). 
4.3 Moda (Mo) 
Denominamos moda o valor que ocorre com maior frequência em uma série de valores. 
Dados com agrupamento simples 
Quando lidamos com valores não-agrupados, a moda é facilmente reconhecida: basta procurar o 
valor que mais se repete. 
Exemplo: A série de dados: 7, 8, 9, 10, 10, 10, 11, 12, 13, 15 tem moda igual a 10. 
Podemos, entretanto, encontrar séries nas quais não exista valor modal, isto é, nas quais nenhum 
valor apareça mais vezes que outros. 
É o caso da série: 3, 5, 8, 10, 12, 13, que não apresenta moda (amodal). 
Em outros casos, ao contrário, pode haver dois ou mais valores de concentração. 
Dizemos, então, que a série tem dois ou mais valores modais. Na série: 2, 3, 4, 4, 4, 5, 6, 7, 7, 
7, 8, 9 temos duas modas: 4 e 7 (bimodal). 
A moda é utilizada: 
quando desejamos obter uma medida rápida e aproximada de posição; 
quando a medida de posição deve ser o valor mais típico da distribuição. 
33
4.4. MEDIANA (MD) CAPÍTULO 4. MEDIDAS DE POSIÇÃO 
4.4 Mediana (Md) 
A mediana é outra medida de posição, denida como o número que se encontra no centro de 
uma série de números, estando estes dispostos segundo uma ordem (em Rol). Em outras palavras, a 
mediana de um conjunto de valores, ordenados segundo uma ordem de grandeza, é o valor situado de 
tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. 
Exemplo: Seja a seguinte série de valores: 5, 13, 10, 2, 18, 15, 6, 16, 9. O primeiro passo é 
ordenar os números (ordem crescente ou decrescente): 2, 5, 6, 9, 10, 13, 15, 16, 18. 
Em seguida, tomamos aquele valor central que apresenta o mesmo número de elementos à direita 
e à esquerda. Em nosso exemplo, esse valor é o 10, já que, há quatro elementos acima dele e quatro 
abaixo. 
Temos, então: Md = 10 
Se, porém, a série dada tiver um número par de termos, a mediana será, por denição, qualquer 
dos números compreendidos entre os dois valores centrais da série. Convencionou-se utilizar o ponto 
médio. Assim, a série de valores: 2, 6, 7, 10, 12, 13, 18, 21 tem para mediana a média aritmética 
entre 10 e 12. 
Md = 
10 + 12 
2 
= 11 
Vericamos que, estando ordenados os valores de uma série e sendo n o número de elementos da 
série, o valor mediano será: 
o termo de ordem n+1 
2 , se n for ímpar; 
a média aritmética dos termos de ordem n 
2 e n 
2 + 1 , se n for par. 
A mediana é utilizada: 
quando desejamos obter o ponto que divide a distribuição em partes iguais; 
quando há valores extremos que afetam de uma maneira acentuada a média. 
Observação: No cálculo da média, todos os valores da amostra são levados em conta, ao passo 
que no caso da mediana isto não acontece. Por esta razão, valores muito grandes ou muito pequenos, 
comparados aos demais valores da amostra, causam grandes variações na média, o que em geral não 
ocorre com a mediana. Por isso, dizemos que a mediana é robusta, isto é, ela é resistente a valores 
atípicos. 
4.5 Exercícios no Excel 
1. A tabela abaixo lista as durações das terapias para dez pacientes inscritos em um estudo que 
investiga os efeitos da interrupção das transfusões de sangue. Determine a média desses valores. 
Duração da terapia de transfusão para 10 pacientes com doenças falciformes. 
Indivíduo Duração 
1 12 
2 11 
3 12 
4 6 
5 11 
6 11 
7 8 
8 5 
9 5 
10 5 
TOTAL 
Resp.: 8,6 anos 
34
4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO 
2. Na sequência temos a massa (peso) em gramas, de ratos da raça Wistar com 30 dias de idade. 
(Fonte: Vieira, S., 1980). Calcule a média aritmética. 
50 62 70 86 66 55 60 77 82 64 58 74 
Resp.: 67 
3. Os tempos de reação de um indivíduo a determinados estímulos foram medidos por um psico-logista 
como sendo 0,53; 0,46; 0,50; 0,49; 0,52; 0,53; 0,44 e 0,55 segundos, respectivamente. 
Determinar: os tempos médio, modal e mediano de reação do indivíduo a esses estímulos. 
Resp.: 0,50; 0,53; 0,51 
4. Calcule a média dos números de dentes perdidos ou danicados em uma amostra de 50 pessoas 
tratadas em determinada clínica dentária (Fonte: Callegari- Jacques, S. 2003). 
Dentes perdidos ou danicados. 
Número de dentes (x) Número de pessoas (fi ) x  fi 
0 9 
1 5 
2 6 
3 7 
4 9 
5 5 
6 4 
7 3 
8 2 
TOTAL 50 
Resp.: 3,2 dentes 
5. Calcule o número médio de dentes cariados, para cada sexo, a partir dos dados apresentados na 
tabela a seguir: 
Resp.: Masc.: 0,88 e Fem.: 1,6 
Número de dentes cariados das pessoas tratadas em uma clínica dentária  Santa Maria/RS. 
Número de Sexo 
dentes cariados Masculino Feminino 
0 16 14 
1 2 6 
2 3 7 
3 2 8 
4 2 5 
Total 
Resp.: Média Masc.: 0,88; Média Fem.: 1,6 
6. Quinze indivíduos foram sujeitos à recolha de urina em dois momentos, antes da toma de um 
diurético e após a tomada desse diurético, tendo-se obtido os valores em litros/dia mostrados 
na tabela: 
Coleta de urina. 
Indiv. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
Sem 1,2 1,2 1,2 1,2 1,1 1,3 1,8 1,2 1,1 1,4 1,1 1,3 1,1 1,2 1,3 
Com 1,4 1,3 1,5 1,4 1,3 1,6 2,1 1,4 1,3 1,5 1,2 1,4 1,2 1,2 1,3 
35
4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO 
a) Determine as medidas de localização central da urina sem diurético. 
Resp.: x = 1; 25; Md = 1; 2 e Mo = 1; 2. 
b) Determine as medidas de tendência central da urina com diurético. 
Resp.: x = 1; 41; Md = 1; 4 e Mo = 1; 3 e 1; 4. 
7. Durante uma epidemia de escarlatina, recolheu-se um certo número de mortos, em 40 cidades 
de um país, obtendo-se os dados da tabela .(DIAZ e LOPEZ, 2007) 
Quantidade de mortos devido à escarlatina. 
Mortos(número) 0 1 2 3 4 5 6 7 
Cidades 7 11 10 7 1 2 1 1 
a) Calcule as medidas de posição central. Resp.: x = 1; 98; Md = 2 e Mo = 1. 
b) Calcule a porcentagem de cidades com pelo menos dois mortos. Resp.: 55% 
c) Calcule a porcentagem de cidades com no máximo 2 mortos. Resp.: 70% 
d) Calcule a porcentagem de cidades com no mínimo 3 mortos. Resp.: 30% 
8. A tabela mostra a composição por idade e sexo de um grupo de trabalhadores, com tuberculose 
pulmonar, numa determinada cidade. 
Distribuição da tuberculose por sexo. 
Idade(anos) Homem Mulher Total 
14 ` 19 2 2 4 
19 ` 24 10 5 15 
24 ` 29 33 9 42 
29 ` 34 45 12 57 
34 ` 39 39 8 47 
39 ` 44 21 4 25 
Total 
Pede-se: 
Qual é a média de idade dos trabalhadores do sexo masculino e feminino com tuberculose 
pulmonar. 
Resp.: F: 30,38 anos; M: 32,23 anos 
36
Capítulo 5 
Separatrizes 
Como vimos, a mediana separa uma série de valores em dois grupos que apresentam a mesma 
quantidade de elementos. 
Assim, além das medidas de posição que estudamos, há outras que, consideradas individualmente, 
não são medidas de tendência central, já que se baseiam em sua posição na série. Essas medidas  
os quartis, os percentis e os decis  são, juntamente com a mediana, conhecidas pelo nome genérico 
de separatrizes. 
5.1 Quartis 
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há, portanto, 
três quartis: 
a) O primeiro quartil (Q1): valor situado de tal modo na série que uma quarta parte (25%) dos 
dados é menor que ele e as três quartas partes restantes (75%) são maiores. 
b) O segundo quartil (Q2): evidentemente, coincide com a mediana (Q2 = Md ). 
c) O terceiro quartil (Q3)  valor situado de tal modo que as três quartas partes (75%) dos 
termos são menores que ele e uma quarta parte (25%) é maior. 
5.2 Decis e Percentis 
Os decis Di são valores que dividem os dados em 10 partes iguais enquanto que os percen-tis 
são os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos por 
P1; P2; P3;    ; P32;    ; P99. 
P50 = Md , P25 = Q1 e P75 = Q3 
5.3 Exercícios no Excel 
1. Com o objetivo de estudar a ecácia de um regime alimentar para tratamento de diabetes 
foram recolhidas 12 amostras de sangue em diabéticos e analisada a quantidade de açúcar. 
37
5.3. EXERCÍCIOS NO EXCEL CAPÍTULO 5. SEPARATRIZES 
Obtiveram-se os resultados mostrados na tabela abaixo: 
Glicose de amostras sanguíneas (mg/100ml) 
187.45 187.57 187.37 187.49 187.58 187.37 
187.46 187.62 187.47 187.53 187.39 187.46 
(a) Determine a média, moda e mediana. Resp.: x = 187:48 ; Mo = 187:37; Md = 187:465 
(b) Determine os quartis Q1 e Q3. Resp.: Q1 = 187:42 ; Q3 = 187:55 
2. Os dados referentes ao número de dentes cariados, perdidos ou obturados em uma amostra de 
20 pessoas tratadas em uma determinada clínica dentária estão apresentados na tabela a seguir. 
Considerando dados brutos, pede-se: 
Dentes cariados, perdidos ou obturados. 
6 4 1 0 2 3 0 5 0 4 
4 6 0 1 3 5 8 3 2 7 
Primeiro e o terceiro quartil . Interprete os resultados. 
Resp.: Q1 = 1 (25% do total tem 0 ou 1 cárie); Q3 = 3 
3. Considerando 12 observações (ordenadas) do tempo de internação (dias) de acidentados no 
trabalho, em um certo hospital: 1, 4, 7, 9, 10, 13, 15, 17, 17, 18, 19, 21. Obtenha os quartis 
e interprete estes valores. 
Resp.: Q1 = 8, Q2 = 14 Q3 = 17; 5 
38
Capítulo 6 
Medidas de Dispersão 
6.1 Dispersão ou Variabilidade 
As medidas de dispersão procuram vericar o quanto os dados estão dispersos em torno de uma 
medida de posição (média, mediana ou moda), ou seja, elas informam o quanto os dados estão 
afastados, em média, do ponto central. 
Assim, não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um 
conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades 
é a mesma, e igual a 24C, ainda assim somos levados a pensar a respeito do clima dessas cidades. 
Em uma delas poderá a temperatura variar entre limites de muito calor e de muito frio e haver, ainda, 
uma temperatura média de 24C. A outra poderá ter uma variação pequena de temperatura e possuir, 
portanto, no que se refere à temperatura, um clima mais favorável. 
Vemos, então, que a média  ainda que considerada como um número que tem a faculdade de 
representar uma série de valores  não pode, por si mesma, destacar o grau de homogeneidade ou 
heterogeneidade que existe entre os valores que compõem o conjunto. 
Exemplo: Consideremos os seguintes conjuntos de valores das variáveis x, y e z: 
X: 70, 70, 70, 70, 70. 
Y: 68, 69, 70, 71, 72. 
Z: 5, 15, 50, 120, 160. 
Calculando a média aritmética de cada um desses conjuntos, obtemos: 
X = 
350 
5 
= 70 , Y = 
350 
5 
= 70 e Z = 
350 
5 
= 70. 
Vemos, então, que os três conjuntos apresentam a mesma média aritmética: 70. 
Entretanto, é fácil notar que o conjunto X é mais homogênea que os conjuntos Y e Z, já que 
todos os valores são iguais à média. 
O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversicação 
entre cada um de seus valores e a média representativa. 
Chamando de dispersão ou variabilidade a maior ou menor diversicação dos valores de uma variável 
em torno de um valor de tendência central tomado como ponto de comparação, podemos dizer que o 
conjunto X apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma dispersão ou 
variabilidade menor que o conjunto Z. 
Portanto, para qualicar os valores de uma dada variável, ressaltando a maior ou menor dispersão 
ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre à s medidas de 
dispersão ou de variabilidade. 
Dessas medidas, estudaremos a amplitude total, a variância, o desvio padrão e o coeciente de 
variação. 
39
6.2. AMPLITUDE TOTAL CAPÍTULO 6. MEDIDAS DE DISPERSÃO 
6.2 Amplitude Total 
É a diferença entre o maior e o menor valores observados e serve para ajudar a entender a dispersão 
dos dados, assim, amplitudes grandes indicam dados dispersos enquanto que amplitudes pequenas 
indicam que os dados são mais homogêneos. 
Exemplo: Consideremos quatro grupos de alunos cujas notas são: 
Grupo A  7, 5, 6, 9 e 8; 
Grupo B  9, 10, 4, 1, 8 e 10; 
Grupo C  5, 7, 7, 7,7, 7, 7, 7, 7 e 9; 
Grupo D  7, 7, 7 e 7. 
Com base na amplitude ou intervalo total, qual é o mais homogêneo? 
Resp.: Grupo B, Grupos A e C (empatados) e Grupo D. 
Comentário: Vimos acima que os grupos A e C são considerados igualmente homogêneos por 
terem o mesmo intervalo total. No entanto, um simples exame visual das notas respectivas nos leva 
a concluir que certamente o grupo C é o mais homogêneo, uma vez que dá para perceber que os seus 
elementos estão mais próximos entre si que os elementos do grupo A. 
O que de fato ocorre é que, infelizmente, o intervalo total não é uma medida capaz de quanticar 
de modo eciente a dispersão de uma série, uma vez que no seu cálculo interferem apenas os elemen-tos 
extremos (máximo e mínimo) da série, não avaliando o comportamento dos demais elementos. 
Utilizamos, assim, o intervalo total apenas para ter uma primeira informação sobre a dispersão da 
série, visando quase que somente a identicar o campo de variação dos seus elementos. 
6.3 Variância e Desvio Padrão 
Como vimos, a amplitude total é instável, por se deixar inuenciar pelos valores extremos, que 
são, na sua maioria, devidos ao acaso. 
A variância e o desvio padrão são medidas que fogem a essa falha, pois levam em consideração a 
totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis 
e, por isso mesmo, os mais geralmente empregados. 
A variância baseia-se nos desvios em torno da média aritmética, porém determinando a média 
aritmética dos quadrados dos desvios. Assim, representando a variância por S2, temos: 
S2 = 
P 
(xi  x)2 
P 
fi 
Sendo a variância calculada a partir dos quadrados dos desvios, ela é um número em unidade 
quadrada em relação à variável em questão, o que, sob o ponto de vista prático, é um inconveniente. 
Por isso mesmo, imaginou-se uma nova medida que tem utilidade e interpretações práticas, deno-minada 
desvio padrão, denida como a raiz quadrada da variância e representada por s. Assim: 
S = pS2 
Observações: Tanto o desvio padrão como a variância são usados como medidas de dispersão ou 
variabilidade. O uso de uma ou de outra dependerá da nalidade que se tenha em vista. 
A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extrema-mente 
importante na inferência estatística e em combinações de amostras. 
6.4 Exercícios no Excel 
1. Quatorze indivíduos que deram entrada no serviço de urgência de um Hospital apresentavam as 
seguintes pressões arteriais sistólicas: 
Ind. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 
PAS 115 125 128 135 126 124 112 125 127 133 119 127 121 120 
40
6.5. COEFICIENTE DE VARIAÇÃO CAPÍTULO 6. MEDIDAS DE DISPERSÃO 
(a) Determine as medidas de tendência central da PAS e comente os resultados. 
Resp.: x = 124; 07, Me = 125, Mo = 125e127 
(b) Determine o desvio padrão. Resp.: 6,08 
(c) Determine os quartis. Resp.: Q1 = 120 Q2 = 125 Q3 = 127 
2. Foram analisados os níveis de concentração de albumina em dez adultos tendo-se obtido os 
seguintes resultados (g/l): 
Indivíduo 1 2 3 4 5 6 7 8 9 10 
Albumina 19,7 19,9 20,9 20,7 20,9 20,8 20,9 21 19,5 19,4 
a) Determine as medidas de localização de tendência central que conhece. 
Resp.: x = 20; 37 Me = 20; 75 Mo = 20; 9 
b) Determine o desvio padrão. Resp.: 0,62 
6.5 Coeciente de Variação 
O desvio padrão por si só não nos diz muita coisa. Assim, um desvio padrão de duas unidades 
pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a 
média for igual a 20, o mesmo não pode ser dito. 
Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu 
emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão 
ou variabilidade, quando expressas em unidades diferentes. 
Para contornar essas diculdades e limitações, podemos caracterizar a dispersão ou variabilidade 
dos dados em termos relativos a seu valor médio, medida essa denominada coeciente de variação 
(CV). 
CV = 
S 
x  100 
Exemplo: Tomemos os resultados das medidas das estaturas e dos pesos de um mesmo grupo de 
indivíduos: 
x S 
Estaturas 175 cm 5 cm 
Pesos 68 kg 2 kg 
CVE = 
5 
175  100 = 2; 85% CVP = 
2 
68  100 = 2; 94% 
Conclui-se que neste grupo de indivíduos, os pesos apresentam maior grau de dispersão que as 
estaturas. 
Exemplo: Admitamos, por exemplo, ser do nosso interesse comparar entre si, tendo em vista 
a homogeneidade, as séries relacionadas a seguir, juntamente com suas médias aritméticas e seus 
desvios padrões: 
Série Média Aritmética Desvio Padrão 
A(t) 80,8 t 10,0 t cm 
B(cm) 450,0 cm 10,0 cm 
C(oC) 32,6 oC 4,2 oC 
D(oC) 30,0 oC 2,6 oC 
E(oC) 8200,0 t 700,0 t 
Vamos calcular o coeciente de variação para cada uma das séries do exemplo acima: 
41
6.6. EXERCÍCIOS NO EXCEL CAPÍTULO 6. MEDIDAS DE DISPERSÃO 
 série A: V = 100 X 10,0/80,8 = 12,4%  série D: V = 100 X 2,6/30,0 = 8,7% 
 série B : V = 100 X 10,0/450,0 = 2,2%  série E: V = 100 X 700,0/8 200,0 = 8,5 
 série C : V = 100 X 4,2/32,6 = 12,9% 
Podemos, assim, por possuir o menor coeciente de variação, armar que: 
 a série B é mais homogênea que a série A; 
 a série D é mais homogênea que a série C; 
 a série E é mais homogênea que a série A. 
Listando as séries em questão, em ordem crescente de homogeneidade ou decrescente de dispersão, 
quanticada pela medida mais conveniente no caso, que é o coeciente de variação, temos: série C, 
série A, série D, série E e série B. 
Conforme acabamos de ver, além de ter o seu uso recomendado para a análise da dispersão de 
séries heterogêneas (unidades de medidas diferentes: metros, toneladas, litros etc.), o coeciente de 
variação serve ainda para compararmos séries que apresentam ordens de grandeza diferenciadas dos 
seus elementos (unidades, dezenas etc.). Como desvantagens, podemos citar a impossibilidade de 
usarmos o coeciente de variação para séries com médias aritméticas nulas e sua inconveniência de 
uso (como toda percentagem que se preza) no caso de termos séries com médias aritméticas muito 
pequenas (ou próximas de zero) que, ao sofrerem uma reduzida alteração, normalmente provocam 
grandes variações no coeciente de variação. 
6.6 Exercícios no Excel 
1. Em um exame nal de Matemática, o grau médio de um grupo de 150 alunos foi 7,8 e o desvio 
padrão, 0,80. Em Estatística, entretanto, o grau médio nal foi 7,3 e o desvio padrão, 0,76. 
Em que disciplina foi maior a dispersão? Resp.: Estatística 
2. Medidas as estaturas de 1.017 indivíduos, obtivemos x = 162; 2 cm e S = 8,01 cm. O peso 
médio desses mesmos indivíduos é 52 kg, com um desvio padrão de 2,3 kg. Esses indivíduos 
apresentam maior variabilidade em estatura ou em peso? Resp.: Estatura 
3. Um grupo de 85 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97 
cm. Outro grupo de 125 moças tem uma estatura média de 161,9 cm, sendo o desvio padrão 
igual a 6,01 cm. Qual é o coeciente de variação de cada um dos grupos? Qual o grupo mais 
homogêneo? 
Resp.: 3,72 e 3,71, respectivamente; o segundo grupo 
4. Um estudo foi realizado por um professor em três turmas, obtendo a média e o desvio padrão 
das notas de sua disciplina, conforme abaixo. Qual a turma com menor variabilidade? Justique 
adequadamente. 
Turma A B C 
Média 6,5 8,0 cm 8,0 
Desvio Padrão 2,2 cm 1,7 2,0 
Resp.: Turma B 
5. [Excel] São fornecidos valores de nível de triglicérides (mg/dL) de 9 pessoas: 
166 158 202 162 135 82 150 86 121 
Calcule, apresentando o desenvolvimento da fórmula: 
a) o nível médio de triglicérides; Resp.: 140,22 
b) o nível mediano de triglicérides; Resp.: 150 
c) o desvio padrão do nível de triglicérides; Resp.: 36,66 
d) o coeciente de variação do nível de triglicérides. Resp.: 26,14% 
42
6.6. EXERCÍCIOS NO EXCEL CAPÍTULO 6. MEDIDAS DE DISPERSÃO 
6. Considere as seguintes medidas descritivas das notas nais dos alunos de três turmas de Bioes-tat 
ística. Com base nesses dados, considere as seguintes armativas: 
Turma N. alunos Média Desvio Padrão 
A 15 6 1,31 
B 15 6 3,51 
C 14 6 2,61 
1. Apesar de as médias serem iguais nas três turmas, as notas dos alunos da turma B foram as 
que se apresentaram mais heterogêneas. 
2. As três turmas tiveram a mesma média, mas com variação diferente. 
3. As notas da turma A se apresentaram mais dispersas em torno da média. 
Assinale a alternativa correta: 
a) Somente a armativa 3 é verdadeira. 
b) Somente a armativa 2 é verdadeira. 
c) Somente as armativas 2 e 3 são verdadeiras. 
d) Somente as armativas 1 e 2 são verdadeiras. 
e) Somente as armativas 1 e 3 são verdadeiras. 
Resp.: d 
43
Capítulo 7 
Assimetria e Curtose 
As medidas de assimetria e curtose complementam as medidas de posição e de dispersão e dão 
uma interpretação da forma da distribuição. 
7.1 Assimetria 
Mede a deformação da distribuição relativamente à sua simetria, ou seja, mede o quanto a distri-bui 
ção é assimétrica em relação a um eixo central. 
Exemplo: Seja o seguinte conjunto de dados: 
O gráco de colunas relativo a estes dados é o seguinte: 
Perceba que existe uma caudapara a direita destes dados, o que evidencia a sua assimetria: 
44
7.2. TRABALHO 02 CAPÍTULO 7. ASSIMETRIA E CURTOSE 
A assimetria pode ser calculada através do coeciente de assimetria de Pearson (CA): 
CA = 
x Mo 
s 
onde, 
x é a média aritmética. 
Mo é a moda. 
Existem outras fórmulas para o cálculo do coeciente, mas não nos servem agora. 
Intensidade da assimetria (interpretação do coeciente de Pearson): 
7.2 Trabalho 02 
Instruções: 
 As questões deverão ser respondidas no Excel; 
 Cada planilha deve conter uma questão. O nome da planilha deve indicar o número da questão, 
por exemplo: Questão 1. 
 As perguntas e os comentários das respostas devem estar em caixas de texto dentro da respectiva 
planilha. 
 O nome do arquivo deve conter o seu nome e o nome do curso, por exemplo: RodrigoMatema-tica; 
 O arquivo deve ser enviado para o e-mail rodrigopereira@unifra.br 
 O assunto do email será Trabalho 02. 
 Utilize o seu email da Unifra (acesse-o através do Alunonet). 
1. Os dados abaixo representam as alturas de 60 indivíduos. Calcule a estatística descritiva (média, 
mediana, desvio padrão, Q1, Q3 e o coeciente de variação). 
159 159 159 160 160 160 161 161 162 162 162 163 163 163 164 
164 164 165 165 165 166 166 166 167 167 167 168 168 169 169 
169 170 170 170 171 171 171 172 172 172 173 173 173 174 174 
174 175 175 176 176 176 177 177 177 178 178 178 179 179 179 
Responda: 
(a) Por que o CV deu um resultado tão baixo? 
45
7.2. TRABALHO 02 CAPÍTULO 7. ASSIMETRIA E CURTOSE 
(b) Explique o valor da mediana? 
(c) Explique o valor do Q3? 
(d) Construa um histograma para esta distribuição no Excel e responda se é uma distribuição 
normal ou não. 
2. As amostras de exames bioquímicos de sangue de 3 diferentes laboratórios apresentaram os 
níveis de creatinina mostrados no quadro: 
Exame 1 2 3 4 5 6 7 
Laboratório A 0,6 0,4 0,5 0,8 0,2 0,8 - 
Laboratório B 0,7 0,8 0,6 0,9 0,5 1,1 0,3 
Laboratório C 0,6 0,7 2,0 0,5 0,8 0,9 0,9 
a) Calcule a média das creatininas de cada um dos laboratórios. 
b) Qual dos 3 laboratórios teve a menor dispersão? Qual das medidas estatísticas explica a tua 
resposta? 
46
Parte III 
Teoria da Amostragem 
com Bioestat 
47
Capítulo 8 
Amostragem 
De uma forma geral, as populações ou universos nos quais o pesquisador está interessado são 
grandes demais para serem estudados na sua totalidade. O tempo necessário para estudar toda a 
população, as despesas e o número de pessoas envolvidas são de tal monta que tornam o estudo 
proibitivo. Por isso, o mais comum é se estudarem amostras retiradas da população de interesse. 
Para que os resultados obtidos em uma amostra possam ser generalizados para a população, isto 
é, para que se possam realizar inferências válidas, a amostra deve ser representativa da população. A 
melhor maneira de se obter uma amostra representativa é empregar um procedimento aleatório para 
a seleção dos indivíduos. 
Uma vantagem de se usarem amostras aleatórias é que, para este tipo de amostras, existem 
inúmeros métodos estatísticos que poderão auxiliar o pesquisador. Além disto, tal tipo de amostragem 
não dá oportunidade ao pesquisador de escolher, mesmo de forma inconsciente, uma amostra que 
favoreça a hipótese que ele gostaria de ver conrmada. 
8.1 Amostragem vs Censo 
Quando estudamos todos os elementos de uma população, estamos realizando o que denominamos 
censo. O IBGE, por exemplo, realiza periodicamente (de dez em dez anos) o censo relativo a inúmeras 
características do Brasil; obtém dados a respeito da saúde, ensino, habitação, produção vegetal e 
animal, prestação de serviços, etc., em todo o território nacional, pesquisando todos os elementos da 
população. 
O censo, porém, nem sempre pode ou deve ser utilizado, devido à impossibilidade de estudar a 
população, por apresentar pouca precisão e em razão de seu custo econômico. 
Custo Reduzido 
Sendo os dados obtidos apenas de uma fração da população, as despesas são menores do que as 
oriundas de um censo. Tratando-se de grandes populações, pode-se obter resultados sucientemente 
precisos, para serem úteis, de amostras que representam apenas uma pequena fração da população. 
Segundo COCHRAN (1977), nos Estados Unidos, os mais importantes levantamentos periódicos, 
realizados pelo governo, usavam amostras de cerca de 100.000 pessoas, ou, aproximadamente uma 
pessoa em cada 1800. 
Maior Rapidez 
Os dados podem ser apurados e sintetizados mais rapidamente em uma amostragem do que 
em uma contagem completa. Este é um fator primordial, quando se necessita urgentemente das 
informações. O objetivo de uma investigação é o de conhecer a situação de um determinado fenômeno, 
no momento da coleta da informação, para que de acordo com a informação obtida, se possam tomar 
as medidas possíveis para resolver algum problema. Se o resultado dessa pesquisa for conhecido 
muito tempo depois, é bem possível que a situação que se pretendia resolver, seja nesse momento, 
completamente diferente da que existia no momento da coleta dos dados. 
48
8.1. AMOSTRAGEM VS CENSO CAPÍTULO 8. AMOSTRAGEM 
Maior Amplitude e Flexibilidade 
Em certos tipos de investigação, tem-se que utilizar pessoal bem treinado e equipamento altamente 
especializado, cuja disponibilidade é limitada para a obtenção de dados. O censo completo torna-se 
impraticável e resta a escolha entre obter as informações por meio de uma amostra, ou não consegui-las 
de todo. Dessa forma, os levantamentos que se fundamentam na amostragem tem maior amplitude 
e exibilidade. 
Maior Exatidão 
Em virtude de se poder empregar pessoal de melhor qualidade e intensivamente treinado, e por 
se tornar exeqüível a supervisão mais cuidadosa do campo de trabalho e do processamento de dados, 
dada a redução no volume de trabalho, portanto, uma amostragem pode, na realidade, proporcionar 
resultados mais exatos que o censo. 
Não Destruição da População 
Pode ser impraticável investigar toda a população em determinados procedimentos de controle de 
qualidade. Por exemplo, se quisermos vericar a qualidade de uma marca de fósforos, necessitaremos 
riscá-los a m de vericar o seu funcionamento. Se inspecionarmos toda a população de fósforos, 
riscando-os, acabaremos com a população, pois o processo de aferição da qualidade do fósforo o 
destrói. Novamente, o estudo da população torna-se impraticável. 
Representatividade da Amostra 
Para que as conclusões da teoria de amostragem sejam válidas, as amostras devem ser escolhidas 
de modo a serem representativas da população. Isso signica que a amostra deve possuir as mesmas 
características básicas da população, no que diz respeito a (s) variável (eis) que desejamos estudar. 
Um plano de amostragem deve ser formulado para garantir a representatividade. 
Alguns procedimentos básicos para a obtenção de amostras aleatórias são apresentados a seguir: 
49
8.2. AMOSTRAGEM PROBABILÍSTICA CAPÍTULO 8. AMOSTRAGEM 
8.2 Amostragem Probabilística 
Note-se bem que o termo probabilístico se aplica a amostra escolhida de forma aleatória. Por 
envolver o sorteio, a seleção independe do pesquisador e elimina-se a possível tendenciosidade do 
mesmo. As amostragens probabilísticas geram amostras probabilísticas e os resultados podem ser 
projetáveis para a população total 
8.2.1 Amostragem Aleatória Simples 
Uma amostra aleatória simples é aquela obtida de tal modo que todos os indivíduos da população 
têm igual probabilidade de serem selecionados. 
Para se obter uma amostra aleatória simples, atribui-se, inicialmente, um número a cada elemento 
da população. A seguir, por meio de um dispositivo aleatório qualquer (sorteio), seleciona-se a quan-tidade 
desejada de indivíduos. Um procedimento aleatório a ser utilizado pode ser colocar em uma 
urna todos os números que serão submetidos ao sorteio, retirando depois alguns à s cegas. Pode-se 
ainda usar os números de loteria sorteados nos últimos anos, ou uma tabela de números aleatórios, 
ou ainda programas de computador para selecionar aleatoriamente os componentes da amostra. 
Um ponto importante a salientar é que, usando este procedimento, nenhum indivíduo, por ter 
esta ou aquela característica, terá oportunidade maior de ser escolhido, pois a escolha independe da 
vontade do selecionador da amostra. 
Podemos realizar uma amostragem aleatória simples através do programa Bioestat, vejamos um 
exemplo: 
Exemplo: Um hospital precisa selecionar uma amostra contendo 5 de seus enfermeiros. Os nomes 
de todos os enfermeiros do hospital são mostrados a seguir: 
População: Lista dos enfermeiros do hospital. 
Aristóteles Anastácia Arnaldo Bartolomeu Bernardino Cardoso Carlito 
Cláudio Ermílio Ercílio Ernestino Endevaldo Francisco Felício 
Fabrício Geraldo Gabriel Getúlio Hiraldo João Joana 
Joaquim José Josena Mauro Paula Paulo 
Primeiro precisamos associar cada elemento da população a um número. Por simplicidade, con-sideraremos 
números inteiros sucessivos, com a mesma quantidade de algarismos, iniciando-se por 1 
(um). 
Numeração dos elementos da população: 
População: Lista dos enfermeiros do hospital. 
01.Aristóteles 02.Anastácia 03.Arnaldo 04.Bartolomeu 05.Bernardino 06.Cardoso 
07.Carlito 08.Cláudio 09.Ermílio 10.Ercílio 11.Ernestino 12.Endevaldo 
13.Francisco 14.Felício 15.Fabrício 16.Geraldo 17.Gabriel 18.Getúlio 
19.Hiraldo 20.João 21.Joana 22.Joaquim 23.José 24.Josena 
25.Mauro 26.Paula 27.Paulo 
Para extrairmos uma amostra aleatória simples de tamanho n = 5, precisamos sortear 5 números 
dentre os N = 27 disponíveis. 
No Bioestat: Estatísticas  Amostragem  Aleatória  Sem Reposição 
Com isto obtemos a janela abaixo, onde inserimos os valores N = 27 e n = 5: 
50
8.2. AMOSTRAGEM PROBABILÍSTICA CAPÍTULO 8. AMOSTRAGEM 
Em seguida, clicamos em Executare teremos uma janela semelhante a esta: 
Os números sorteados pelo Bioestat foram: 1-2-10-11-24 
Estes números correspondem aos enfermeiros: Aristóteles - Anastácia - Ercílio - Ernestino - Jose- 
na, que são os 5 enfermeiros que irão compor a amostra. 
8.2.2 Amostragem Aleatória Estraticada 
Às vezes, a população é constituída de subpopulações ou estratos e pode ser razoável supor que a 
variável de interesse apresenta comportamento diferente em cada estrato. Neste caso, para que uma 
amostra seja representativa, ela deve apresentar a mesma estraticação do universo de origem. Para 
garantir que o procedimento aleatório produza uma amostra estraticada adequada, devemos: 
1. Vericar quais os estratos presentes na população. 
2. Calcular seus tamanhos relativos (proporções). 
3. Determinar o tamanho dos estratos na amostra, observando estas mesmas proporções. 
4. Obter aleatoriamente os elementos para cada estrato, ou sorteando dentro de cada estrato, ou 
sorteando dentro da população e preenchendo os espaços reservados para cada estrato. 
Exemplo: Deseja-se avaliar o número médio de cáries em escolares de 8 anos de certa escola. 
Como parece razoável supor que esta variável depende do nível socioeconômico da criança, o 
procedimento de amostragem escolhido é o de amostragem por estratos. Para tanto: 
1. Vericamos, inicialmente, quais os níveis socioeconômicos existentes nessa escola (suponha que 
sejam três: A, B e C). 
2. Avaliamos a participação relativa de cada um, por exemplo, o nível A abrange 3% da população, 
o nível B, 22% e o C, 75%. 
3. Determinamos então que, para uma amostra de 120 crianças, quatro deverão ser do nível A 
(pois 3% de 120 é 3,6), 26 do nível B e 90 do C. 
4. Sorteamos, aleatoriamente, quatro dentre as crianças do nível A, 26 do B e 90 do C. Ou então 
realizamos o sorteio diretamente do total de crianças da escola e preenchemos as subamostras 
conforme os indivíduos vão sendo selecionados. Caso seja sorteado um número que corresponda 
a um aluno A e já tenham sido selecionadas quatro crianças para este estrato, o número é 
desprezado e o sorteio prossegue. 
51
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364
Bioestatística apostila MTM 364

More Related Content

What's hot

Dia Nacional da matemática
Dia Nacional da matemáticaDia Nacional da matemática
Dia Nacional da matemáticaJosé Levy
 
LIVRO....bioestatitica _aula 01.pdf
LIVRO....bioestatitica _aula 01.pdfLIVRO....bioestatitica _aula 01.pdf
LIVRO....bioestatitica _aula 01.pdfTAYANEMOURA4
 
Aula streptococcus
Aula streptococcusAula streptococcus
Aula streptococcusandrearistow
 
Aula 1 - Bioestatística
Aula 1 - BioestatísticaAula 1 - Bioestatística
Aula 1 - BioestatísticaCaroline Godoy
 
Aula 01 Introdução a Microbiologia
Aula 01   Introdução a MicrobiologiaAula 01   Introdução a Microbiologia
Aula 01 Introdução a MicrobiologiaTiago da Silva
 
Radiologia medicina veterinária
Radiologia medicina veterináriaRadiologia medicina veterinária
Radiologia medicina veterináriaPriscila Silva
 
Aula de Microbiologia Clínica sobre Meios de cultura bacteriana
Aula de Microbiologia Clínica sobre Meios de cultura bacterianaAula de Microbiologia Clínica sobre Meios de cultura bacteriana
Aula de Microbiologia Clínica sobre Meios de cultura bacterianaJaqueline Almeida
 
Probabilidade e Estatística - Aula 04
Probabilidade e Estatística - Aula 04Probabilidade e Estatística - Aula 04
Probabilidade e Estatística - Aula 04Augusto Junior
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatisticaAleNiv
 
Aula de Microbiologia sobre meios de cultura e características bacterianas
Aula de Microbiologia sobre meios de cultura e características bacterianasAula de Microbiologia sobre meios de cultura e características bacterianas
Aula de Microbiologia sobre meios de cultura e características bacterianasJaqueline Almeida
 
Estatística, Medidas descritivas para as distribuições de frequência
Estatística, Medidas descritivas para as distribuições de frequênciaEstatística, Medidas descritivas para as distribuições de frequência
Estatística, Medidas descritivas para as distribuições de frequêncianelsonpoer
 

What's hot (20)

Aula 01 introdução a estatística
Aula 01   introdução a estatísticaAula 01   introdução a estatística
Aula 01 introdução a estatística
 
Dia Nacional da matemática
Dia Nacional da matemáticaDia Nacional da matemática
Dia Nacional da matemática
 
Aula 05 Gráficos Estatísticos
Aula 05   Gráficos EstatísticosAula 05   Gráficos Estatísticos
Aula 05 Gráficos Estatísticos
 
LIVRO....bioestatitica _aula 01.pdf
LIVRO....bioestatitica _aula 01.pdfLIVRO....bioestatitica _aula 01.pdf
LIVRO....bioestatitica _aula 01.pdf
 
Aula streptococcus
Aula streptococcusAula streptococcus
Aula streptococcus
 
Introdução à microbiologia
Introdução à microbiologiaIntrodução à microbiologia
Introdução à microbiologia
 
Aula 1 - Bioestatística
Aula 1 - BioestatísticaAula 1 - Bioestatística
Aula 1 - Bioestatística
 
Aula 7 - M
Aula 7 - MAula 7 - M
Aula 7 - M
 
Revisão Sistemática da Literatura
Revisão Sistemática da LiteraturaRevisão Sistemática da Literatura
Revisão Sistemática da Literatura
 
Aula 01 Introdução a Microbiologia
Aula 01   Introdução a MicrobiologiaAula 01   Introdução a Microbiologia
Aula 01 Introdução a Microbiologia
 
Radiologia medicina veterinária
Radiologia medicina veterináriaRadiologia medicina veterinária
Radiologia medicina veterinária
 
Aula de Microbiologia Clínica sobre Meios de cultura bacteriana
Aula de Microbiologia Clínica sobre Meios de cultura bacterianaAula de Microbiologia Clínica sobre Meios de cultura bacteriana
Aula de Microbiologia Clínica sobre Meios de cultura bacteriana
 
Probabilidade e Estatística - Aula 04
Probabilidade e Estatística - Aula 04Probabilidade e Estatística - Aula 04
Probabilidade e Estatística - Aula 04
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatistica
 
Introdução microbiologia
Introdução microbiologiaIntrodução microbiologia
Introdução microbiologia
 
Manual do antibiograma
Manual do antibiograma Manual do antibiograma
Manual do antibiograma
 
Aula de Microbiologia sobre meios de cultura e características bacterianas
Aula de Microbiologia sobre meios de cultura e características bacterianasAula de Microbiologia sobre meios de cultura e características bacterianas
Aula de Microbiologia sobre meios de cultura e características bacterianas
 
O que é PICO e Pico?
O que é PICO e Pico?O que é PICO e Pico?
O que é PICO e Pico?
 
Radioimunoensaio
RadioimunoensaioRadioimunoensaio
Radioimunoensaio
 
Estatística, Medidas descritivas para as distribuições de frequência
Estatística, Medidas descritivas para as distribuições de frequênciaEstatística, Medidas descritivas para as distribuições de frequência
Estatística, Medidas descritivas para as distribuições de frequência
 

Viewers also liked

Exercicios resolv estatistica
Exercicios resolv estatisticaExercicios resolv estatistica
Exercicios resolv estatisticaJosi2010
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoAntonio Mankumbani Chora
 
Bioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacaoBioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacaoFabiano Reis
 
Estatística completa
Estatística completaEstatística completa
Estatística completaRonne Seles
 
Bioinformática Apostila de Introdução
 Bioinformática Apostila de Introdução Bioinformática Apostila de Introdução
Bioinformática Apostila de IntroduçãoGregorio Leal da Silva
 
Mecanismos Básicos da Genética Molecular
Mecanismos Básicos da Genética MolecularMecanismos Básicos da Genética Molecular
Mecanismos Básicos da Genética MolecularGregorio Leal da Silva
 
Conceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - EmbrapaConceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - EmbrapaGregorio Leal da Silva
 
Relatório final identificação da ictiofauna
Relatório final   identificação da ictiofaunaRelatório final   identificação da ictiofauna
Relatório final identificação da ictiofaunaArao Da Cruz Zunguza
 
Apostila curso estatistica_goes
Apostila curso estatistica_goesApostila curso estatistica_goes
Apostila curso estatistica_goesStefania Helena
 
bioestatística - 1 parte
bioestatística - 1 partebioestatística - 1 parte
bioestatística - 1 parteRobson Odé
 
Probabilidade E Bioestatística
Probabilidade E BioestatísticaProbabilidade E Bioestatística
Probabilidade E BioestatísticaRodrigo Vianna
 
Apostila Sistema Nervoso-2016
Apostila Sistema Nervoso-2016Apostila Sistema Nervoso-2016
Apostila Sistema Nervoso-2016arn4ldo
 
2º aula medula espinhal
2º aula medula espinhal2º aula medula espinhal
2º aula medula espinhalÁreadaSaúde
 
Alimentação e nutrição no brasil história
Alimentação e nutrição no brasil   históriaAlimentação e nutrição no brasil   história
Alimentação e nutrição no brasil históriaAdriana Madeira
 
Livro estatística fácil antônio arnot crespo - ed saraiva
Livro estatística fácil   antônio arnot crespo - ed saraivaLivro estatística fácil   antônio arnot crespo - ed saraiva
Livro estatística fácil antônio arnot crespo - ed saraivaPablo Cotes
 
Técnicas básicas de biologia molecular
Técnicas básicas de biologia molecularTécnicas básicas de biologia molecular
Técnicas básicas de biologia molecularThuane Sales
 

Viewers also liked (20)

Exercicios resolv estatistica
Exercicios resolv estatisticaExercicios resolv estatistica
Exercicios resolv estatistica
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
 
Bioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacaoBioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacao
 
Estatística completa
Estatística completaEstatística completa
Estatística completa
 
Bioinformática Apostila de Introdução
 Bioinformática Apostila de Introdução Bioinformática Apostila de Introdução
Bioinformática Apostila de Introdução
 
Mecanismos Básicos da Genética Molecular
Mecanismos Básicos da Genética MolecularMecanismos Básicos da Genética Molecular
Mecanismos Básicos da Genética Molecular
 
Conceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - EmbrapaConceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - Embrapa
 
Apostila Básica de Entomologia
Apostila Básica de Entomologia Apostila Básica de Entomologia
Apostila Básica de Entomologia
 
Relatório final identificação da ictiofauna
Relatório final   identificação da ictiofaunaRelatório final   identificação da ictiofauna
Relatório final identificação da ictiofauna
 
Ornitologia Básica
Ornitologia Básica Ornitologia Básica
Ornitologia Básica
 
Apostila curso estatistica_goes
Apostila curso estatistica_goesApostila curso estatistica_goes
Apostila curso estatistica_goes
 
bioestatística - 1 parte
bioestatística - 1 partebioestatística - 1 parte
bioestatística - 1 parte
 
Sistema Nervoso
Sistema NervosoSistema Nervoso
Sistema Nervoso
 
Probabilidade E Bioestatística
Probabilidade E BioestatísticaProbabilidade E Bioestatística
Probabilidade E Bioestatística
 
Apostila Sistema Nervoso-2016
Apostila Sistema Nervoso-2016Apostila Sistema Nervoso-2016
Apostila Sistema Nervoso-2016
 
2º aula medula espinhal
2º aula medula espinhal2º aula medula espinhal
2º aula medula espinhal
 
Alimentação e nutrição no brasil história
Alimentação e nutrição no brasil   históriaAlimentação e nutrição no brasil   história
Alimentação e nutrição no brasil história
 
Livro estatística fácil antônio arnot crespo - ed saraiva
Livro estatística fácil   antônio arnot crespo - ed saraivaLivro estatística fácil   antônio arnot crespo - ed saraiva
Livro estatística fácil antônio arnot crespo - ed saraiva
 
Aula 22 probabilidade - parte 1
Aula 22   probabilidade - parte 1Aula 22   probabilidade - parte 1
Aula 22 probabilidade - parte 1
 
Técnicas básicas de biologia molecular
Técnicas básicas de biologia molecularTécnicas básicas de biologia molecular
Técnicas básicas de biologia molecular
 

Similar to Bioestatística apostila MTM 364

Apostila de bioestatistica
Apostila de bioestatisticaApostila de bioestatistica
Apostila de bioestatisticaetavaresodonto
 
Apostila probabilidades, estatística e proc estocásticos
Apostila probabilidades, estatística e proc estocásticosApostila probabilidades, estatística e proc estocásticos
Apostila probabilidades, estatística e proc estocásticosLiliana Matos Pereira
 
Apostila processos-estocasticos ynoguti
Apostila processos-estocasticos ynogutiApostila processos-estocasticos ynoguti
Apostila processos-estocasticos ynogutiCristiane Alcântara
 
K19 k21-persistencia-com-jpa2-e-hibernate
K19 k21-persistencia-com-jpa2-e-hibernateK19 k21-persistencia-com-jpa2-e-hibernate
K19 k21-persistencia-com-jpa2-e-hibernateElton Alex Silva
 
Algoritmos jabour
Algoritmos jabourAlgoritmos jabour
Algoritmos jabourfjabour
 
Python
PythonPython
PythonTiago
 
Conceitos básicos de Software R
Conceitos básicos de Software RConceitos básicos de Software R
Conceitos básicos de Software RThais Amaral
 
Redes de Petri
Redes de PetriRedes de Petri
Redes de Petriuern
 
Friedli, s. cálculo 1. 1ª ed. belo horizonte, imprensa universitária da ufmg,...
Friedli, s. cálculo 1. 1ª ed. belo horizonte, imprensa universitária da ufmg,...Friedli, s. cálculo 1. 1ª ed. belo horizonte, imprensa universitária da ufmg,...
Friedli, s. cálculo 1. 1ª ed. belo horizonte, imprensa universitária da ufmg,...Silvio Gomes
 
LIVRO_INTRODUÇÃO AO R.pdf
LIVRO_INTRODUÇÃO AO R.pdfLIVRO_INTRODUÇÃO AO R.pdf
LIVRO_INTRODUÇÃO AO R.pdfTAYANEMOURA4
 
Sistema Imunológico Artificial para Predição de Fraudes e Furtos de Energia E...
Sistema Imunológico Artificial para Predição de Fraudes e Furtos de Energia E...Sistema Imunológico Artificial para Predição de Fraudes e Furtos de Energia E...
Sistema Imunológico Artificial para Predição de Fraudes e Furtos de Energia E...Mauricio Volkweis Astiazara
 

Similar to Bioestatística apostila MTM 364 (20)

Apostila de bioestatistica
Apostila de bioestatisticaApostila de bioestatistica
Apostila de bioestatistica
 
Exercicios de estatistica resolvido.5
Exercicios de estatistica resolvido.5Exercicios de estatistica resolvido.5
Exercicios de estatistica resolvido.5
 
Apostila probabilidades, estatística e proc estocásticos
Apostila probabilidades, estatística e proc estocásticosApostila probabilidades, estatística e proc estocásticos
Apostila probabilidades, estatística e proc estocásticos
 
Apostila processos-estocasticos ynoguti
Apostila processos-estocasticos ynogutiApostila processos-estocasticos ynoguti
Apostila processos-estocasticos ynoguti
 
AME.pdf
AME.pdfAME.pdf
AME.pdf
 
K19 k21-persistencia-com-jpa2-e-hibernate
K19 k21-persistencia-com-jpa2-e-hibernateK19 k21-persistencia-com-jpa2-e-hibernate
K19 k21-persistencia-com-jpa2-e-hibernate
 
Probabilidade.pdf
Probabilidade.pdfProbabilidade.pdf
Probabilidade.pdf
 
Algoritmos jabour
Algoritmos jabourAlgoritmos jabour
Algoritmos jabour
 
Python
PythonPython
Python
 
gaalt0.pdf
gaalt0.pdfgaalt0.pdf
gaalt0.pdf
 
Conceitos básicos de Software R
Conceitos básicos de Software RConceitos básicos de Software R
Conceitos básicos de Software R
 
Curso estatistica descritiva no r
Curso   estatistica descritiva no rCurso   estatistica descritiva no r
Curso estatistica descritiva no r
 
Grafoes-cap1e2.pdf
Grafoes-cap1e2.pdfGrafoes-cap1e2.pdf
Grafoes-cap1e2.pdf
 
Redes de Petri
Redes de PetriRedes de Petri
Redes de Petri
 
Friedli, s. cálculo 1. 1ª ed. belo horizonte, imprensa universitária da ufmg,...
Friedli, s. cálculo 1. 1ª ed. belo horizonte, imprensa universitária da ufmg,...Friedli, s. cálculo 1. 1ª ed. belo horizonte, imprensa universitária da ufmg,...
Friedli, s. cálculo 1. 1ª ed. belo horizonte, imprensa universitária da ufmg,...
 
LIVRO_INTRODUÇÃO AO R.pdf
LIVRO_INTRODUÇÃO AO R.pdfLIVRO_INTRODUÇÃO AO R.pdf
LIVRO_INTRODUÇÃO AO R.pdf
 
Ap
ApAp
Ap
 
Php
PhpPhp
Php
 
Sistema Imunológico Artificial para Predição de Fraudes e Furtos de Energia E...
Sistema Imunológico Artificial para Predição de Fraudes e Furtos de Energia E...Sistema Imunológico Artificial para Predição de Fraudes e Furtos de Energia E...
Sistema Imunológico Artificial para Predição de Fraudes e Furtos de Energia E...
 
Aprenda computaocompython
Aprenda computaocompythonAprenda computaocompython
Aprenda computaocompython
 

Recently uploaded

Governo Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 BrasilGoverno Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 Brasillucasp132400
 
Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinhaMary Alvarenga
 
E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?Rosalina Simão Nunes
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresaulasgege
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasCassio Meira Jr.
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOColégio Santa Teresinha
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniCassio Meira Jr.
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBAline Santana
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdfJorge Andrade
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfaulasgege
 
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMCOMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMVanessaCavalcante37
 
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptxSlides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptxLuizHenriquedeAlmeid6
 
“Sobrou pra mim” - Conto de Ruth Rocha.pptx
“Sobrou pra mim” - Conto de Ruth Rocha.pptx“Sobrou pra mim” - Conto de Ruth Rocha.pptx
“Sobrou pra mim” - Conto de Ruth Rocha.pptxthaisamaral9365923
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesMary Alvarenga
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxLuizHenriquedeAlmeid6
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditaduraAdryan Luiz
 
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfHenrique Pontes
 
Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.keislayyovera123
 

Recently uploaded (20)

Governo Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 BrasilGoverno Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 Brasil
 
Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinha
 
E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autores
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades Motoras
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
 
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA -
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA      -XI OLIMPÍADAS DA LÍNGUA PORTUGUESA      -
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA -
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdf
 
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMCOMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
 
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptxSlides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
 
“Sobrou pra mim” - Conto de Ruth Rocha.pptx
“Sobrou pra mim” - Conto de Ruth Rocha.pptx“Sobrou pra mim” - Conto de Ruth Rocha.pptx
“Sobrou pra mim” - Conto de Ruth Rocha.pptx
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das Mães
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
 
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditadura
 
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
 
Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.
 

Bioestatística apostila MTM 364

  • 1. Apostila Bioestatística - MTM 364 Clandio Marques e Rodrigo Fioravanti
  • 2. Conteúdo I Princípios 4 1 Introdução 5 1.1 O Método Cientíco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Denição de Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 Fases do Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.1 Coleta dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.2 Crítica dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.3 Apuração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.4 Exposição ou Apresentação dos Dados . . . . . . . . . . . . . . . . . . . . . 10 1.3.5 Análise dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 II Estatística Descritiva 12 2 Conceitos Básicos 13 2.1 População e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Variáveis Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3 Tabelas e Distribuições de Frequência 16 3.1 Dados Absolutos e Dados Relativos . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2 Distribuição de Frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.3 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.4 Grácos de Colunas e Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5 Gráco de Pizza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.6 Box Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.7 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.8 Distribuição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4 Medidas de Posição 30 4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2 Média Aritmética (x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.3 Moda (Mo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.4 Mediana (Md ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.5 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5 Separatrizes 37 5.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.2 Decis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.3 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 1
  • 3. CONTEÚDO CONTEÚDO 6 Medidas de Dispersão 39 6.1 Dispersão ou Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 6.2 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6.3 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6.4 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6.5 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 6.6 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 7 Assimetria e Curtose 44 7.1 Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 7.2 Trabalho 02 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 III Teoria da Amostragem com Bioestat 47 8 Amostragem 48 8.1 Amostragem vs Censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 8.2 Amostragem Probabilística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 8.2.1 Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 50 8.2.2 Amostragem Aleatória Estraticada . . . . . . . . . . . . . . . . . . . . . . . 51 8.2.3 Amostragem Aleatória Sistemática . . . . . . . . . . . . . . . . . . . . . . . . 52 8.2.4 Amostragem Aleatória por Conglomerados . . . . . . . . . . . . . . . . . . . 53 8.3 Amostragem Não-Probabilística: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 8.4 Exercícios no Bioestat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 8.5 Tamanho Mínimo da Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 8.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 8.7 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 8.8 Trabalho 03 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 IV Estatística Inferencial com Bioestat 64 9 Probabilidade 66 9.1 Interpretações da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 9.2 A Interpretação da Probabilidade Segundo o Jogador . . . . . . . . . . . . . . . . . . 68 9.3 Probabilidade de Ocorrência de Um Evento . . . . . . . . . . . . . . . . . . . . . . . 68 9.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 9.5 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 9.6 Nível de Conança e de Signicância . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 10 Estimação de Parâmetros 71 10.1 Estimativas pontuais e intervalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 10.2 Intervalo de Conança para Média Populacional quando a Variância é Conhecida . . . 71 10.3 Intervalo de Conança para Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . 73 10.4 Exercícios no Bioestat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 11 Testes de Hipóteses 77 11.1 A Hipótese Nula e a Hipótese Alternativa . . . . . . . . . . . . . . . . . . . . . . . . 77 11.2 Erro Tipo 1 e Tipo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 11.3 Uso dos Testes de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 11.3.1 Testes uni e bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 11.3.2 Testes Paramétricos e Não-Paramétricos . . . . . . . . . . . . . . . . . . . . 82 2
  • 4. CONTEÚDO CONTEÚDO 12 Testes Paramétricos 84 12.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 12.2 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 12.3 Análise de Variância - ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 12.4 Teste de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 13 Teste Não-Paramétricos 92 13.1 Vantagens e Desvantagens dos Testes Não-Paramétricos . . . . . . . . . . . . . . . . 92 13.2 Teste Qui-Quadrado para Independência . . . . . . . . . . . . . . . . . . . . . . . . . 93 13.2.1 Aplicação do Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 93 13.2.2 Detalhes do Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 94 13.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 13.4 Trabalho 04 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 13.5 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 13.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 13.7 Teste de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 13.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 13.9 Trabalho 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 14 Correlação Linear 104 14.1 Diagrama de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 14.2 Coeciente de Correlação Linear - r . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 14.3 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 14.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 3
  • 6. Capítulo 1 Introdução Por Sidia C. Jaques Na literatura cientíca, consultada por prossionais das áreas biológica e da saúde, encontramos expressões como diferença estatisticamente signicativa, teste qui-quadrado de associaçãoe P 0,01, que reetem a importância, cada vez maior, dada pelos pesquisadores ao tratamento estatístico de seus dados. Quais serão as razões para o emprego de métodos estatísticos nos trabalhos cientícos? Em primeiro lugar, a estatística, longe de ser mais uma complicação matemática, tem se mostrado um instrumento extremamente útil na organização e na interpretação dos dados. Em segundo lugar, esta ciência propicia uma avaliação adequada da variabilidade observada nos processos biológicos. É sabido que existem diferenças entre os indivíduos e que eles reagem de forma diferente a estímulos idênticos; por outro lado, o mesmo indivíduo apresenta variações de um momento para outro. Em vista disto, o pesquisador consciencioso deseja saber qual o grau de conabilidade de seus resultados. Ele se pergunta, por exemplo, se os resultados poderiam ter sido obtidos por acaso, se o novo tratamento proposto foi realmente mais eciente, se a associação observada entre as variáveis é real, se o método de seleção de indivíduos foi adequado, se a análise dos dados empregou os métodos adequados s variáveis estudadas. Todas essas questões podem ser respondidas com o auxílio da estatística. O papel da estatística na investigação cientíca vai além de indicar a sequência de cálculos a serem realizados com os dados obtidos. No planejamento, ela auxilia na escolha das situações experimentais e na determinação da quantidade de indivíduos a serem examinados. Na análise dos dados, indica técnicas para resumir e apresentar as informações, bem como para comparar as situações experimen-tais. Na elaboração das conclusões, os vários métodos estatísticos permitem generalizar a partir dos resultados obtidos. De um modo geral, não existe certeza sobre a correção das conclusões cientícas; no entanto, os métodos estatísticos permitem determinar a margem de erro associada s conclusões, com base no conhecimento da variabilidade observada nos resultados. Inicialmente, a estatística ocupava-se em descrever quantitativamente os vários aspectos dos as-suntos de um governo ou estado1 , remontando época em que surgiram as primeiras cidades. Come- çava, então, a necessidade de se enumerarem coisas e pessoas para a avaliação das riquezas e para o cadastramento das propriedades. Os censos2 já eram realizados anualmente em Atenas e, a cada quadriênio, em Roma, nas festas de puricação da comunidade, quando era necessário saber se todos estavam presentes ou representados. Um dos primeiros censos de que se tem notícia escrita foi o ordenado pelo imperador romano César Augusto, realizado na Palestina, por volta do ano zero da era cristã. Outro recenseamento famoso foi o realizado, na Inglaterra, por Guilherme I, duque normando que havia derrotado os ingleses. O cadastro geral das coisas inglesas com ns de tributação, feito em 1085-1086, foi chamado pelos ingleses de 1O termo estatística surge da expressão em latim statisticum collegium palestra sobre os assuntos do Estado, de onde surgiu a palavra em língua italiana statista, que signica homem de estado, ou político, e a palavra alemã Statistik, designando a análise de dados sobre o Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por Schmeitzel na Universidade de Jena e adotada pelo acadêmico alemão Godofredo Achenwall. Aparece como vocabulário na Enciclopédia Britânica em 1797, e adquiriu um signicado de coleta e classicação de dados, no início do século XIX. 2Ela vem do Latim CENSUS, lista de nomes e propriedades dos cidadãos romanos 5
  • 7. 1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO Domesday (ou Doomsday) Book, o livro do juízo nal, nome que bem revela as expectativas da população quanta carga tributária por vir. Por muito tempo, o aspecto descritivo da estatística manteve-se como a única faceta desta ciência. As coisas começaram a mudar no século XVII, com as primeiras interpretações de dados. Em 1693, foram publicados, em Londres, os primeiros totais anuais de falecimentos, discriminados por sexo. Eram o resultado de levantamentos iniciados em 1517, quando a peste atacava periodicamente a Europa. Christian Huygens (1629-1695), físico e astrônomo holandês, construiu depois uma curva de mortalidade a partir dos dados publicados. O estudo formal da teoria de probabilidades, iniciado por Blaise Pascal (1623-1662) e Pierre de Fermat (1601-1665), constitui-se em importante marco no desenvolvimento da estatística. Graças a esses conceitos, a estatística começou a ser estruturada de modo a poder desempenhar seu papel mais nobre, o de auxiliar na tomada de decisões cientícas. Estudiosos de diferentes campos do conhecimento zeram a ligação entre os aspectos teóricos de probabilidade e estatística e a prática. Lambert Adolphe Jacques Quetelet (1796-1874), astrônomo e matemático belga, foi o primeiro a usar a curva normal fora do contexto da distribuição dos erros e aplicou conhecimentos estatísticos na solução de problemas de biologia, medicina e sociologia. Francis Galton (1822-1911) , por sua vez, empregou a estatística no estudo da variação biológica e tentou, sem sucesso, resolver problemas de hereditariedade. Karl Pearson (1857-1936) também interessou-se pela aplicação dos métodos estatísticos à biologia, em especial, a estudos sobre a seleção natural. Além de ser o pai do teste qui-quadrado, a ele se devem inúmeros estudos e medidas de correlação entre variáveis. Um aluno de Pearson, William S. Gosset (1876-1937), dedicou-se a solucionar problemas práticos com amostras pequenas. Um dos resultados de seus estudos é a distribuição t, de ampla aplicação em vários campos da ciência. Uma das guras modernas mais importantes da bioestatística (e da estatística em geral, já que desenvolveu métodos para solucionar vários tipos de problemas) foi, sem dúvida, Fisher , que assentou as bases para a experimentação estatisticamente controlada. Vários modos de analisar os dados de amostras pequenas foram propostos por Fisher, que também tem importantes contribuições na análise simultânea de muitas variáveis, dando considerável impulso ao uso da estatística em inúmeras áreas do conhecimento, particularmente na agronomia, na biologia e na genética. Figura 1.1: Sir Ronald Aylmer Fisher (1890-1962) 1.1 O Método Cientíco Adaptado de Serviço de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade do Porto(MedStatWeb) em http://stat2.med.up.pt/cursop/index.html 6
  • 8. 1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO O termo Métodorefere-se a um processo ordenado e padronizado de execução de uma determi-nada atividade e implica num conjunto de regras que especicam o modo como o conhecimento deve ser adquirido e apresentado e o modo de avaliação da verdade ou falsidade do mesmo. Três ideias elementares constituem a base do Método Cientíco: O ceticismo, isto é, a noção de que qualquer proposição ou armação, mesmo quando proferida por grandes autoridades, está sujeita à dúvida e à análise; O determinismo, ou seja, a noção de que a realidade está dependente de leis e causas regulares e constantes e não dos caprichos ou desejos dos demôniosou bruxas; O empirismo segundo o qual a investigação cientíca deve ser conduzida pela observação e veri- cação através da experiência. A indução é uma outra noção chave, provavelmente a mais importante e controversa do Método Cientíco e será focada mais adiante. Observação, descrição e medição: A descrição dos fenômenos naturais, envolvendo o registo preciso e válido de observações sobre pessoas, objetos ou acontecimentos, constitui a base empírica de todos os ramos da Ciência. As observações podem ser na forma de descrições nominais ou conjuntos de medições. As percepções pessoais e subjetivas têm que dar lugar às formulações descritivas e medições que possam ser enten-didas e replicadas por outros investigadores. Muitos dos avanços da Ciência, ao longo dos últimos séculos, devem-se diretamente ao desenvolvimento de instrumentos de auxílio à observação cada vez mais potentes. Não deve ser esquecido, no entanto, que o uso de instrumentação complexa não é indispensável à realização de observações cientícas. As características essenciais para uma obser-va ção poder ser considerada cientíca são a precisão, validade e reprodutibilidade. As observações, quando adequadamente sintetizadas e conrmadas por outros, constituem a base factual, empírica, do conhecimento cientíco. Generalização e Indução: Armações e medições representando observações são integradas em sistemas interpretativos de-signados Hipóteses e Teorias. A lógica subjacente à generalização inerente ao método cientíco é designada Indução. A indução permite o estabelecimento de proposições gerais sobre uma classe de fenômenos com base na análise de um número limitado de observações de elementos selecionados. Por exemplo, tendo vericado que a penicilina é útil na cura da pneumonia num número limitado de doentes, propõe-se a generalização - A administração de penicilina cura a pneumonia (em todos os doentes). Hipóteses: A proposição A administração de penicilina cura a pneumoniaé uma hipótese. Hipóteses ci-ent ícas são proposições que especicam a natureza da relação entre dois ou mais conjuntos de observações. No exemplo exposto, o primeiro conjunto de observações relaciona-se com a adminis-tra ção de penicilina, e o segundo, relaciona-se com as modicações das observações ou medições do estado clínico dos doentes no que se refere à pneumonia. Uma hipótese cientíca deve ser apresentada usando referências claras e observáveis, não podendo depender de interpretações subjetivas. Teorias: Teorias cientícas são, essencialmente, conjecturas que representam o nosso atual estado de conhecimento sobre o mundo real. As hipóteses são integradas em sistemas interpretativos mais abrangentes, designados teorias. A teoria tenta explicar as relações existentes entre diversos tipos de observações e hipóteses. Por exemplo, uma teoria que pretenda explicar porque certos fármacos designados antibióticos são ecazes na cura de certas doenças infecciosas terá que integrar evidências de variadas fontes, tais como a microbiologia, a farmacologia, a siologia celular e a medicina clínica. Deste modo, as teorias identicam as causas dos acontecimentos, e proporcionam meios conceituais de predição e inuência sobre esses mesmos acontecimentos. 7
  • 9. 1.2. DEFINIÇÃO DE ESTATÍSTICA CAPÍTULO 1. INTRODUÇÃO Dedução: As teorias cientícas devem levar à formulação de um conjunto de proposições empiricamente ve-ri cáveis, ou seja, hipóteses. As hipóteses são deduzidas, obedecendo à lógica formal, das proposições e/ou modelos matemáticos que especicam a relação causal postulada pela teoria. Por exemplo, se aceitarmos a teoria de que um conjunto de neurônios, anatomicamente adjacentes, do lobo occipital são responsáveis pela visão nos seres humanos, então, a hipótese que pode ser deduzida é a de que a ativação desses neurônios (por exemplo, através de estimulação por eletrodos) provocará o apare-cimento de certas sensações visuais. O teste das hipóteses através da observação deve ser levada a cabo, preferencialmente, em condições controladas. A observação deve ser controlada de modo a permitir o afastamento de hipóteses alternativas na explicação dos fenômenos sobre os quais se fez a predição. Por exemplo, se quisermos demonstrar que a estimulação do lobo occipital provoca sensações visuais, temos que mostrar que estamos controlando a observação para outro tipo de esti-mula ção cerebral que possa estar provocando tais sensações. Inversamente, teríamos, também, que demonstrar que a estimulação do lobo occipital não leva a uma série de outras sensações que não as visuais. Vericação: Depois da evidência ter sido colhida, o investigador decide se os achados são consistentes ou não com as predições da hipótese. Se a hipótese é conrmada pela evidência, então, a teoria de onde proveio a hipótese é fortalecida ou vericada. Porém, quando os dados não conrmam a hipótese, a teoria não é vericada. Se uma teoria não continua a conseguir predizer ou explicar as observações torna-se menos útil, e é normalmente substituída por novas teorias mais fortes e consistentes. Assim, as teorias cientícas não devem ser entendidas como verdades absolutas e nais, mas meras explicações provisórias da evidência existente até ao momento. Foi a aplicação do processo acima descrito que permitiu o espetacular crescimento do conhecimento cientíco a que temos assistido nos últimos séculos e, em especial, nos últimos cem anos. É desta forma que o método cientíco contribui para a concretização dos nossos objetivos, ajudando-nos a descrever, explicar, predizer e, por vezes, controlar o mundo em que vivemos. 1.2 Denição de Estatística Fonte: http://www.usp.br/aun/exibir.php?id=5023 Para Magalhães3 estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequên-cia da ocorrência de eventos, tanto em estudos observacionais quanto em experimentos que visam a modelar a aleatoriedade e a incerteza de forma a estimar valores nesses eventos. É claro que nem todas as pessoas têm formação para entender os cálculos feitos por quem trabalha na área, mas todos devem compreender as informações passadas por eles, pois lidamos com estatística o tempo todo, armou Magalhães. A compreensão se daria a partir do momento em que os professores desmisticam a matemática, fazendo isso, principalmente, com a alfabetização estatística, isto é, fazer os estudantes entender grácos e diagramas encontrados no cotidiano das pessoas, de modo a contextualizar a importância do que está sendo dito (Magalhães). A palavra estatística de do latim STATUS que signica ESTADO. Em suma, a Estatística é a ciência que aplica processos próprios para coletar, apresentar e interpretar adequadamente os dados, sendo numéricos ou não. Tem como objetivo apresentar informações sobre dados em análises para que se tenha maior compreensão dos fatos que os mesmos representam. É considerada um método cientíco pois resulta de um conjunto de regras e princípios que pro-duzem resultados controlados ou previsíveis a partir de dados aleatórios levando a um objetivo almejado. Há três ramos da estatística: descritiva, probabilística e inferencial. 3Marcos Magalhães, do Departamento de Estatística (MAE) do Instituto de Matemática e Estatística da Universidade de São Paulo (IME-USP) 8
  • 10. 1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO Estatística Descritiva: O conjunto de dados recolhidos em um estudo cientíco, pode variar desde poucas dezenas a vários milhares de valores. Esta informação bruta dicilmente poderá ser compreendida ou interpretada sem métodos que, de alguma forma, a sintetizem e descrevam. Estes métodos de síntese são designados por métodos de Estatística Descritiva. Assim, como o próprio nome diz, a estatística descritiva, organiza, sumariza e descreve um conjunto de dados, através da construção de grácos, tabelas, e com cálculo de medidas com base em uma coleção de dados numéricos. Ou seja, tenta tornar os dados mais fáceis de ler, interpretar e discuti-los. Tabela: é um quadro que resume um conjunto de observações. Grácos: são formas didáticas de apresentar os dados, com o objetivo de produzir uma impressão mais rápida dos dados ou fenômenos. Medidas descritivas: são formulações matemáticas usadas para interpretar grandes quantidades de dados agrupados (médias, desvios,...). Estatística Probabilística: É onde se estuda o acaso, ou seja, através de cálculos matemáticos, pretende-se prever a ocorrência de dados aleatórios. Estatística Inferencial: Destina-se à análise e interpretação de dados amostrais, ou seja, consiste em efetuar determinada mensuração sobre uma parcela pequena, mas típica, de determinada população e utilizar essa infor-ma ção para fazer inferências sobre a população toda. A exemplo: colocar a ponta do pé na água para avaliar a temperatura desta na piscina. 1.3 Fases do Método Estatístico Os dados estatísticos lidam com números, ou seja, envolvem a análise e interpretação de números. Para interpretar estes números faz-se necessária uma organização racional dos dados, portanto, inicia-se determinando a diferença entre dados e informação. Dados são números ou valores coletados primariamente, e quase sempre não tem sentido. Já a informação compreende o processamento dos dados, reduzindo a quantidade de detalhes e facilitando o encontro de relações. Portanto os dados, quando coletados, são reunidos através de técnicas estatísticas e posteriormente apresentados na forma de TABELAS ou GRÁFICOS; isto faz com que sejam eliminados detalhes não importantes e enfatizados os aspectos cruciais dos dados. Estes dados estatísticos são obtidos através de um processo que envolve a observação; e os itens observados são chamados de variáveis. Variáveis são valores que tendem a exibir certo grau de variabilidade quando se fazem mensurações sucessivas. 1.3.1 Coleta dos Dados Após o cuidadoso planejamento e a devida determinação das características mensuráveis do fenô- meno coletivamente típico que se quer pesquisar, damos início à coleta de dados numéricos necessários a sua descrição. A coleta pode ser direta ou indireta. A coleta é direta quando feita sobre elementos informativos de registro obrigatório (nascimento, casamento e óbitos, importação e exportação de mercadorias), elementos pertinentes aos prontuários dos alunos de uma escola ou, ainda, quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionamentos, como e o caso das notas de vericação e de exames, do censo demográco, etc.. A coleta direta de dados pode ser classicada relativamente ao fator tempo em: 9
  • 11. 1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO Contínua (registro) quando feita continuamente, tal como a de nascimento e óbitos e a de frequência dos alunos nas aulas; Periódica quando feita em intervalos constantes de tempo, como os censos (de 10 em 10 anos) e as avaliações mensais dos alunos; Ocasional quando feita extemporaneamente, a m de atender a uma conjuntura ou a uma emergência, como no caso de epidemias. A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhe-cimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que e feita através de dados colhidos por uma coleta direta. Mas se levarmos em consideração a natureza dos dados estes podem ser: Contínuos: trata-se de dados quantitativos em que as variáveis podem assumir virtualmente qual-quer valor num intervalo de valores, ou quando feita continuamente. Exemplo: altura, peso, comprimento, espessura, velocidade, etc. Discretos: também são dados quantitativos que só podem assumir valores inteiros. Os dados discretos surgem na contagem do número de itens com determinada característica. Exemplo: número diário de clientes, alunos numa sala, número de acidentes diários numa fábrica e outros. Nominais: são dados qualitativos e caracterizam-se pela denominação de categorias ou nomes, geralmente compreendem variáveis que não relacionam-se a priori com números. Exemplo: sexo, cor dos olhos, campo de estudo, desempenho no trabalho, etc. Por Posto: apesar de lidarem com números, são considerados dados de natureza qualitativa, pois se referem a avaliações subjetivas; quando se dispõem os itens segundo preferência ou desempenho. São valores relativos atribuídos para denotar ordem. Exemplo: primeiro, segundo, terceiro ... 1.3.2 Crítica dos Dados Obtidos os dados, eles devem ser cuidadosamente criticados a procura de possíveis falhas e im-perfei ções, a m de não incorrermos em erros grosseiros ou de certo vulto, que possam inuir sensi-velmente nos resultados. A crítica é externa quando visa as causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; e interna, quando visa observar os elementos originais dos dados da coleta. 1.3.3 Apuração dos Dados Nada mais é do que a soma e o processamento dos dados obtidos e a disposição mediante critérios de classicação. Pode ser manual, eletromecânica ou eletrônica. 1.3.4 Exposição ou Apresentação dos Dados Por mais diversa que seja a nalidade que se tenha em vista, os dados devem ser apresentados sob forma adequada (tabela ou gráco), tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico e ulterior obtenção de medidas típicas. 1.3.5 Análise dos Resultados O objetivo da Estatística e tirar conclusões sobre o todo (população) a partir de informações for-necidas por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (Estatística Descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferencial e tiramos desses resultados as conclusões e previsões. 10
  • 12. 1.4. LEITURA COMPLEMENTAR CAPÍTULO 1. INTRODUÇÃO 1.4 Leitura Complementar INFORMAÇÃO EM SAÚDE Arlinda B. Moreno Claudia Medina Coeli Sergio Munck GÊNESE DO CONCEITO E DESENVOLVIMENTO HISTÓRICO Para reetir sobre a expressão Informação em Saúde podemos nos remeter à necessidade existente, desde a antiguidade, do ser humano comunicar algo a alguém (ou a alguma coletividade) sobre sua própria saúde ou sobre a saúde de alguém (ou de algum grupo de pessoas) a ele relacionado. Ou seja, preliminarmente, a Informação em Saúde pode ser pensada como um compósito de transmissão e/ou recepção de eventos relacionados ao cuidado em saúde. Assim sendo, podemos inferir que não é tarefa fácil demarcar o início do uso dessa terminologia no campo da saúde. Mas, certamente, é a partir do século XIX, período que marca o recrudescimento dos estudos em epidemiologia, que a necessidade de comunicar questões relacionadas à saúde das populações se torna a grande alavanca para a disseminação das Informações em Saúde. Quase que concomitantemente, a estatística do nal desse século XIX e início do século XX, inspiradora de estudiosos como Benthan, Price, Laplace, Galton (Rosen, 1994) pode ser vista, também, como um ponto de partida importante para a geração de Informações em Saúde de forma agregada e preditiva. Daí, pode-se partir, sem muito pecado, para as primeiras peças da Informação em Saúde, compostas pelas Estatísticas Vitais, pelas Tábuas de Sobrevida, enm, por instrumentos de predição e inferência de estados de saúde a partir do status atual de um grupo de pessoas em determinado contexto de saúde. E, no correr da história, numerosos desdobramentos para a expressão Informação em Saúde transformaram-se, praticamente, em subáreas distintas e dirigidas, principalmente, a subsidiar, não apenas a população em geral, mas também gestores da área saúde: sobre: perl da população (de que adoece e morre, dados demográcos e socioeconômicos); serviços prestados; materiais e medicamentos consumidos; força de trabalho envolvida; para conhecer: necessidades da população atendida; uso potencial e real da rede instalada; investimentos necessários; a m de planejar, controlar e avaliar as ações e serviços de saúde (EPSJV, 2005). Como marcos históricos para tanto, tem-se, no século XVII, na Alemanha, o surgimento da cha-mada 'topograa política ou uma descrição das condições atuais do país', proposta por Leibniz, em cuja descrição deveriam constar: o número de cidades (maiores e menores) e de aldeias; a popula- ção total e a área do país em acres; a enumeração de soldados, mercadores, artesãos e diaristas; as informações sobre as relações entre os ofícios; o número de mortes e das causas de morte (Rosen, 1980). Em decorrência dessa e de outras ações semelhantes, surgiram os inquéritos de morbidade e as estatísticas dos serviços de saúde. Na gênese da vigilância epidemiológica, é inegável a inuência de Farr, que realizou atividades de coleta, processamento e análise de dados e sua divulgação para as autoridades sanitárias. Quando observamos o célebre estudo sobre o cólera realizado por Snow, é impossível negar o uso das Informações em Saúde constantes dos mapas de ponto e do raciocínio epidemiológico no controle desta doença, já no século XIX. A essa altura é, também, de suma importância destacar o papel fundamental do desenvolvimento das ciências da computação, no século XX, e, portanto, da informática como instrumental necessário e multiplicador tanto das metodologias estatísticas quanto das Informações em Saúde. Ressalte-se, também, que esse desenvolvimento tecnológico tem papel crucial em inovações intrínsecas à área da saúde, tais como: a) a disseminação e facilitação da acessibilidade à s bases de dados em saúde; b) o surgimento e a propagação da informática médica; c) a concepção e a implementação do prontuário eletrônico do paciente, entre outros. 11
  • 13. Parte II Estatística Descritiva 12
  • 14. Capítulo 2 Conceitos Básicos 2.1 População e Amostra População é o conjunto de entes portadores de, pelo menos, uma característica comum. Ex. fazer uma pesquisa entre os alunos das escolas de Ensino Fundamental: precisamos denir quais são os alunos que formam o universo, ou seja, os que atualmente estão no colégio ou devemos incluir os que já passaram pela escola? A solução do problema depende de cada caso em particular. Na maioria das vezes, por impossibilidade ou inviabilidade econômica ou temporal, limitamos a pesquisa a apenas uma parte da população. A essa parte proveniente da população em estudo denominamos amostra. Exemplo: O número de enfermeiros de um hospital é 233. Uma pesquisa sobre opção de horário de trabalho pode ser feita com apenas 20 enfermeiros tomados ao acaso. Tabela 2.1: Exemplos de População e Amostra Variável de Interesse População Amostra 1 Insalubridade Todos os enfermeiros do hospital 20 enfermeiros do hospital 2 Tipo Sanguíneo Total de enfermeiros do hospital enfermeiros do bloco cirúrgico 3 Tipo Sanguíneo Sangue num indivíduo de 70kg 3 gotas de sangue 4 Salário Enfermeiros no território brasileiro Alguns enfermeiros de cada estado 5 Anos de Trabalho Total de enfermeiros do hospital enfermeiros do pronto socorro 6 Número de Filhos Total de enfermeiros do hospital enfermeiros da pediatria 2.2 Variáveis Estatísticas Qualquer atributo medido numa pesquisa: renda familiar, número de indivíduos de uma família, etc. Variáveis Qualitativas: expressam qualidade. Representadas por palavras. Exemplo: sexo (masculino ou feminino), grau de instrução (fundamental, médio ou superior), estado civil (solteiro, casado, ...). 13
  • 15. 2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS Nominal: Os indivíduos são classicados em categorias segundo uma característica. Exemplo: hábito de fumar (fumante, não fumante), sobrepeso (sim, não). Não existe ordem entre as categorias e suas representações, se numéricas, são destituídas de signicado numérico. Exemplo: sexo masculino = 1, sexo feminino = 2. Os valores 1 e 2 são apenas rótulos. Exemplo: Você tem diabetes? Sim. Não. Não sei. Você é fumante? Sim. Não. Já fui. Exemplo: Qual é o seu tipo de sangue? A. B. AB. O. Não sei. Ordinal: Os indivíduos são classicados em categorias que possuem algum tipo inerente de ordem. Neste caso, uma categoria pode ser maiorou menordo que outra. Exemplo: nível sócio-econômico (A, B, C e D; onde A representa maior poder aquisitivo); nível de retinol sérico (alto, aceitável, baixo, deciente) onde alto: maior ou igual a 50,0 g/dl; aceitável: 20,0 a 49,9 g/dl, baixo: 10,0 a 19,9 g/dl e deciente: menor ou igual a 10,0 g/dl. Estes critérios são do Commitee on Nutrition for National Defense ICNND/USA, 1963 (in Prado MS et al , 1995). Variáveis Quantitativas: expressam quantidade. Representadas por números. Discretas: o resultado numérico da mensuração é um valor inteiro. Exemplo: número de refeições em um dia (nenhuma, uma, duas, três, quatro, ...), frequên-cia de consumo semanal de determinado alimento (1 vez, 2 vezes, 3 vezes, 4 vezes, 5 vezes, 6 vezes, 7 vezes), número de lhos. Contínuas: podem assumir qualquer valor do intervalo. Exemplo: estatura, salário, nível de retinol sérico (g/dl), circunferência da cintura (cm). Observação: É incorreto fazer a simplicação se tem número é quantitativo, pois muitas vezes, os números podem ser meros rótulos, tal como o número na camisa de um jogador. Exercício: Preencha o quadro abaixo VQO(variável qualitativa ordinal), VQN(variável qualitativa nominal), VQTD(variável quantitativa discreta), VQTC(variável quantitativa contínua) Tipos de variáveis. População Variável Opção para a variável Classicação Enfermeiros Salário bruto R$ 2003,52 do Brasil mensal Odontólogos de Anos de 1,5/2/4 uma clínica trabalho Professores do Produção 0, 1, 2, 3,... curso de Farmácia cientíca Funcionários Tipo A, B, AB, O de um hospital sanguíneo Enfermeiros Insalubridade Recebe, não recebe de um hospital Candidatos ao Sexo M, F curso de Nutrição Professores Número de 0, 1, 2, 3, ... UNIFRA nutricionistas Professores Nível de stress Alto, médio, baixo de um curso 2.3 Exercícios 1. Foi encomendado um estudo para avaliação de uma entidade de ensino superior. Para isso, aplicou-se um questionário e obtiveram-se respostas de 110 alunos. Indique: 14
  • 16. 2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS (a) a variável em estudo; (b) a população em estudo; (c) a amostra escolhida. 2. Os dados abaixo referem-se a medidas de prostaglandina (pg/ml) e cálcio (ml/dl) em pacientes com câncer apresentando ou não hipercalcemia. Classique as variáveis envolvidas no estudo, o tamanho amostral e as populações de interesse. Prostaglandina e cálcio em pacientes com câncer. IPGE Calcium status 500.00 13.30 hyper 301.00 13.40 hyper 254.00 10.10 nonhyper 150.00 8.60 nonhyper 100.00 9.70 nonhyper 3. Classique as seguintes variáveis em: Quantitativas (Discretas ou Contínuas) ou Qualitativas (Nominais ou Ordinais). (a) A cor da pele de pessoas (ex.: branca, negra, amarela). Variável do tipo e . (b) O número de consultas médicas feitas por ano por um associado de certo plano de saúde. Variável do tipo e . (c) O teor de gordura, medido em gramas por 24 horas, nas fezes de crianças de 1 a 3 anos de idade. (Ex: 23,4 g) Variável do tipo e . (d) O tipo de droga que os participantes de certo estudo tomaram, registrados como: Droga A, Droga B e placebo. Variável do tipo e . (e) A pressão intra-ocular, medida em mmHg, em pessoas. Variável do tipo e . (f) O número de lhos das pacientes participantes de certo estudo. Variável do tipo e . 15
  • 17. Capítulo 3 Tabelas e Distribuições de Frequência As tabelas sintetizam informações relevantes sobre uma ou mais variáveis a m de que tenhamos uma visão geral sobre a variável. Tabela é um quadro que resume um conjunto de observações. As tabelas devem obedecer ao seguinte postulado: Obter um máximo de esclarecimentos com um mínimo de espaço e tempo. Exemplos: Taxa de Colesterol (mg/dl) em 30 pacientes. 248 157 124 124 215 312 254 156 132 145 214 256 258 298 189 178 186 231 301 265 298 178 196 152 144 185 132 289 264 256 Distribuição de idade dos pacientes portadores de mieloma múltiplo. Idade (anos) Frequência Absoluta Frequência Relativa 10 - 19 57 18,54 20 - 29 113 37,42 30 - 39 57 18,87 40 - 49 32 10,62 50 - 59 19 6,29 60 - 69 7 2,29 70 2 0,67 Indeterminada 13 4,3 Total 302 100 Pacientes portadores de mieloma múltiplo. Ano do Diagnóstico Sexo Total Masculino Feminino 1998 50 44 94 1999 54 46 100 2000 59 49 108 Total 163 139 302 Uma tabela e mesmo um gráco podem ser decompostos em partes: Cabeçalho, Corpo e Rodapé. Partes de uma tabela. 16
  • 18. CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Cabeçalho - O cabeçalho, que é a apresentação do que a tabela está procurando representar, deve conter o suciente para que sejam respondidas as seguintes questões: O QUÊ? (referente ao fato), ONDE? (relativo ao lugar), QUANDO? (correspondente ao tempo). Exemplo: Acidentes de trabalho ocorridos no Hospital X em 2006. O quê? - (fato): Acidentes de trabalho. Onde? - (lugar): Hospital X. Quando? - (tempo): 2006. Corpo - O corpo de uma tabela é representado por uma série de colunas e subcolunas, dentro das quais são colocados os dados apurados. Segundo o corpo, as tabelas podem ser: de Entradas Simples, de Dupla Entrada e de Múltipla Entrada. Rodapé - No rodapé de uma tabela devemos colocar a legenda e todas as observações que venham a esclarecer a interpretação da tabela Geralmente também é no rodapé que se coloca a fonte dos dados embora em alguns casos ela possa ser colocada também no cabeçalho. A fonte serve para dar maior autenticidade à tabela. CONSIDERAÇÕES As tabelas utilizadas nos cálculos estatísticos em geral não servem para artigos cientícos pois são organizadas para facilitar os cálculos e entendimento das variáveis e não para a sua apresentação. por Sidia C. Jacques. Abaixo seguem as principais regras para a construção de tabelas em artigos cientícos: A tabela deve ser precedida de um título, sucientemente claro para que o leitor não necessite voltar ao texto para entender o conteúdo da mesma. a tabela é limitada por uma linha limitante superior e outra inferior, que indica seu nal. o cabeçalho deve ser separado do restante do texto por uma linha horizontal. Não se usam linhas verticais separando as colunas; usam-se espaços em branco. As abreviaturas e os símbolos pouco conhecidos devem se explicados no rodapé da tabela. Deve ser indicada a fonte dos dados. 17
  • 19. 3.1. DADOS ABSOLUTOS E DCAADPOÍTSURLEOLA3T. IVTOASBELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Nosso Padrão: No Excel, as tabelas devem conter todas as células centralizadas, o título e o rodapé devem ter o tamanho da tabela e suas células devem estar mescladas. A palavra tabela, o seu número e o traço devem estar em negrito, bem como a palavra fonte, quando existir. A palavra fonte deve estar também em itálico. O cabeçalho deve estar em negrito. Deve haver quatro linhas horizontais: uma limitante superior, uma inferior, uma separando o título do cabeçalho e uma entre o cabeçalho e o corpo da tabela. A palavra total, quando existir, deve estar em negrito. 3.1 Dados Absolutos e Dados Relativos Os dados estatísticos resultantes da coleta direta da fonte, sem outra manipulação senão a con-tagem ou medida, são chamados dados absolutos. A leitura dos dados absolutos é sempre cansativa e inexpressiva; embora esses dados traduzam um resultado exato e el, não tem a virtude de ressaltar de imediato as suas conclusões numéricas. Dados relativos são o resultado de comparações por quociente (razões) que se estabelecem entre dados absolutos e tem por nalidade realçar ou facilitar as comparações entre quantidades. Traduzem-se os dados relativos, em geral, por meio de percentagens. Exemplo: A tabela abaixo apresenta o número de irmãos relatados por 115 estudantes universi-t ários da UFRGS (dados obtidos entre 1986 e 1992) Quantidade de irmãos de alunos da UFRGS. No de irmãos Frequência 0 8 1 20 2 40 3 26 4 9 5 7 6 4 7 0 8 0 9 1 Total Determine o percentual de estudantes que têm 3 irmãos. 3.2 Distribuição de Frequências É uma tabela, onde os dados encontram-se dispostos em classes ou não, juntamente com as frequências correspondentes. Desta forma, podemos dividir as distribuições de frequências em dois tipos: Tabela de agrupamento simples Mostram os valores obtidos e o número de vezes que cada dado foi observado. Os valores obtidos, em geral, são colocados em ordem crescente e ao seu lado coloca-se a quantidade de vezes que cada valor ocorreu (frequência). Exemplo: 18
  • 20. 3.2. DISTRIBUIÇÃO DE FREQUCÊANPCÍTIAUSLO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Número de médicos na população, países selecionados, 1984. País Habitantes por Médico Chile 1.230 Brasil 1.080 França 320 EUA 470 Argentina 370 Exemplo: Número de cáries dos alunos do 1o ano do Colégio X; quantidade de livros de bioesta-t ística na biblioteca da UNIFRA. Número de cáries por aluno em uma escola X da cidade (Santa Maria/2008). Número de Cáries (Xi ) Número de Alunos (fi ) 0 35 1 20 2 13 3 6 4 4 5 ou mais 2 Total 80 Usada para variáveis qualitativas ou então quantitativas discretas com poucos valores diferentes. Tabela de agrupamento por intervalo de classe As classes são cada um dos intervalos que se subdivide os dados brutos a m de condensar a informação, mesmo que este procedimento perca algumas informações. Usada para variáveis quantitativas contínuas ou discretas com muitos valores diferentes. Geral-mente esta variável provém de medições. Exemplo: A seguir temos as notas nais dos estudantes, as quais, se não forem agrupadas em classes, geram tabelas com pouca utilidade prática. Notas nais de 50 estudantes da disciplina de bioestatística. 22 46 9 40 57 22 22 13 50 42 35 2 15 41 34 52 32 75 69 44 26 42 60 56 30 3 17 79 45 37 0 12 62 50 45 41 59 11 66 39 43 33 70 50 47 20 36 40 67 29 Então, agrupamos os dados em classes cujas notas variam de 10 em 10 e contamos quantas notas observadas estão em cada classe. A distribuição de frequência resultante será expressa pela tabela: Tabela 3.1: Notas nais de estudantes da disciplina de bioestatística. Notas fi 07!10 4 107!20 5 207!30 6 307!40 8 407!50 12 507!60 7 607!70 5 707!80 3 Total 50 Onde fi é a frequência absoluta das classes. 19
  • 21. 3.2. DISTRIBUIÇÃO DE FREQUCÊANPCÍTIAUSLO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Para explicar a colocação das notas dos alunos, segundo uma distribuição em classes, necessitamos de algumas denições: 1. Dados Brutos: Aqueles que não foram numericamente organizados, como é o caso das 50 notas dos alunos. 2. Rol: É o arranjo dos dados brutos em ordem de grandeza crescente ou decrescente: 0 2 3 9 11 12 13 15 17 20 22 22 22 26 29 30 32 33 34 35 36 37 39 40 40 41 41 42 42 43 44 45 45 46 47 50 50 50 52 56 57 59 60 62 66 67 69 70 75 79 3. Intervalo de Classe: Existem várias maneiras de apresentarmos o intervalo de classes: iguais ou diferentes entre si. Porém, sempre que possível, deveremos optar por intervalos iguais, o que facilitará os cálculos posteriores. O tamanho do intervalo de classe é denido pelo pesquisador. Mas mesmo com intervalos iguais, as distribuições poderão apresentar-se da seguinte forma: 0 10: compreende todos os valores entre 0 e 10, exclusive os extremos. 0 `a 10: compreende todos os valores entre 0 e 10, inclusive os extremos. 0 a 10: compreende todos os valores entre 0 e 10, inclusive o 10 e exclusive o 0. 07!10 (ou 0 ` 10): compreende todos os valores entre 0 e 10, inclusive o 0 e exclusive o 10. Como optamos por este último tipo (07! 10), podemos denir como intervalo de classe a diferença entre o limite superior e o limite inferior da classe. Portanto, no exemplo, 10 0 = 10 é o intervalo ou amplitude da classe. 4. Amplitude Total ou Range: é a diferença entre o maior e o menor dado. Em nosso caso, a nota maior é 79 é a menor é 0; logo, nossa amplitude total é 79 0 = 79. 5. Número de Classes (K): quantas classes serão necessárias para representar o fato? Existem vários critérios que podem ser utilizados a m de possuirmos uma idéia do melhor número de classes, porém tais critérios servirão apenas como indicação e nunca como regra xa, pois caberá sempre ao pesquisador estabelecer o melhor número, levando-se em conta o intervalo de classe e a facilidade para os posteriores cálculos numéricos. 6. Amplitude ou Intervalo de Classes (h): h = amplitude total número de classes Teríamos no exemplo: 79 7 = 12 Dessa forma, o pesquisador, usando o bom-senso e a sua experiência, vericará que seria mais conveniente a utilização de um intervalo de classe igual a 10 e de um número de classes igual a 8, para que facilite as operações posteriores. Assim sendo: Exemplo de intervalos de classe. Classe (i) Notas (ci ) Freq. (fi ) 1 07! 10 4 2 107! 20 5 3 207! 30 6 4 307! 40 8 5 407! 50 12 6 507! 60 7 7 607! 70 5 8 707! 80 3 Total 50 20
  • 22. 3.3. EXERCÍCIOS NO EXCEL CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Observação: O número de classes e a amplitude são usados como base para a montagem de uma tabela. Podemos aumentar ou diminuir o número de classes e arredondar uma amplitude decimal. Use o bom senso. 7. Frequência Relativa da Classe Corresponde ao quociente entre a frequência absoluta da classe e o total de elementos. No exemplo, a frequência relativa da 7a classe é: fr7 = 5 50 = 0; 1 = 10% Resumindo, teríamos: Tabela 3.2: Exemplo de intervalos de classe. Classe (i) Notas (ci ) Freq. (fi ) F.Rel.(f(r i)) 1 07! 10 4 2 107! 20 5 3 207! 30 6 4 307! 40 8 5 407! 50 12 6 507! 60 7 7 607! 70 5 10 8 707! 80 3 Total 50 3.3 Exercícios no Excel 1. Os pesos dos 40 alunos de uma classe estão abaixo descritos: Pesos de 40 alunos. 69 57 72 54 93 68 72 58 64 62 65 76 60 49 74 59 66 83 70 45 60 81 71 67 63 64 53 73 81 50 67 68 53 75 65 58 80 60 63 53 Construir a distribuição de frequência simples desta tabela. 2. Organizar os dados em uma tabela de frequência simples e relativa. Dados brutos. 154 160 164 166 170 155 160 164 166 170 156 160 164 166 171 157 161 164 167 172 158 161 164 167 172 158 161 165 168 173 159 162 165 168 173 159 162 165 168 174 159 162 165 169 176 159 164 165 169 177 3. Os dados abaixo referem-se à taxa de creatinina na urina de 24 horas (mg/100 ml), em uma amostra de 36 homens normais. Distribua os dados em classes e represente sua frequência absoluta e relativa. Nível de creatinina na urina (24h) 1,51 1,61 1,69 1,49 1,67 2,18 1,46 1,89 1,76 1,08 1,66 1,52 1,40 1,22 1,46 1,43 1,49 1,54 1,38 1,47 1,73 1,60 1,43 1,58 1,66 1,26 1,59 1,40 1,44 1,52 1,37 1,86 2,02 1,75 1,83 1,66 21
  • 23. 3.4. GRÁFICOS DE COLUNAS CEAHPIÍSTTUOLGOR3A.MTAASBELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 4. Os dados da tabela mostram o peso (kg) de 80 mulheres. Apresente-os em uma tabela de frequência. Pesos de 80 mulheres. 5. Substituir por uma única tabela o trecho do relatório a seguir: Assim sendo, podemos concluir que este banco, em 1995, contou com a colaboração de 345 funcionários, distribuídos pelas nossas 5 agências, a saber: Niterói, 43; Rio de Janeiro, 102; São Paulo, 98; Belo Horizonte, 75; Vitória, 27. Em Niterói, 38 eram do sexo masculino e no Rio de Janeiro, 87. Apenas em Vitória não existiam funcionárias, mas em São Paulo trabalharam 11 delas, enquanto que em Belo Horizonte, apenas 3. 6. A taxa de mortalidade infantil corresponde ao número médio de mortes, dentre 1000 crianças nascidas vivas, antes de completarem um ano de vida. Os dados da tabela representam a Taxa de mortalidade infantil dos municípios da Microrregião Oeste Catarinense (1982) e foram extraídos da publicação Municípios Catarinenses - Dados Básicos, 1987, GAPLAN - SC, que utiliza dados levantados pelo IBGE. Taxa de mortalidade infantil da microrregião. 32,3 62,2 10,3 22,0 13,1 9,9 18,3 33,0 20,0 22,7 27,2 11,9 36,4 23,5 18,0 22,6 20,3 38,3 32,9 29,9 29,7 39,2 25,4 19,6 28,9 18,4 27,3 21,7 23,7 13,9 23,8 15,7 17,0 36,3 Agrupe convenientemente os dados da tabela em classes (Distribuição de frequências). 3.4 Grácos de Colunas e Histogramas Os grácos de colunas (bastões) são comumente utilizados para representarem distribuições de frequências de grupamento simples enquanto que os histogramas representam distribuições em classes. Um histograma é composto por retângulos justapostos onde a base de cada um deles corresponde ao intervalo de classe e a sua altura à respectiva frequência. Exemplo: Construa o histograma da distribuição de frequência abaixo: Pressão arterial sistólica de 96 recém-nacidos. PAS(mmHg) f 55 ` 59 3 59 ` 63 5 63 ` 67 40 67 ` 71 24 71 ` 75 15 75 ` 79 8 79 ` 83 1 No Excel: Copie a tabela para o grid do Excel: 22
  • 24. 3.4. GRÁFICOS DE COLUNAS CEAHPIÍSTTUOLGOR3A.MTAASBELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Selecione toda a tabela e clique sobre inserir colunas colunas 2D (primeira opção) Você vai obter o seguinte gráco de colunas: Agora basta transformar este gráco de colunas num histograma, para isto, clique com o botão direito sobre qualquer uma das colunas e selecione Formatar Séries de Dados. Na janela que se abre, dena Largura do Espaçamento como 0% e clique sobre fechar. Você obterá o histograma abaixo. 23
  • 25. 3.5. GRÁFICO DE PIZZA CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indica-dor da distribuição de dados. Podem indicar se uma distribuição aproxima-se de uma função normal, como pode indicar mistura de populações quando se apresentam bimodais. 3.5 Gráco de Pizza Um gráco de setores (pizza) apresenta uma circunferência onde as fatiastêm tamanhos pro-porcionais à s frequências da distribuição considerada. Para o exemplo da pressão arterial visto acima, criamos um gráco de pizza selecionando: inserir pizza pizza 2D (primeira opção), obtendo a gura abaixo: 24
  • 26. 3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 3.6 Box Plots O boxplot (gráco de caixa) é um gráco utilizado para avaliar a distribuição do dados. O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. As linhas que se projetam para fora da caixa em ambos os lados estendem-se para valores adjacentes do gráco. Os valores adjacentes são as observações mais extremas no conjunto de dados que não estão a mais de 1,5 vez a altura da caixa além dos quartis. Todos os pontos fora do intervalo dos dados adjacentes são repesentados por círculos. Essas observações são consideradas fora do padrão e são chamadas de valores extremos. Exemplo: A tabela abaixo categoriza 10614 visitas ao consultório de especialistas de doenças cardiovasculares por duração de cada visita. Uma duração de 0 minuto implica que o paciente não teve contato direto com o especialista. 25
  • 27. 3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Duração Visitas (min) (milhares) 0 390 1 a 5 227 6 a 10 1023 11 a 15 3390 16 a 30 4431 31 a 60 968 mais de 61 185 No Bioestat: Grácos Box-Plot: mediana e quartis Obs: O Bioestat não mostra os valores extremos para o gráco Box-Plot: mediana e quartis. Para saber quais são os valores mostrados no gráco é preciso fazer a estatística descritiva: Estatísticas Estatística Descritiva 26
  • 28. 3.7. A DISTRIBUIÇÃO NORMAL CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 3.7 A Distribuição Normal Suponha que você faça um gráco das probabilidades dos números de caras esperados em 15 jogadas sucessivas de uma moeda, ou suponha 1.000 pessoas na rua, escolhidas aleatoriamente, para cujas alturas você faz um diagrama de frequência: Distribuição de probabilidade. Histograma 27
  • 29. 3.8. DISTRIBUIÇÃO DE PROBACBAPILÍITDUALDOE3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Esses dois grácos são semelhantes. Essa curva em forma de sino, chamada curva normal, é a curva mais importante da estatística. Há inúmeros exemplos de grandezas que se distribuem segundo a curva normal: a altura, o peso, ou o QI de uma população; os resultados da medida de uma grandeza física, como o peso molecular de um composto químico; o total que aparece quando vários dados são jogados simultaneamente; o número de clientes semanais em muitos negócios. A distribuição normal se aplica frequentemente em situações em que valores extremos são menos prováveis do que valores moderados. 3.8 Distribuição de Probabilidade A frequência relativa de um valor estima a probabilidade de ocorrência deste valor. Exemplo: A tabela tem sua representação gráca dada pelo gráco de colunas. Número de irmãos relatados por 115 estudantes da UFRGS entre 1986 e 1992. No de irmãos f fr Fr 0 8 0,07 0,07 1 20 0,17 0,24 2 40 0,35 0,59 3 26 0,23 0,82 4 9 0,08 0,90 5 7 0,06 0,96 6 4 0,03 0,99 7 0 0,00 0,99 8 0 0,00 0,99 9 1 0,01 1,00 Gráco de colunas relativo à tabela. 28
  • 30. 3.8. DISTRIBUIÇÃO DE PROBACBAPILÍITDUALDOE3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA A frequência relativa associada a x = 2 irmãos é de 0,35 na amostra estudada. Estima-se, então, que 35% dos universitários tem 2 irmãos. Isto equivale a dizer que se estima em 0,35 a probabilidade de que um universitário, selecionado ao acaso desta população, tenha dois irmãos. No gráco de bastões, a probabilidade estimada para cada valor é a altura do bastão. Exemplo: A tabela tem sua representação gráca dada pelo histograma. Pesos (kg) de 256 alunas da UFRGS. Peso (kg) f fr 407! 45 9 0,035 457! 50 36 0,141 507! 55 78 0,304 557! 60 55 0,215 607! 65 53 0,207 657! 70 11 0,043 707! 75 7 0,027 757! 80 5 0,020 807! 85 1 0,004 857! 90 1 0,004 P 256 1,000 Histograma relativo à tabela. No histograma, a área do retângulo referente ao intervalo 457! 50 corresponde a 14% da área de todo o histograma (100%). Portanto, a área deste retângulo é a representação geométrica da probabilidade estimada de se encontrar valores entre 45 e 50 na população. 29
  • 31. Capítulo 4 Medidas de Posição 4.1 Introdução O estudo que zemos sobre distribuições de frequência, até agora, permite-nos descrever, de modo geral, os grupos dos valores que uma variável pode assumir. Dessa forma, podemos localizar a maior concentração de valores de uma dada distribuição, isto é, se ela se localiza no início, no meio ou no nal, ou ainda, se há uma distribuição por igual. Porém, para ressaltar as tendências características de cada distribuição, isoladamente, ou em con-fronto com outras, necessitamos introduzir conceitos que se expressem através de números, que nos permitam traduzir essas tendências. Esses conceitos são denominados elementos típicos da distribui- ção e são as: a. medidas de posição; b. medidas de variabilidade ou dispersão; c. medidas de assimetria; d. medidas de curtose. Dentre os elementos típicos, destacamos, nesta unidade, as medidas de posição: estatísticas que representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo horizontal (eixo das abscissas). As medidas de posição mais importantes são as medidas de tendência central, que recebem tal denominação pelo fato de os dados observados tenderem, em geral, a se agrupar em torno dos valores centrais. Dentre as medidas de tendência central, destacamos: a média aritmética; a mediana e a moda. As outras medidas de posição são as separatrizes, que englobam a própria mediana; os quartis e os percentis. 4.2 Média Aritmética (x) Existem vários tipos de média (aritmética, ponderada, geométrica, harmônica, etc.), mas estuda-remos apenas a média aritmética. Média aritmética é o quociente da divisão da soma dos valores da variável pela quantidade deles: x = P xi n onde, x é a média aritmética, xi são os valores da variável e n é a quantidade de valores. Dados com agrupamento simples Quando desejamos conhecer a média dos dados não-agrupados, determinamos a média aritmética simples. 30
  • 32. 4.2. MÉDIA ARITMÉTICA (X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros, temos, para produção média da semana: x = 10 + 14 + 13 + 15 + 16 + 18 + 12 7 = 98 7 = 14 Logo, a média da produção de leite foi de 14 litros por dia. Às vezes, a média pode ser um número diferente de todos os da série de dados que ela representa. É o que acontece quando temos os valores 2, 4, 8 e 9, para os quais a média é 5. Esse será o número representativo dessa série de valores, embora não esteja nos dados originais. Neste caso, diz-se que a média não tem existência concreta. Exemplo: Determine a média dos volumes respiratórios forçados em um segundo para 10 adoles-centes que sofrem de asma, representados na tabela: Volumes respiratórios por indivíduo. Indivíduo FEV(litros) 1 2,30 2 2,15 3 3,50 4 2,60 5 2,75 6 2,82 7 4,05 8 2,25 9 2,68 10 3,00 P = Resp.: 2,81 litros Consideremos a distribuição relativa a 34 famílias de 4 lhos, tomando para variável o número de lhos do sexo masculino: Número de lhos por família. Número de meninos fi 0 2 1 6 2 10 3 12 4 4 P = 34 Neste caso, como as frequências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada pela fórmula: x = P xi fi P fi Um modo prático de obtenção da média ponderada é abrir, na tabela, uma coluna correspondente aos produtos xi fi . Assim, temos: Número de lhos por família. Número de meninos fi xi fi 0 2 1 6 2 10 3 12 4 4 TOTAL 34 31
  • 33. 4.2. MÉDIA ARITMÉTICA (X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO Observação: O valor médio obtido acima de 2,3 meninos sugere, neste caso, que o maior número de famílias tem 2 meninos e 2 meninas, sendo, porém, a tendência geral uma leve superioridade numérica em relação ao número de meninos. Com Intervalos de Classes Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, P e determinamos a sua média aritmética ponderada por meio da fórmula que já conhecemos: x = Pxi fi fi , porém, agora, xi é o ponto médio de cada classe. Exemplo: Altura de 40 alunos da escola X - Santa Maria - 2007. i Estaturas (cm) fi 1 150 ` 154 4 2 154 ` 158 9 3 158 ` 162 11 4 162 ` 166 8 5 166 ` 170 5 6 170 ` 174 3 TOTAL 40 Primeiro vamos abrir uma coluna para os pontos médios e outra para os produtos xi fi . Altura de 40 alunos da escola X - Santa Maria - 2007. i Estaturas (cm) fi xi xi fi 1 150 ` 154 4 2 154 ` 158 9 3 158 ` 162 11 4 162 ` 166 8 5 166 ` 170 5 6 170 ` 174 3 TOTAL 40 Resp.: 161cm Exercício: Determine a média de níveis séricos de colesterol entre os homens indicados na tabela: Níveis séricos de colesterol para homens de Santa Maria com idades entre 25 e 34 anos. Nível de colesterol(mg=10ml) fi xi xi fi 80 ` 120 13 120 ` 160 150 160 ` 200 442 200 ` 240 299 240 ` 280 115 280 ` 320 34 320 ` 360 9 360 ` 400 5 TOTAL 1067 Resp.: 199,34 Vantagens e desvantagens da média aritmética Por ser muito inuenciada por valores extremos da série, a média aritmética não representa bem as distribuições em que existem valores extremos em relação aos demais, como, por exemplo, a série 32
  • 34. 4.3. MODA (MO) CAPÍTULO 4. MEDIDAS DE POSIÇÃO cujos elementos são os seguintes: 18, 20, 22, 24 e 850 (onde a média aritmética é igual a 186,8, resultado que foi muito inuenciado pelo elemento 850). 1) Apesar de a média aritmética situar-se entre o menor e o maior resultado da distribuição de frequências, ela não tem, necessariamente, a existência real. Podemos obter, por exemplo, uma média do tamanho de família de 4,5 pessoas, que é um valor inexistente. 2) Pode ser calculada para distribuições com classes, mas os seus resultados não são considerados reais. 3) Pode ser calculada diretamente usando qualquer calculadora eletrônica. 4) Depende de todos os valores da distribuição. 5) Evidencia bastante estabilidade de amostra para amostra, ou seja, se pesquisarmos numerosas amostras extraídas de uma mesma população, os valores das médias obtidas tendem a variar pouco (pouca variabilidade com amostras da mesma população). 4.3 Moda (Mo) Denominamos moda o valor que ocorre com maior frequência em uma série de valores. Dados com agrupamento simples Quando lidamos com valores não-agrupados, a moda é facilmente reconhecida: basta procurar o valor que mais se repete. Exemplo: A série de dados: 7, 8, 9, 10, 10, 10, 11, 12, 13, 15 tem moda igual a 10. Podemos, entretanto, encontrar séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça mais vezes que outros. É o caso da série: 3, 5, 8, 10, 12, 13, que não apresenta moda (amodal). Em outros casos, ao contrário, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais. Na série: 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9 temos duas modas: 4 e 7 (bimodal). A moda é utilizada: quando desejamos obter uma medida rápida e aproximada de posição; quando a medida de posição deve ser o valor mais típico da distribuição. 33
  • 35. 4.4. MEDIANA (MD) CAPÍTULO 4. MEDIDAS DE POSIÇÃO 4.4 Mediana (Md) A mediana é outra medida de posição, denida como o número que se encontra no centro de uma série de números, estando estes dispostos segundo uma ordem (em Rol). Em outras palavras, a mediana de um conjunto de valores, ordenados segundo uma ordem de grandeza, é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. Exemplo: Seja a seguinte série de valores: 5, 13, 10, 2, 18, 15, 6, 16, 9. O primeiro passo é ordenar os números (ordem crescente ou decrescente): 2, 5, 6, 9, 10, 13, 15, 16, 18. Em seguida, tomamos aquele valor central que apresenta o mesmo número de elementos à direita e à esquerda. Em nosso exemplo, esse valor é o 10, já que, há quatro elementos acima dele e quatro abaixo. Temos, então: Md = 10 Se, porém, a série dada tiver um número par de termos, a mediana será, por denição, qualquer dos números compreendidos entre os dois valores centrais da série. Convencionou-se utilizar o ponto médio. Assim, a série de valores: 2, 6, 7, 10, 12, 13, 18, 21 tem para mediana a média aritmética entre 10 e 12. Md = 10 + 12 2 = 11 Vericamos que, estando ordenados os valores de uma série e sendo n o número de elementos da série, o valor mediano será: o termo de ordem n+1 2 , se n for ímpar; a média aritmética dos termos de ordem n 2 e n 2 + 1 , se n for par. A mediana é utilizada: quando desejamos obter o ponto que divide a distribuição em partes iguais; quando há valores extremos que afetam de uma maneira acentuada a média. Observação: No cálculo da média, todos os valores da amostra são levados em conta, ao passo que no caso da mediana isto não acontece. Por esta razão, valores muito grandes ou muito pequenos, comparados aos demais valores da amostra, causam grandes variações na média, o que em geral não ocorre com a mediana. Por isso, dizemos que a mediana é robusta, isto é, ela é resistente a valores atípicos. 4.5 Exercícios no Excel 1. A tabela abaixo lista as durações das terapias para dez pacientes inscritos em um estudo que investiga os efeitos da interrupção das transfusões de sangue. Determine a média desses valores. Duração da terapia de transfusão para 10 pacientes com doenças falciformes. Indivíduo Duração 1 12 2 11 3 12 4 6 5 11 6 11 7 8 8 5 9 5 10 5 TOTAL Resp.: 8,6 anos 34
  • 36. 4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO 2. Na sequência temos a massa (peso) em gramas, de ratos da raça Wistar com 30 dias de idade. (Fonte: Vieira, S., 1980). Calcule a média aritmética. 50 62 70 86 66 55 60 77 82 64 58 74 Resp.: 67 3. Os tempos de reação de um indivíduo a determinados estímulos foram medidos por um psico-logista como sendo 0,53; 0,46; 0,50; 0,49; 0,52; 0,53; 0,44 e 0,55 segundos, respectivamente. Determinar: os tempos médio, modal e mediano de reação do indivíduo a esses estímulos. Resp.: 0,50; 0,53; 0,51 4. Calcule a média dos números de dentes perdidos ou danicados em uma amostra de 50 pessoas tratadas em determinada clínica dentária (Fonte: Callegari- Jacques, S. 2003). Dentes perdidos ou danicados. Número de dentes (x) Número de pessoas (fi ) x fi 0 9 1 5 2 6 3 7 4 9 5 5 6 4 7 3 8 2 TOTAL 50 Resp.: 3,2 dentes 5. Calcule o número médio de dentes cariados, para cada sexo, a partir dos dados apresentados na tabela a seguir: Resp.: Masc.: 0,88 e Fem.: 1,6 Número de dentes cariados das pessoas tratadas em uma clínica dentária Santa Maria/RS. Número de Sexo dentes cariados Masculino Feminino 0 16 14 1 2 6 2 3 7 3 2 8 4 2 5 Total Resp.: Média Masc.: 0,88; Média Fem.: 1,6 6. Quinze indivíduos foram sujeitos à recolha de urina em dois momentos, antes da toma de um diurético e após a tomada desse diurético, tendo-se obtido os valores em litros/dia mostrados na tabela: Coleta de urina. Indiv. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Sem 1,2 1,2 1,2 1,2 1,1 1,3 1,8 1,2 1,1 1,4 1,1 1,3 1,1 1,2 1,3 Com 1,4 1,3 1,5 1,4 1,3 1,6 2,1 1,4 1,3 1,5 1,2 1,4 1,2 1,2 1,3 35
  • 37. 4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO a) Determine as medidas de localização central da urina sem diurético. Resp.: x = 1; 25; Md = 1; 2 e Mo = 1; 2. b) Determine as medidas de tendência central da urina com diurético. Resp.: x = 1; 41; Md = 1; 4 e Mo = 1; 3 e 1; 4. 7. Durante uma epidemia de escarlatina, recolheu-se um certo número de mortos, em 40 cidades de um país, obtendo-se os dados da tabela .(DIAZ e LOPEZ, 2007) Quantidade de mortos devido à escarlatina. Mortos(número) 0 1 2 3 4 5 6 7 Cidades 7 11 10 7 1 2 1 1 a) Calcule as medidas de posição central. Resp.: x = 1; 98; Md = 2 e Mo = 1. b) Calcule a porcentagem de cidades com pelo menos dois mortos. Resp.: 55% c) Calcule a porcentagem de cidades com no máximo 2 mortos. Resp.: 70% d) Calcule a porcentagem de cidades com no mínimo 3 mortos. Resp.: 30% 8. A tabela mostra a composição por idade e sexo de um grupo de trabalhadores, com tuberculose pulmonar, numa determinada cidade. Distribuição da tuberculose por sexo. Idade(anos) Homem Mulher Total 14 ` 19 2 2 4 19 ` 24 10 5 15 24 ` 29 33 9 42 29 ` 34 45 12 57 34 ` 39 39 8 47 39 ` 44 21 4 25 Total Pede-se: Qual é a média de idade dos trabalhadores do sexo masculino e feminino com tuberculose pulmonar. Resp.: F: 30,38 anos; M: 32,23 anos 36
  • 38. Capítulo 5 Separatrizes Como vimos, a mediana separa uma série de valores em dois grupos que apresentam a mesma quantidade de elementos. Assim, além das medidas de posição que estudamos, há outras que, consideradas individualmente, não são medidas de tendência central, já que se baseiam em sua posição na série. Essas medidas os quartis, os percentis e os decis são, juntamente com a mediana, conhecidas pelo nome genérico de separatrizes. 5.1 Quartis Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há, portanto, três quartis: a) O primeiro quartil (Q1): valor situado de tal modo na série que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores. b) O segundo quartil (Q2): evidentemente, coincide com a mediana (Q2 = Md ). c) O terceiro quartil (Q3) valor situado de tal modo que as três quartas partes (75%) dos termos são menores que ele e uma quarta parte (25%) é maior. 5.2 Decis e Percentis Os decis Di são valores que dividem os dados em 10 partes iguais enquanto que os percen-tis são os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos por P1; P2; P3; ; P32; ; P99. P50 = Md , P25 = Q1 e P75 = Q3 5.3 Exercícios no Excel 1. Com o objetivo de estudar a ecácia de um regime alimentar para tratamento de diabetes foram recolhidas 12 amostras de sangue em diabéticos e analisada a quantidade de açúcar. 37
  • 39. 5.3. EXERCÍCIOS NO EXCEL CAPÍTULO 5. SEPARATRIZES Obtiveram-se os resultados mostrados na tabela abaixo: Glicose de amostras sanguíneas (mg/100ml) 187.45 187.57 187.37 187.49 187.58 187.37 187.46 187.62 187.47 187.53 187.39 187.46 (a) Determine a média, moda e mediana. Resp.: x = 187:48 ; Mo = 187:37; Md = 187:465 (b) Determine os quartis Q1 e Q3. Resp.: Q1 = 187:42 ; Q3 = 187:55 2. Os dados referentes ao número de dentes cariados, perdidos ou obturados em uma amostra de 20 pessoas tratadas em uma determinada clínica dentária estão apresentados na tabela a seguir. Considerando dados brutos, pede-se: Dentes cariados, perdidos ou obturados. 6 4 1 0 2 3 0 5 0 4 4 6 0 1 3 5 8 3 2 7 Primeiro e o terceiro quartil . Interprete os resultados. Resp.: Q1 = 1 (25% do total tem 0 ou 1 cárie); Q3 = 3 3. Considerando 12 observações (ordenadas) do tempo de internação (dias) de acidentados no trabalho, em um certo hospital: 1, 4, 7, 9, 10, 13, 15, 17, 17, 18, 19, 21. Obtenha os quartis e interprete estes valores. Resp.: Q1 = 8, Q2 = 14 Q3 = 17; 5 38
  • 40. Capítulo 6 Medidas de Dispersão 6.1 Dispersão ou Variabilidade As medidas de dispersão procuram vericar o quanto os dados estão dispersos em torno de uma medida de posição (média, mediana ou moda), ou seja, elas informam o quanto os dados estão afastados, em média, do ponto central. Assim, não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades é a mesma, e igual a 24C, ainda assim somos levados a pensar a respeito do clima dessas cidades. Em uma delas poderá a temperatura variar entre limites de muito calor e de muito frio e haver, ainda, uma temperatura média de 24C. A outra poderá ter uma variação pequena de temperatura e possuir, portanto, no que se refere à temperatura, um clima mais favorável. Vemos, então, que a média ainda que considerada como um número que tem a faculdade de representar uma série de valores não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto. Exemplo: Consideremos os seguintes conjuntos de valores das variáveis x, y e z: X: 70, 70, 70, 70, 70. Y: 68, 69, 70, 71, 72. Z: 5, 15, 50, 120, 160. Calculando a média aritmética de cada um desses conjuntos, obtemos: X = 350 5 = 70 , Y = 350 5 = 70 e Z = 350 5 = 70. Vemos, então, que os três conjuntos apresentam a mesma média aritmética: 70. Entretanto, é fácil notar que o conjunto X é mais homogênea que os conjuntos Y e Z, já que todos os valores são iguais à média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversicação entre cada um de seus valores e a média representativa. Chamando de dispersão ou variabilidade a maior ou menor diversicação dos valores de uma variável em torno de um valor de tendência central tomado como ponto de comparação, podemos dizer que o conjunto X apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma dispersão ou variabilidade menor que o conjunto Z. Portanto, para qualicar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre à s medidas de dispersão ou de variabilidade. Dessas medidas, estudaremos a amplitude total, a variância, o desvio padrão e o coeciente de variação. 39
  • 41. 6.2. AMPLITUDE TOTAL CAPÍTULO 6. MEDIDAS DE DISPERSÃO 6.2 Amplitude Total É a diferença entre o maior e o menor valores observados e serve para ajudar a entender a dispersão dos dados, assim, amplitudes grandes indicam dados dispersos enquanto que amplitudes pequenas indicam que os dados são mais homogêneos. Exemplo: Consideremos quatro grupos de alunos cujas notas são: Grupo A 7, 5, 6, 9 e 8; Grupo B 9, 10, 4, 1, 8 e 10; Grupo C 5, 7, 7, 7,7, 7, 7, 7, 7 e 9; Grupo D 7, 7, 7 e 7. Com base na amplitude ou intervalo total, qual é o mais homogêneo? Resp.: Grupo B, Grupos A e C (empatados) e Grupo D. Comentário: Vimos acima que os grupos A e C são considerados igualmente homogêneos por terem o mesmo intervalo total. No entanto, um simples exame visual das notas respectivas nos leva a concluir que certamente o grupo C é o mais homogêneo, uma vez que dá para perceber que os seus elementos estão mais próximos entre si que os elementos do grupo A. O que de fato ocorre é que, infelizmente, o intervalo total não é uma medida capaz de quanticar de modo eciente a dispersão de uma série, uma vez que no seu cálculo interferem apenas os elemen-tos extremos (máximo e mínimo) da série, não avaliando o comportamento dos demais elementos. Utilizamos, assim, o intervalo total apenas para ter uma primeira informação sobre a dispersão da série, visando quase que somente a identicar o campo de variação dos seus elementos. 6.3 Variância e Desvio Padrão Como vimos, a amplitude total é instável, por se deixar inuenciar pelos valores extremos, que são, na sua maioria, devidos ao acaso. A variância e o desvio padrão são medidas que fogem a essa falha, pois levam em consideração a totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados. A variância baseia-se nos desvios em torno da média aritmética, porém determinando a média aritmética dos quadrados dos desvios. Assim, representando a variância por S2, temos: S2 = P (xi x)2 P fi Sendo a variância calculada a partir dos quadrados dos desvios, ela é um número em unidade quadrada em relação à variável em questão, o que, sob o ponto de vista prático, é um inconveniente. Por isso mesmo, imaginou-se uma nova medida que tem utilidade e interpretações práticas, deno-minada desvio padrão, denida como a raiz quadrada da variância e representada por s. Assim: S = pS2 Observações: Tanto o desvio padrão como a variância são usados como medidas de dispersão ou variabilidade. O uso de uma ou de outra dependerá da nalidade que se tenha em vista. A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extrema-mente importante na inferência estatística e em combinações de amostras. 6.4 Exercícios no Excel 1. Quatorze indivíduos que deram entrada no serviço de urgência de um Hospital apresentavam as seguintes pressões arteriais sistólicas: Ind. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 PAS 115 125 128 135 126 124 112 125 127 133 119 127 121 120 40
  • 42. 6.5. COEFICIENTE DE VARIAÇÃO CAPÍTULO 6. MEDIDAS DE DISPERSÃO (a) Determine as medidas de tendência central da PAS e comente os resultados. Resp.: x = 124; 07, Me = 125, Mo = 125e127 (b) Determine o desvio padrão. Resp.: 6,08 (c) Determine os quartis. Resp.: Q1 = 120 Q2 = 125 Q3 = 127 2. Foram analisados os níveis de concentração de albumina em dez adultos tendo-se obtido os seguintes resultados (g/l): Indivíduo 1 2 3 4 5 6 7 8 9 10 Albumina 19,7 19,9 20,9 20,7 20,9 20,8 20,9 21 19,5 19,4 a) Determine as medidas de localização de tendência central que conhece. Resp.: x = 20; 37 Me = 20; 75 Mo = 20; 9 b) Determine o desvio padrão. Resp.: 0,62 6.5 Coeciente de Variação O desvio padrão por si só não nos diz muita coisa. Assim, um desvio padrão de duas unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito. Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes. Para contornar essas diculdades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada coeciente de variação (CV). CV = S x 100 Exemplo: Tomemos os resultados das medidas das estaturas e dos pesos de um mesmo grupo de indivíduos: x S Estaturas 175 cm 5 cm Pesos 68 kg 2 kg CVE = 5 175 100 = 2; 85% CVP = 2 68 100 = 2; 94% Conclui-se que neste grupo de indivíduos, os pesos apresentam maior grau de dispersão que as estaturas. Exemplo: Admitamos, por exemplo, ser do nosso interesse comparar entre si, tendo em vista a homogeneidade, as séries relacionadas a seguir, juntamente com suas médias aritméticas e seus desvios padrões: Série Média Aritmética Desvio Padrão A(t) 80,8 t 10,0 t cm B(cm) 450,0 cm 10,0 cm C(oC) 32,6 oC 4,2 oC D(oC) 30,0 oC 2,6 oC E(oC) 8200,0 t 700,0 t Vamos calcular o coeciente de variação para cada uma das séries do exemplo acima: 41
  • 43. 6.6. EXERCÍCIOS NO EXCEL CAPÍTULO 6. MEDIDAS DE DISPERSÃO série A: V = 100 X 10,0/80,8 = 12,4% série D: V = 100 X 2,6/30,0 = 8,7% série B : V = 100 X 10,0/450,0 = 2,2% série E: V = 100 X 700,0/8 200,0 = 8,5 série C : V = 100 X 4,2/32,6 = 12,9% Podemos, assim, por possuir o menor coeciente de variação, armar que: a série B é mais homogênea que a série A; a série D é mais homogênea que a série C; a série E é mais homogênea que a série A. Listando as séries em questão, em ordem crescente de homogeneidade ou decrescente de dispersão, quanticada pela medida mais conveniente no caso, que é o coeciente de variação, temos: série C, série A, série D, série E e série B. Conforme acabamos de ver, além de ter o seu uso recomendado para a análise da dispersão de séries heterogêneas (unidades de medidas diferentes: metros, toneladas, litros etc.), o coeciente de variação serve ainda para compararmos séries que apresentam ordens de grandeza diferenciadas dos seus elementos (unidades, dezenas etc.). Como desvantagens, podemos citar a impossibilidade de usarmos o coeciente de variação para séries com médias aritméticas nulas e sua inconveniência de uso (como toda percentagem que se preza) no caso de termos séries com médias aritméticas muito pequenas (ou próximas de zero) que, ao sofrerem uma reduzida alteração, normalmente provocam grandes variações no coeciente de variação. 6.6 Exercícios no Excel 1. Em um exame nal de Matemática, o grau médio de um grupo de 150 alunos foi 7,8 e o desvio padrão, 0,80. Em Estatística, entretanto, o grau médio nal foi 7,3 e o desvio padrão, 0,76. Em que disciplina foi maior a dispersão? Resp.: Estatística 2. Medidas as estaturas de 1.017 indivíduos, obtivemos x = 162; 2 cm e S = 8,01 cm. O peso médio desses mesmos indivíduos é 52 kg, com um desvio padrão de 2,3 kg. Esses indivíduos apresentam maior variabilidade em estatura ou em peso? Resp.: Estatura 3. Um grupo de 85 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97 cm. Outro grupo de 125 moças tem uma estatura média de 161,9 cm, sendo o desvio padrão igual a 6,01 cm. Qual é o coeciente de variação de cada um dos grupos? Qual o grupo mais homogêneo? Resp.: 3,72 e 3,71, respectivamente; o segundo grupo 4. Um estudo foi realizado por um professor em três turmas, obtendo a média e o desvio padrão das notas de sua disciplina, conforme abaixo. Qual a turma com menor variabilidade? Justique adequadamente. Turma A B C Média 6,5 8,0 cm 8,0 Desvio Padrão 2,2 cm 1,7 2,0 Resp.: Turma B 5. [Excel] São fornecidos valores de nível de triglicérides (mg/dL) de 9 pessoas: 166 158 202 162 135 82 150 86 121 Calcule, apresentando o desenvolvimento da fórmula: a) o nível médio de triglicérides; Resp.: 140,22 b) o nível mediano de triglicérides; Resp.: 150 c) o desvio padrão do nível de triglicérides; Resp.: 36,66 d) o coeciente de variação do nível de triglicérides. Resp.: 26,14% 42
  • 44. 6.6. EXERCÍCIOS NO EXCEL CAPÍTULO 6. MEDIDAS DE DISPERSÃO 6. Considere as seguintes medidas descritivas das notas nais dos alunos de três turmas de Bioes-tat ística. Com base nesses dados, considere as seguintes armativas: Turma N. alunos Média Desvio Padrão A 15 6 1,31 B 15 6 3,51 C 14 6 2,61 1. Apesar de as médias serem iguais nas três turmas, as notas dos alunos da turma B foram as que se apresentaram mais heterogêneas. 2. As três turmas tiveram a mesma média, mas com variação diferente. 3. As notas da turma A se apresentaram mais dispersas em torno da média. Assinale a alternativa correta: a) Somente a armativa 3 é verdadeira. b) Somente a armativa 2 é verdadeira. c) Somente as armativas 2 e 3 são verdadeiras. d) Somente as armativas 1 e 2 são verdadeiras. e) Somente as armativas 1 e 3 são verdadeiras. Resp.: d 43
  • 45. Capítulo 7 Assimetria e Curtose As medidas de assimetria e curtose complementam as medidas de posição e de dispersão e dão uma interpretação da forma da distribuição. 7.1 Assimetria Mede a deformação da distribuição relativamente à sua simetria, ou seja, mede o quanto a distri-bui ção é assimétrica em relação a um eixo central. Exemplo: Seja o seguinte conjunto de dados: O gráco de colunas relativo a estes dados é o seguinte: Perceba que existe uma caudapara a direita destes dados, o que evidencia a sua assimetria: 44
  • 46. 7.2. TRABALHO 02 CAPÍTULO 7. ASSIMETRIA E CURTOSE A assimetria pode ser calculada através do coeciente de assimetria de Pearson (CA): CA = x Mo s onde, x é a média aritmética. Mo é a moda. Existem outras fórmulas para o cálculo do coeciente, mas não nos servem agora. Intensidade da assimetria (interpretação do coeciente de Pearson): 7.2 Trabalho 02 Instruções: As questões deverão ser respondidas no Excel; Cada planilha deve conter uma questão. O nome da planilha deve indicar o número da questão, por exemplo: Questão 1. As perguntas e os comentários das respostas devem estar em caixas de texto dentro da respectiva planilha. O nome do arquivo deve conter o seu nome e o nome do curso, por exemplo: RodrigoMatema-tica; O arquivo deve ser enviado para o e-mail rodrigopereira@unifra.br O assunto do email será Trabalho 02. Utilize o seu email da Unifra (acesse-o através do Alunonet). 1. Os dados abaixo representam as alturas de 60 indivíduos. Calcule a estatística descritiva (média, mediana, desvio padrão, Q1, Q3 e o coeciente de variação). 159 159 159 160 160 160 161 161 162 162 162 163 163 163 164 164 164 165 165 165 166 166 166 167 167 167 168 168 169 169 169 170 170 170 171 171 171 172 172 172 173 173 173 174 174 174 175 175 176 176 176 177 177 177 178 178 178 179 179 179 Responda: (a) Por que o CV deu um resultado tão baixo? 45
  • 47. 7.2. TRABALHO 02 CAPÍTULO 7. ASSIMETRIA E CURTOSE (b) Explique o valor da mediana? (c) Explique o valor do Q3? (d) Construa um histograma para esta distribuição no Excel e responda se é uma distribuição normal ou não. 2. As amostras de exames bioquímicos de sangue de 3 diferentes laboratórios apresentaram os níveis de creatinina mostrados no quadro: Exame 1 2 3 4 5 6 7 Laboratório A 0,6 0,4 0,5 0,8 0,2 0,8 - Laboratório B 0,7 0,8 0,6 0,9 0,5 1,1 0,3 Laboratório C 0,6 0,7 2,0 0,5 0,8 0,9 0,9 a) Calcule a média das creatininas de cada um dos laboratórios. b) Qual dos 3 laboratórios teve a menor dispersão? Qual das medidas estatísticas explica a tua resposta? 46
  • 48. Parte III Teoria da Amostragem com Bioestat 47
  • 49. Capítulo 8 Amostragem De uma forma geral, as populações ou universos nos quais o pesquisador está interessado são grandes demais para serem estudados na sua totalidade. O tempo necessário para estudar toda a população, as despesas e o número de pessoas envolvidas são de tal monta que tornam o estudo proibitivo. Por isso, o mais comum é se estudarem amostras retiradas da população de interesse. Para que os resultados obtidos em uma amostra possam ser generalizados para a população, isto é, para que se possam realizar inferências válidas, a amostra deve ser representativa da população. A melhor maneira de se obter uma amostra representativa é empregar um procedimento aleatório para a seleção dos indivíduos. Uma vantagem de se usarem amostras aleatórias é que, para este tipo de amostras, existem inúmeros métodos estatísticos que poderão auxiliar o pesquisador. Além disto, tal tipo de amostragem não dá oportunidade ao pesquisador de escolher, mesmo de forma inconsciente, uma amostra que favoreça a hipótese que ele gostaria de ver conrmada. 8.1 Amostragem vs Censo Quando estudamos todos os elementos de uma população, estamos realizando o que denominamos censo. O IBGE, por exemplo, realiza periodicamente (de dez em dez anos) o censo relativo a inúmeras características do Brasil; obtém dados a respeito da saúde, ensino, habitação, produção vegetal e animal, prestação de serviços, etc., em todo o território nacional, pesquisando todos os elementos da população. O censo, porém, nem sempre pode ou deve ser utilizado, devido à impossibilidade de estudar a população, por apresentar pouca precisão e em razão de seu custo econômico. Custo Reduzido Sendo os dados obtidos apenas de uma fração da população, as despesas são menores do que as oriundas de um censo. Tratando-se de grandes populações, pode-se obter resultados sucientemente precisos, para serem úteis, de amostras que representam apenas uma pequena fração da população. Segundo COCHRAN (1977), nos Estados Unidos, os mais importantes levantamentos periódicos, realizados pelo governo, usavam amostras de cerca de 100.000 pessoas, ou, aproximadamente uma pessoa em cada 1800. Maior Rapidez Os dados podem ser apurados e sintetizados mais rapidamente em uma amostragem do que em uma contagem completa. Este é um fator primordial, quando se necessita urgentemente das informações. O objetivo de uma investigação é o de conhecer a situação de um determinado fenômeno, no momento da coleta da informação, para que de acordo com a informação obtida, se possam tomar as medidas possíveis para resolver algum problema. Se o resultado dessa pesquisa for conhecido muito tempo depois, é bem possível que a situação que se pretendia resolver, seja nesse momento, completamente diferente da que existia no momento da coleta dos dados. 48
  • 50. 8.1. AMOSTRAGEM VS CENSO CAPÍTULO 8. AMOSTRAGEM Maior Amplitude e Flexibilidade Em certos tipos de investigação, tem-se que utilizar pessoal bem treinado e equipamento altamente especializado, cuja disponibilidade é limitada para a obtenção de dados. O censo completo torna-se impraticável e resta a escolha entre obter as informações por meio de uma amostra, ou não consegui-las de todo. Dessa forma, os levantamentos que se fundamentam na amostragem tem maior amplitude e exibilidade. Maior Exatidão Em virtude de se poder empregar pessoal de melhor qualidade e intensivamente treinado, e por se tornar exeqüível a supervisão mais cuidadosa do campo de trabalho e do processamento de dados, dada a redução no volume de trabalho, portanto, uma amostragem pode, na realidade, proporcionar resultados mais exatos que o censo. Não Destruição da População Pode ser impraticável investigar toda a população em determinados procedimentos de controle de qualidade. Por exemplo, se quisermos vericar a qualidade de uma marca de fósforos, necessitaremos riscá-los a m de vericar o seu funcionamento. Se inspecionarmos toda a população de fósforos, riscando-os, acabaremos com a população, pois o processo de aferição da qualidade do fósforo o destrói. Novamente, o estudo da população torna-se impraticável. Representatividade da Amostra Para que as conclusões da teoria de amostragem sejam válidas, as amostras devem ser escolhidas de modo a serem representativas da população. Isso signica que a amostra deve possuir as mesmas características básicas da população, no que diz respeito a (s) variável (eis) que desejamos estudar. Um plano de amostragem deve ser formulado para garantir a representatividade. Alguns procedimentos básicos para a obtenção de amostras aleatórias são apresentados a seguir: 49
  • 51. 8.2. AMOSTRAGEM PROBABILÍSTICA CAPÍTULO 8. AMOSTRAGEM 8.2 Amostragem Probabilística Note-se bem que o termo probabilístico se aplica a amostra escolhida de forma aleatória. Por envolver o sorteio, a seleção independe do pesquisador e elimina-se a possível tendenciosidade do mesmo. As amostragens probabilísticas geram amostras probabilísticas e os resultados podem ser projetáveis para a população total 8.2.1 Amostragem Aleatória Simples Uma amostra aleatória simples é aquela obtida de tal modo que todos os indivíduos da população têm igual probabilidade de serem selecionados. Para se obter uma amostra aleatória simples, atribui-se, inicialmente, um número a cada elemento da população. A seguir, por meio de um dispositivo aleatório qualquer (sorteio), seleciona-se a quan-tidade desejada de indivíduos. Um procedimento aleatório a ser utilizado pode ser colocar em uma urna todos os números que serão submetidos ao sorteio, retirando depois alguns à s cegas. Pode-se ainda usar os números de loteria sorteados nos últimos anos, ou uma tabela de números aleatórios, ou ainda programas de computador para selecionar aleatoriamente os componentes da amostra. Um ponto importante a salientar é que, usando este procedimento, nenhum indivíduo, por ter esta ou aquela característica, terá oportunidade maior de ser escolhido, pois a escolha independe da vontade do selecionador da amostra. Podemos realizar uma amostragem aleatória simples através do programa Bioestat, vejamos um exemplo: Exemplo: Um hospital precisa selecionar uma amostra contendo 5 de seus enfermeiros. Os nomes de todos os enfermeiros do hospital são mostrados a seguir: População: Lista dos enfermeiros do hospital. Aristóteles Anastácia Arnaldo Bartolomeu Bernardino Cardoso Carlito Cláudio Ermílio Ercílio Ernestino Endevaldo Francisco Felício Fabrício Geraldo Gabriel Getúlio Hiraldo João Joana Joaquim José Josena Mauro Paula Paulo Primeiro precisamos associar cada elemento da população a um número. Por simplicidade, con-sideraremos números inteiros sucessivos, com a mesma quantidade de algarismos, iniciando-se por 1 (um). Numeração dos elementos da população: População: Lista dos enfermeiros do hospital. 01.Aristóteles 02.Anastácia 03.Arnaldo 04.Bartolomeu 05.Bernardino 06.Cardoso 07.Carlito 08.Cláudio 09.Ermílio 10.Ercílio 11.Ernestino 12.Endevaldo 13.Francisco 14.Felício 15.Fabrício 16.Geraldo 17.Gabriel 18.Getúlio 19.Hiraldo 20.João 21.Joana 22.Joaquim 23.José 24.Josena 25.Mauro 26.Paula 27.Paulo Para extrairmos uma amostra aleatória simples de tamanho n = 5, precisamos sortear 5 números dentre os N = 27 disponíveis. No Bioestat: Estatísticas Amostragem Aleatória Sem Reposição Com isto obtemos a janela abaixo, onde inserimos os valores N = 27 e n = 5: 50
  • 52. 8.2. AMOSTRAGEM PROBABILÍSTICA CAPÍTULO 8. AMOSTRAGEM Em seguida, clicamos em Executare teremos uma janela semelhante a esta: Os números sorteados pelo Bioestat foram: 1-2-10-11-24 Estes números correspondem aos enfermeiros: Aristóteles - Anastácia - Ercílio - Ernestino - Jose- na, que são os 5 enfermeiros que irão compor a amostra. 8.2.2 Amostragem Aleatória Estraticada Às vezes, a população é constituída de subpopulações ou estratos e pode ser razoável supor que a variável de interesse apresenta comportamento diferente em cada estrato. Neste caso, para que uma amostra seja representativa, ela deve apresentar a mesma estraticação do universo de origem. Para garantir que o procedimento aleatório produza uma amostra estraticada adequada, devemos: 1. Vericar quais os estratos presentes na população. 2. Calcular seus tamanhos relativos (proporções). 3. Determinar o tamanho dos estratos na amostra, observando estas mesmas proporções. 4. Obter aleatoriamente os elementos para cada estrato, ou sorteando dentro de cada estrato, ou sorteando dentro da população e preenchendo os espaços reservados para cada estrato. Exemplo: Deseja-se avaliar o número médio de cáries em escolares de 8 anos de certa escola. Como parece razoável supor que esta variável depende do nível socioeconômico da criança, o procedimento de amostragem escolhido é o de amostragem por estratos. Para tanto: 1. Vericamos, inicialmente, quais os níveis socioeconômicos existentes nessa escola (suponha que sejam três: A, B e C). 2. Avaliamos a participação relativa de cada um, por exemplo, o nível A abrange 3% da população, o nível B, 22% e o C, 75%. 3. Determinamos então que, para uma amostra de 120 crianças, quatro deverão ser do nível A (pois 3% de 120 é 3,6), 26 do nível B e 90 do C. 4. Sorteamos, aleatoriamente, quatro dentre as crianças do nível A, 26 do B e 90 do C. Ou então realizamos o sorteio diretamente do total de crianças da escola e preenchemos as subamostras conforme os indivíduos vão sendo selecionados. Caso seja sorteado um número que corresponda a um aluno A e já tenham sido selecionadas quatro crianças para este estrato, o número é desprezado e o sorteio prossegue. 51