1. UNIFESP
Departamento de Informática em Saúde
Universidade Federal de São Paulo – UNIFESP
Introdução a Estatística
São Paulo, 07 de abril de 2007
Versão 3.0
Introdução a Estatística
Luís Gustavo Giesbrecht da Silveira
Vladimir Camelo Pinto
Thiago Martini da Costa
Orientador: Prof. Dr. Ivan Torres Pisa
Departamento de Informática em Saúde (DIS),
Universidade Federal de São Paulo (UNIFESP)
2. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Sumário
Definição de Estatística
•
Objetivos da Estatística
•
Introdução a Estatística
•
Conceitos básicos
•
Tipos de dados
•
Amostragem
•
Amostras pareadas
•
Testes paramétricos e não-paramétricos
•
Testes estatísticos
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
2
3. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Introdução a Estatística
Definição de Estatística
• A palavra estatística tem origem no latim, status (estado) e
aparece como vocabulário na Enciclopédia Britânica em 1797
(Filho, 1999)
• Estatística é uma coleção de métodos para planejar experimentos,
obter e organizar dados, resumí-los, analisá-los e deles extrair
conclusões (Triola, 1999)
Filho, UD. Introdução à Bioestatística. 9ªed. São Paulo: Elsevier; 1999.
TRIOLA MF - Introdução à estatística. 7ª. ed. Rio de Janeiro, LTC (Livro Técnico e Científico E.S.A.), 1999.
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
3
4. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Objetivos da Estatística
Sumarizar a coleção de observações;
•
Introdução a Estatística
•
Descrever o conhecimento de um dado assunto de forma
matemática;
•
Evitar manipulação de resultados;
•
Dar “polimento” a publicações;
•
Analisar a coleção de dados
•
Determinar correlações
•
Saber o grau de certeza das conclusões tiradas;
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
4
5. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Introdução a Estatística
Conceitos básicos
• População: qualquer conjunto de informação que tenha entre si uma
característica comum que delimite os elementos pertencentes a ela.
• Amostra: é um subconjunto de elementos pertencentes a uma
população.
• Variável: Dados referentes a uma característica de interesse,
coletados a partir de uma amostra.
Filho, UD. Introdução à Bioestatística. 9ªed. São Paulo: Elsevier; 1999.
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
5
6. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Introdução a Estatística
População, amostra, variável
Amostra
População
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
6
7. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
População, amostra, variável
Introdução a Estatística
Variável
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
7
8. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Tipos de Dados
Introdução a Estatística
Dados nominais / Variável qualitativa:
Sem qualquer ordem
Estes dados não são mensurados mas simplesmente contados
Dados ordinais / Variável ordinal:
Categorias que obedecem a uma ordem
Dados Contínuos / Variável quantitativas:
São aqueles em que o números são intrinsecamente significantes
e a diferença entre eles sempre tem a mesma implicação,
podendo existir valores intermediários
Leles CR. Princípios de Bioestatística. In: Estrela C. Metodologia Científica - Ensino e Pesquisa em Odontologia. 1a ed.São Paulo: Artes Médicas;
2001. cap.14, p.275-305.
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
8
9. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Classificação das Variáveis
Introdução a Estatística
Qualitativas
Medidas em escala nominal – ex: sexo, cor de olhos,
presença ou ausência de uma doença
Ordinais
Medidas em escala ordinal – ex: grau de instrução
(primário, secundário, superior), Papanicolau (I, II, III,
IV)
Quantitativas
Medidas em escala numérica – ex: idade, altura, peso,
número de dentes irrompidos
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
9
10. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Introdução a Estatística
Exercício
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
10
11. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Amostragem
Alguns aspectos que devem ser considerados
– Bias (viés)
– Tamanho da amostra
– Representatividade da amostra
Introdução a Estatística
•
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
11
12. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Amostragem
Introdução a Estatística
Probabilística (aleatória)
– Cada unidade amostral tem probabilidade conhecida e diferente
de zero de pertencer à amostra. Usa-se sorteios.
Não probabilística
– Não se conhece a probabilidade de cada unidade amostral
pertencer à amostra. Algumas unidades tem probabilidade zero
de pertencer à amostra.
Bergamaschi D.P. et al População, amostra, variável, coleta de dados, apuração de dados, apresentação tabular.
Disponível em http://www.fsp.usp.br/hep103/Aula1.pdf Último acesso: 05/05/2006
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
12
13. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Introdução a Estatística
Amostragens tipo
Amostragem probabilística
• Aleatória simples
• Sistemática
• Estratificada
• Por conglomerado
Amostragem não-probabilística
• Intencional
• Por voluntários
• Acesso mais fácil
• Por quotas
Bergamaschi D.P. et al População, amostra, variável, coleta de dados, apuração de dados, apresentação tabular.
Disponível em http://www.fsp.usp.br/hep103/Aula1.pdf Último acesso: 05/05/2006
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
13
14. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Introdução a Estatística
Amostras pareadas / Não pareadas
Amostras pareadas (dependentes)
– Mesmo indivíduo
– Irmãos gêmeos
– Duas observações em um mesmo indivíduo (ou gêmeos) são
mais provaveis de serem similares.
Amostras não pareadas
– Indivíduos são independentes
Shimakura , Silvia E. CE003 - Estatística II. Amostras Pareadas 2006.
http://leg.ufpr.br/~shimakur/CE003/node66.html
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
14
15. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Testes paramétricos e não-paramétricos
Introdução a Estatística
Testes paramétricos
– Parâmetros: média e desvio padrão
– Distribuição Normal
Testes não-paramétricos
– Distribuição dos dados não é Normal
– Ou não há elementos suficientes para afirmar que seja
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
15
16. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Teste Estatístico
Introdução a Estatística
•
A aplicação de um Teste Estatístico segue um raciocínio lógico
que se baseia em 4 questões que orientam o pesquisador em
suas decisões
1.
Qual o tipo de variável será estudada?
2.
Quantos conjunto de dados (amostras) estão sendo avaliados?
3.
As amostras são dependentes ou independentes?
4.
Qual o tipo de inferência que se quer obter a partir do estudo?
Leles CR. Princípios de Bioestatística. In: Estrela C. Metodologia Científica - Ensino e Pesquisa em Odontologia. 1a ed.São Paulo: Artes Médicas;
2001. cap.14, p.275-305.
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
16
17. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Teste Estatístico - Exemplo
Critérios para escolha do Teste Estatístico
Introdução a Estatística
“Estudo comparativo entre a análise cefalométrica computadorizada e manual em
diferentes centros radiológicos de São Paulo”
1. Qual o tipo de variável estudada?
Quantitativa
2. Quantos conjuntos de dados
(amostras) estão sendo avaliados?
Análises Cefalométricas
Computadorizadas e
manuais (2 amostras)
3. As amostras são dependentes ou
independentes?
Dependentes - Pareados
4. Qual o tipo de inferência que se quer
obter a partir do estudo?
Medir a variabilidade na
obtenção dos dados
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
17
18. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Testes estatísticos – variáveis quantitativas
Paramétricos
Não-Paramétricos
Introdução a Estatística
Independetes
Pareadas
Independetes
Pareadas
2 amostras
2 amostras
2 amostras
2 amostras
Mann-Withney
T. dos Sinais
Mac Nemar
Proporções
Teste t (Student)
T. da Mediana
X2 (2x2)
Teste t (Student)
Wilcoxon
Binomial
Exato (Fisher)
Mais de 2
ANOVA
Mais de 2
ANOVA
Mais de 2
Mais de 2
Kruscal Wallis
Cochram
Mediana (mxn)
Friedman
X2 (mxn)
Nemenyi
Campos, G.M. Estatística Prática para Docentes e Pós-Graduandos. 14. A escolha do teste mais adequado. 2000
Disponível em: http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap14.html Acessado em: 02/05/2007
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
18
19. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Testes estatísticos – variáveis qualitativas
Pareadas
2 amostras
Introdução a Estatística
Independetes
2 amostras
X2
Teste exato de
Fisher
Teste de McNemar
Teste das
proporções
Mais de 2
X2
Mais de 2
Q de Cochran
Leles CR. Princípios de Bioestatística. In: Estrela C. Metodologia Científica - Ensino e Pesquisa em Odontologia. 1a ed. São Paulo: Artes Médicas;
2001. cap.14, p.275-305.
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
19
20. UNIFESP
UNIFESP
Departamento de Informática em Saúde
UNIFESP
Universidade Federal de São Paulo – UNIFESP
Resumo da aula
Introdução a Estatística
•
Estatística é uma coleção de métodos para planejar experimentos,
obter e organizar dados, resumí-los, analisá-los e deles extrair
conclusões (Triola, 1999)
•
População, Amostra, Variável
•
Tipos de dados (Nominais, Ordinais, Numéricos)
•
Amostragem (Probabilística / Não Probabilística)
•
Amostras pareadas
•
Testes estatísticos (Paramétricos / Não paramétricos)
•
Testes estatísticos
TRIOLA MF - Introdução à estatística. 7ª. ed. Rio de Janeiro, LTC (Livro Técnico e Científico E.S.A.), 1999.
19/02/14
Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa
20
Editor's Notes
Duas definições:
A primeira etimológica
A segunda mais completa. Na segunda definição eu volto explicando cada um dos termos apresentados, dando ênfase que essa definição é bem completa.
A segunda definição serve ainda como uma introdução aos objetivos da estatística ... Como segue no próximo slide.
Esses são os conceitos básicos, exemplos deles vêm nos próximos dois slides
População é o universo de pessoas
Porém, quando deseja-se fazer alguma medida, realizar essa medida na população toda pode ser inviável
A Estatística permite que se pegue algumas pessoas e infere-se que o aquilo que acontece com esse subconjunto da população possivelmente aconteceria com a população também
A esse subconjunto chamamos de amostra
E qual é a variável que estamos quantificando?
Um exemplo de variável é a altura das pessoas
Este slide é uma brincadeira para demonstrar problemas de amostragem.
Eu pedi para dois alunos escolherem uma bola cada.
Nota-se que a maioria dos alunos escolhe uma bola grande.
Isso decorre do fato que as pessoas costumam pegar o que está visivelmente mais próximo ou que é mais fácil, a cor que mais gosta.
Isso pode gerar um problema quando se faz amostragens assim. Imagine que você vá fazer uma pesquisa com lobos selvagens e que você tenha que capturar os lobos para conduzir sua pesquisa. Será que os lobos que você capturou (amostragem) representam toda a população de lobos? Será que eles não são os lobos que têm dificuldade de locomoção, ou que não são tão ativos para escapar da armadilha que você preparou?
O mesmo problema acontece com amostragem de pacientes, geralmente pega-se pacientes de um hospital que você tem acesso, que é mais conveniente. A questão é ... Essa amostra é representativa?
AS PROBABILISTICAS PODEM SER
Aleatória simples
* população homegênea em relação à variável de interesse
* Exige listagem e faz-se um sorteio aleatório ou pseudo-aleatório
Amostragem sistemática
* semelhante à aleatória simples, mas a listagem é ORDENADA
* Divide-se o tamanho da população pelo tamanho da amostra obtendo-se um intervalo de retirada (k)
* Sorteia-se um ponto de partida e a cada k elementos retira-se um para a amostra
Amostragem estratificada
* População heterogênea em relação à variável sob estudo
* Porém dentro de cada estrato há homogeneidade
* Todos os estratos devem ser representados na amostra
* A escolha dos elementos de cada estrado pode ser por Amostragem Aleatória Simples ou Sistemática
Amostragem por conglomerados
* População considerada homogênea
* Divisão em subgrupos semelhantes (conglomerados)
* No sorteio dos conglomerados: analizam-se todos os sorteados; sorteiam-se todos os elementos dos conglomerados previamente sorteados
* Exemplo, em um condomínio, eu sorteio duas ruas, daí dessas duas ruas eu seleciono alguns indivíduos para fazer parte da minha amostra
AS NAO PROBABILISTICAS PODEM SER
Intencional
O pesquisador se dirige a um grupo específico para saber opniões. Exemplo, num estudo sobre automóveis o pesquisador vai apenas em oficinas
Voluntários
Acesso Mais fácil
conveniência, pacientes que são tratados no hospital onde o pesquisador trabalho.
Por quotas (ou proporcional)
* Variação da intencional, exemplo quer entrevistar trabalhadores de uma certa classe A, daí você seleciona quais são as cotas de trabalhadores que têm tais idades, que trabalham em tais regiões
Testes parametricos dizem respeito aos parametros média e desvio padrão. Por definição, Desvio Padrão é o ponto de inflexão da curva nornal, sendo assim os testes paramétricos são aqueles que envolvem distribuição normal.
Os não paramétricos são aqueles em que os dados não possuem distribuição normal ou que não há evidências suficientes para afirmar que a distribuição é ou não normal.
Em caso de dúvida, pode-se utilizar os não-paramétricos.