Upcoming SlideShare
×

# Estatística - Aula 1

441 views

Published on

Published in: Education
0 Likes
Statistics
Notes
• Full Name
Comment goes here.

Are you sure you want to Yes No
• Be the first to comment

• Be the first to like this

Views
Total views
441
On SlideShare
0
From Embeds
0
Number of Embeds
355
Actions
Shares
0
0
0
Likes
0
Embeds 0
No embeds

No notes for slide

### Estatística - Aula 1

1. 1. +Bioestatística - Universidade Católica de BrasíliaTrabalhando com dados e respondendo perguntasProf. Dr. Gabriel da Rocha FernandesUniversidade Católica de Brasíliagabrielf@ucb.br - fernandes.gabriel@gmail.com
2. 2. +O que são os dados?2nDados são valores de variáveis qualitativas ou quantitativas,pertencentes a um conjunto de itens.nConjunto de itens = população, objetos que você estáinteressado.nVariáveis = são medidas ou características de cada item.n Qualitativas: definidas por uma característica.n Quantitativas: mensuráveis
4. 4. +Exemplos: Illumina4@1:1:1927:1011:YNTGGATCTGTTTTAATTGTGCAGTCTACAACTTCCCCAAATCGAGACAAGTACTCTGTCAGATCTTTTTTGCTTGT+1:1:1927:1011:Y%(*((,/.--@@2.@:<:<<<:<8<97998::::798887<:8<<813885///.9889170777@:2202@@@@7@1:1:2536:1008:YNTTGAAGTCCACTCCAAAGTCAGTACTAAGAAAAGCAAGAGAAAAGGTACAGATGATTTTGACTTTGCTGGCTCAT+1:1:2536:1008:Y&++++113113::::@@:@@89999:8::::<222@@@@@<<:<22@@@@333333::::@@8@@@@@@@@@@@@@@1:1:2970:1008:YNAAATCCATAGATTTTTACCCAAAAGGCAAACTGATAATTTAAAAGGTAAGCCTCCTACTGAGCCAAAGCCCAAAC+1:1:2970:1008:Y############################################################################@1:1:2999:1012:YNGTAGAAGTCCACGTCGTGCAGCTTCTCCTTGCAGCGGGTCAGCTCCAGCTCCAGCCTCTCCACGCGGTTCGCCTT+1:1:2999:1012:Y############################################################################@1:1:3148:1011:YNACAAAAGCACAGGCAGAATCTCTATCTGTTTTTACGTTTCTCTTTCTTGCTTTGACTACTTGTTGCGCTGTTTAA+1:1:3148:1011:Y(220050077@@@@@@@@@@@@@@@@@@@@C@222@@@C@@@@C@@@C22@C@@C@@@@C@@CC@@@@@@@@@@@C@1:1:3398:1009:YNCTCATCTGAGTACACAGTGGGCTCCTCCCCCTCCTTCAGCAGTTTGCCCACGTGATGATACTTGAAAGTGAACTG+1:1:3398:1009:Y00//77777@@@@@<<<<<@@@@@@CC@2222222@@@C@8@@@@@@CC@CC@@@@@CC@CC@C@@@@@@@@@@:
8. 8. +Que tanto que existe?8
9. 9. +Filosofian“Os dados podem não conter a resposta. Uma combinação dealguns dados e uma vontade ardente por uma resposta nãogarantem que uma resposta plausível pode ser extraída de umcerto conjunto de dados...”Tukey9
10. 10. +Como expressamos sobre nossosdados?nCada ponto de dado é normalmente representado por umaletra maiúscula:n P para peso, A para altura, I para idade...nQuando temos mais que uma observação, escrevemos a letra eum número subescrito:n A1, A2, A3, para 3 a altura de 3 indivíduos.nTente usar letras informativas ao invés de genéricas: X,Y, Z...nGeralmente chamamos as variáveis aleatórias de X,Y...10
11. 11. +AleatoreidadenDifícil de falar, difícil de definir.nNossa definição:n Representa uma variável medida incompletamente.n Representa uma amostra da população selecionada aleatoriamente.nSe a variável deixa de ser aleatória e passa a ter um valor fixo,então a letrinha dela diminui. E o X passa a ser x.nX=x ou X=1 indica que observamos um valor específico x ou 1.11
12. 12. +Medições de aleatoreidadenArremesso de uma moeda é consirado aleatório.nUm experimento mostrou que existe uma probabilidade maiorde que uma moeda caia na mesma posição em que ela saiu.nUm a toa criou uma máquina que arremessa moedas, e em 95%das vezes cai em coroa.nhttp://player.vimeo.com/video/5293679nMesmo assim usamos X, pois não conhecemos os fatores físicosque determinam o lado que a moeda vai cair.12
13. 13. +DistribuiçõesnEm modelagem estatística, variáveis aleatórias são amostrasde uma distribuição.nUma distribuição nos diz sobre os possíveis valores de X e asprobabilidades de cada um deles.nDiscretasn Qualitativas são discretas.n Variáveis tem valores inteiros.nContinuasn Probabilidade para um intervalo de valores.n Variáveis são continuas.n Mas você pode ver alguns valores específicos.13
14. 14. +ParametrosnValores fixos que definem as distribuiçõesnRepresentados por letras gregas: μ, σ, λ.nDistribuições são definidas por parâmetros que vem nosparenteses. N(μ, σ), Poisson(λ).nX ~ N(μ, σ), significa que X obedece uma distribuição normal.nE[X] é a esperança (média) de X. Mede o centro dadistribuição.nVar[X], mede a dispersão em unidades ao quadrado.nSD[X] é o desvio padrão que mede a dispersão na mesmaunidade que X.14
15. 15. +CondicionamentonVariável X é considerada aleatória.nOs parâmetros são considerados valores fixos.nPodemos fixar o valor de uma variável aleatória.nUsamos um marcador de condição “|”nX|μ quer dizer que X é uma variável aleatória com valor fixadoem μ.nY|X=2 quer dizer que Y é uma variável aleatória quando X forfixado em 2.15
16. 16. +Distribuição binomialnDistribuição que descreve a soma de uma seria de arremessosde moedas.nVocê joga 10 moedas, e conta quantas vezes apareceram“cara”.nX ~ Bin(n,p)n n = numero de tentativasn p = probabilidade do evento acontecer16
17. 17. +Distribuição normalnDois parametros: média e desvio padrão.17
18. 18. +Tipos de dados em RnClasses:n Caracteres, Numericos, Inteiros, Lógicos...nObjetos:n Vetores, Matrizes, Data Frames, Listas, Fatores, Missing valuesnOperações:n Subamostragem, Subamostragem lógica.18
19. 19. +SimulaçõesnUsadas para simular dados para comparaçõesnDistribuições:n rbeta, rbinom, rnorm, rpois, rchisq, rcauchynDensidadesn dbeta, dbinom, dnorm, dpois, dchisq, dcauchynsample(,replace=TRUE), sample(replace=FALSE)19
20. 20. +rnorm e rbinom20
21. 21. +dnorm e dbinom21
22. 22. +sample22
24. 24. +set.seed24
25. 25. +Análise descritivanObjetivo: descrever um conjunto de dadosnPrimeiro tipo de análise a ser realizada.nComumente aplicada a dados de censo.nDescrição e interpretação são passos diferentes.nNão podem ser generalizadas sem um suporte estatístico,25
26. 26. +Análise exploratórianObjetivo: encontrar relaçõesnModelos exploratórios usados para descobrir novas relações.nDefinir estudos futuros.nQuase nunca chegam a uma conclusão final.nNão deve ser usada para uma predição ou generalização.nCorrelação não quer dizer causa.26
27. 27. +Analise inferencialnObjetivo: usar uma amostra pequena para dizer algo sobreuma população maior.nInferência é o objetivo da maioria dos modelos estatísticos.nInferir algo implica em estimar a quantidade do seu objeto deestudo e a incerteza sobre sua estimativa.nAltamente dependente da população com um todo e dométodo de amostragem.27
28. 28. +Análise preditivanObjetivo: usar dados em alguns objetos para predizer valorespara outro objeto.nSe X prediz Y, não quer dizer que X causaY.nA predição eficaz está associado ao uso de variáveis corretas.nPredição é muito difícil.28
29. 29. +Análise causalnObjetivo: descobrir o que acontece com uma variável quandovocê modifica outra.nSimulações aleatórias são usadas para verificar causa.nRelações de causalidade são identificadas como efeitosmédios, e por isso podem não se aplicar a todos os individuos.nModelos causais não normalmente o padrão ouro da análise dedados.nExemplo: Infecção intestinaln Um grupo recebe transplante de microbiotan Outro grupo aleatório não receben Observa-se as curas em relação ao tratamento.29
30. 30. +Origem dos dadosnOs dados são definidos por como eles são coletados.nCenso => descritivanObservações => inferencialnAmostragem por conveniência => viésnTestes aleatórios => causalnEstudos de predição => preditivonEstudos ao longo do tempo => inferencial, preditivonRetrospectiva => inferencial30
31. 31. +População31
32. 32. +CensonColeta dados de todos os indivíduos.nNão precisa usar subamostras para inferir algo sobre umapopulação maior.32
33. 33. +Observações33
34. 34. +Conveniência34
35. 35. +Testes aleatórios35
36. 36. +Estudos de prediçãonPrecisa de dois conjuntos de dados:n Treino: construir o modelo de prediçãon Teste: avaliar o modelo de prediçãonTreino: seleciona amostras aleatórias e colhe informações.n Tem cancer?n Fuma?n Faz exercícios?nTenta predizer um modelo usando a associação dos hábitos devida com a presença do cancer ou não.nUsa o modelo pra predizer se o indivíduo vai desenvolver umcancer, baseado nos hábitos do indivíduo.36
37. 37. +Estudos de predição37
38. 38. +Estudo ao longo do tempo: cross-sectional => inferencial38
39. 39. +Estudo ao longo do tempo:longitudinal => preditivo39
40. 40. +Retrospectiva40