Estatística - Aula 1

441 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
441
On SlideShare
0
From Embeds
0
Number of Embeds
355
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Estatística - Aula 1

  1. 1. +Bioestatística - Universidade Católica de BrasíliaTrabalhando com dados e respondendo perguntasProf. Dr. Gabriel da Rocha FernandesUniversidade Católica de Brasíliagabrielf@ucb.br - fernandes.gabriel@gmail.com
  2. 2. +O que são os dados?2nDados são valores de variáveis qualitativas ou quantitativas,pertencentes a um conjunto de itens.nConjunto de itens = população, objetos que você estáinteressado.nVariáveis = são medidas ou características de cada item.n Qualitativas: definidas por uma característica.n Quantitativas: mensuráveis
  3. 3. +Dados crus x processadosnDados crus:n Vem da originalmente da fonte dos dados.n Geralmente é difícil de se adaptar a alguma análise.n A análise de dados inclui o pré processamento dos dados crus.nDados processados:n Dados prontos para serem analisados.n Incluem: união de dados, subamostragem, transformação...n Existem padrões para o pré processamento.n Todos os passos devem ser registrados.3
  4. 4. +Exemplos: Illumina4@1:1:1927:1011:YNTGGATCTGTTTTAATTGTGCAGTCTACAACTTCCCCAAATCGAGACAAGTACTCTGTCAGATCTTTTTTGCTTGT+1:1:1927:1011:Y%(*((,/.--@@2.@:<:<<<:<8<97998::::798887<:8<<813885///.9889170777@:2202@@@@7@1:1:2536:1008:YNTTGAAGTCCACTCCAAAGTCAGTACTAAGAAAAGCAAGAGAAAAGGTACAGATGATTTTGACTTTGCTGGCTCAT+1:1:2536:1008:Y&++++113113::::@@:@@89999:8::::<222@@@@@<<:<22@@@@333333::::@@8@@@@@@@@@@@@@@1:1:2970:1008:YNAAATCCATAGATTTTTACCCAAAAGGCAAACTGATAATTTAAAAGGTAAGCCTCCTACTGAGCCAAAGCCCAAAC+1:1:2970:1008:Y############################################################################@1:1:2999:1012:YNGTAGAAGTCCACGTCGTGCAGCTTCTCCTTGCAGCGGGTCAGCTCCAGCTCCAGCCTCTCCACGCGGTTCGCCTT+1:1:2999:1012:Y############################################################################@1:1:3148:1011:YNACAAAAGCACAGGCAGAATCTCTATCTGTTTTTACGTTTCTCTTTCTTGCTTTGACTACTTGTTGCGCTGTTTAA+1:1:3148:1011:Y(220050077@@@@@@@@@@@@@@@@@@@@C@222@@@C@@@@C@@@C22@C@@C@@@@C@@CC@@@@@@@@@@@C@1:1:3398:1009:YNCTCATCTGAGTACACAGTGGGCTCCTCCCCCTCCTTCAGCAGTTTGCCCACGTGATGATACTTGAAAGTGAACTG+1:1:3398:1009:Y00//77777@@@@@<<<<<@@@@@@CC@2222222@@@C@8@@@@@@CC@CC@@@@@CC@CC@C@@@@@@@@@@:
  5. 5. +Exemplos: Dados clinicos5
  6. 6. +Dados processadosnCada variável é uma coluna.nCada observação é uma linha.nCada tabela guarda a informação de um tipo de observação.6
  7. 7. +Dados processados7
  8. 8. +Que tanto que existe?8
  9. 9. +Filosofian“Os dados podem não conter a resposta. Uma combinação dealguns dados e uma vontade ardente por uma resposta nãogarantem que uma resposta plausível pode ser extraída de umcerto conjunto de dados...”Tukey9
  10. 10. +Como expressamos sobre nossosdados?nCada ponto de dado é normalmente representado por umaletra maiúscula:n P para peso, A para altura, I para idade...nQuando temos mais que uma observação, escrevemos a letra eum número subescrito:n A1, A2, A3, para 3 a altura de 3 indivíduos.nTente usar letras informativas ao invés de genéricas: X,Y, Z...nGeralmente chamamos as variáveis aleatórias de X,Y...10
  11. 11. +AleatoreidadenDifícil de falar, difícil de definir.nNossa definição:n Representa uma variável medida incompletamente.n Representa uma amostra da população selecionada aleatoriamente.nSe a variável deixa de ser aleatória e passa a ter um valor fixo,então a letrinha dela diminui. E o X passa a ser x.nX=x ou X=1 indica que observamos um valor específico x ou 1.11
  12. 12. +Medições de aleatoreidadenArremesso de uma moeda é consirado aleatório.nUm experimento mostrou que existe uma probabilidade maiorde que uma moeda caia na mesma posição em que ela saiu.nUm a toa criou uma máquina que arremessa moedas, e em 95%das vezes cai em coroa.nhttp://player.vimeo.com/video/5293679nMesmo assim usamos X, pois não conhecemos os fatores físicosque determinam o lado que a moeda vai cair.12
  13. 13. +DistribuiçõesnEm modelagem estatística, variáveis aleatórias são amostrasde uma distribuição.nUma distribuição nos diz sobre os possíveis valores de X e asprobabilidades de cada um deles.nDiscretasn Qualitativas são discretas.n Variáveis tem valores inteiros.nContinuasn Probabilidade para um intervalo de valores.n Variáveis são continuas.n Mas você pode ver alguns valores específicos.13
  14. 14. +ParametrosnValores fixos que definem as distribuiçõesnRepresentados por letras gregas: μ, σ, λ.nDistribuições são definidas por parâmetros que vem nosparenteses. N(μ, σ), Poisson(λ).nX ~ N(μ, σ), significa que X obedece uma distribuição normal.nE[X] é a esperança (média) de X. Mede o centro dadistribuição.nVar[X], mede a dispersão em unidades ao quadrado.nSD[X] é o desvio padrão que mede a dispersão na mesmaunidade que X.14
  15. 15. +CondicionamentonVariável X é considerada aleatória.nOs parâmetros são considerados valores fixos.nPodemos fixar o valor de uma variável aleatória.nUsamos um marcador de condição “|”nX|μ quer dizer que X é uma variável aleatória com valor fixadoem μ.nY|X=2 quer dizer que Y é uma variável aleatória quando X forfixado em 2.15
  16. 16. +Distribuição binomialnDistribuição que descreve a soma de uma seria de arremessosde moedas.nVocê joga 10 moedas, e conta quantas vezes apareceram“cara”.nX ~ Bin(n,p)n n = numero de tentativasn p = probabilidade do evento acontecer16
  17. 17. +Distribuição normalnDois parametros: média e desvio padrão.17
  18. 18. +Tipos de dados em RnClasses:n Caracteres, Numericos, Inteiros, Lógicos...nObjetos:n Vetores, Matrizes, Data Frames, Listas, Fatores, Missing valuesnOperações:n Subamostragem, Subamostragem lógica.18
  19. 19. +SimulaçõesnUsadas para simular dados para comparaçõesnDistribuições:n rbeta, rbinom, rnorm, rpois, rchisq, rcauchynDensidadesn dbeta, dbinom, dnorm, dpois, dchisq, dcauchynsample(,replace=TRUE), sample(replace=FALSE)19
  20. 20. +rnorm e rbinom20
  21. 21. +dnorm e dbinom21
  22. 22. +sample22
  23. 23. +sample com probabilidades23
  24. 24. +set.seed24
  25. 25. +Análise descritivanObjetivo: descrever um conjunto de dadosnPrimeiro tipo de análise a ser realizada.nComumente aplicada a dados de censo.nDescrição e interpretação são passos diferentes.nNão podem ser generalizadas sem um suporte estatístico,25
  26. 26. +Análise exploratórianObjetivo: encontrar relaçõesnModelos exploratórios usados para descobrir novas relações.nDefinir estudos futuros.nQuase nunca chegam a uma conclusão final.nNão deve ser usada para uma predição ou generalização.nCorrelação não quer dizer causa.26
  27. 27. +Analise inferencialnObjetivo: usar uma amostra pequena para dizer algo sobreuma população maior.nInferência é o objetivo da maioria dos modelos estatísticos.nInferir algo implica em estimar a quantidade do seu objeto deestudo e a incerteza sobre sua estimativa.nAltamente dependente da população com um todo e dométodo de amostragem.27
  28. 28. +Análise preditivanObjetivo: usar dados em alguns objetos para predizer valorespara outro objeto.nSe X prediz Y, não quer dizer que X causaY.nA predição eficaz está associado ao uso de variáveis corretas.nPredição é muito difícil.28
  29. 29. +Análise causalnObjetivo: descobrir o que acontece com uma variável quandovocê modifica outra.nSimulações aleatórias são usadas para verificar causa.nRelações de causalidade são identificadas como efeitosmédios, e por isso podem não se aplicar a todos os individuos.nModelos causais não normalmente o padrão ouro da análise dedados.nExemplo: Infecção intestinaln Um grupo recebe transplante de microbiotan Outro grupo aleatório não receben Observa-se as curas em relação ao tratamento.29
  30. 30. +Origem dos dadosnOs dados são definidos por como eles são coletados.nCenso => descritivanObservações => inferencialnAmostragem por conveniência => viésnTestes aleatórios => causalnEstudos de predição => preditivonEstudos ao longo do tempo => inferencial, preditivonRetrospectiva => inferencial30
  31. 31. +População31
  32. 32. +CensonColeta dados de todos os indivíduos.nNão precisa usar subamostras para inferir algo sobre umapopulação maior.32
  33. 33. +Observações33
  34. 34. +Conveniência34
  35. 35. +Testes aleatórios35
  36. 36. +Estudos de prediçãonPrecisa de dois conjuntos de dados:n Treino: construir o modelo de prediçãon Teste: avaliar o modelo de prediçãonTreino: seleciona amostras aleatórias e colhe informações.n Tem cancer?n Fuma?n Faz exercícios?nTenta predizer um modelo usando a associação dos hábitos devida com a presença do cancer ou não.nUsa o modelo pra predizer se o indivíduo vai desenvolver umcancer, baseado nos hábitos do indivíduo.36
  37. 37. +Estudos de predição37
  38. 38. +Estudo ao longo do tempo: cross-sectional => inferencial38
  39. 39. +Estudo ao longo do tempo:longitudinal => preditivo39
  40. 40. +Retrospectiva40

×