Estatística - Aula 4

331 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
331
On SlideShare
0
From Embeds
0
Number of Embeds
267
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Estatística - Aula 4

  1. 1. +Bioestatística - Universidade Católica de BrasíliaANOVA e modelosProf. Dr. Gabriel da Rocha FernandesUniversidade Católica de Brasíliagabrielf@ucb.br - fernandes.gabriel@gmail.com
  2. 2. +Ideias2nSeus resultados são quantitativos.nVocê tem multiplas variáveis que possam explicar seusresultados.nObjetivo é identificar a contribuição de diferentes variáveispara seu resultado final.nExemplo:n “For the button, an A/B test of three new word choices—”Learn More,”“Join Us Now,” and “Sign Up Now”—revealed that “Learn More”garnered 18.6 percent more signups per visitor than the default of “SignUp.” Similarly, a black-and-white photo of the Obama familyoutperformed the default turquoise image by 13.1 percent. Using boththe family image and “Learn More,” signups increased by a thundering40 percent.”
  3. 3. +ExemplonCarregar os dados:n movies <- read.table("movies.txt",sep="t",header=T,quote="")n head(movies)n factor(movies$rating)nRelacionando o score com rating:n recebe o valor lógico 1 se o filme for PG e 0 se nãofor.3
  4. 4. +ANOVA no RnFunção aov:n aovObject <- aov(movies$score ~ movies$rating)n aovObjectn aovObject$coefficientsnSegunda variável:n aovObject2 <- aov(movies$score ~ movies$rating + movies$genre)n aovObject24
  5. 5. +Interpretandonsummary(aovObject2)nInvertendo a ordem:n aovObject3 <- aov(movies$score ~ movies$genre + movies$rating)n summary(aovObject3)nPrimeiro F-value explica a variação gerada pela primeiravariável sem tomar em conta nenhuma outra variável.nSegundo F-value explica a variação gerada pela segundavariável que não foi explicada pela primeira.nPode adicionar variáveis quantitativas.5
  6. 6. +Resultados bináriosnMorreu/SobreviveunGanhou/PerdeunSucesso/FalhanBinário é o famoso “é/não é”nRegressão linear não funcionanCarregando os dados:n load("/var/www/fileserver/ravensData.rda")n head(ravensData)6
  7. 7. +Modelo linear dissonlmRavens <- lm(ravensData$ravenWinNum ~ ravensData$ravenScore)nsummary(lmRavens)nTem chance de 28% de ganhar se não marcar nenhum ponto?nA cada ponto marcado aumenta 1,5% a chance de ganhar?nPlotando:n plot(ravensData$ravenScore,lmRavens$fitted,pch=19,col="blue",ylab="Prob Win",xlab="Raven Score")nProbabilidade maior que 1?7
  8. 8. +ChancesnBinárion 0/1nProbabilidade (0,1)nnChances (0, inf)nnLog chance (-inf, inf)8
  9. 9. +Entendendo as chances9
  10. 10. +Regressão logísticanFunção:n logRegRavens <- glm(ravensData$ravenWinNum ~ ravensData$ravenScore,family="binomial")n summary(logRegRavens)nexp(b1) é o tanto que aumenta a chance do Ravens ganhar aomarcar um ponto.nPlotando:n plot(ravensData$ravenScore,logRegRavens$fitted,pch=19,col="blue",xlab="Score",ylab="Prob Ravens Win")10
  11. 11. +Chances e intervalos de confiançanChances menores que 1 quer dizer que é mais provável quepercam.nChances maiores que 1 quer dizer que é mais provável queganhem.nCalculando as chances e intervalo de confiaça:n exp(logRegRavens$coefficients)n exp(confint(logRegRavens))nInterpretando:n Chance 1 quer dizer que não há diferença entre ganhar e perder (50%/50%)n Se o intervalo de confiança engloba o valor “1” quer dizer que nãorelação entre os pontos marcados e a chance de ganhar. Existem outrosfatores.11
  12. 12. +ANOVA para regressão logísticanUsando Chi-quadrado:n anova(logRegRavens,test="Chisq")nChi-quadrado lida com probabilidades.12
  13. 13. +Selecionando o modelonCarregue os dados:n movies <- read.table("movies.txt",sep="t",header=T,quote="")n movies <- movies[,-1]nSelecionando:n lm1 <- lm(score ~ .,data=movies)n aicFormula <- step(lm1)n aicFormulanAIC fornece uma estimativa relativa da quantidade deinformação que você perde quando aplica aquele modelo.13

×