Introdução A finalidade de uma equação de regressão seria então estimar valores de uma variável, com base em valores conhe...
Modelo Matemático <ul><li>Considere duas variáveis X e Y  tal que  y = f(x).   Dado um conjunto de  </li></ul><ul><li>valo...
<ul><li>Em um modelo estatístico, geralmente a variável resposta é afetada  </li></ul><ul><li>por várias variáveis; </li><...
Se apenas uma variável explicativa é observada, temos: Os erros também podem ser devido a erros obtidos no processo de  Me...
<ul><li>Determinar como duas variáveis se relacionam; </li></ul><ul><li>Estimar a função que determina a relação entre as ...
X Y    Coeficiente angular Regressão Linear Simples Inclinação populacional Intercepto populacional Erro Aleatório Variáv...
Ao estabelecer o modelo de regressão linear simples, pressupomos que: A relação entre  X  e  Y  é Linear; Os valores de X ...
Os estimadores de  e  Uma vez que o modelo foi especificado e as suposições foram feitas, devemos estimar os parâmetros da...
Os estimadores de  e  Na estimação por mínimos quadrados, queremos encontrar  e  que minimizam a soma dos quadrados dos re...
Somas de quadrados  Onde: e
Coeficiente de Determinação  O  coeficiente de determinação  ou simplesmente  . É uma medida da proporção da variabilidade...
Coeficiente de Determinação Corrigido  É importante enfatizar que a medida  depende do número de observações  da amostra, ...
Análise de Variância <ul><li>Agora, uma vez que o modelo foi ajustado e todos os parâmetros estimados  </li></ul><ul><li>s...
Análise de Variância A partir daí, procedemos à análise de variância do modelo linear,  dado pela tabela a seguir: se  H 0...
Testes de Hipóteses Entretanto, ainda existe outra maneira de se testar  :  Lembremos que, sob as suposições usuais do mod...
Intervalos de Confiança Outra forma para se avaliar a significância dos resultados obtidos para  b , que é o estimador de ...
Ajuste do Modelo Muitas vezes, podemos encontrar problemas na especificação da função que relaciona as variáveis (não line...
Função Potência  Esta função é dada pela expressão: O gráfico desta função é esboçado como: Aplicando o log em ambos os la...
Análises de Resíduos <ul><li>É importante, após a análise de regressão, testar se os pressupostos do modelo linear se apli...
Análises de Resíduos “ ideal”  2   não constante não linearidade não independência tempo “ outlier”
Aplicação
Software Estatístico R O Software R é um conjunto integrado de pacotes ou bibliotecas para manipulação de dados, cálculo e...
Sobre o banco de dados <ul><li>Para ilustrar os conceitos de regressão linear simples abordados nessa monografia, resolvem...
Estimando o modelo linear (lm()) > gfit = lm(Species ~ Endemics, data=gala) > gfit Call: lm(formula = Species ~ Endemics, ...
Plotando o gráfico de dispersão > plot(Species,Endemics) > abline(gfit)
Teste de significância (summary) >summary (gfit) Call: lm(formula = Species ~ Endemics, data = gala) Residuals: Min  1Q  M...
Intervalos de Confiança O intervalo de confiança para o coeficiente de regressão pode ser construído a partir do erro asso...
Resíduos e testes diagnósticos <ul><li>Importância da análise de resíduos; </li></ul><ul><li>Quebra de suposições; </li></...
Resíduos e testes diagnósticos <ul><li>Padronizando os resíduos; </li></ul>> padronizados = rstandard(gfit) <ul><li>Plotan...
Resíduos e testes diagnósticos <ul><li>Para verificar a normalidade dos resíduos utilizamos QQplot; </li></ul>> qqnorm(pad...
Conclusão <ul><li>Diante deste trabalho pode-se concluir que a análise de regressão é de grande valia para áreas onde ativ...
Upcoming SlideShare
Loading in...5
×

Modelo de regressão linear: aspectos teóricos e computacionais

17,992

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
17,992
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
287
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Modelo de regressão linear: aspectos teóricos e computacionais

  1. 2. Introdução A finalidade de uma equação de regressão seria então estimar valores de uma variável, com base em valores conhecidos da outra; Um economista pode tentar explicar as variações na procura de automóveis usados em termos de desemprego; Um agricultor pode suspeitar que a quantidade de fertilizante por ele usada tenha influenciado a safra; Dentro desse contexto, o objetivo desta monografia foi demonstrar as técnicas de análise de regressão dentro de uma abordagem teórica e computacional, utilizando o software estatístico R.
  2. 3. Modelo Matemático <ul><li>Considere duas variáveis X e Y tal que y = f(x). Dado um conjunto de </li></ul><ul><li>valores , os correspondentes valores de são </li></ul><ul><li>conhecidos exatamente; </li></ul><ul><li>Todos os pontos caem na curva da relação funcional; </li></ul><ul><li>Esse tipo de situação configura um modelo matemático ou determinístico. </li></ul>
  3. 4. <ul><li>Em um modelo estatístico, geralmente a variável resposta é afetada </li></ul><ul><li>por várias variáveis; </li></ul><ul><li>Então, analisamos Y como função apenas das K primeiras variáveis, </li></ul><ul><li>sendo que permanece um erro (ou resíduo), devido a não utilização das </li></ul><ul><li>outras m variáveis. </li></ul>Modelo Estatístico
  4. 5. Se apenas uma variável explicativa é observada, temos: Os erros também podem ser devido a erros obtidos no processo de Mensuração da variável dependente. Modelo Estatístico Assim, o modelo ficaria:
  5. 6. <ul><li>Determinar como duas variáveis se relacionam; </li></ul><ul><li>Estimar a função que determina a relação entre as variáveis; </li></ul><ul><li>Usar a equação ajustada para prever valores da variável dependente. </li></ul>Regressão Linear Simples Modelo de Regressão Linear Simples
  6. 7. X Y  Coeficiente angular Regressão Linear Simples Inclinação populacional Intercepto populacional Erro Aleatório Variável Independente Variável Dependente
  7. 8. Ao estabelecer o modelo de regressão linear simples, pressupomos que: A relação entre X e Y é Linear; Os valores de X são fixos, isto é, X não é uma variável aleatória; A média dos erros é nula, isto é: Para um dado valor x de X, a variância dos erros é sempre denotada variância residual, dizemos que o erro é homocedástico; O erro em uma observação é não correlacionado com o erro em qualquer outra observação; Os erros têm distribuição normal. Suposições do modelo
  8. 9. Os estimadores de e Uma vez que o modelo foi especificado e as suposições foram feitas, devemos estimar os parâmetros da regressão, e . Dados n pares de observações das var. X e Y, i=1,2,...,n, queremos encontrar uma equação do tipo: onde e são os estimadores de , e . Para cada par observado podemos estabelecer a seguinte relação: Resíduo
  9. 10. Os estimadores de e Na estimação por mínimos quadrados, queremos encontrar e que minimizam a soma dos quadrados dos resíduos. Ou seja, queremos tornar mínima a expressão: Para minimizar esta expressão em e , temos as derivadas em relação a e :
  10. 11. Somas de quadrados Onde: e
  11. 12. Coeficiente de Determinação O coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. Definimos o coeficiente de determinação ou explicação do modelo, que é dado por: O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.
  12. 13. Coeficiente de Determinação Corrigido É importante enfatizar que a medida depende do número de observações da amostra, sendo que tende a aumentar a medida que n diminui; Especialmente, para n=2 temos , já que dois pontos determinam uma única reta; Para contornar este problema, definimos o C.D.C para G.L; Dividindo as somas de quadrados pelos graus de liberdade temos:
  13. 14. Análise de Variância <ul><li>Agora, uma vez que o modelo foi ajustado e todos os parâmetros estimados </li></ul><ul><li>surgem a seguinte pergunta: </li></ul><ul><li>Existe realmente alguma relação linear entre X e Y ? Como podemos </li></ul><ul><li>responder isso estatisticamente ? </li></ul><ul><li>Para responder à pergunta , observamos que se ,não existe relação </li></ul><ul><li>linear explicando Y em função de X. </li></ul>Assim, a estatística F é uma estatística para testar contra quanto maior o valor de F, maior evidência a favor de
  14. 15. Análise de Variância A partir daí, procedemos à análise de variância do modelo linear, dado pela tabela a seguir: se H 0 verdadeiro (Não existe relação linear) se H 0 falso (existe relação linear)
  15. 16. Testes de Hipóteses Entretanto, ainda existe outra maneira de se testar : Lembremos que, sob as suposições usuais do modelo de regressão linear simples, temos que: Porém, não conhecemos o verdadeiro valor de e usamos o estimador. Logo: onde
  16. 17. Intervalos de Confiança Outra forma para se avaliar a significância dos resultados obtidos para b , que é o estimador de , é através da utilização de intervalos de confiança (IC's). Para construir um I.C para com de confiança, temos que encontrar um valor ,tal que:
  17. 18. Ajuste do Modelo Muitas vezes, podemos encontrar problemas na especificação da função que relaciona as variáveis (não linearidade); Pode ser verificado através de um gráfico de dispersão entre X e Y; Existem funções que podem ser transformadas em modelos lineares; Existem vários tipos de funções que podemos transformar, tais como: <ul><li>Função Potência; </li></ul><ul><li>Função Exponencial; </li></ul><ul><li>Função Hiperbólica. </li></ul>
  18. 19. Função Potência Esta função é dada pela expressão: O gráfico desta função é esboçado como: Aplicando o log em ambos os lados da igualdade podemos linearizar a função: e então, temos um modelo: com:
  19. 20. Análises de Resíduos <ul><li>É importante, após a análise de regressão, testar se os pressupostos do modelo linear se aplicam aos dados estudados; </li></ul><ul><li>Resíduos representam a diferença entre o valor observado de y e o </li></ul><ul><li>que foi predito pelo modelo de regressão; </li></ul><ul><li>A primeira forma de se avaliar resíduos é plotar um gráfico no qual os resíduos (y - ˆ y) são colocados no eixo vertical (y) e os valores esperados de y (b y) no eixo horizontal (x); </li></ul>
  20. 21. Análises de Resíduos “ ideal”  2 não constante não linearidade não independência tempo “ outlier”
  21. 22. Aplicação
  22. 23. Software Estatístico R O Software R é um conjunto integrado de pacotes ou bibliotecas para manipulação de dados, cálculo e visualização gráfica. Entre outras características, ele permite: Uma facilidade efetiva para manipulação e armazenagem de dados; Um conjunto de operadores para cálculos sobre quadros de dados, em particular as matrizes; Uma grande e coerente coleção integrada de ferramentas para análise de dados; Facilidades gráficas com capacidade de visualização na tela ou impressora; Uma linguagem de programação bem desenvolvida, simples e eficiente.
  23. 24. Sobre o banco de dados <ul><li>Para ilustrar os conceitos de regressão linear simples abordados nessa monografia, resolvemos utilizar um conjunto de dados chamado &quot;gala&quot;, que trata de um conjunto de dados relativo ao número de espécies de tartaruga sobre as várias ilhas Galápagos. </li></ul><ul><li>Estes dados estão contidos no livro Faraway (2004) o banco de dados é composto por 30 observações organizadas em sete colunas com cabeçalho, que são: Species, Endemics, Elevation, Area, Nearest, Scruz e Adjacent. </li></ul><ul><li>Neste trabalho utilizamos apenas as duas primeiras variáveis Species corresponde ao número de espécies de tartaruga encontrados na ilha, e a segunda coluna Endemics corresponde ao número de espécies endêmicas. </li></ul>
  24. 25. Estimando o modelo linear (lm()) > gfit = lm(Species ~ Endemics, data=gala) > gfit Call: lm(formula = Species ~ Endemics, data = gala) Coefficients: (Intercept) Endemics -21.048 4.072 <ul><li>Para ajustar um modelo de regressão a este conjunto de dados, de modo que Species = a + b(Endemics), precisamos utilizar a função lm() para criar um modelo linear; </li></ul><ul><li>Podemos visualizar os parâmetros estimados para a reta de regressão linear simples escrevendo o nome do objeto; </li></ul>
  25. 26. Plotando o gráfico de dispersão > plot(Species,Endemics) > abline(gfit)
  26. 27. Teste de significância (summary) >summary (gfit) Call: lm(formula = Species ~ Endemics, data = gala) Residuals: Min 1Q Median 3Q Max -71.791 -15.894 3.507 12.088 78.200 Coefficients: Estimate Std. Error t value Pr > | t | (Intercept) -21.0480 7.1138 -2.959 0.00622 ** Endemics 4.0721 0.1899 21.443 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1} Residual standard error: 27.95 on 28 degrees of freedom Multiple R-squared: 0.9426, Adjusted R-squared: 0.9406 F-statistic: 459.8 on 1 and 28 DF, p-value: < 2.2e-16
  27. 28. Intervalos de Confiança O intervalo de confiança para o coeficiente de regressão pode ser construído a partir do erro associado ao mesmo, usando a distribuição t , por exemplo, o valor crítico do t para os 28 graus de liberdade residuais do modelo, associado ao intervalo de confiança de 95% será: > qt(0.975,28) [1] 2.048407 E os limites de confiança para o coeficiente de regressão podem ser calculados como: > c(4.0721-2.048407*0.1899, 4.0721+2.048407*0.1899) [1] 3.683108 4.461092
  28. 29. Resíduos e testes diagnósticos <ul><li>Importância da análise de resíduos; </li></ul><ul><li>Quebra de suposições; </li></ul><ul><li>Normalidade; </li></ul>
  29. 30. Resíduos e testes diagnósticos <ul><li>Padronizando os resíduos; </li></ul>> padronizados = rstandard(gfit) <ul><li>Plotando os valores estimados contra os resíduos padronizados; </li></ul>> plot(Species,padronizados) > abline(h=0) <ul><li>Teste de homocedasticidade; </li></ul>> gqtest(gfit) Goldfeld-Quand test Data: modelo GQ= p-value = 0.2960 <ul><li>Uma série de gráficos estão disponíveis no R para o teste de premissas do modelo linear; </li></ul>
  30. 31. Resíduos e testes diagnósticos <ul><li>Para verificar a normalidade dos resíduos utilizamos QQplot; </li></ul>> qqnorm(padronizados) > qqline(padronizados) <ul><li>Teste de Normalidade; </li></ul>> shapiro.test(padronizados) Shapiro-Wilk normality test data: padronizados W = 0.9268, p-value = 0.06041
  31. 32. Conclusão <ul><li>Diante deste trabalho pode-se concluir que a análise de regressão é de grande valia para áreas onde atividades em que o planejamento do futuro é fundamental, nos dias atuais é impossível pensar em análise de regressão sem o uso de computadores devido a complexidade de cálculos e representações gráficas que são necessárias durante as análises. </li></ul><ul><li>Apesar do nosso enfoque ter sido, a análise de regressão linear explanando a utilização do software R, não deixamos de abordar toda a teoria que compõe esta técnica, pois acreditamos que a utilização de uma ferramenta estatística sem o aprofundamento teórico de nada tem serventia, pois o manuseio de um software estatístico deve ter sempre como suporte um adequado conhecimento das técnicas estatísticas envolvidas, </li></ul><ul><li>O aprofundamento de conhecimento sobre o software R ainda é bastante recente, no entanto explorarmos as potencialidades e benefícios do mesmo, e deixamos nossa contribuição para estudantes e professores que desejam conhecer e aplicar a análise de regressão utilizando o software estatístico R. </li></ul>
  1. Gostou de algum slide específico?

    Recortar slides é uma maneira fácil de colecionar informações para acessar mais tarde.

×