Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Modelo de regressão linear: aspectos teóricos e computacionais

21,132 views

Published on

Modelo de regressão linear: aspectos teóricos e computacionais

  1. 2. Introdução A finalidade de uma equação de regressão seria então estimar valores de uma variável, com base em valores conhecidos da outra; Um economista pode tentar explicar as variações na procura de automóveis usados em termos de desemprego; Um agricultor pode suspeitar que a quantidade de fertilizante por ele usada tenha influenciado a safra; Dentro desse contexto, o objetivo desta monografia foi demonstrar as técnicas de análise de regressão dentro de uma abordagem teórica e computacional, utilizando o software estatístico R.
  2. 3. Modelo Matemático <ul><li>Considere duas variáveis X e Y tal que y = f(x). Dado um conjunto de </li></ul><ul><li>valores , os correspondentes valores de são </li></ul><ul><li>conhecidos exatamente; </li></ul><ul><li>Todos os pontos caem na curva da relação funcional; </li></ul><ul><li>Esse tipo de situação configura um modelo matemático ou determinístico. </li></ul>
  3. 4. <ul><li>Em um modelo estatístico, geralmente a variável resposta é afetada </li></ul><ul><li>por várias variáveis; </li></ul><ul><li>Então, analisamos Y como função apenas das K primeiras variáveis, </li></ul><ul><li>sendo que permanece um erro (ou resíduo), devido a não utilização das </li></ul><ul><li>outras m variáveis. </li></ul>Modelo Estatístico
  4. 5. Se apenas uma variável explicativa é observada, temos: Os erros também podem ser devido a erros obtidos no processo de Mensuração da variável dependente. Modelo Estatístico Assim, o modelo ficaria:
  5. 6. <ul><li>Determinar como duas variáveis se relacionam; </li></ul><ul><li>Estimar a função que determina a relação entre as variáveis; </li></ul><ul><li>Usar a equação ajustada para prever valores da variável dependente. </li></ul>Regressão Linear Simples Modelo de Regressão Linear Simples
  6. 7. X Y  Coeficiente angular Regressão Linear Simples Inclinação populacional Intercepto populacional Erro Aleatório Variável Independente Variável Dependente
  7. 8. Ao estabelecer o modelo de regressão linear simples, pressupomos que: A relação entre X e Y é Linear; Os valores de X são fixos, isto é, X não é uma variável aleatória; A média dos erros é nula, isto é: Para um dado valor x de X, a variância dos erros é sempre denotada variância residual, dizemos que o erro é homocedástico; O erro em uma observação é não correlacionado com o erro em qualquer outra observação; Os erros têm distribuição normal. Suposições do modelo
  8. 9. Os estimadores de e Uma vez que o modelo foi especificado e as suposições foram feitas, devemos estimar os parâmetros da regressão, e . Dados n pares de observações das var. X e Y, i=1,2,...,n, queremos encontrar uma equação do tipo: onde e são os estimadores de , e . Para cada par observado podemos estabelecer a seguinte relação: Resíduo
  9. 10. Os estimadores de e Na estimação por mínimos quadrados, queremos encontrar e que minimizam a soma dos quadrados dos resíduos. Ou seja, queremos tornar mínima a expressão: Para minimizar esta expressão em e , temos as derivadas em relação a e :
  10. 11. Somas de quadrados Onde: e
  11. 12. Coeficiente de Determinação O coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. Definimos o coeficiente de determinação ou explicação do modelo, que é dado por: O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.
  12. 13. Coeficiente de Determinação Corrigido É importante enfatizar que a medida depende do número de observações da amostra, sendo que tende a aumentar a medida que n diminui; Especialmente, para n=2 temos , já que dois pontos determinam uma única reta; Para contornar este problema, definimos o C.D.C para G.L; Dividindo as somas de quadrados pelos graus de liberdade temos:
  13. 14. Análise de Variância <ul><li>Agora, uma vez que o modelo foi ajustado e todos os parâmetros estimados </li></ul><ul><li>surgem a seguinte pergunta: </li></ul><ul><li>Existe realmente alguma relação linear entre X e Y ? Como podemos </li></ul><ul><li>responder isso estatisticamente ? </li></ul><ul><li>Para responder à pergunta , observamos que se ,não existe relação </li></ul><ul><li>linear explicando Y em função de X. </li></ul>Assim, a estatística F é uma estatística para testar contra quanto maior o valor de F, maior evidência a favor de
  14. 15. Análise de Variância A partir daí, procedemos à análise de variância do modelo linear, dado pela tabela a seguir: se H 0 verdadeiro (Não existe relação linear) se H 0 falso (existe relação linear)
  15. 16. Testes de Hipóteses Entretanto, ainda existe outra maneira de se testar : Lembremos que, sob as suposições usuais do modelo de regressão linear simples, temos que: Porém, não conhecemos o verdadeiro valor de e usamos o estimador. Logo: onde
  16. 17. Intervalos de Confiança Outra forma para se avaliar a significância dos resultados obtidos para b , que é o estimador de , é através da utilização de intervalos de confiança (IC's). Para construir um I.C para com de confiança, temos que encontrar um valor ,tal que:
  17. 18. Ajuste do Modelo Muitas vezes, podemos encontrar problemas na especificação da função que relaciona as variáveis (não linearidade); Pode ser verificado através de um gráfico de dispersão entre X e Y; Existem funções que podem ser transformadas em modelos lineares; Existem vários tipos de funções que podemos transformar, tais como: <ul><li>Função Potência; </li></ul><ul><li>Função Exponencial; </li></ul><ul><li>Função Hiperbólica. </li></ul>
  18. 19. Função Potência Esta função é dada pela expressão: O gráfico desta função é esboçado como: Aplicando o log em ambos os lados da igualdade podemos linearizar a função: e então, temos um modelo: com:
  19. 20. Análises de Resíduos <ul><li>É importante, após a análise de regressão, testar se os pressupostos do modelo linear se aplicam aos dados estudados; </li></ul><ul><li>Resíduos representam a diferença entre o valor observado de y e o </li></ul><ul><li>que foi predito pelo modelo de regressão; </li></ul><ul><li>A primeira forma de se avaliar resíduos é plotar um gráfico no qual os resíduos (y - ˆ y) são colocados no eixo vertical (y) e os valores esperados de y (b y) no eixo horizontal (x); </li></ul>
  20. 21. Análises de Resíduos “ ideal”  2 não constante não linearidade não independência tempo “ outlier”
  21. 22. Aplicação
  22. 23. Software Estatístico R O Software R é um conjunto integrado de pacotes ou bibliotecas para manipulação de dados, cálculo e visualização gráfica. Entre outras características, ele permite: Uma facilidade efetiva para manipulação e armazenagem de dados; Um conjunto de operadores para cálculos sobre quadros de dados, em particular as matrizes; Uma grande e coerente coleção integrada de ferramentas para análise de dados; Facilidades gráficas com capacidade de visualização na tela ou impressora; Uma linguagem de programação bem desenvolvida, simples e eficiente.
  23. 24. Sobre o banco de dados <ul><li>Para ilustrar os conceitos de regressão linear simples abordados nessa monografia, resolvemos utilizar um conjunto de dados chamado &quot;gala&quot;, que trata de um conjunto de dados relativo ao número de espécies de tartaruga sobre as várias ilhas Galápagos. </li></ul><ul><li>Estes dados estão contidos no livro Faraway (2004) o banco de dados é composto por 30 observações organizadas em sete colunas com cabeçalho, que são: Species, Endemics, Elevation, Area, Nearest, Scruz e Adjacent. </li></ul><ul><li>Neste trabalho utilizamos apenas as duas primeiras variáveis Species corresponde ao número de espécies de tartaruga encontrados na ilha, e a segunda coluna Endemics corresponde ao número de espécies endêmicas. </li></ul>
  24. 25. Estimando o modelo linear (lm()) > gfit = lm(Species ~ Endemics, data=gala) > gfit Call: lm(formula = Species ~ Endemics, data = gala) Coefficients: (Intercept) Endemics -21.048 4.072 <ul><li>Para ajustar um modelo de regressão a este conjunto de dados, de modo que Species = a + b(Endemics), precisamos utilizar a função lm() para criar um modelo linear; </li></ul><ul><li>Podemos visualizar os parâmetros estimados para a reta de regressão linear simples escrevendo o nome do objeto; </li></ul>
  25. 26. Plotando o gráfico de dispersão > plot(Species,Endemics) > abline(gfit)
  26. 27. Teste de significância (summary) >summary (gfit) Call: lm(formula = Species ~ Endemics, data = gala) Residuals: Min 1Q Median 3Q Max -71.791 -15.894 3.507 12.088 78.200 Coefficients: Estimate Std. Error t value Pr > | t | (Intercept) -21.0480 7.1138 -2.959 0.00622 ** Endemics 4.0721 0.1899 21.443 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1} Residual standard error: 27.95 on 28 degrees of freedom Multiple R-squared: 0.9426, Adjusted R-squared: 0.9406 F-statistic: 459.8 on 1 and 28 DF, p-value: < 2.2e-16
  27. 28. Intervalos de Confiança O intervalo de confiança para o coeficiente de regressão pode ser construído a partir do erro associado ao mesmo, usando a distribuição t , por exemplo, o valor crítico do t para os 28 graus de liberdade residuais do modelo, associado ao intervalo de confiança de 95% será: > qt(0.975,28) [1] 2.048407 E os limites de confiança para o coeficiente de regressão podem ser calculados como: > c(4.0721-2.048407*0.1899, 4.0721+2.048407*0.1899) [1] 3.683108 4.461092
  28. 29. Resíduos e testes diagnósticos <ul><li>Importância da análise de resíduos; </li></ul><ul><li>Quebra de suposições; </li></ul><ul><li>Normalidade; </li></ul>
  29. 30. Resíduos e testes diagnósticos <ul><li>Padronizando os resíduos; </li></ul>> padronizados = rstandard(gfit) <ul><li>Plotando os valores estimados contra os resíduos padronizados; </li></ul>> plot(Species,padronizados) > abline(h=0) <ul><li>Teste de homocedasticidade; </li></ul>> gqtest(gfit) Goldfeld-Quand test Data: modelo GQ= p-value = 0.2960 <ul><li>Uma série de gráficos estão disponíveis no R para o teste de premissas do modelo linear; </li></ul>
  30. 31. Resíduos e testes diagnósticos <ul><li>Para verificar a normalidade dos resíduos utilizamos QQplot; </li></ul>> qqnorm(padronizados) > qqline(padronizados) <ul><li>Teste de Normalidade; </li></ul>> shapiro.test(padronizados) Shapiro-Wilk normality test data: padronizados W = 0.9268, p-value = 0.06041
  31. 32. Conclusão <ul><li>Diante deste trabalho pode-se concluir que a análise de regressão é de grande valia para áreas onde atividades em que o planejamento do futuro é fundamental, nos dias atuais é impossível pensar em análise de regressão sem o uso de computadores devido a complexidade de cálculos e representações gráficas que são necessárias durante as análises. </li></ul><ul><li>Apesar do nosso enfoque ter sido, a análise de regressão linear explanando a utilização do software R, não deixamos de abordar toda a teoria que compõe esta técnica, pois acreditamos que a utilização de uma ferramenta estatística sem o aprofundamento teórico de nada tem serventia, pois o manuseio de um software estatístico deve ter sempre como suporte um adequado conhecimento das técnicas estatísticas envolvidas, </li></ul><ul><li>O aprofundamento de conhecimento sobre o software R ainda é bastante recente, no entanto explorarmos as potencialidades e benefícios do mesmo, e deixamos nossa contribuição para estudantes e professores que desejam conhecer e aplicar a análise de regressão utilizando o software estatístico R. </li></ul>

×