Introdução à Regressão Linear Simples e Múltipla

62,650 views
62,391 views

Published on

Introdução à Regressão Estatística Simples e Múltipla

Published in: Education
15 Comments
28 Likes
Statistics
Notes
  • Muito boa a explicação. Poderia me enviar por favor? debbys_inha@yahoo.com.br
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Ótimos, gentileza envie dorivaldorf@hotmail.com
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Assim como os demais, tenho interesse neste material, mas aqui a visualizaçãao ficou cortada. Pode mandar para o meu e-mail, por favor? mellorandi@gmail.com
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Olá, bom dia, achei muito interessante o seu material, entretanto a visualização dele está comprometida; você poderia enviá-lo para o meu email? guirodrigues.gor@gmail.com Obrigado desde já pela atenção.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Boa tarde Dra Célia, gostei muito do que consegui acessar de seu material. Seria possível compartilhá-lo por e-mail por favor?! Meu e-mail: monicavicosa@yahoo.com.br. Aguardo e agradeço!
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total views
62,650
On SlideShare
0
From Embeds
0
Number of Embeds
58
Actions
Shares
0
Downloads
0
Comments
15
Likes
28
Embeds 0
No embeds

No notes for slide

Introdução à Regressão Linear Simples e Múltipla

  1. 1. Introdução à Regressão Linear Célia M. D. Sales - UAL
  2. 2. Conceitos básicosNotação nos modelos estatísticos Letras gregas parâmetros, i.e., valores « verdadeiros » na população, que não conhecemos e que pretendemos estimar com o modelo Ex: β Letras minúsculas estimativas dos parâmetros, que são calculadas a partir dos dados e que fazem parte da equação linear do modelo Ex: b Letras maiúsculas variáveis (ex :Y, X1) Y é sempre a variável que o modelo procura estimar (VD) X são sempre os preditores (VI) de Y O « chapéu » do Y indica que é uma estimativa do valor de Y 2 Célia M. D. Sales - UAL
  3. 3. O que é a Regressão Regressão linear Modelo para predizer o valor de uma variável (v. dependente), a partir de outra (v. independente ou preditor) Regressão múltipla Extensão da regressão linear Usa vários preditores, para estimar o valor da variável dependente Modelos lineares A relação entre as variáveis é descrita por uma recta3 Célia M. D. Sales - UAL
  4. 4. Lógica da análise de regressão Objectivo Predizer uma variável dependente (Y), a partir do conhecimento de uma ou mais variáveis independentes Criar um modelo estatístico da relação entre essas variáveis Lógica de comparação de modelos Para sabermos se o modelo criado é útil (é bom para prever Y), vamos compará-lo com outro modelo mais simples O melhor modelo é o que tiver menor erro Qual o melhor modelo estatístico para prever o valor de Y, a partir dos dados da amostra, sem usar variáveis independentes? A média do próprio Y4 Célia M. D. Sales - UAL
  5. 5. Comparação de modelos 12 Modelo (predição de Y) 10 Nº Cartões Crédito 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 Tamanho Família Erro de predição (ei) Yi = β0 + εi VD Modelo Erro (resultados)5 Célia M. D. Sales - UAL
  6. 6. Comparação de modelos Outro modelo mais complexo Modelo (nossa predição b0) 12 12 Nº Cartões Crédito Nº Cartões Crédito 10 10 8 8 6 6 4 4 2 2 0 0 0 2 4 6 8 10 0 2 4 6 8 10 Tamanho Família Tamanho Família Yi = β0 + εi Yi = β0 + β1 X i 1 + εiNúmero de parâmetros a estimar = 1 Número de parâmetros a estimar = 2 Modelo Contraído Modelo Aumentado 6 Célia M. D. Sales - UAL
  7. 7. Exemplo (Hair et al, 2010) Estudo sobre o uso do cartão de crédito Objectivo: Determinar os factores que afectam o nº de cartões de crédito usados pelas famílias 3 potenciais factores: O tamanho da família, o rendimento familiar e o nº de automóveis possuídos pela família Dados recolhidos em 8 famílias Variável dependente (y) Nº de cartões de crédito Variáveis independentes (X) Tamanho da família (v1) Rendimento (v2) Nº de automóveis (v3)7 Célia M. D. Sales - UAL
  8. 8. 1) Relação linear entre Y e X? A inspecção visual dos diagramas de dispersão revela que existe uma relação linear entre o nº de cartões de crédito das famílias (Y) e o tamanho da família (v1), o rendimento (v2) e o nº de automóveis possuídos pela família8 Célia M. D. Sales - UAL
  9. 9. 2) Análise da Matriz R Caso procuremos apenas uma variável preditora A variável que melhor prediz Y será aquela com correlação mais elevada Neste caso, escolheríamos “dimensão da família”9 Célia M. D. Sales - UAL
  10. 10. Recta de regressão com 1 predictor Mudança no uso do cartão de crédito (y) quando se aumenta 1 unidade na família (v1) b1 na equação da recta Coeficiente de regressão de v1b0Valor de y quando x=0 10 Célia M. D. Sales - UAL
  11. 11. Representação matemática da recta 0 1 1 b0 Ordenada na origem (intercept) Ponto em que a recta de regressão cruza o eixo das ordenadas Y valor de Y quando X = 0 b1 Coeficiente de regressão de X Declive (gradient) da recta de regressão Mudança em Y, quando X muda 1 unidade Indica direcção (+ ou -) e força (valor absoluto) da relação11 Célia M. D. Sales - UAL
  12. 12. Ordenadas na origem e coeficientes deregressão. Representação gráfica. (Field, 2010)12 Célia M. D. Sales - UAL
  13. 13. Exercício 1 ) Escreva a equação de predição de Y em função de v1 2 ) Numa família de 7 pessoas, qual o nº estimado de cartões de crédito? b1 = 0,97b0 = 2,87 13 Célia M. D. Sales - UAL
  14. 14. Significância estatística do modelo Depois de criar um modelo, precisamos avaliar até que ponto ele é bom (se é capaz de predizer Y e se é generalizável) Comparação modelo contraído vs. modelo aumentado Três procedimentos básicos: R2 Quanto da variação de Y é explicada pelo modelo aumentado? O modelo é preciso a predizer Y? F ANOVA A variação de Y explicada (pelo modelo aumentado) é significativamente maior do que variação de Y que não é explicada (pelo modelo aumentado)? Globalmente, o modelo é generalizável? t-Student Cada parâmetro do modelo é significativamente diferente de zero? O impacto de cada preditor na equação é significativo? O impacto de cada preditor é generalizável?14 Célia M. D. Sales - UAL
  15. 15. Modelo contraído Modelo aumentado 12 12 Nº Cartões CréditoNº Cartões Crédito 10 10 8 8 6 6 4 4 2 2 0 0 0 2 4 6 8 10 0 2 4 6 8 10 Tamanho Família Tamanho Família Que modelo é melhor para predizer Y? O que tiver menor erro (desvios ou resíduos) Erro do modelo contraído (média) Variação total de Y Erro do modelo aumentado (regressão) SSt Variação de Y não explicada pelo modelo 15 Célia M. D. Sales - UAL SSr
  16. 16. R2 Variação total de Y Variação de Y não Variação de Y explicada SSt - explicada pelo modelo = pelo modelo SSr SSm No nosso exemplo: Quanto da variação total de Y é explicada pelo modelo? Variação de Y explicada pelo modelo SSm 16,5 R2 = = = 0,75 Variação total de Y 22,0 O modelo explicaCoeficiente de para explicardeterminação 75% da variação de Y 16 SSt Célia M. D. Sales - UAL
  17. 17. R2 Varia entre 0-1 R2 = 0, o modelo não é melhor do que a média, a prever o valor de Y R2 = 1, o modelo oferece uma predição perfeita de Y Dá-nos informação sobre o rigor global da predição do nosso modelo Quanto maior o seu valor, melhor!17 Célia M. D. Sales - UAL
  18. 18. No SPSS18 Célia M. D. Sales - UAL
  19. 19. Regressão linear simples no SPSS r R2 ajustado Coeficiente de R2 correlação linear de Quanta variação de Y Pearson, entre Y e X é explicada pelo modelo19 Célia M. D. Sales - UAL
  20. 20. F - ANOVA Uma outra forma de avaliarmos a qualidade do nosso modelo é comparando a variação de Y que é explicada pelo modelo, com a variação de Y que não é explicada pelo modelo O modelo será tanto melhor, quanto maior seja a variação explicada, proporcionalmente à não explicada Variação de Y explicada pelo modelo SSm Variação de Y não explicada pelo modelo SSr20 Célia M. D. Sales - UAL
  21. 21. F - ANOVA Médias dos desvios quadrados Dado que as somas dos quadrados (SS) dependem do nº de resíduos somados, utiliza-se a sua média: Mean Squares (MS) A média calcula-se dividindo as somas dos quadrados pelos graus de liberdade F= MS M MS R Estatística ANOVA21 Célia M. D. Sales - UAL
  22. 22. F - ANOVA O teste de ANOVA Verifica se a variância explicada pelo modelo (SSm) é significativamente maior do que o erro do modelo (SSr) p<0.05 Globalmente, o modelo de regressão (modelo aumentado) é significativamente melhor do que a média (modelo contraído), para predizer os valores de Y O modelo é generalizável a outras amostra Significância estatística do modelo global22 Célia M. D. Sales - UAL
  23. 23. ANOVA no SPSS SSM SSR MSM Significância MSR estatística do SST modelo global23 Célia M. D. Sales - UAL
  24. 24. t-Student A ANOVA diz-nos se, globalmente o modelo é bom para predizer Y (comparando com a média) Não nos informa acerca da contribuição individual de cada variável independente (preditor) na equação V1 não tem impacto em Y, se b1= 0 Para que um preditor tenha impacto na predição de Y, o seu coeficiente de correlação (b) tem que ser significativamente diferente de zero t-Student testa a hipótese nula de que b=0 Calcula-se para cada preditor da equação24 Célia M. D. Sales - UAL
  25. 25. t-Student no SPSS Significância estatística de b1 b0 b1 b1 em unidades de desvio-padrão25 Célia M. D. Sales - UAL
  26. 26. REGRESSÃO LINEAR MÚLTIPLA26 Célia M. D. Sales - UAL
  27. 27. Regressão Múltipla: Representaçãomatemática Regression variate Combinação linear das variáveis independentes que melhor prediz a variável dependente 0 1 1 b0 Ordenada na origem Valor de Y quando todos os Xs = 0 b1 Coeficiente de regressão da variável 127 Célia M. D. Sales - UAL
  28. 28. Modelo com 2 preditores b2 b0 b128 Célia M. D. Sales - UAL
  29. 29. Da correlação bivariada à correlaçãomultivariada29 Célia M. D. Sales - UAL
  30. 30. Principais passos da regressão linearmúltipla1) Escolha das variáveis2) Construção de um modelo inicial significativo Escolha do método de construção do modelo3) Validação do modelo inicial4) Procura do “melhor modelo” Construir modelos alternativos significativos Validar Comparar5) Construção e interpretação do modelo final6) Reportar resultados 30 Célia M. D. Sales - UAL
  31. 31. Escolha de variáveis Requisitos31 Célia M. D. Sales - UAL
  32. 32. Critérios de escolha das variáveis Orientados pela teoria Devem obedecer aos requisitos da análise32 Célia M. D. Sales - UAL
  33. 33. Requisitos das variáveis Tipos de variáveis Y deve ser variável contínua Preditores contínuos (podem ser dicotómicos) Medidas independentes Todos os valores Y correspondem a diferentes pessoas Variância Todos os preditores têm variância diferente de zero33 Célia M. D. Sales - UAL
  34. 34. Construção de modelo inicial significativo Métodos de (construção de modelos de) regressão34 Célia M. D. Sales - UAL
  35. 35. Métodos de regressão3 métodos:1. Regressão Múltipla Standard Todos os preditores entram simultaneamente na equação de regressão2. Regressão Múltipla Sequencial ou Hierárquica Investigador decide a ordem pela qual as variáveis entram no modelo3. Regressão Múltipla Estatística (Stepwise) Preditores são seleccionados com base em critérios matemáticos (correlação semi-parcial com Y)Diferença entre os métodos: O que acontece à variabilidade devida ao efeito comum das VI (quando estão correlacionadas entre si) Critérios da ordem de entrada das VI na equação 35 Célia M. D. Sales - UAL
  36. 36. Regressão Standard Todas as VI entram ao mesmo tempo na análise Cada VI é avaliada quanto “what it adds to the prediction of the DV that is different from predictability afforded by all other IV” (Tabachnick & Fidell (2007, p.136) A sua contribuição única36 Célia M. D. Sales - UAL
  37. 37. Regressão StandardInterpretação Se houver grande sobreposição entre VI’s A correlação bivariada entre VD e VI pode ser elevada No entanto, no modelo, a contribuição é pequena Exemplo:VI 2 A interpretação tem que ter em conta: correlação total entre a VI e a VD (dada pela correlação bivariada) correlação única (dada pelo coeficiente de regressão no modelo)37 Célia M. D. Sales - UAL
  38. 38. Regressão sequencial ou hierárquica Ordem de entrada na equação, decidida pelo investigador Exemplo: Introdução pela seguinte ordem - em 1º lugar, VI1, depois VI2, e por último VI3 VI1 “fica com o crédito” das áreas a e b VI2 “fica com o crédito” de c e d VI3 “fica com o “crédito” de e38 Célia M. D. Sales - UAL
  39. 39. Regressão sequencial ou hierárquica Cada variável é avaliada quanto A sua contribuição única (para explicar a variabilidade da VD) A sobreposição de contribuições que ainda não foi explicada A interpretação dependerá da ordem de entrada!39 Célia M. D. Sales - UAL
  40. 40. Regressão sequencial ou hierárquicaOrdem de entrada de variáveis Pode realizar-se Variável a variável, uma de cada vez Por blocos de variáveis Critérios de entrada Critérios teóricos, de acordo com as perguntas de investigação. Exemplos de opções40 Célia M. D. Sales - UAL
  41. 41. Regressão sequencial ou hierárquicaOrdem de entrada de variáveis Colocar em 1º lugar as VI que têm maior importância teórica, ou que são preditores mais importantes (de acordo com investigação anterior), ou as variáveis manipuladas (em desenhos experimentais). Ex: Para predizer o sucesso como jogador de basquetebol, sabe-se que a altura é mais importante que o treino; então a variável altura tem prioridade de entrada.41 Célia M. D. Sales - UAL
  42. 42. Regressão sequencial ou hierárquicaOrdem de entrada de variáveis Colocar em 1º lugar as VI menos importantes, ou “de ruído”; colocar no final as mais importantes Exemplo: Estudo para predizer a velocidade de leitura (VD), a partir de 3 VI’s: Intensidade e duração de um curso de leitura (variáveis importantes) e velocidade inicial de leitura antes do curso (variável “parasita”). Interessa saber se, para além da velocidade inicial, a intensidade e duração do curso são capazes de predizer a velocidade de leitura. 1ª variável a entrar na equação:Velocidade inicial (modelo 1 prediz a velocidade de leitura em função da velocidade inicial de leitura na amostra) Depois, as VI importantes (por exemplo, em bloco): modelo 2 prediz a velocidade de leitura42 Célia M. D. Sales - UAL
  43. 43. Regressão estatística A ordem de entrada das variáveis, dada pela ordem das correlações semi-parciais (mais elevada, entra em 1º lugar) Computador “decide” Opção menos usada em Ciências Sociais; controversa.43 Célia M. D. Sales - UAL
  44. 44. Comparação dos três métodos de regressão (b) Regressão standard (c) Regressão hierárquica (d) Regressão estatística Tabachnick & Fidell, 2007, p. 12744 Célia M. D. Sales - UAL
  45. 45. Que método escolher?(Tabachnick & Fidell, 2007, p. 143) “Para simplesmente medir relações entre variáveis e responder à questão básica da correlação múltipla, o método a eleger é a Regressão Múltipla Standard No entanto, a Regressão Múltipla Standard é “ateórica” (…) Razões para usar a regressão hierárquica são teóricas ou para testar hipóteses explícitas” Testar hipóteses sobre a proporção de variância atribuída a algumas VI’s para além da variância devida às VI’s já incluídas na equação45 Célia M. D. Sales - UAL
  46. 46. Exemplo de adequação do método deregressão às perguntas de investigação VD= Compreensão exame de licenciatura(COMPR) Preditores: Motivação Profissional (MOTIV), qualificações técnicas (QUAL) e performance nas cadeiras do curso (GRADE) Regressão Múltipla Standard 1. Qual a intensidade da relação global entre COMPR e o conjunto das VI’s MOTIV, QUAL e GRAD? 2. Qual a contribuição única de cada VI para essa relação? Regressão Sequencial ou hierárquica (ordem de entrada: QUAL e GRADE primeiro, MOTIV depois) Será que, eliminando estatisticamente as diferenças entre os estudantes em QUAL e em GRADE, a variável MOTIV acresce significativamente a predição de COMPR? (Tabachnick & Fidell, 2007)46 Célia M. D. Sales - UAL
  47. 47. Validação do modelo de regressão linear Model fit Análise dos pressupostos47 Célia M. D. Sales - UAL
  48. 48. Validação do modelo Depois de estimarmos os coeficientes de regressão, precisamos de avaliar dois aspectos:1. Model fit O modelo ajusta-se bem aos dados, ou é influenciado por alguns casos?2. Generalização O modelo pode-se generalizar a outras amostras? Implica verificar o cumprimento dos pressupostos da análise de regressão 48 Célia M. D. Sales - UAL
  49. 49. Diagnóstico do Model fit O Modelo ajusta-se bem aos dados da amostra? Dois procedimentos: Análise dos resíduos estandardizados Diagnóstico de outliers Cook’s distance Diagnóstico de influential cases49 Célia M. D. Sales - UAL
  50. 50. Model fit e outliers Outlier Caso que difere substancialmente da maior parte dos restantes dados Afecta os coeficientes de correlação estimados pelo modelo Field (2010)50 Célia M. D. Sales - UAL
  51. 51. Model fit e outliers Como detectar um outlier? O modelo fará uma “má” estimativa de um outlier, i.e., com maior erro Um caso com um resíduo elevado, pode ser um outlier Resíduos estardardizados Resíduos transformados em Z-Scores Em média, 95% dos resíduos estandardizados situam-se entre ±2 99% dos resíduos estandardizados situa-se entre ± 2,5 Outlier Qualquer caso que tenha resíduos estandardizados com valor absoluto igual ou superior a 3, é provavelmente um outlier51 Célia M. D. Sales - UAL
  52. 52. Model fit e influencial cases Exemplo de influencial case (Field, 2010) A recta a tracejado teria um ajustamento óptimo aos dados A existência de um único caso, altera a recta de regressão, que piora o ajustamento Este caso é detectado pela análise de resíduos? Não! Há algum caso que, se fosse apagado, melhoraria substancialmente o modelo?
  53. 53. Model fit: Diagnóstico de influencial cases Cook’s Distance Mede a influência de um caso único no modelo global Influência de um caso sobre a capacidade do modelo para predizer todos os casos Valores absolutos maiores que 1 podem reflectir a existência desta influência (Field, 2010)53 Célia M. D. Sales - UAL
  54. 54. No SPSS Resíduos estandardizados Cook’s distance54 Célia M. D. Sales - UAL
  55. 55. O que fazer quando existem problemas deajustamento? (Field, 2010) Estes diagnósticos permitem-nos saber se o modelo se ajusta bem aos dados da amostra NÃO são uma forma de justificar a remoção de casos para conseguir um modelo melhor! Outlier significativo com Cook’s distance <1 Não apagar, porque não tem efeito mt grande no modelo Convém estudar esses pontos para compreender porque não se ajustam ao modelo55 Célia M. D. Sales - UAL
  56. 56. Generalização Validação dos pressupostos1. Relação entre as variáveis independentes Não existência de multicolinearidade Os preditores não podem ter correlações elevadas2. Pressupostos respeitantes aos resíduos Homocedasticidade Para cada valor dos preditores, a variância do erro deve ser constante Independência dos erros Para cada par de observações, os erros não estão correlacionados Erros seguem uma distribuição normal 56 Célia M. D. Sales - UAL
  57. 57. Multicolinearidade Existe multicolinearidade quando os preditores estão altamente correlacionados Verifica-se através do diagnóstico da colinearidade: Tolerância VIF57 Célia M. D. Sales - UAL
  58. 58. • A tolerâcia deve ser superior a 0.2 (Menard, 1995) • VIF deve ser inferior a 10 (Myers, 1990) Field (2010)58 Célia M. D. Sales - UAL
  59. 59. Análise dos pressupostos dos resíduos Inspecção gráfica dos resíduos1. Homocedasticidade / Independência de erros Gráfico ZRESID vs. ZPRED2. Normalidade dos erros Gráfico Normal Probability 59 Célia M. D. Sales - UAL
  60. 60. No SPSS60 Célia M. D. Sales - UAL
  61. 61. HomoscedasticidadeZRESID vs. ZPRED Bom Mau Fonte: Field (2009)61 Célia M. D. Sales - UAL
  62. 62. Normalidade dos erros: Histogramas Bom Mau Fonte: Field (2009)62 Célia M. D. Sales - UAL
  63. 63. Normalidade dos erros: Gráfico NormalProbability Normal P-P Plot of Regression Standardized Residual Dependent Variable: Outcome 1.00 .75 Expected Cum Prob .50 .25 0.00 0.00 .25 .50 .75 1.00 Observed Cum Prob Bom Mau Fonte: Field (2009)63 Célia M. D. Sales - UAL
  64. 64. Procura do “melhor modelo”64 Célia M. D. Sales - UAL
  65. 65. Métodos de regressão Hierárquico (block enter) Enter Entrada simultânea Stepwise: Entrada sequencial com critério matemático65 Célia M. D. Sales - UAL

×