Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Sumarização Estatística 2D

578 views

Published on

Aula sobre sumarização estatística de duas variáveis

Published in: Data & Analytics
  • Be the first to comment

Sumarização Estatística 2D

  1. 1. SUMARIZAÇÃO ESTATÍSTICA (2D) Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
  2. 2. AGENDA • Scatter Plot • Regressão Linear • Correlação e Coeficientes de Determinação • Correlação e Regressão: Estudos de Caso
  3. 3. SCATTERPLOT
  4. 4. SCATTERPLOT
  5. 5. REGRESSÃO LINEAR • Francis Galton (1822-1911), obcecado pela idéia de que o talento era uma característica herdada, acaba descobrindo que a altura de um milhões remete (regressa) à média da altura dos pais (1855).
  6. 6. PÉTALAS DA IRIS Como expressar de forma linear a largura de uma pétala em relação ao seu comprimento? PeWi = a*PeLe + b
  7. 7. PÉTALAS DA IRIS PeWi = a*PeLe + b ! • O que significam a e b ? ! • a = O quanto PeWi muda quando PeLe aumenta ou diminui em 1. (inclinação) ! • b = Valor esperado para PeWi quando PeLe é igual a 0. (interseção) • Requer um pouco de imaginação! :-) !
  8. 8. REGRESSÃO LINEAR Como expressão y = ax + b com erro mínimo? ! Seja i = 1, 2, …, N uma entidade. Temos a equação yi = axi + b + ei onde ei é o erro residual. ! Problema: encontrar a e b com erro residual ei mínimo.
  9. 9. REGRESSÃO LINEAR • Problema: Encontrar a e b que minimizem o quadrado do erro residual (critério dos mínimos quadrados) NΣ 푵 풊=ퟏ(풚풊−풂풙풊−풃)ퟐ • 푳(풂,풃) =Σ • L(a,b) é uma parábola em a,b: • Portanto, a condição de otimalidade de primeira ordem do cálculo deve valer NΣ • 흏푳/흏풂 =ퟐΣ 푵 풊=ퟏ(풚풊−풂풙풊−풃)(−풙풊) = ퟎ (*) • 흏푳/흏b =ퟐΣ 푵 풊=ퟏ(풚풊−풂풙풊−풃)(-1) = ퟎ (**) ∂L ∂a = 2 (yi − axi − b)(−xi ) = 0 i=1 (*) ∂L ∂b NΣ = 2 (yi − axi − b)(−1) = 0 i=1 (**) L(a, b) = (yi − axi − b) i=1 2
  10. 10. REGRESSÃO LINEAR ∂L ∂a NΣ = 2 (yi − axi − b)(−xi ) = 0 • ퟐΣ푵 풊=ퟏ(풚풊−풂풙풊−풃)(−풙풊) = ퟎ (*) • ퟐΣ푵 i=1 NΣ 풊=ퟏ(풚풊−풂풙풊−풃)(-1) = ퟎ (**) • Dividindo (**) por -2 e transferindo b para a direita • Σ푵 NΣ NΣ 풊=ퟏ풚풊 − 풂Σ푵 풊=ퟏ풙풊 = 푵풃, • Portanto • b = ym - axm, (*) ∂L ∂b = 2 (yi − axi − b)(−1) = 0 i=1 (**) yi − a xi i=1 i=1 = Nb b = y − ax
  11. 11. REGRESSÃO LINEAR • Agora temos • ퟐΣ푵 NΣ 풊=ퟏ(풚풊−풂풙풊−풃)(−풙풊) = ퟎ (*) • b = ym - axm (**) • Precisamos agora encontrar a em (*) • Dividindo por -2 e substituindo o b, temos NΣ • Σ푵 풊=ퟏ(풚풊−풂풙풊−풚m+풂풙m)(풙풊)=ퟎ ∂L ∂a = 2 (yi − axi − b)(−xi ) = 0 i=1 (*) b = y − ax (**) (yi − axi − y + ax )(xi ) = 0 i=1
  12. 12. REGRESSÃO LINEAR NΣ • Σ푵 풊=ퟏ(풚풊−풂풙풊−풚m+풂풙m)(풙풊)=ퟎ • Separando a na esquerda e o resto na direita, temos: NΣ a = • aΣ푵 NΣ 풊=ퟏ(xi - xm)xi = Σ푵 풊=ퟏ(yi - ym)xi • Portanto • a = (Σ푵 NΣ 풊=ퟏ(yi - ym)xi) / (Σ푵 풊=ퟏ(xi - xm)xi) (yi − axi − y + ax )(xi ) = 0 i=1 a (xi − x )xi = (yi − y)xi i=1 i=1 (yi − y)xi i=1 (xi − x )xi NΣ i=1
  13. 13. REGRESSÃO LINEAR ! NΣ NΣ • a = (Σ푵 풊=ퟏ(yi - ym)xi) / (Σ푵 풊=ퟏ(xi - xm)xi) (*) • b = ym - axm (**) • Note que Σ푵 NΣ NΣ 풊=ퟏ(xi - xm) = Σ푵 풊=ퟏ(yi - ym) = 0 • Portanto • a = (Σ푵 NΣ 풊=ퟏ(yi - ym)(xi-xm)/N) / (Σ푵 풊=ퟏ(xi - xm)(xi-xm)/N) a = (yi − y)xi i=1 (xi − x )xi i=1 (*) b = y − ax (**) (xi i=1 − x ) = (yi − y) = 0 i=1 a = (yi − y)(xi − x ) i=1 / N (xi − x )(xi − x ) / N NΣ i=1
  14. 14. REGRESSÃO LINEAR NΣ • a = (Σ푵 풊=ퟏ(yi - ym)(xi-xm)/N) / (Σ푵 풊=ퟏ(xi - xm)(xi-xm)/N) (*) NΣ • b = ym - axm (**) ! • Note que o denominador de (*) é a variança de x, σ2(x) • Vamos introduzir agora uma nova expressão denominada Coeficiente de Correlação, • ρ= (Σ 푵 NΣ 풊 = ퟏ ( 풚 풊 − 풚m) ( 풙 풊 − 풙m) / 푵) / σ(x)σ(y) a = (yi − y)(xi − x ) i=1 / N (xi − x )(xi − x ) / N i=1 (*) b = y − ax (**) ρ = (yi − y)(xi − x ) i=1 / N σ (x)σ (y)
  15. 15. REGRESSÃO LINEAR a = ! ! (yi − y)(xi − x ) NΣ i=1 / N (xi − x )(xi − x ) / N NΣ i=1 (*) b = y − ax (**) • Usando o Coeficiente de Correlação, ! ! ρ = (yi − y)(xi − x ) NΣ i=1 • Podemos re-escrever (*) como / N σ (x)σ (y) σ (y) σ (x) a = ρ
  16. 16. REGRESSÃO LINEAR σ (y) σ (x) a = ρ • Onde (*) b = y − ax (**) ρ = (yi − y)(xi − x ) NΣ i=1 / N σ (x)σ (y)
  17. 17. REGRESSÃO LINEAR • Falta agora encontrar o valor mínimo para L(a,b) • Para isso devemos substituir a e b por (*) e (**) na expressão • Com isso, chegaremos a NΣ L(a, b) = (yi − axi − b) i=1 2 L(a, b) = Nσ 2 (y)(1−ρ 2 )
  18. 18. REGRESSÃO LINEAR: FINALMENTE σ (y) σ (x) a = ρ (*) b = y − ax (**) • Com valor mínimo em L(a, b) = Nσ 2 (y)(1−ρ 2 ) (***)
  19. 19. E daí?
  20. 20. CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO L(a, b) = Nσ 2 (y)(1−ρ 2 ) (***) • A equação (***) nos diz que ρ2, o coeficiente de determinação, é a proporção da variança σ2(y) que é considerada na regressão linear de y em x. • O coeficiente de determinação é uma medida de ajustamento a um modelo linear e indica o quão bem a variável dependente pode ser explicada pelos regressores presentes no modelo.
  21. 21. CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO • O coeficiente de determinação, ρ2, varia no intervalo [0,1] • O coeficiente de correlação, ρ, varia no intervalo [-1,1] • O coeficiente ρ é 1 ou -1 apenas quando a equação de regressão y = ax + b é válida para todo i = 1,2,…, N, sem erros • O coeficiente ρ é 0 se e somente se a inclinação a = 0 • O sinal de ρ indica a direção da inclinação, portanto, x e y são positivamente relacionados se ρ > 0 e negativamente relacionados se ρ < 0
  22. 22. CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO • O coeficiente ρ é 0 se e somente se a inclinação a = 0, o que pode ocorrer por diferentes razões
  23. 23. Isto indica que o coeficiente de correlação ρ é uma medida do grau de uma relação linear entre x e y
  24. 24. CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
  25. 25. CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS • Relação entre a largura de uma pétala de iris e o seu comprimento σ (y) σ (x) a = ρ (*) b = y − ax (**)
  26. 26. CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS • ρ = 0.9629 • Mesmo tendo pontos que não estão exatamente sobre a reta, o coeficiente de determinação, ρ2, vale 0.9271 • Inclinação: 0.4158 • Interseção = -0.3631 σ (y) σ (x) a = ρ (*) b = y − ax (**)
  27. 27. CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS • Comprimento da Pétala = 0.4158 * Largura da Pétala - 0.3631 • ρ2 vale 0.9271. Extremamente alto! • Mas a previsão do comprimento da pétala no nosso modelo ainda apresenta imprecisão!
  28. 28. CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS • Testar por erros na previsão n x y y previsto erro % 23 1.4 0.1 0.22 119.0 51 4.5 1.5 1.51 0.5 86 4.3 1.3 1.42 9.6 138 5.0 1.9 1.72 9.7 142 5.7 2.5 2.01 19.7 Erro médio: 20.6%
  29. 29. CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
  30. 30. CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS • Coeficiente de correlação = -0.1176! • Isto não parece estar certo! • A largura da pétala deveria crescer quando o comprimento da pétala cresce e não diminuir!
  31. 31. CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
  32. 32. CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS • Correlação positiva entre indivíduos de uma mesma espécie! • 0.74 • 0.53 • 0.46
  33. 33. CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS • Correlação negativa falsa devido a combinação de de dados pertencentes a diferentes agrupamentos! • Um tipo de manipulação de dados que, as vezes de forma não-intencional, pode dar suporte a afirmações do tipo: • Existem mentiras, mentiras cabeludas e Estatística!
  34. 34. CORRELAÇÃO != CAUSALIDADE

×