Your SlideShare is downloading. ×
0
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
4.  estadística descriptiva
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

4. estadística descriptiva

2,341

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,341
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
119
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Estadística Descriptiva:Correlación y Regresión LEONARDO LÓPEZ C. ECONOMIA ESTADISTICA COMPUTARIZADA PARALELO: 261
  • 2. CORRELACIONla correlación indica la fuerza y la dirección de unarelación lineal entre dos variables aleatorias. Se consideraque dos variables cuantitativas están correlacionadascuando los valores de una de ellas varíansistemáticamente con respecto a los valores homónimosde la otra: si tenemos dos variables (A y B) existecorrelación si al aumentar los valores de A lo hacentambién los de B y viceversa. La correlación entre dosvariables no implica, por sí misma, ninguna relación decausalidadExisten diversos coeficientes que miden el grado decorrelación, adaptados a la naturaleza de los datos. Elmás conocido es el coeficiente de correlación dePearson (introducido en realidad por Francis Galton), que
  • 3. CORRELACIONEn el caso de que se esté estudiando dos variablesaleatorias x e y sobre una población estadística; elcoeficiente de correlación de Pearson se simboliza con laletra ρx,y, siendo la expresión que nos permite calcularlo:Donde:σXY es la covarianza de (X,Y)σX es la desviación típica de lavariable XσY es la desviación típica de lavariable Y
  • 4. Matriz de CorrelaciónUna matriz de correlación es una tabla de dobleentrada para A B y C, que muestra una lista multivariablehorizontalmente y la misma lista verticalmente y con elcorrespondiente coeficiente de correlación llamado r.El análisis factorial se puede utilizar para estudiar seriesnuméricas o de valores cuantitativos para un determinadonúmero de variables cuantitativas y mayor de dos. Porejemplo, tres características o más para series numéricascon igual número de datos.
  • 5. Matriz de CorrelaciónEstas variables independientes o explicativas estándispuestas ya en una matriz de correlación, que esuna tabla de doble entrada para A B y C, que muestra unalista multivariable horizontalmente y la misma listaverticalmente y con el correspondiente coeficiente decorrelación llamado r o la relación entre cada pareja encada celda, expresada con un número que va desde 0 a 1.El modelo mide y muestra la interdependencia enrelaciones asociadas o entre cada pareja de variables ytodas al mismo tiempo.
  • 6. COVARIANZAEs una medida de dispersión conjunta de dos variablesestadísticas.La covarianza SXY (a veces tambiéndenotada Cov(X,Y) ) de dos variablesaleatorias X e Y es:donde es el operador esperanza. Paradistribuciones discretas la fórmula anterior seconcreta enCuando las variables aleatorias X e Y son n-dimensionales, es decir, e, su matriz de covarianzas ΣXY es:
  • 7. COVARIANZA Si Sxy > 0 hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes valores de y. Si Sxy = 0 Una covarianza 0 se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas. Si Sxy < 0 hay dependencia inversa o negativa, es decir, a grandes W, y V son xvariables aleatorias y a, b,valores de Si X, Y, valores de corresponden pequeños c, d son y. constantes ("constante" en este contexto significa no , aleatorio), se cumple que: la varianza de X fórmula que suele emplearse en la práctica para calcular la covarianza.
  • 8. Coeficiente de Correlación LinealEl coeficiente de correlación lineal es elcociente entre la covarianza y el producto delas desviaciones típicas de ambas variables.El coeficiente de correlación lineal se expresamediante la letra r.
  • 9. Coeficiente de Correlación Lineal Propiedades1. El coeficiente de correlación no varía al hacerlo la escala de medición. Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación no varía.2. El signo del coeficiente de correlación es el mismo que el de la covarianza.  Si la covarianza es positiva, la correlación es directa.  Si la covarianza es negativa, la correlación es inversa.  Si la covarianza es nula, no existe correlación.3. El coeficiente de correlación lineal es un número real comprendido entre −1 y 1. −1 ≤ r ≤ 1
  • 10. Coeficiente de Correlación Lineal4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.
  • 11. Coeficiente de Correlación Lineal Ejemplo Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes: Hallar el coeficiente de correlación de la distribución e interpretarlo. 1º Hallamos las medias aritméticas. NOTA •Al ser el coeficiente de correlación positivo, la correlación es directa. 2º Calculamos la covarianza. •Como coeficiente de correlación está muy próximo a 1 la correlación 3º Calculamos las desviaciones típicas.muy fuerte. es 4º Aplicamos la fórmula del coeficiente de correlación lineal.
  • 12. REGRESIÓNEn estadística la regresión lineal o ajuste lineal esun método matemático que modeliza la relación entreuna variable dependiente Y, las variablesindependientes Xi y un término aleatorio ε. Este modelopuede ser expresado como:donde β0 es la intersección o término "constante", las son los parámetros respectivos a cadavariable independiente, y p es el número de parámetrosindependientes a tener en cuenta en la regresión. Laregresión lineal puede ser contrastada con la regresión nolineal.
  • 13. Regresión Lineal Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos: La relación entre las variables es lineal. Los errores en la medición de las variables explicativas son independientes entre sí. Los errores tienen varianza constante. (Homocedasticidad) Los errores tienen una esperanza matemática igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). El error total es la suma de todos los errores.
  • 14. Regresión LinealEl modelo lineal relaciona la variabledependiente Y con K variables explicativas Xk (k = 1,...K), ocualquier transformación de éstas, que generanun hiperplano de parámetros βk desconocidos:donde es la perturbación aleatoria que recoge todosaquellos factores de la realidad no controlables uobservables y que por tanto se asocian con el azar, y es laque confiere al modelo su carácter estocástico. En el casomás sencillo, con una sola variable explicativa, elhiperplano es una recta: Y = β1 + β2X2 + ε
  • 15. Regresión LinealEl problema de la regresión consiste en elegirunos valores determinados para los parámetrosdesconocidos βk, de modo que la ecuación quedecompletamente especificada. Para ello se necesita unconjunto de observaciones. En una observacióncualquiera i-ésima (i= 1,... I) se registra el comportamientosimultáneo de la variable dependiente y las variablesexplicativas (las perturbaciones aleatorias se suponen noobservables).
  • 16. Regresión LinealLos valores escogidos como estimadores de losparámetros, , son los coeficientes de regresión, sin que sepueda garantizar que coinciden con parámetros reales delproceso generador. Por tanto, enLos valores son por su parte estimaciones de laperturbación aleatoria o errores.
  • 17. Regresión Lineal SimpleSólo se maneja una variable independiente, por lo quesólo cuenta con dos parámetros. Son de la forma: Yi = β0 + β1Xi + εidonde εi es el error asociado a la medición del valor Xi ysiguen los supuestos de modo que εi∼N(0,σ2) (mediacero, varianza constante e igual a un σ ycon ).
  • 18. Regresión Lineal SimpleDado el modelo de regresión simple, si se calculala esperanza (valor esperado) del valor Y, se obtiene:Derivando respecto a y e igualando a cero, se obtiene:Obteniendo dos ecuaciones denominadas ecuacionesnormales que generan la siguiente solución para ambosparámetros:La interpretación del parámetro β1 es que un incremento en Xide una unidad, Yi incrementará en β1
  • 19. Correlación por RangosEste coeficiente es una medida de asociación lineal queutiliza los rangos, números de orden, de cada grupo desujetos y compara dichos rangos. Existen dos métodospara calcular el coeficiente de correlación de los rangosuno señalado por Spearman y otro por Kendall. El r deSpearman llamado también rho de Spearman es más fácilde calcular que el de Kendall.
  • 20. Correlación por RangosCoeficiente de Correlación de Spearmanρ (ro) es una medida de la correlación (la asociación ointerdependencia) entre dos variablesaleatorias continuas. Para calcular ρ, los datos sonordenados y reemplazados por su respectivo orden.El estadístico ρ viene dado por la expresión:donde D es la diferencia entre los correspondientesestadísticos de orden de x - y. N es el número de parejas.
  • 21. Correlación por RangosSe tiene que considerar la existencia de datos idénticos ala hora de ordenarlos, aunque si éstos son pocos, sepuede ignorar tal circunstanciaPara muestras mayores de 20 observaciones, podemosutilizar la siguiente aproximación a la distribución t deStudent.La interpretación de coeficiente de Spearman es igual quela del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivasrespectivamente, 0 cero, significa no correlación pero noindependencia. La tau de Kendall es un coeficiente decorrelación por rangos, inversiones entre dosordenaciones de una distribución normal bivariante.
  • 22. Correlación por RangosLos datos La columna "d" que muestra las diferencias entrebrutos usados las dos columnas de orden. Finalmente, se creaen este otra columna "d2". Esta última es sólo la columnaejemplo se "d" al cuadradoven debajo. Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran. Los valores de la columna d2 pueden ser sumados para averiguar . De lo que resulta El valor de n es 10. Así que esos valores ρ=− pueden ser sustituidos en la fórmula. 0.187878787879

×