La Correlación
La correlación indica la fuerza y dirección de una relación lineal y
proporcionalidad entre dos variables estadísticas. Es decir, es el
grado de asociación entre dos variables. Si cambia una cambia
la otra.
La fuerza
Es la cercanía entre
ambas variables,
entre mas cerca
mayor es la fuerza y
tiende a formar una
línea recta en el
diagrama de
dispersión. se mide
por proporciones de
0 a 1. entre mas
dispersas sean las
variables menor su
La dirección
Esta representada por
los signos y significa la
dirección hacia donde
va la pendiente, si
ambas variables
tienden a aumentar o
disminuir se entiende
que el coeficiente es
positivo. Si una de las
variables tiende a
disminuir mientras la
otra tiene un
Dos variables se correlacionan cuando muestran una
tendencia creciente y decreciente
Ejemplo:
Variables:
• Ingreso familiar
• Calidad de vida
El ingreso familiar
tiene una
correlación positiva
con la calidad de
vida, a mayor
ingreso mayor
calidad de vida.
Ejemplo:
Variables:
• cantidad de horas
de sueño
• irritabilidad
A mas horas de
sueño tenga una
persona decrece su
índice de irritabilidad
¿Como se grafica?
La correlación se grafica a través de un diagrama de
dispersión o dispersiogramas, el cual siempre tendrá
un eje x y un eje y, la forma es de una pendiente ,
ubicándose los valores de correlación entre 1 y -1
Dispersiogramas
Se trata de una medida lineal entre dos variables aleatorias
cuantitativas, que nos permite conocer la intensidad y
dirección de la relación entre ellas. Si el coeficiente de
correlación de Pearson es igual a 1 o a -1, podemos
considerar que la correlación que existe entre las variables
estudiadas es perfecta.
Si el coeficiente es mayor que 0, la correlación es positiva (“A
más, más, y a menos menos). En cambio, si es menor que 0
(negativo), la correlación es negativa (“A más, menos, y a
menos, más). Finalmente, si el coeficiente es igual a 0, sólo
podemos afirmar que no hay relación lineal entre las variables,
Coeficiente de correlación de
Pearson
Ejemplo:
El gerente de ventas de una empresa desea determinar si hay una
relación entre el numero de llamadas telefónicas de ventas
realizadas en un mes y la cantidad de impresoras vendidas
durante ese lapso. El gerente selecciona una muestra de 10
vendedores.
vendedor Llamadas 𝑋 Impresoras 𝑌 𝑋2
𝑌2
𝑋. 𝑌
1 20 30 400 900 600
2 40 60 1600 3600 2400
3 20 40 400 1600 800
4 30 60 900 3600 1800
5 10 30 100 900 300
6 10 40 100 1600 400
7 20 40 400 1600 800
8 20 50 400 2500 1000
9 20 30 400 900 600
10 30 70 900 4900 2100
total 220 450 5600 22100 10800
𝒓=
𝟏𝟎(𝟏𝟎𝟖𝟎𝟎)−(𝟐𝟐𝟎)(𝟒𝟓𝟎)
[𝟏𝟎(𝟓𝟔𝟎𝟎)−(𝟐𝟐𝟎)𝟐][(𝟐𝟐𝟏𝟎𝟎)−(𝟒𝟓𝟎)𝟐 ]
r= 0,759
-1 0
0,4
0,7 4 7 1
0,759
Relación llamadas
realizadas/impresoras vendidas
Causalidad
observar que dos
variables se mueven
conjuntamente no
significa
necesariamente que
una variable sea la
causa de la otra.
Por eso solemos
decir que "la
correlación no
implica causalidad"
Regresión lineal
Un modelo de regresión es un modelo matemático que busca
determinar la relación entre una variable dependiente (Y), con
respecto a otras variables, llamadas explicativas o
independientes (X).
El modelo de regresión se suele utilizar en las Ciencias
Sociales con el fin de determinar si existe, o no, relación causal
entre una variable dependiente (Y) y un conjunto de otras
variables explicativas (X). Asimismo, el modelo busca
determinar cuál será el impacto sobre la variable Y ante un
cambio en las variables explicativas (X).
Formula: Y = A + BX
A, B = parámetros
fijos y desconocidos
Luego, el objetivo del
modelo de regresión
será estimar los
valores de A y B a
partir de una
muestra.
ejemplo
y= 𝑎 + 𝑏𝑥 𝐛 =
𝐧(∑𝐱𝐲) − (∑𝐱)(∑𝐯)
𝒏(∑𝒙𝟐)(∑𝒙𝟐) 𝒃 =
𝟏𝟎(𝟏𝟎𝟖𝟎𝟎)−(𝟐𝟐𝟎)(𝟒𝟓𝟎)
𝟏𝟎(𝟓𝟔𝟎𝟎𝟐) −(𝟐𝟐𝟎𝟐)
b =1,1842 𝐚 =
∑𝒚
𝒏
−𝒃
∑𝒙
𝒏
𝐚 =
𝟒𝟓𝟎
𝟏𝟎
− 𝟏, 𝟏𝟖𝟒𝟐
𝟐𝟐𝟎
𝟏𝟎
a=18,9476
A: representa el promedio de la cantidad de impresoras
vendidas
B: representa el incremento por cada llamada adicional
Y = 18,9476 +
1,1842X
Relación
llamadas
realizadas/
impresoras
vendidas
Pruebas paramétricas y no paramétricas
La estadística paramétrica utiliza cálculos y procedimientos
asumiendo que conoce cómo se distribuye la variable aleatoria a
estudiar. Por el contrario, la estadística no paramétrica utiliza
métodos para conocer cómo se distribuye un fenómeno para,
más tarde, utilizar técnicas de estadística paramétrica.
Coeficiente de relación de
Spearman
El coeficiente de correlación de Spearman es una medida no
paramétrica de la correlación de rango. Se utiliza principalmente
para el análisis de datos.
Mide la fuerza y la dirección de la asociación entre dos variables
clasificadas
Para entenderlo es necesario saber que una función monótona es
aquella que nunca disminuye o nunca aumenta, ya que es un
incremento variable independiente. Y se ve reflejado de la
siguiente manera:
¿Como calcular?
n= número de puntos de datos de las dos variables
di= diferencia de rango del elemento “n”
El Coeficiente Spearman, puede tomar un valor entre +1 y -1
donde,
Un valor de +1 en ⍴ significa una perfecta asociación de rango
Un valor 0 en ⍴ significa que no hay asociación de rangos
Un valor de -1 en ⍴ significa una perfecta asociación negativa
entre los rangos.
Si el valor de ⍴ se acerca a 0, la asociación entre los dos
rangos es más débil.
ejemplo
Se desea conocer el grado de relación entre las posiciones
que ocuparon
10 atletas que tomaron parte en dos pruebas de 100 (Xi) y
200 (Yi) mts
planos. Los resultados se muestran a continuación:
atleta A B C D E F G H I J
100 1 2 4 3 5 6 7 8 10 9
200 2 1 3 4 6 5 7 8 9 10
atleta A B C D E F G H I J
100 1 2 4 3 5 6 7 8 10 9
200 2 1 3 4 6 5 7 8 9 10
di -1 1 1 -1 -1 1 0 0 1 -1
Establecer la diferencia entre los lugares ocupados por cada
atleta:
di = Xi- Yi
Elevar al cuadrado cada diferencia y finalmente sumar el
cuadrado de
tales diferencias. ∑𝑑𝑖2
𝟏−
𝟔∗𝟖
𝟏𝟎∗𝟏𝟏∗𝟗
= 𝟎,𝟗𝟓
Podemos interpretar que los atletas que
lograron las mejores posiciones en la
prueba de 100 metros planos, tienden
en forma muy alta a obtener las
mejores posiciones en la prueba de 200
metros planos.