Your SlideShare is downloading. ×
análisis de correlación y regresión lineales
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

análisis de correlación y regresión lineales

10,452
views

Published on


0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
10,452
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
193
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Estadística Correlación y regresión lineal ANALISIS DE CORRELACION (Simple) ANÁLISIS DE CORRELACION: Es el grupo de técnicas estadísticas empleado para medirla intensidad de la relación (correlación) entre dos variables. El principal objetivo del análisis de correlación es determinar que tan intensa es la relaciónentre dos variables. Una medida de esta relación es el coeficiente de correlación ( r ) el cual puedetomar valores en una escala desde –1 hasta +1 inclusive como se indica enseguida. INTENS MODERA DEBIL DEBIL MODERADA INTENSA -1.00 -0.50 0 +0.50 +1.00 correlación negativa (C.N.) correlación positiva (C.P.) COEFICIENTE DE CORRELACION ( r ): Originado por el investigador Karl Pearsonaproximadamente en el año 1900, el coeficiente de correlación describe la intensidad de la relaciónentre dos conjuntos de variables, por lo cual también se le conoce como r de Pearson. Si r toma los valores de –1 o de +1 indica correlación perfecta como se indica en lossiguientes diagramas de dispersión. (Gráfica que indica la relación entre las dos variables). y y r = -1 r = +1 x x Correlación Negativa Prefecta Correlación Positiva PerfectaSi r = 0 indica que no existe ninguna correlación entre las dos variables.El coeficiente de correlación se calcula mediante la siguiente fórmula: n (∑ ) −( ∑ )(∑ ) xy x y r = [ n (∑ ² ) −(∑ )²][n(∑ ² ) −(∑ )²] x x y yDonde:n ⇒ es el número de pares de observaciones (x, y)x ⇒ valores de la variable independiente x.y ⇒ valores de la variable dependiente y.EJEMPLO: .
  • 2. Estadística Correlación y regresión lineal El director de personal de una empresa debe entrevistar y seleccionar nuevo personal para el área de ventas. Ha diseñado una prueba que ayude a seleccionar los mejores aspirantes. Con la finalidad de verificar la validez de su prueba, como instrumento de predicción de las ventas semanales, eligió al azar cinco vendedores experimentados y aplicó la prueba a cada uno (esta muestra es pequeña para fines didácticos, en la práctica debe tomarse una muestra mucho mayor).Los resultados obtenidos se muestran en la tabla siguiente: VENDEDOR PUNTUACIÓN DE PRUEBA VENTAS SEMANALES SR. MARTÍN 4 $ 5,000 SR. JOSE 7 12,000 SRA. MARIA 3 4,000 SR. JUAN 6 8,000 SRA. SILVIA 10 11,000 Se piensan entonces que las ventas semanales dependen de la puntuación de prueba porlo cual se toman las ventas como variable dependiente ( y ) y la puntuación de prueba comovariable independiente ( x ). El diagrama de dispersión de los datos anteriores se muestra a continuación: Y Ventas 14 Semanales 12 10 8 6 4 2 1 2 3 4 5 6 7 8 9 10 11 x puntuación de pruebaUtilizando los datos originales se construye lo siguiente: Puntuación de Ventas Prueba ( X ) Semanales ( Y ) X² XY Y² 4 5 16 20 25 7 12 49 84 144 3 4 9 12 16 6 8 36 48 64 10 11 100 110 121 ΣX = 30 ΣY = 40 ΣX² = 210 ΣXY = 274 ΣY² = 370El coeficiente de correlación es 0.88 calculado por: ∑ n( ∑ ∑ xy ) −( x )( y) . r = [n( ∑x ² ) −(∑ )²][n(∑ ² ) −(∑ )²] x y y 5( 274 ) – ( 30 )( 40 ) 170 . = √ [ 5 ( 210 ) – ( 30 )² ] [ 5 ( 370 ) – ( 40 )² ] =√ (150)(250) = 0.88 Lo cual indica una relación muy intensa. .
  • 3. Estadística Correlación y regresión lineal Coeficiente de determinación: Es la proporción de la variación total en la variabledependiente (y) que se explica por, o se debe a, la variación total en la variable dependiente (x). COEFICIENTE DE DETERMINACIÓN = (COEFICIENTE DE CORRELACIÓN)² = r² Para el ejemplo anterior el coeficiente de correlación es = ( 0.88 )² = 0.77 e indica que el77% de la variación total en las ventas semanales se explica por, o se debe a, la variación en laspuntuaciones de prueba. Coeficiente de no-determinación: Es el complemento del coeficiente de determinación.Para el ejemplo el coeficiente de no-determinación = 1 - r² = 1 - 0.77 = 0.23. Esto significa que23% de la variación total en las ventas semanales no se debe a la variación en las puntuaciones deprueba. Un coeficiente de correlación de 0.80 da un coeficiente de determinación de 0.64. Algunosestadígrafos preferirían utilizar la medida más conservadora (0.64), considerando que el coeficientede correlación de 0.80 puede exagerar la relación entre los dos conjuntos de variables. Ejercicios Propuestos Texto Páginas Ejercicios Manson y Lind 500...502 1....4 ANALISIS DE REGRERSION LINEAL .
  • 4. Estadística Correlación y regresión lineal (SIMPLE) Se define a la regresión lineal como una relación fundamental entre dos o más variablescorrelacionadas y se usa para pronosticar una variable con base en la otra. Por lo general larelación se obtiene de dos datos observados. En la regresión lineal la relación entre variablesforma una línea directa. La línea de regresión lineal es de la forma y’ = a + bx, donde y’ es la variable dependienteque queremos resolver; a es la intersección de y’; b es la dependiente y x es la variableindependiente (en el análisis de series de tiempo, x representa unidades de tiempo). La regresión lineal es útil para pronósticos a largo plazo de sucesos importantes y para laplanificación agregada. Por ejemplo, sería muy útil para pronosticar la demanda de familias deproductos. Aunque es probable que durante un periodo varié bastante la demanda para unproducto específico de la familia, la demanda para toda la familia es sorpresivamente regular. La restricción principal para usar los pronósticos de regresión lineal es que,supuestamente, los datos pasados y las proyecciones caen sobre una línea recta. Aunque estolimita su aplicación, algunas veces, si usamos un periodo más breve puede usarse el análisis deregresión lineal. Por ejemplo, si existe una tendencia de crecimiento y usamos un período de diezo veinte años la tendencia se pierde entre todos los datos y será baja la proyección para el añosiguiente. Sin embargo, si sólo usamos los últimos años, el pronóstico será más preciso. Es unaparte del procedimiento de regresión lineal se estima lo adecuado del ajuste en la línea con losdatos. La regresión lineal se usa tanto para pronósticos de series de tiempo como parapronósticos de relaciones causales cuando la variable dependiente (por lo general el eje vertical deun gráfico) cambia como resultado del tiempo (el eje horizontal en el gráfico), se trata de unanálisis de series de tiempo. Si una variable cambia debido al cambio de otra variable, estamosante una relación causal (como el incremento en el número de muertes por cáncer en el pulmóncon respecto a las personas que fuman). METODO DE MINIMOS CUADRADOS El método de mínimos cuadrados trata de ajustar a la línea a los datos que minimicen lasuma de los cuadrados de la distancia vertical entre cada punto de datos y su puntocorrespondiente a la línea. La ecuación de mínimos cuadrados para la regresión lineal es la que se indica acontinuación: y’ = a + bxDonde:y’ ⇒ variable dependiente calculada por la ecuación, indica el pronóstico para el período x.x ⇒ periodo de tiempo.a ⇒ es el valor de y’ cuando x es = 0.b ⇒ es la pendiente de la línea. .
  • 5. Estadística Correlación y regresión lineal ∑y −b∑x n( ∑xy ) − ∑x ∑y b= n∑x ² − ( ∑x )² a= ny ⇒ Representa el valor de la variable correspondiente del periodo x.EJEMPLO 1. Pronostique las ventas para los periodos 13, 14 y 15 si las ventas de los 12 periodosanteriores son los que se indican a continuación. Periodo (x) Ventas (y) (xy) (x²) Y’ 1 600 600 1 801.3 2 1550 3100 4 1160.9 3 1500 4500 9 1520.5 4 1500 6000 16 18880.1 5 2400 12000 25 2239.7 6 3100 18600 36 2599.4 7 2600 18200 49 2959.0 8 2900 23200 64 3318.6 9 3800 34200 81 3678.2 10 4500 45000 100 4037.8 11 4000 44000 121 4397.4 12 4900 58800 144 4757.1 ∑x = 78 ∑y = 33,350 ∑ = 268,200 ∑ = 650Calculando la pendiente: 12( 268,200) −78(33,350) 3218,400 −2601300 617,100 b = = = =359.6153 12(650) −(78)² 7800 −6084 1716Por lo tanto el valor de a será: 33,350 −359.6153(78) a = = 441.66 12El pronóstico para el periodo 13 será:y’13 = a +bx = 441.66 + 359.6153 (13) = 5,116y para el periodo 14 y 15:y’14 = 441.66 + 359.6153 (14) = 5,476y’15 = 441.66 + 359.6153 (15) = 5,836 .
  • 6. Estadística Correlación y regresión linealV $5000E 4000 Pronósticos de VentaN 3000T 2000A 1000S 500 Línea de Regresión a 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 PERIODO ( X ) El error estándar de estimación, o sea, la calidad de ajuste de la línea a los datosanteriores es: n ∑( y i − y i ) ² Sy = i =1 =363.9 n −2Una ecuación más fácil de calcular para el error estándar es: Sy = ∑ ² −a ∑ −b∑ y y xy n −2EJEMPLO 2. Volviendo a las puntuaciones de prueba y las ventas semanales de los cinco vendedores,las sumas y otros datos básicos para despejar o evaluar a y b aparecen en la tabla siguiente: .
  • 7. Estadística Correlación y regresión lineal Ventas Puntuación semanales de prueba. (niveles de dólares) Vendedor X Y X² XY Y² Sr. Amber 4 5 16 20 25 Sr. Archer 7 12 49 84 144 Sra. Smith 3 4 9 12 16 Sr. Malcolm 6 8 36 48 64Sra. Goodwin 10 11 100 110 121 Total 30 40 210 274 370¿Cuál es la ecuación de regresión?SOLUCION: Las sumas de la tabla anterior se utilizan para ilustrar los cálculos para a y b en la ecuaciónde regresión: n( ∑xy ) − ∑x ∑y 5( 274 ) −(30)(40) b= = = 1.133 n∑x ² − ( ∑x )² 5(210) −(30)² a = Y – bx = (40/5) – 1.133(30/5) = 8 – 6.798 = 1.202 Y’ = 1.202 + 1.133 (EN MILES DE DÓLARES). Por tanto, la ecuación de regresión es y’ = 1.202 + 1.133x (en miles de dólares). Lasventas pronosticas para un candidato a un puesto en ventas, que calificó 6 en la puerta del directorde personal es $8000, que se obtiene por y’ = a + bx = 1.202 + 1.133(6) = 1.202 + 6.798 = 8.000(en miles de dólares).EJERCICIO: Datos: Calcular el pronóstico para los meses de enero, febrero y marzo del año siguiente.E F M A M J J A S O N D E F M A M J J A S O N D E F M6 5 6 8 8 6 7 7 6 7 7 6 7 8 9 7 7 7 6 8 8 8 9 108 5 3 2 7 3 7 8 2 8 4 2 4 0 6 4 1 1 6 6 5 9 1 3 .