• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Medidas de variabilidad_sesion_5
 

Medidas de variabilidad_sesion_5

on

  • 573 views

 

Statistics

Views

Total Views
573
Views on SlideShare
573
Embed Views
0

Actions

Likes
0
Downloads
13
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft Word

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Medidas de variabilidad_sesion_5 Medidas de variabilidad_sesion_5 Document Transcript

    • MEDIDAS DE VARIABILIDAD Además de las medidas de localización o de tendencia central, es necesario considerar medidas de dispersión o variabilidad, dado que dos conjuntos de datos pueden tener promedios similares, pero diferir en la dispersión de éstos. Las medidas de variabilidad de mayor uso en estadística son rango, rango intercuartil, varianza, desviación estándar y coeficiente de variación. Rango El rango es la medida de dispersión más sencilla en un conjunto de datos. Se calcula por medio de la siguiente ecuación: Aunque el rango es la medida de dispersión más fácil de calcular, casi nunca se usa como la única medida de dispersión, debido a que se basa sólo en los valores extremos del conjunto de datos. Por ejemplo, para el tiempo que tardan los expertos en auditar un proceso, el rango sería: Rango = 74 – 45 = 29 minutos El rango debe interpretarse a partir de los valores extremos; es decir, mencionar entre qué valores está el rango. Para el ejemplo, se dice que la variación del tiempo de los expertos es de 29 minutos, el cual oscila entre 45 y 74 minutos. Rango intercuartil El rango intercuartil (RIC) es una medida de dispersión que elimina la influencia de los valores extremos de un conjunto de datos. Se define como la diferencia Rango = valor máximo – valor mínimo
    • entre el tercer cuartil Q3 y el primero Q1. En otras palabras, el rango intercuartil corresponde al rango del 50% intermedio de los datos. Para los datos del tiempo que tardan los expertos en realizar la auditoría de un proceso, los cuartiles son Q1 = 55.12 minutos yQ3 = 64.72 minutos. Así el rango intecuartil es RIC = 64.72 – 55.12 = 9.6 minutos. El intervalo 55.12 a 64.72 suele denominarse mitad central y 9.6 minutos la dispersión media o rango intercuartil del tiempo que tardan los expertos en realizar la auditoría de un proceso. Varianza La varianza es una medida de dispersión que emplea todos los datos. Se basa en la diferencia de cada observación (xi) y la media. La diferencia entre cada xiy el promedio ( x para una muestra y  para una población) se llama desviación respecto al promedio. Para una muestra, la desviación respecto a la media se expresa como )( xxi  ; para una población es )( ix . Para calcular la varianza, las desviaciones respecto al promedio se elevan al cuadrado. Si el conjunto de datos es una población, el promedio de las desviaciones al cuadrado se llama varianza de la población y se representa con el símbolo griego 2  . Para una población con N observaciones o datos, cuando  representa el promedio de esa población, la definición de la varianza de la población es: Rango intercuartil (RIC) = Q3 - Q1 N xi   2 2 )(  
    • En la mayoría de los análisis estadísticos los datos analizados son una muestra. Cuando se calcula la varianza para la muestra, lo más importante es emplearla para estimar la varianza de todo el conjunto de datos, es decir, para la población. La varianza de la muestra (s2 ) es la suma de los cuadrados de las desviaciones con relación a la media aritmética, dividida entre el tamaño de la muestra menos 1. Donde: x: media aritmética de la muestra n : tamaño de la muestra ix : cada dato u observación de la variable X. Si el denominador fuera n en lugar de n – 1, se obtendría el promedio de los cuadrados de las diferencias con respecto a la media. Sin embargo, se utiliza n – 1 debido a ciertas propiedades matemáticas deseadas que tiene el estadístico s2 , las cuales lo hacen apropiado para hacer inferencias estadísticas. Al aumentar el tamaño de la muestra, la diferencia entre n y n – 1disminuye cada vez más. Cuando se calcula la varianza, las unidades en las cuales fueron medidos los datos causan confusiones. Como los valores que se suman al calcular la varianza, que son 2 )( xxi  , se elevan al cuadrado, las unidades asociadas con la varianza de la muestra también se elevan al cuadrado. Por ejemplo, si se está calculando la edad en años para un grupo de empleados, la varianza tendrá (años)2 . 1 )( 2 2     n xx s i
    • Las unidades al cuadrado asociadas con la varianza hacen difícil la interpretación. Por tanto, se recomienda que se tome la varianza como una medida útil para comparar el grado de dispersión de dos o más variables y, al compararlas, la que tienen mayor varianza tiene mayor dispersión o variabilidad. Por ejemplo, en la tabla 1 se presenta el salario, en millones de pesos, de los gerentes de una cadena de almacenes; calcular la varianza. Tabla 1. Salario en millones de pesos de gerentes SALARIO (millones) ix MEDIA DE LA MUESTRA x DESVIACIÓN )( xxi  2 )( xxi  3,5 9.57 -6.07 36.84 4,5 9.57 -5.07 25.70 6,0 9.57 -3.57 12.74 8,0 9.57 -1.57 2.46 10,0 9.57 0.43 0.18 15,0 9.57 5.43 29.48 20,0 9.57 10.42 108.78   0)( xxi   18.216)( 2 xxi Fuente: Datos hipotéticos Luego, la varianza será: 03.36 6 18.216 1 )( 2 2      n xx s i Cuando los datos están agrupados en frecuencias o por intervalos, la fórmula para la varianza puede ser transformada en la siguiente ecuación: 2 2 2 * x n fx s ii  
    • Donde: x: media aritmética de la muestra n : tamaño de la muestra ix : cada dato u observación de la variable X o marca de clase si es intervalo if : frecuencia absoluta del valor de la variable X Para los datos de tiempo que tardan los expertos en realizar la auditoría de un proceso, presentados en la tabla 10, la varianza sería: Tabla 2. Varianza para el tiempo que tardan los expertos en realizar la auditoría de un proceso Nº DE CLASE TIEMPO EN MINUTOS ix if 2 ix ii fx *2 1 44.5 - 49.5 47 2 2209 4418 2 49.5 - 54.5 52 9 2704 24336 3 54.5 - 59.5 57 12 3249 38988 4 59.5 - 64.5 62 11 3844 42284 5 64.5 - 69.5 67 9 4489 40401 6 69.5 - 74.5 72 7 5184 36288 50n 715.186*2  ii fx Fuente: Datos hipotéticos De la tabla 17 se tienen que el promedio es 7.60x ; luego 81.4949.36843.3734)7.60( 50 715.186* 22 2 2   x n fx s ii Desviación estándar La desviación estándar se define como la raíz cuadrada positiva de la varianza. Se denota por s la desviación estándar de la muestra y por  la desviación estándar de la población.
    • La desviación estándar indica cómo se agrupa o distribuye un conjunto de datos alrededor de la media. Para la mayor parte de los conjuntos de datos, la mayoría de los valores observados cae dentro de un intervalo que corresponde a la media aritmética más o menos una desviación estándar. Esto implica que el intervalo comprendido entre SX 1 y SX 1 , por lo general, incluye la mayoría de los valores de los datos. Por consiguiente, el conocimiento de la media aritmética y la desviación estándar ayudan a definir en dónde se agrupa la mayor parte de los datos. Para los datos de tiempo que tardan los expertos en realizar la auditoría de un proceso, presentados en la tabla 26, la desviación estándar sería: 06.781.492  ss minutos La desviación estándar del tiempo de los expertos es 7.06 minutos. Esto indica que los tiempos que tardan en realizar la auditoría del proceso para la mayor parte de los expertos se agrupan dentro de 7.06 minutos alrededor de la media 60.7 minutos; es decir, se agrupan entre 64.531  SX y 76.671  SX minutos. Finalmente, para comprender la variación de los datos se deben tener en cuenta los siguientes aspectos:  Cuanto más dispersos estén los datos, mayores serán el rango, el rango intercuartil, la varianza y la desviación estándar.  Cuanto más concentrados u homogéneos sean los datos, menores serán el rango, el rango intercuartil, la varianza y la desviación estándar. 2 2    ss
    •  Si los datos son todos iguales (de manera que no hay variación de los datos), el rango, el rango intercuartil, la varianza y la desviación estándar serán iguales a cero.  Las medidas de variación (rango, rango intercuartil, varianza y desviación estándar) nunca son negativas. Coeficiente de variación El coeficiente de variación, denotado por CV, es una medida descriptiva que indica lo grande que es la desviación estándar en comparación con la media aritmética; se expresa en porcentaje y se calcula por medio de la siguiente ecuación: Para los datos del tiempo que tardan los expertos en realizar la auditoría de un proceso, el promedio es 60.7 minutos y la desviación estándar es 7.06 minutos. El coeficiente de variación sería: %6.11100* 7.60 06.7 100*  X S CV Interpretando estos datos, el coeficiente de variación indica que la desviación estándar de la muestra es el 11.6% del valor de la media de la muestra. Como medida relativa, el coeficiente de variación resulta especialmente útil cuando se compara la variabilidad de dos o más conjuntos de datos, que se expresan en diferentes unidades de medida. Esto se muestra en el siguiente ejemplo, adaptado del texto Estadística para administración, de Mark L. Berenson y otros, página 120. 100* X S CV 
    • Suponga que un inversionista desea adquirir acciones en una de dos compañía A o B, listadas en la Bolsa de Valores. Si ninguna de las compañías ofrece dividendos a sus clientes y ambas tienen igual clasificación (según los servicios de inversión) en términos del crecimiento potencial, el inversionista quizá considere la volatilidad o variabilidad de ambas acciones para ayudar en la decisión de inversión. Supóngase que cada acción de la compañía A ha promediado $150.000 en los últimos meses, con desviación estándar de $30.000. Además, durante el mismo período el precio promedio de las acciones en la compañía B fue de $36.000 con una desviación estándar de $12.000. ¿Cómo puede determinar el inversionista cuáles acciones son más variables? Solución En términos de las desviaciones estándar, el precio de las acciones de A parece más volátil o variable que el de las acciones de B. Sin embargo, como los precios promedio por acciones de las dos compañías son tan diferentes, es más conveniente que el inversionista considere la variabilidad del precio respecto al promedio con el fin de analizar la estabilidad de ambas acciones. Los coeficientes de variación para las compañías A y B serían: %0.20100* 000.150$ 000.30$ 100*  X S CVA y %3.33100* 000.36$ 000.12$ 100*  X S CVB En consecuencia, en relación con la media, el precio de las acciones B es más variable que el de las acciones A. MEDIDAS DE LOCALIZACIÓN Hasta el momento se han descrito algunas medidas de tendencia central y de dispersión. La media es la que más se usa como medida de tendencia central, mientras que la desviación estándar y la varianza son las más empleadas para
    • la dispersión. Las medidas de localización relativa se apoyan en la media y la desviación estándar para ubicar valores particulares de un conjunto de datos. Valores z Al usar la media y la desviación estándar se puede determinar la localización relativa de cualquier observación. Supóngase que hay una muestra de n datos, con sus valores representados por x1 , x2 , x1 x3 ,. . . .,xn . Además, se han calculado la media x y la desviación estándar s de la muestra. Existe otro valor asociado con cada valor xi de los datos que se denomina valor z, el cual se calcula con la siguiente ecuación: Donde, iz : valor de z del elemento xi x: media de la muestra s : desviación estándar de la muestra. Con frecuencia se le da el nombre de valor estandarizado al valor de z. El valor iz se interpreta como el número de desviaciones estándar que dista xi de promedio x. Por ejemplo, si 2.1iz indica que x1 es 1.2 desviaciones estándar por encima de la media de la muestra. Igualmente, 5.02 z indica que x2 está a 0.5, o ½ desviación estándar por debajo de la media de la muestra. Obsérvese que los valores de z positivos corresponden a observaciones o datos con valores mayores que la media, y que los valores de z negativos corresponden a observaciones con valores menores que la media. Un valor z igual a cero indica que el valor de una observación es igual a la media. Los valores de z para el ejemplo de la tabla 1, donde se presenta el salario, en millones de pesos, de los gerentes de una cadena de almacenes, con media $9.57 millones y desviación estándar $6 millones, serán: s xx z i i  
    • Tabla 3. Valores z para el salario en millones de pesos de gerentes SALARIO (millones) ix DESVIACIÓN )( xxi  VALOR Z s xxi  3,5 -6.07 -1.01 4,5 -5.07 -0.84 6,0 -3.57 -0.60 8,0 -1.57 -0.26 10,0 0.43 0.07 15,0 5.43 0.90 20,0 10.42 1.74 Fuente: Datos hipotéticos Obsérvese que el valor z de 1.74 para el séptimo dato indica que es el más alejado del promedio; está a 1.74 desviaciones estándar por encima del promedio. Teorema de Chebyshev El teorema de Chebyshev permite inferir la proporción de valores que deben quedar dentro de una cantidad específica de desviaciones estándar respecto a la media. Por ejemplo, cuando z es igual a 2, 3 y 4 desviaciones estándar, se tienen las siguientes implicaciones a partir del teorema de Chebyshev: Teorema de Chebyshev Cuando menos        2 1 1 z de los datos debe estar a menos de z desviaciones estándar de separación respecto a la media, siendo z cualquier valor mayor que 1.
    •  Cuando menos, el 0.75 o 75% de los datos debe estar a menos de 2 desviaciones de la media (z = 2).  Cuando menos, el 0.89 u 89% de los datos debe estar a menos de 3 desviaciones de la media (z = 3).  Cuando menos, el 0.94 o 94% de los datos debe estar a menos de 4 desviaciones de la media (z = 4). Como ejemplo de la aplicación del teorema de Chebyshev, supóngase que las puntuaciones de un examen de ingreso de 100 aspirantes al programa de Administración de una universidad tuvieron un promedio de 70 puntos y una desviación estándar de 5 puntos. ¿Cuántos aspirantes tuvieron puntuaciones entre 60 y 80? ¿Cuántos entre 58 y 82? Para las puntuaciones de 60 a 80 se observa que el valor 60 está a dos desviaciones estándar por debajo del promedio: (60-70)/5 = -2, y que el valor 80, a dos desviaciones estándar por encima del promedio: (80-70)/5 = +2. Al aplicar el teorema de Chebyshev, cuando menos el 0.75 o 75% de los datos debe tener valores menores de dos desviaciones estándar del promedio. Así, cuando menos o mínimo 75 de los 100 aspirantes deben haber obtenido puntuaciones entre 60 y 80. Para las puntuaciones entre 58 y 82, (58-70)/5 = -2.4 indica que 58 están a 2.4 desviaciones estándar por debajo del promedio, y que (82-70)/5 = +2.4 indica que 82 están a 2.4 desviaciones estándar por encima del promedio. Aplicando el teorema de Chebyshev con z = 2.4 se obtiene:   826.0 4.2 1 1 1 1 22              z Lo que significa que, mínimo 82.6% de los aspirantes deben tener puntuaciones entre 58 y 82.
    • La regla empírica Una de las ventajas del teorema de Chebyshev es que se aplica a cualquier conjunto de datos, independientemente de la forma de la distribución de los mismos. Sin embargo, en las aplicaciones prácticas se ha encontrado que muchos conjuntos de datos tienen una distribución en forma de colina o de campana. Cuando se cree que los datos tienen aproximadamente esa distribución, se puede aplicar la regla empírica para determinar el porcentaje de elementos que debe estar dentro de determinada cantidad de desviaciones estándar respecto al promedio. Por ejemplo, en una línea de producción se llenan, automáticamente, envases de plástico con detergente líquido. Con frecuencia, el volumen de llenado tiene una distribución en forma de campana. Si el volumen promedio de llenado es de 16 cm3 y la desviación estándar 0.25 cm3 , se puede aplicar la regla empírica para concluir:  Aproximadamente 68% de los envases llenos tienen entre 15.75 y 16.25 cm3 (esto es, menos de una desviación estándar de la media).  Aproximadamente 95% de los envases llenos tienen entre 15.50 y 16.50 cm3 (esto es, menos de dos desviaciones estándar de la media). Regla empírica para datos con distribución en forma de campana  Aproximadamente 68% de los elementos están a menos de una desviación estándar de la media.  Aproximadamente 95% de los elementos están a menos de dos desviaciones estándar de la media.  Casi todos los elementos están a menos de tres desviaciones estándar de la media.
    •  Casi todos los envases llenos tienen entre 15.25 y 16.75 cm3 (esto es, menos de tres desviaciones estándar de la media). Sesgo o forma El sesgo o forma es la manera como se distribuyen los datos. La distribución de los datos es simétrica (en forma de campana) o no lo es. Si no es simétrica, recibe el nombre de distribución asimétrica o sesgada. Para describir el sesgo o la forma, se deben comparar la media y la mediana. Si ambas medidas son iguales, por lo general se considera que los datos son simétricos (o con sesgo cero). Por el contrario, si la media es mayor que la mediana, los datos se describen como sesgados a la derecha, o consesgo positivo. Si la media es menor que la mediana, los datos suelen llamarse sesgados a la izquierda, o consesgo negativo. Es decir, El sesgo positivo surge cuando la media aumenta debido a algunos valores grandes y poco usuales; el sesgo negativo ocurre cuando la media se reduce debido a algunos valores muy pequeños. Los datos son simétricos cuando en realidad no hay valores extremos en ninguna dirección, de tal manera que los valores grandes y pequeños se equilibran. Forma o sesgo de un conjunto de datos Media > Mediana: sesgo positivo o a la derecha Media = Mediana: simetría o sesgo cero Media < Mediana: sesgo negativo o a la izquierda
    • La grafica muestra la forma o sesgo de tres conjuntos de datos. Los datos del primer cuadro son simétricos; cada mitad de la curva es la imagen del espejo de la otra mitad. Los valores grandes y pequeños se compensan, y la media es igual a la mediana. Los datos del cuadro del centro tienen sesgo negativo o a la izquierda. Se observan una cola larga y una distorsión hacia la izquierda, causadas por valores en extremo pequeños. Estos valores tan pequeños jalan la media hacia abajo y resulta menor que la mediana. Los datos del tercer cuadro tienen un sesgo positivo o a la derecha. Se observan una cola larga hacia la derecha de la distribución y una distorsión hacia la derecha, causadas por valores muy grandes. Estos valores en extremo grandes jalan la media hacia arriba y resulta mayor que la mediana. El sesgo para el ejemplo de la tabla 3, donde se presenta el salario, en millones de pesos, de los gerentes de una cadena de almacenes, con media $9.57 millones y mediana $8 millones, será positivo o a la derecha, dado que la media es mayor que la mediana. Además, el conjunto de datos presenta un valor extremo muy alto, el cual atrae la media hacia el extremo derecho de la distribución. Diagrama de caja o bigotes El diagrama de caja o bigotes es un resumen gráfico de los datos basado en el resumen de cinco números.
    • En un resumen de cinco números se emplean cinco cantidades para resumir los datos: Valor mínimo Primer cuartil (Q1) Mediana (Me = Q2) Tercer cuartil (Q3) Valor máximo La forma más ágil de elaborar un resumen de 5 números es poner los datos en orden ascendente. Así facilita la identificación del valor mínimo, los tres cuartiles y el valor máximo. Por ejemplo, los salarios mensuales, en miles de pesos, de 12 egresados de un programa de Administración son 2.940, 2.920, 2.950, 2.710, 2.850, 2.755, 2.890, 2.880, 2.880, 3.130, 3.325 y 3.050. Organizando los datos y calculando los cuartiles, se tiene la siguiente distribución: 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 Q1 = 2865 Q2 = 2905 (Mediana) Q3 = 3000 Al analizar los datos anteriores se ve un valor mínimo de 2.710 y un valor máximo de 3.325 miles de pesos. Así, el resumen de los cinco números de los datos de salarios es 2.710, 2.865, 2.905, 3.000 y 3.325 miles de pesos. Aproximadamente una cuarta parte, 25% de los valores de los datos, están entre dos números adyacentes del resumen de cinco números. El diagrama de caja y bigotes resume gráficamente los cinco números. Los pasos para trazar un diagrama de caja y bigotes son los siguientes:
    •  Se traza un rectángulo con los extremos en el primer y tercer cuartiles. Este rectángulo contiene el 50% intermedio de los datos. Para los datos de salarios Q1 = 2.865 y Q3 = 3.000.  En la caja se traza una recta vertical en el lugar de la mediana (2.950 para los datos de salarios). Así, la línea de la mediana divide los datos en dos partes iguales.  Se ubican los límites mediante el rango intercuartil, RIC = Q3 - Q1. Los límites en el diagrama de caja están a 1.5(RIC) por debajo de Q1 y 1.5(RIC) por encima de Q3 . Para los datos de salarios RIC = Q3 - Q1 = 3.000 – 2.865 = 135. Así, los límites son 2.865 – 1.5(135) = 2.662,5 y 3.000 + 1.5(135) = 3.202,5. Se considera que los datos fuera de estos límites son valores atípicos.  Los bigotes de la caja se trazan con líneas punteadas, desde los extremos de la caja hasta los valores mínimo y máximo dentro de los límites. Así, los bigotes terminan en los valores de salarios de 2.710 y 3.130.  Porúltimo, se marcan con un asterisco (*) las localizaciones de los valores atípicos. Para el ejemplo se localiza un valor atípico de 3.325. Diagrama de caja y bigotes con líneas que muestran los límites
    • En la gráfica se trazaron las líneas que indican el lugar de los límites con el fin de mostrar cómo se calculan éstos y dónde se ubican en el caso de los salarios. Aunque siempre se calculan, por lo general no se trazan en los diagramas de caja. En la gráfica se muestra el aspecto habitual de un diagrama de caja y bigotes para los datos de los salarios. Diagrama de caja y bigotes de los sueldos mensuales de un grupo de egresados de un programa de Administración Observación Al utilizar el diagrama de caja y bigotes se tiene la opción de identificar los mismos valores atípicos que los encontrados con el método de valores z: menores que –3 y mayores que +3. Sin embargo, el objetivo de ambos métodos es identificar elementos que se deben revisar para asegurar la validez de los datos. Se deben revisar los valores atípicos identificados por cualquiera de los métodos. Curtosis La curtosis mide si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra. El coeficiente percentil de Curtosis (k) analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución; se calcula con la siguiente ecuación:
    • Donde, Q3: tercer cuartil. Q1: primer cuartil. P90: percentil 90. P10: percentil 10. Nota: es importante recordar que el P10 es igual al D1 y el P90 es igual al D9. Según el coeficiente de Curtosis, se definen 3 tipos de distribuciones, los cuales se ilustran en la gráfica: Tipos de distribución según el coeficiente de Curtosis Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución simétrica o normal). El valor de k = 0.263. Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. El valor de k> 0.263. Distribución platicúrtica:presenta un reducido grado de concentración alrededor de los valores centrales de la variable.El valor de k< 0.263. 1090 132 1 )( PP QQ k   
    • Para el ejemplo de la tabla sobre el tiempo que tarda un grupo de expertos en realizar la auditoría de un proceso, Q1 = 55.12, Q3 = 64.72, P10 = D1 = 44.7 y P90 = D9 = 70.9. El coeficiente percentil de Curtosis (k) será: 183.0 2.26 8.4 2.26 )6.9(5.0 7.449.70 )12.5572.64()( 2 1 1090 132 1        PP QQ k Por lo tanto, el coeficiente percentil de Curtosis es 0.183, lo que quiere decir que se trata de una distribución platicúrtica, es decir, con una reducida concentración alrededor de los valores centrales de la distribución.