estadística descriptiva
Upcoming SlideShare
Loading in...5
×
 

estadística descriptiva

on

  • 99 views

estadistica

estadistica

Statistics

Views

Total Views
99
Views on SlideShare
99
Embed Views
0

Actions

Likes
0
Downloads
3
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

estadística descriptiva estadística descriptiva Document Transcript

  • Cecilia Larraín R Estadística Descriptiva Página 1 S 1Estadística Descriptiva Univariada Organización de los datos La estadística descriptiva, entrega las técnicas que permiten condensar grandes grupos de datos mediante el uso de tablas de frecuencias, gráficos y medidas de resumen como media, desviación estándar, correlación. d resume Tabla o distribución de La presentación gráfica frecuencias puede revelar de un Es una tabla que constituye vistazo las el resumen básico de principales los datos características de un conjunto de datos Descripción estadística de una variable cualitativa Gráficos - Sectorial - Barras Separadas - Diagrama de Pareto - Pictograma Medida de resumen Moda: es el dato o modalidad de mayor frecuencia ≡ dato más representativo
  • Cecilia Larraín R Ejemplo Reporte de la inspección final de defectos de 150 productos para la línea de armado A12. DATOS DIRECTOS (brutos) Rayado Manchado Manchado Manchado Abollado Astillado Doblado Manchado Astillado Rayado Manchado Rayado Astillado Astillado Manchado Manchado Otros Astillado Astillado Abollado Manchado Manchado Rayado Astillado Rayado Rayado Manchado Manchado Astillado Rayado Abollado Manchado Doblado Manchado Manchado Astillado Rayado Manchado Manchado Doblado Rayado Manchado Doblado Abollado Manchado Manchado Astillado Manchado Manchado Manchado Astillado Rayado Otros Otros Rayado Doblado Abollado Rayado Manchado Astillado Manchado Manchado Astillado Manchado Rayado Manchado Rayado Rayado Manchado Rayado Manchado Rayado Otros Astillado Manchado Astillado Rayado Rayado Abollado Manchado Doblado Astillado Manchado Rayado Doblado Manchado Abollado Rayado Rayado Manchado Rayado Rayado Manchado Doblado Manchado Rayado Manchado Manchado Manchado Manchado Rayado Astillado Astillado Rayado Abollado Manchado Rayado Manchado Manchado Manchado Rayado Rayado Rayado Manchado Manchado Rayado Rayado Astillado Astillado Astillado Datos en bruto: Datos registrados en la secuencia en que fueron recolectados, antes de ser procesados u ordenados Estadística Descriptiva Ejemplo. Defectos_Linea A12 eporte de la inspección final de defectos de 150 productos para la Manchado Manchado Rayado Manchado Abollado Astillado Manchado Manchado Astillado Doblado Abollado Manchado Rayado Doblado Astillado Manchado Rayado Rayado Astillado Manchado Rayado Rayado Rayado Rayado Manchado Rayado Manchado Rayado Rayado Astillado : Datos registrados en la fueron recolectados, antes de ser procesados u ordenados Tabla de frecuencias Defecto del producto Frecuencia Abollado 8 Astillado 23 Doblado 12 Manchado 56 Otros 6 Rayado 45 Total 150 ¿Cuál es la unidad de observación? Gráfico de barras separadas Frecuencia 60 50 40 30 20 10 0 56 12 23 8 Defecto del producto ManchadoDobladoAstilladoAbollado El defecto más frecuente en la línea de armado es Manchado Moda = manchado Página 2 Tabla de frecuencias Porcentaje 5,3 15,3 8,0 37,3 4,0 30,0 100,0 ¿Cuál es la unidad de observación? Gráfico de barras separadas 6 45 Defecto del producto OtroRayadoManchado El defecto más frecuente en la línea de armado es Manchado
  • Cecilia Larraín R Defectos del producto Frecuencia absoluta Abollado Astillado 23 Doblado 12 Manchado 56 Rayado Otros 45 Total 150 Frecuencia absoluta (ni): Frecuencia relativa (fi): Es la proporción de la categoría o modalidad respecto del total de datos. i = 1,2, …,k Gráfico sectorial: Círculo dividido en porciones que representan las frecuencias relativas o porcentajes de una población o muestra perteneciente a diferentes categorías. Como sabemos, un círculo contiene 360 grados. Para construir un gráfico sectorial, se multiplica por 360 la frecuencia relativa de cada categoría, para obtener la medida del ángulo correspondiente ¿Cuál es Defecto más frecuente? Estadística Descriptiva Frecuencia absoluta ni Frecuencia Relativa fi 8 0,053 23 0,153 12 0,080 56 0,373 6 0,040 45 0,300 150 1,000 ): Número de veces que ocurre la modalidad i. ): Es la proporción de la categoría o modalidad respecto del total de datos. i = 1,2, …,k Defectos del producto ¿Cuál es Defecto más frecuente? Abollado 5,33% Astillado 15,33% Manchado 37,33% Rayado 30,00% Otros 4,00% Página 3 Porcentaje % 5,33 15,33 8,00 37,33 4,00 30,00 100% Número de veces que ocurre la modalidad i. i = 1,2, …,k ): Es la proporción de la categoría o modalidad respecto Astillado 15,33% Doblado 8,00%
  • Cecilia Larraín R Estadística Descriptiva Página 4 Diagrama de Pareto Herramienta básica de la mejora de calidad. Muy útil para priorizar los problemas o las causas que los generan. Su fundamento parte de considerar que un pequeño porcentaje de las causas producen la mayoría de los efectos. Se tratar de identificar ese pequeño porcentaje de causas “vitales” para actuar prioritariamente sobre él. Defecto frecuencia % frec. Acum. % acumulado Manchado 56 37,33 56 37,33 Rayado 45 30,00 101 67,33 Astillado 23 15,33 124 82,67 Doblado 12 8,00 136 90,67 Abollado 8 5,33 144 96,00 Otros 6 4,00 150 100 TOTAL 150 100,0% Se calculan solamente para el diagrama Pareto (en este tipo de variable)
  • Cecilia Larraín R Estadística Descriptiva Página 5 Tabla de frecuencias, gráficos y medidas de resumen para una variable cuantitativa Tablas y gráficos: Distinguir si la variable es discretas continua Si las observaciones en un conjunto de datos cuantitativos son discretos (contables) o si los valores de la variable asumen sólo unos pocos valores distintos, puede ser apropiado armar tablas de frecuencia con valores únicos. La distribución de frecuencias (tabla) - La distribución de frecuencias para variables cuantitativas discretas es similar a la de variables cualitativas. Los valores que toma la variable se ordenan de de menor a mayor lo que permite registrar en la tabla las frecuencias acumuladas. La representación gráfica que se utiliza para este tipo de variables es barras separadas o el gráfico de varas. Distribución de frecuencias de la variable X Nombre de la variable X Frec. Absoluta ni Frec. Relativa i i n f = n Frec. Abs. Acumulada Ni Frec. Relat. Acumulada i i N F= n x1 n1 f1 N1 = n1 F1 x2 n2 f2 N2 = n1 + n2 F2 x3 n3 f3 N3 = n1 + n2 + n3 F3 . . . . . . . . . . . . . . . xk nk fk Nk = n Fk = 1 Total n 1 xi= valor que toma la variable. i= 1,2, …,k
  • Cecilia Larraín R Estadística Descriptiva Página 6 Ejemplo: Variable discreta Tabla –gráficos para variable continua: Cuando la variable es continua o el número de valores posibles de una variable discreta sea grande, para construir la tabla de frecuencias, conviene agrupar los datos intervalos reales. Éstos agrupan todos aquellos Casos contenidos entre dos valores, conocidos como el límite superior e inferior. Números de averías en Febrero.2011 de 40 centrales Eléctricas. 0 1 0 0 2 2 1 3 1 1 0 1 1 3 1 2 0 0 0 1 0 0 1 1 0 3 1 1 1 0 0 2 3 4 2 2 0 3 2 2 Tabla de frecuencias N° de averías Frecuencia Porcentaje Porcentaje acumulado 0 13 32,5 32,5 1 13 32,5 65,0 2 8 20,0 85,0 3 5 12,5 97,5 4 1 2,5 100,0 Total 40 100,0 ¿cuál es la unidad de observación? Gráfico: Varas N°de averías 43210 Recuento 14 12 10 8 6 4 2 0 1 5 8 1313 Estadísticos (Medidas de resumen) N°de averías 40 0 1,20 1,00 0a 1,114 ,637 ,374 -,445 ,733 0 4 ,00 1,00 2,00 Válidos Perdidos n Media Mediana Moda Desv. típ. Asimetría Error típ. de asimetría Curtosis Error típ. de curtosis Mínimo Máximo 25 50 75 Percentiles Existen varias modas. Se mostrará el menor de los valores. a.
  • Cecilia Larraín R Estadística Descriptiva Página 7 Otros gráficos: Polígono de frecuencias Tallo-Hojas Diagrama de cajas Estadísticos (medidas de resumen) Edad (años) 50 0 23,42 22,50 19 4,540 20,616 1,252 1,284 18 18 36 20,00 22,50 25,00 Válidos Perdidos n Media Mediana Moda Desv. típ. Varianza Asimetría Curtosis Rango Mínimo Máximo 25 50 75 Percentiles Ejemplo: Edad (en años) de 50 estudiantes seleccionados de una casa de estudio superior 21 24 29 18 19 19 25 31 23 22 21 22 25 18 27 19 25 34 20 22 19 19 19 18 28 20 22 23 36 23 26 36 20 25 25 25 23 23 21 21 19 24 21 21 22 27 33 19 23 26 Tabla de frecuencias Edad (años) Frecuencia Porcentaje Porcentaje acumulado 18 - 21 14 28,0 28,0 21 - 24 17 34,0 62,0 24 - 27 10 20,0 82,0 27 - 30 4 8,0 90,0 30 - 33 1 2,0 92,0 33 - 36 4 8,0 100,0 Total 50 100,0 ¿Cuál es la unidad de observación? Gráfico Edad 393633302724211815 N°estudiantes 20 15 10 5 0 4 1 4 10 17 14 Histograma
  • Cecilia Larraín R El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más dígitos indicadores para los valores que caen dentro de ese intervalo. En cada renglón, los valores individuales se representan por un dígito (llamado hoja) a la derecha de la línea vertical. Si hay algunos colocan en tallos alto y bajo separados. En este caso, hay 4 puntos de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y desde el fondo de la tabla, deteniéndose en el renglón que contiene a la med 19,518,016,515,0 N°alumnos 20 15 10 5 0 14 0 Estadística Descriptiva Polígono de frecuencias El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más valores que caen dentro de ese intervalo. En cada renglón, los valores individuales se representan por un dígito (llamado hoja) a la derecha de la Si hay algunos datos muy alejados del resto (llamados datos colocan en tallos alto y bajo separados. En este caso, hay 4 puntos atípicos de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y desde el fondo de la tabla, deteniéndose en el renglón que contiene a la med Edad 37,536,034,533,031,530,028,527,025,524,022,521,0 4 1 4 10 17 Página 8 El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más valores que caen dentro de ese intervalo. En cada renglón, los valores individuales se representan por un dígito (llamado hoja) a la derecha de la datos atípicos), se ípicos. La columna de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y desde el fondo de la tabla, deteniéndose en el renglón que contiene a la mediana. 39,037,5 0
  • Cecilia Larraín R Estadística Descriptiva Página 9 Medidas de Resumen Entre las medidas que permiten resumir información proveniente de una población o muestra, podemos considerar: medidas de tendencia posición, de dispersión o variabilidad, de forma y de asociación Medidas de posición: Tendencia Central - Percentiles Tendencia Central: Moda - Promedio - Mediana Son índices de localización central, empleados en la descripción de las distribuciones de frecuencias. Las más usadas son la moda, la mediana y el promedio. Moda (Mo) : Es el valor de la variable que ocurre más frecuentemente Promedio Aritmético (o media Aritmética) La media aritmética o promedio aritmético : En general se utiliza letras mayúsculas para denotar a las variables, y letras minúsculas para los valores que toma las variables (datos). Sea X la variable cuantitativa de interés y sea x1, x2, …, xn los n valores que posee dicha variable. El promedio aritmético se obtiene sumando los valores de X y dividiendo luego por el número de datos. n i 1 2 3 n i =1 x x +x +x ...+x total x = = n n n = ∑ Observación: En Estadística Descriptiva, la media de la población se define de la misma forma pero se utiliza el símbolo µµµµ para denotarla: µµµµ N i 1 2 3 Ni 1 x x +x +x ...+x N N total N = = = = ∑ n ≡ tamaño de la muestra N ≡ tamaño de la población
  • Cecilia Larraín R Estadística Descriptiva Página 10 Mediana (Me) Mediana: es un valor tal que, ordenados en magnitud los n datos de una variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual. Para el cálculo de la mediana la variable debe ser por lo menos ordinal En datos no agrupados (directos), con n impar, el valor central es la mediana. Ejemplo: 3, 5, 7, 8, 9, 12, 13, 15, 20. n = 9 datos. La mediana es el valor 9. Se puede observar que la mediana es el valor que ocupa el lugar 1+ n 2 En datos no agrupados con n par, el valor de la mediana será el punto medio entre los dos valores centrales. Ejemplo: 5, 7, 9, 10, 14, 16, 17, 18. n = 8 datos; la mediana es el valor 12. Es preciso ordenar los datos de menor a mayor para hacer el cálculo. Ejemplo: Edad (en años) de 50 estudiantes seleccionados de una casa de estudio superior EDAD Estadísticos Media 23,42 Mediana 22,5 Moda 19 Cuenta 50 ¿Cuál de las tres medidas de tendencia central representa mejor los datos?
  • Cecilia Larraín R Estadística Descriptiva Página 11 Ejemplo: Si los datos de una variable discreta están ya tabulados. "X: Número de avería diarias en un taller Xi Frec. abs. ni Xi ⋅ ni Frec. abs. acum. Ni 0 1 2 3 4 5 40 30 10 6 3 1 0 30 20 18 12 5 40 60 Total n = 90 ¿Cuál de las tres medidas de tendencia central representa mejor los datos? Promedio: k i i i 1 xn 85 x = = 0,944 n 90 = = ∑ Moda = 0 Me es el valor que ocupa el lugar 1+ n = 45,5 2       Mediana = 1 avería. Interpretación:
  • Cecilia Larraín R Estadística Descriptiva Página 12 Comparación entre x , Me y Mo Desde un punto de vista descriptivo las tres medidas proporcionan información complementaria, sus propiedades son distintas: Estadísticos de tendencia central Observaciones Media aritmética x n i i =1 x total x = = n n ∑ - El nivel de medición de la variable X sea por lo menos en escala de intervalos. - La media es muy sensible cuando existen datos atípicos o extremos. - Es preferible utilizar el promedio aritmético como medida de resumen si los datos son homogéneos. Mediana Me Es un valor tal que, ordenados en magnitud los n datos de una variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual. - La mediana utiliza menos información que la media, ya que solo tiene en cuenta el orden de los datos y no su magnitud, por lo tanto, para poder calcular la mediana el nivel de medición de la variable X debe ser por lo menos en escala ordinal. - La mediana se ve menos alterada por los datos atípicos o extremos. Moda Mo Es el valor de la variable que ocurre más frecuentemente - Para el cálculo de la moda la variable puede tener cualquier nivel de medición, luego es la única medida de tendencia central que se puede calcular si el nivel de medición de la variable X es en escala nominal. X ≠≠≠≠ Mediana ⇒⇒⇒⇒ asimetría, lo que sugiere heterogeneidad en los datos. ∴∴∴∴ en este caso la Mediana es la medida de tendencia central adecuada para resumir los datos.
  • Cecilia Larraín R Estadística Descriptiva Página 13 Simétrica X = Me = Mo Asimetría positiva Mo < Me < X Asimetría Negativa X < Me < Mo Existen varias maneras de de medir asimetría: • X ≠ Mediana ⇒ asimetría • Gráficos: Histograma – Polígono de frecuencias – tallo hojas- caja • Coeficiente pearsoniano de asimetría SK 3(media - mediana) SK = ; en general -3 SK 3 desviación estándar ≤ ≤ Si SK > 0, la distribución es asimétrica positiva o a la derecha. Si SK = 0, la distribución es simétrica. Si SK < 0, la distribución es asimétrica negativa o a la izquierda. • Coeficiente de asimetría de Pearson AP Se basa en el hecho de que en una distribución simétrica, la media coincide con la moda. P Promedio - Moda A = Desviación estándar Si AP > 0, la distribución es asimétrica positiva o a la derecha. Si AP = 0, la distribución es simétrica. Si AP < 0, la distribución es asimétrica negativa o a la izquierda. Este coeficiente no es muy bueno para medir asimetrías leves. • Coeficiente de asimetría de Fisher x 32.527.522.517.512.57.52.5 Simétrica 10 8 6 4 2 0 X 32.527.522.517.512.57.52.5 10 8 6 4 2 0 X 32.527.522.517.512.57.52.5 10 8 6 4 2 0
  • Cecilia Larraín R Estadística Descriptiva Página 14 Cuartiles – Quintiles – Deciles - PERCENTILES Son medidas estadísticas que dividen una serie ordenada de observaciones en 4, 5, 10, 100 partes iguales. Si dividimos en 4 partes iguales, tenemos los cuartiles (Qk) 1, 2 y 3. Cada parte le corresponde un 25%. | 25% | 25% | 25% | 25% | Mín Q1 Q2 Q3 Máx Si dividimos en 5 partes iguales, tenemos los quintiles (qk) 1, 2, 3 y 4. Cada parte le corresponde un 20%. | 20% | 20% | 20% | 20% | 20% | Mín q1 q2 q3 q4 Máx Si dividimos en 10 partes iguales tenemos los deciles (Dk) Los Percentiles Pp son los valores que dividen un conjunto de datos ordenados de menor a mayor en 100 partes con igual (aproximadamente) número de datos. p% (100 - p)% | | | x(1) Pp x(n) Mín Máx Si dividimos en 10 partes iguales tenemos los deciles (D) y en 100 partes iguales, los percentiles (Pp). p% (100 - p)% | | | x(1) Pp x(n) Mín. Máx. Entre mín y Pp se encuentra el p% de los datos o entre Pp y máx se encuentra el (100 – p)% de los datos.
  • Cecilia Larraín R Estadística Descriptiva Página 15 Recordemos se dividimos la serie de datos ordenada en dos partes iguales, tenemos la mediana (Me) Tenemos: Q1 = P25 Me = Q2 = D5 = P50 Q3 = P75 q1 = D2 = P20 q2 = q3 = q4 = Cálculo de Percentiles (datos directos) Ejemplo: Los siguientes datos corresponden a los puntajes obtenidos por 14 alumnos en un examen de Física II. (0 – 100 puntos) 84 52 85 61 74 77 65 63 57 64 72 55 68 76 Diagrama de puntos Puntaje Cálculo percentiles Pp En la definición de percentil en un conjunto de datos “es el valor tal que el p% de los datos es menor o igual que él y el (100 – p)% de los datos es superior o igual a él”, puede que ningún valor cumpla exactamente la definición. Existen diversas formas de interpolar para el cálculo del Pp, en este curso vamos a utilizar el método AEMPIRAL explicado en la página 22 de texto “Probabilidad y Estadística”. Douglas C. Montgomery y George C. Runger (1996) 1ro ) Se ordenan los n datos de menor a mayor 2do ) Pp es el valor que ocupa el lugar j = np 100 . El método AEMPIRAL asigna la media de x(j) y x(j+1) cuando j es un número entero, y asigna el valor que ocupa la posición siguiente a la parte entera de j cuando j = np 100 es un número decimal
  • Cecilia Larraín R ¿Entre qué valores e encuentra - Determine el percentil 7 Gráfico de caja Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1 = P25, Q y la simetría de la distribución. bisagras de Tukey. De determinan de la manera siguiente: Q1 = P25 ≡ mediana entre el mínimo y la mediana de la variable Q3 = P75 ≡ mediana entre el mediana de la variable y el máximo Ejemplo: Edad (página 7) Bisagras de Tukey 18 19 22 23 18 20 22 24 18 20 22 24 19 20 22 25 19 21 22 25 19 21 23 25 19 21 23 25 19 21 23 25 19 21 23 25 19 21 23 26 Estadística Descriptiva e encuentra el 25% de los mejores puntajes? Determine el percentil 75 e interprete. Es un gráfico que suministra información sobre los valores mínimo y máximo, , Q2 o mediana Q3 = P75 la existencia de valores atípicos y la simetría de la distribución. Los cuartiles 1 y 3 se les d . De determinan de la manera siguiente: mediana entre el mínimo y la mediana de la variable mediana entre el mediana de la variable y el máximo Ejemplo: Edad (página 7) Percentiles 20,00 22,50 25,00Edad 25 50 75 Percentiles Se sabe que un dato es atípico, si su valor no se encuentra en el (Q1 – 1,5⋅⋅⋅⋅RI , Q3 RI = Q3 – Q 26 27 27 28 29 31 33 34 36 36 3636 34 33 Edad 40 30 20 10 0 Página 16 % de los mejores puntajes? Es un gráfico que suministra información sobre los valores mínimo y máximo, la existencia de valores atípicos 1 y 3 se les denominan Se sabe que un dato es atípico, si su en el intervalo + 1,5⋅⋅⋅⋅RI) Q1
  • Cecilia Larraín R Estadística Descriptiva Página 17 Cálculo de percentiles datos tabulados en intervalos (datos secundarios ≡ no se dispone de los datos directos): Los valores que toman los percentiles cuando tenemos la información agrupada (intervalos reales) en una tabla de frecuencias de una variable cuantitativa son aproximados. Mediante interpolación lineal en el gráfico de frecuencias acumulada (ojiva) se llega a la fórmula del percentil. Puntaje en un test de aptitud DISTRIBUCIÓN DE FRECUENCIA ACUMULADA Puntaje X Frec. Abs. Acumulada Ni < 15 0 < 20 8 < 25 15 < 30 29 < 35 35 < 40 38 < 45 40 Puntaje X N°de sujetos ni Frecuencias acumuladas Ni (absoluta) Fi (relativa) 15 – 20 8 8 0,200 20 – 25 7 15 0,375 j 25 – 30 14 29 0,725 30 – 35 6 35 0,875 35 – 40 3 38 0,950 40 – 45 2 40 1,000 n = 40 n = 40 lugar np 100 = n 50 20 100 ⋅ = el percentil 50 o mediana aproximadamente se encuentra en el lugar 20, observando la columna Ni de frec. acumuladas o el gráfico ojiva, el valor que ocupa el lugar 20 se encuentra en el tercer intervalo. P50 = Me ∈ [25, 30)
  • Cecilia Larraín R Estadística Descriptiva Página 18 OJIVA (POLÍGONO DE FRECUENCIAS ACUMULADAS) Puntaje P50 ∈ [25, 30) ← 25 es el límite inferior del intervalo j 30 – 25 = 5 es la amplitud del intervalo j intervalo j Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j frec. abs. acumulada anterior al intervalo j es 15 La fórmula que entrega la interpolación lineal para el cálculo de percentiles con datos agrupados en intervalos reales es: j-1 p inf j j np 100 - N P = lim +am plitud nj       Aplicando la fórmula de percentil para datos agrupados 50 20 15 P 25 5 26,79 14 puntos −  = + ⋅ =    Interpretación ……………………………. - Suponga que al 15% de los puntajes más altos pasan a una segunda etapa, - ¿a partir de qué puntaje se va a realizar el corte para seleccionar a dichos sujetos? - Determine e interprete el valor del percentil 5. Interpolando Linealmente, se obtiene Se utiliza cuando no se tienen los datos de cada unidad de observación
  • Cecilia Larraín R Estadística Descriptiva Página 19 MEDIDAS DE DISPERSIÓN ( O VARIABILIDAD) Las medidas de tendencia central (promedio, mediana, moda) y los percentiles, dan información incompleta, acerca de las observaciones. Ejemplo: Los puntajes (X) obtenidos en una Test por 2 grupos de alumnos son los siguientes: Grupo 1 4 3 5 6 4 5 5 7 5 6 Grupo 2 1 4 3 5 6 8 2 7 5 9 En ambos casos el promedio aritmético o media aritmética es 5 (x = 5), pero sus gráficos son distintos Diagramas de puntos Los diagramas de ambos grupos muestran que los puntajes se distribuyen simétricamente respecto al 5, pero en el grupo 1 existe una menor dispersión que en el grupo 2, es decir, los grupos tienen igual promedio pero la variabilidad de los puntajes respecto a la media es distinta. Las medidas de variabilidad indican la dispersión de los datos obtenidos por los sujetos o las unidades de medición. Cuando los datos están con baja dispersión se dice que es homogéneo. Cuando están altamente dispersos se dice que es heterogéneo. Las medidas de dispersión más utilizadas son las siguientes: • Amplitud o rango o recorrido, • Rango intercuartílico • Desviación estándar - varianza • Coeficiente de variación. Rango o recorrido: Es la distancia en la escala de medidas entre los valores mayor y menor. Rango = valor máximo – valor mínimo
  • Cecilia Larraín R Estadística Descriptiva Página 20 Rango Intercuatílico (RI): se define como la diferencia entre el tercer y el primer cuartel, RI = Q3 – Q1, es la longitud del 50% central de la distribución de datos Q3 = P75 Q1 = P25 RI se usa con mayor frecuencia acompañando a la mediana cuando la presencia de valores extremos hace poco recomendable el uso del promedio. Defectos. No permite hacer una interpretación precisa de un valor dentro de una distribución. No interviene en relaciones matemáticas importantes en la inferencia estadística. Desviación estándar o desviación típica (medida de dispersión asociada al promedio aritmético) Es la raíz cuadrada de la media de las desviaciones al cuadrado. Dado un conjunto (o muestra) de datos x1, x2, …,xn de una variable X con nivel de medición en escala de intervalos o de razón, se define la desviación estándar o desviación típica como el promedio de las desviaciones di de los valores xi respecto a su promedio aritmético. Desviación estándar: n 2 i i =1 (x - x) s = n ∑ La desviación estándar toma valores no negativos y mide la dispersión: a mayor desviación estándar mayor dispersión. El cuadrado de la desviación estándar s2 , se denomina varianza. Las desviaciones di = (xi - x ) se elevan al cuadrado para convertirlas en positivas, además recuerde que n i i =1 (x - x)∑ = 0 y se extrae la raíz cuadrada para que la medida resultante tenga la misma unidad de medición de la variable.
  • Cecilia Larraín R Estadística Descriptiva Página 21 n 2 i 2 i 1 Varianza s (x x) n = − = ∑ Del ejemplo Puntaje de un Test: Grupo 1 Grupo 2 x x - x 2 (x - x) x x - x 2 (x - x) 3 -2 4 1 -4 16 4 -1 1 2 -3 9 4 -1 1 3 -2 4 5 0 0 4 -1 1 5 0 0 5 0 0 5 0 0 5 0 0 5 0 0 6 1 1 6 1 1 7 2 4 6 1 1 8 3 9 7 2 4 9 4 16 Total 50 0 12 50 0 60 Grupo n Promedio Desviación estándar Varianza 1 10 50 5 ptos 10 = 12 = 1,0954 ptos 10 (1,0954)2 2 10 50 5 ptos 10 = 60 = 2,4495 ptos 10 (2,4495)2 Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen mayor dispersión o variabilidad. Ventajas de la desviación estándar - Permite una interpretación precisa de los valores dentro de una distribución. - La desviación como el promedio pertenece a un sistema matemático que permite su uso en métodos estadísticos más avanzados.
  • Cecilia Larraín R Estadística Descriptiva Página 22 i=1 2n in 2 i=1 i 2 2 n i=1 i x x - n = n-1 (x -x) n -1 s       = ∑ ∑ ∑ Propiedades de la desviación estándar (demostración tarea) - Si se suman a todos los valores de la variable un valor constante, el promedio queda aumentado en ese valor, pero la desviación estándar permanece igual. - Si se multiplica cada valor original por una constante, tanto el promedio como la desviación estándar queda amplificados por ese valor. - La desviación estándar de una constante es cero. Observaciones: −Notación de la varianza poblacional N 2 i 2 i 1 (x µ) σ N = − = ∑ µ media de la población, N tamaño de la población - En algunos textos de Estadística la fórmula de la varianza (s2 ) de la muestra (la muestra es representativa) viene dada por: 2 2 i n i=1= (x -x) n -1 s ∑ Si los datos se encuentran tabulados (en tabla de frecuencias ← tenemos datos secundarios) las fórmulas de la varianza y desviación estándar son: k 2 i i 2 i 1 x (x x) n n - 1 Varianza s = − = ∑ llamada varianza corregida o cuasivarianza y se utiliza en Inferencia Estadística como la estimación de la varianza poblacional σσσσ2 , es la fórmula que vamos a utilizar en este curso como varianza muestral.
  • Cecilia Larraín R Estadística Descriptiva Página 23 k 2 i i i 1 Desviación estándar: s (x -x) n n - 1 = = ∑ xi es el valor de la variable discreta en una tabla o la marca de clase en el intervalo i (datos agrupados en intervalos reales) Ejemplo: Cierto tipo de resistencias de película de óxido metálico son agrupadas en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el número de resistencias que no cumplían con las especificaciones, resultando la siguiente tabla X = N°de resistencia defectuosas en cada paquete X ni i ix n⋅ 2 i i(x - x) n⋅ 0 5 0 31,25 1 10 10 22,50 2 16 32 4,00 3 15 45 3,75 4 9 36 20,25 5 3 15 18,75 6 2 12 24,50 Total n = 60 150 150 x = 60 125,00 2 125 s = 59 = 2,119 ← varianza Desviación estándar s = varianza = 2,119 1,456= 2 k i ik 2 i=1 i ii 2 i=1 2 k i=1 i x n x n -n n = = n-1 (x -x) n -1 Varianza: Datos tabulados s   ⋅     ⋅⋅∑ ∑ ∑
  • Cecilia Larraín R Estadística Descriptiva Página 24 2 k i ik 2 i=1 i ii i=1 2 k i=1 i x n x n -n n = = n -1 (x -x) n -1 Desviación estandar: Datos tabulados s   ⋅     ⋅⋅∑ ∑ ∑ Del ejemplo de resistencia de película de óxido metálico: i 2 i ii x n = 150 ; x n = 500∑ ∑ 2 (150) 500 60 1,456 59 s − = = Coeficiente de variación (CV): Es una medida relativa de variabilidad X X CV = |x| s Se utiliza para comparar la dispersión de variables que aparecen en unidades distintas de medición o que toman valores de magnitudes muy diferentes, ya que no depende de la unidad de medición de las variables. Ejemplo: La tabla siguiente muestra el peso en kg y la estatura en cm de 10 sujetos sujeto 1 2 3 4 5 6 7 8 9 10 Peso (Y) 78 75 70 68 44 66 72 95 70 74 Estatura (X) 172 175 168 178 159 166 176 180 179 171 Para analizar cuál distribución de datos es más homogénea, se debe determinar los coeficientes de variación de cada variable Variable Media Desv. típ. CV Peso (Y) 71,20 12,541 Estatura (X) 172,40 6,620 Interpretación:
  • Cecilia Larraín R Estadística Descriptiva Página 25 Ejercicios 1. Se realizó un estudio sobre los costos operacionales (Y), en millones de dólares anuales, en empresas de dos rubros distintos( A ; B ). Se tomaron muestras de 25 empresas de cada rubro, obteniéndose: Rubro A 5,3 4,4 4,4 8,2 2,8 1,5 7,5 6,2 8,5 4,8 4,2 7,2 3,9 6,4 5,3 5,4 2,7 7,1 8,2 5,9 3,9 6,4 4,2 7,5 5,2 Rubro B 3,5 6,1 4,5 4,0 4,1 4,8 3,6 5,4 5,2 3,5 4,6 5,4 2,9 4,3 4,0 4,8 4,7 2,6 5,5 5,4 2,9 3,5 5,9 3,8 4,9 Rubro A Frecuencia Tallo & Hoja 1,00 1 . 5 2,00 2 . 78 2,00 3 . 99 5,00 4 . 22448 5,00 5 . 23349 3,00 6 . 244 4,00 7 . 1255 3,00 8 . 225 Multiplicar por 10 -1 Rubro B Frecuencia Tallo & Hoja 3,00 2 . 699 0,00 3 . 5,00 3 . 55568 4,00 4 . 0013 6,00 4 . 567889 4,00 5 . 2444 2,00 5 . 59 1,00 6 . 1 Multiplicar por 10 -1 a. Compare la dispersión de los costos de operación, entre los dos rubros. Rubro n y s CV A B Comentarios: b. ¿Entre qué costos operacionales se ubica el 50% central de las empresas del rubro B? c. Según estimaciones, realizadas en las empresas del rubro A, los costos operacionales aumentarán en un 3%. Determine e interprete la nueva mediana y la nueva varianza. 2. Los datos que se muestran a continuación son los grados de dureza Brinell obtenidos para muestras de dos aleaciones de magnesio:
  • Cecilia Larraín R Estadística Descriptiva Página 26 Y = grado de dureza Brinell Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2 Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2 Gráfico de cajas ALEACION 21 DUREZA 74 72 70 68 66 64 62 60 58 9 Informe: dureza Brinell ALEACION n Media Desv. típ. C. V. Mín. Máx. 1 10 64,670 1,787 2 Percentiles ALEACION 25 50 75 RI 1,5·RI Valor de dato atípico 1 63,5 64,6 65,1 2 63,9 66,0 68,9 Interpretación: ___________________
  • Cecilia Larraín R Estadística Descriptiva Página 27 2. Se toman muestras, de barras planas de dos tipos de acero, de tamaño 80 y 100 respectivamente, para analizar la resistencia a la ruptura. Los siguientes gráficos muestran los tiempos máximos (Y), en minutos que soportan dichas barras antes de fragmentarse, cuando son sometidos a la tensión: Muestra 1 Muestra 2 minutos minutos 2.1. En base a la información contenida en los gráficos, determine que distribución es más homogénea y qué tipo de acero resistió en mejor forma la tensión aplicada. Justifique utilizando medidas de resumen adecuadas. 2.2. Si las barras de acero tipo 1, se clasifican de acuerdo a su resistencia en {RB, RM, RA} Baja resistencia (RB) : si soportan un tiempo máximo inferior a 5,5 minutos Alta resistencia (RA) : si soportan un tiempo máximo de por lo menos 14 minutos Resistencia media (RM) : en otro caso. Muestre gráficamente la distribución de las barras de acuerdo a la nueva clasificación. 2.3. Determine e interprete el valor del percentil 60 para ambas muestras.
  • Cecilia Larraín R Estadística Descriptiva Página 28 Descripción conjunta de dos variables cuantitativas Es frecuente que se pueda determinar el grado de relación entre 2 (o más) variables cuantitativas, ya que al tener este conocimiento, se puede predecir una variable a partir de la otra. Para expresar cuantitativamente el grado en que dos variables están relacionadas, es necesario calcular un coeficiente de correlación. Coeficiente de correlación lineal poblacional : ρ Coeficiente de correlación lineal muestral: r Un coeficiente de correlación para variables cuantitativas: es un número que indica el grado de asociación y la dirección de esa asociación. Indica cómo varía o cambia una característica cuando la otra característica o variable asociada cambia. Sin el conocimiento de cómo una cosa varía con otra sería imposible hacer predicciones. La predicción sólo es posible basándose en el conocimiento de la relación que hay entre 2 variables. Un coeficiente de correlación lineal (con variables por lo menos ordinales) nos proporciona 3 datos principales: - La existencia o no de una relación entre las variables estudiadas. - La dirección de la relación. - El grado de esta relación. Como por ejemplo: • estatura y peso • el ingreso familiar y los gastos en educación Para el cálculo de “r” (correlación muestral) es preciso tener 2 conjuntos de medidas de los mismos individuos (o parejas de individuos que tengan alguna forma de relación) Tabla de datos: Gráfico adecuado: Diagrama de dispersión, muestra si hay relación lineal entre las variables. Sujeto 1 2 3 n Variable X x1 x2 x3 … xn Variable Y y1 y2 y3 … yn La tabla contiene n pares ordenados
  • Cecilia Larraín R Estadística Descriptiva Página 29 Ejemplos Una correlación lineal positiva perfecta X Y 2 4 4 6 5 7 6 8 7 9 8 10 9 11 10 12 12 14 13 15 a) Una correlación lineal elevada positiva (+0,76) (relación directa) X Y 13 11 12 14 10 11 10 7 8 9 6 11 6 3 5 7 3 6 2 1 En general, personas con alto puntaje en x también tendrán alto puntaje en y. b) Una baja correlación lineal positiva (+0,14) X Y 13 7 12 11 10 3 8 7 7 2 6 12 6 6 4 2 3 9 1 6 r = 1
  • Cecilia Larraín R Estadística Descriptiva Página 30 c) Un caso de alta correlación lineal negativa (-0,70) (relación inversa) X Y 12 7 10 3 9 8 8 5 7 7 7 12 6 10 5 9 4 13 2 11 El signo algebraico del coeficiente de correlación tiene que ver, por lo tanto, con la dirección de relación entre dos cosas, ya sea directa o inversa. Significado de la correlación El valor de de la correlación puede variar desde -1 (lo que indica correlación negativa perfecta), pasando por el 0 (que indica independencia completa o ninguna relación), hasta +1 (que significa perfecta correlación positiva) La magnitud se relaciona con la intensidad o estrechez de la relación. Coeficiente de correlación lineal de Pearson yx xy ss s r = n i i i 1 xy (x -x)(y -y) n-1 s = = ∑ X e Y variables cuantitativas ; -1 < r < 1 covarianza de una muestra (representativa de la población objeto), indica la dirección de la relación.
  • Cecilia Larraín R Estadística Descriptiva Página 31 COVARIANZA n n i in n i=1 i=1 i i i i i=1 i=1 xy x y (x -x)(y -y) x y - n = n-1 n-1 s          = ∑ ∑ ∑ ∑ Ejemplo: sujeto x y (x - x ) (y - y ) (x - x )2 (y - y )2 (x - x )(y - y ) 1 13 11 5,5 3 30,25 9 16,5 2 12 14 4,5 6 20,25 36 27 3 10 11 2,5 3 6,25 9 7,5 4 10 7 2,5 -1 6,25 1 -2,5 5 8 9 0,5 1 0,25 1 0,5 6 6 11 -1,5 3 2,25 9 -4,5 7 6 3 -1,5 -5 2,25 25 7,5 8 5 7 -2,5 -1 6,25 1 2,5 9 3 6 -4,5 -2 20,25 4 9 10 2 1 -5,5 -7 30,25 49 38,5 Total 75 80 124,5 144 102 promedio x =7,5 y = 8,0 Desviación estándar de X: 2 x (x - x) 124,5 = 3,719 n - 1 9 s = = ∑ Desviación estándar de Y: 2 y (y - y) 144 = 4,000 n - 1 9 s = = ∑ Covarianza de (x,y): xy (x -x)(y -y) 102 = = 11,333 n - 1 9 s = ∑ Coeficiente de correlación lineal de Pearson: xy 11,333 r = 0,762 (3,719)(4,000) = Interpretación: _________________________________________ Covarianza positiva Interpretación: si hubiese relación lineal, esta sería directa
  • Cecilia Larraín R Estadística Descriptiva Página 32 Ejercicios Ejercicio VI-1 Para determinada tarea en una fábrica, donde se necesita mucha destreza, se quiere investigar si “la productividad en el trabajo debe ser mayor al aumentar los años de experiencia”. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo. Los datos de años de experiencia y medición de productividad son los siguientes: Empleado 01 02 03 04 05 06 07 08 09 10 Años de experiencia 4 6 10 2 12 6 5 10 13 9 Productividad 80 82 88 81 92 85 83 86 91 90 a. Realice el diagrama de dispersión y calcular el coeficiente r de Pearson. b. Interprete los resultados. Ejercicio VI-2 El tiempo de respuestas (en nanosegundos) de un circuito lógico en frío (X) y el tiempo de respuesta tras una hora de uso intensivo (Y), para una muestra de 12 máquinas es el siguiente: Máquina 1 2 3 4 5 6 7 8 9 10 11 12 Tiempo de respuesta en frío (X) 6 5 8 14 7 4 5 9 6 5 7 6 Tiempo de respuesta tras una hora de uso (Y) 4 8 15 8 9 6 9 6 11 7 5 9 a. Se desea pronosticar el tiempo que tardará un determinado circuito lógico tras una hora de funcionamiento intensivo, utilizando información del tiempo de respuesta en frío. Para un pronóstico fiable, las variables deben estar fuertemente relacionadas, utilizando una mediada estadística adecuada, ¿qué concluiría usted? b. Se sabe que un dato es atípico, si su valor no se encuentra en el intervalo (Q1 – 1,5⋅⋅⋅⋅RI , Q3 + 1,5⋅⋅⋅⋅RI) Detecte los posibles valores atípico en Y. (Qk ≡ cuartil k RI ≡ Amplitud (rango) intercuartílica)