Your SlideShare is downloading. ×

Técnicas estadísticas básicas

16,897

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
16,897
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
161
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Técnicas estadísticas gráficas básicas
  • 2. 2 de 61 Temas a tratar  Introducción.  Diagramas de tiempo.  Histograma.  Diagrama de Puntos.  Diagrama de Pareto.  Box- Plots.  Diagrama de Dispersión.  Matriz de Dispersión.  Estratificación  Ejercicios.
  • 3. Introducción
  • 4. 4 de 61 Introducción 1  En el momento de caracterizar una variable, de segmentar o de realizar una primera prospección para analizar las variables, una serie de técnicas gráficas simples pueden ayudar.  Estas técnicas ayudan a visualizar, de un conjunto de datos:  Su localización.  Su dispersión.  Su forma o distribución.  Las subagrupaciones que pudiere haber.  Las diferencias o similitudes entre esas subagrupaciones.
  • 5. 5 de 61 Introducción 2  Cálculos gráficos o analíticos más profundos pueden seguirle, pero con una base que seguramente nos habrá llevado a seleccionar o poner foco en algunas variables.
  • 6. 6 de 61 Pertenencia a la distribución 6 Clave: • Como la distribución es asintótica, para determinar si un valor pertenece a la distribución en cuestión, o otra con valores similares, se usa el p-value = 0,05. • Un valor con p-value > 0,05, será considerado de la distribución. • Un valor con p-value < 0,05, será sospechado de pertenecer a otra distribución. • Asumimos una u otra conclusión a los fines prácticos. Pero, en realidad, no sabremos. Clave: • Como la distribución es asintótica, para determinar si un valor pertenece a la distribución en cuestión, o otra con valores similares, se usa el p-value = 0,05. • Un valor con p-value > 0,05, será considerado de la distribución. • Un valor con p-value < 0,05, será sospechado de pertenecer a otra distribución. • Asumimos una u otra conclusión a los fines prácticos. Pero, en realidad, no sabremos.
  • 7. Diagramas de tiempo
  • 8. 8 de 61 Diagrama de tiempo 1  Un diagrama de tiempo es un gráfico de datos en orden cronológico.  Es usado para visualizar e interpretar cambios de los datos a lo largo del tiempo.  Los diagramas de tiempo pueden ser usados con datos Continuos, Discretos por Conteo, Discretos Ordinales y Discretos por Porcentajes.
  • 9. 9 de 61 Diagrama de tiempo 2  El supervisor de un Call Center está analizando los tiempos de las colas para el segmento de clientes “Individuos” y “Empresas”.  Los datos los toma directamente del IVR, aunque por problemas técnicos los de algunos días en particular se han perdido.  ¿Qué puede concluirse de los datos? Ejercicios Medir Columna 85 “Promedio de Tiempos” Ejercicios Medir Columna 85 “Promedio de Tiempos”
  • 10. 10 de 61 Diagrama de tiempo 3 1°1° 2°2° 3°3° 4°4° Permite hacer un diagrama simple Permite hacer un diagrama simple Columna con los datos Columna con los datos 5°5° Vamos a poner las fechas en el eje x Vamos a poner las fechas en el eje x
  • 11. 11 de 61 Diagrama de tiempo 4 6°6° 7°7° 8°8° Columna con las fechas Columna con las fechas Fecha_ 1 Promediodetiempos 15-0631-0516-0501-0516-0401-0417-0302-0315-0231-0117-01 400 300 200 100 0 Time Series Plot of Promedio de tiempos 9°9°
  • 12. 12 de 61 Diagrama de tiempo 5 Permite editar y definir las posiciones del eje x. Permite editar y definir las posiciones del eje x. 10°10° 11°11° 12°12° 13°13° Haciendo doble click sobre el eje x, despliega un diálogo. Haciendo doble click sobre el eje x, despliega un diálogo.
  • 13. 13 de 61 Diagrama de tiempo 6 Con click derecho en algún lugar del gráfico, despliega una menú Con click derecho en algún lugar del gráfico, despliega una menú Cambia el cursor a un índice de la mano. Permite identificar, dragueando, datos particulares del gráfico Cambia el cursor a un índice de la mano. Permite identificar, dragueando, datos particulares del gráfico 14°14° 15°15°
  • 14. 14 de 61 Diagrama de tiempo 7 Dragueando alrededor de un punto, muestra la fila correspondiente. En la fila de la planilla de datos coloca un punto. Dragueando alrededor de un punto, muestra la fila correspondiente. En la fila de la planilla de datos coloca un punto. 16°16° 17°17°
  • 15. 15 de 61 Diagrama de tiempo 8 Nuevo click derecho sobre el gráfico para seleccionar más datos relacionados con el punto dragueado. Nuevo click derecho sobre el gráfico para seleccionar más datos relacionados con el punto dragueado. Seleccionamos la fecha y día de la semana Seleccionamos la fecha y día de la semana 18°18° 19°19° 20°20°
  • 16. 16 de 61 Diagrama de tiempo 9 21°21° Muestra los datos del punto seleccionado Muestra los datos del punto seleccionado
  • 17. 17 de 61 Diagrama de tiempo agrupados 1 Diagrama con subgrupos para ver con grupos Diagrama con subgrupos para ver con grupos 1°1° 2°2° I ndex Promediodetiempos 1501351201059075604530151 400 300 200 100 0 Jueves Lunes Martes Miércoles Viernes semana Día de la Time Series Plot of Promedio de tiempos 3°3° Columna con los datos Columna con los datos Columna con las agrupaciones Columna con las agrupaciones 4°4° 5°5° 6°6° Gráfico de líneas para cada grupo (en este caso para cada uno de los días de la semana) Gráfico de líneas para cada grupo (en este caso para cada uno de los días de la semana)
  • 18. 18 de 61 Diagrama de tiempo agrupados 2 I ndex Promediodetiempos 1501351201059075604530151 400 300 200 100 0 Jueves Lunes Martes Miércoles Viernes semana Día de la Time Series Plot of Promedio de tiempos 7°7° Hacemos click derecho sobre el gráfico Hacemos click derecho sobre el gráfico 8°8° 9°9° 10°10° Pedimos que use la variable para agrupar los datos Pedimos que use la variable para agrupar los datos Indicamos la columna con la variable (en este caso los días) Indicamos la columna con la variable (en este caso los días)
  • 19. 19 de 61 Diagrama de tiempo agrupados 3 Pone cada grupo en diferente panel Pone cada grupo en diferente panel 11°11°
  • 20. 20 de 61 Diagrama de tiempo segmentado 1 Vamos a generar gráficos superpuestos para cada segmento Vamos a generar gráficos superpuestos para cada segmento 1°1° Columnas con los datos de los segmentos (en este caso las dos colas) Columnas con los datos de los segmentos (en este caso las dos colas) 2°2° 3°3° 4°4° Ambas colas en el mismo gráfico Ambas colas en el mismo gráfico
  • 21. Histograma
  • 22. 22 de 61 Histogramas 1  El Histograma permite representar datos, Continuos o Discretos, para evaluar la tendencia central, la dispersión e identificar la forma de la distribución o patrones.  Es un gráfico de barras que muestra la frecuencia con la cual aparecen algunos factores.  Requiere, aproximadamente, 50 mediciones para revelar el patrón básico de variación.
  • 23. 23 de 61 Histogramas 2  Cuando los datos están segmentados, un Histograma por grupo o factor podría mostrar igualdad o diferencias entre ellos.  Si uno de esos grupos, por ejemplo, tuviere mayor variación, podría requerir atención prioritaria para la solución.
  • 24. 24 de 61 Histogramas 3 1°1°1°1° Permite armar Histogramas simples o superpuestos (el histograma del Torque para una máquina superpuesto con el de la otra) Permite armar Histogramas simples o superpuestos (el histograma del Torque para una máquina superpuesto con el de la otra) 2°2°2°2° 3°3°3°3° 4°4°4°4° Columna en la cual está la serie de datos Columna en la cual está la serie de datos Ejercicios Medir Columna 59 “Torque” Ejercicios Medir Columna 59 “Torque”
  • 25. 25 de 61 Histogramas 4 Torque Frequency 36322824201612 14 12 10 8 6 4 2 0 Histogram of Torque Muestra localización, variación y forma de la serie de datos. Muestra localización, variación y forma de la serie de datos. 4°4°4°4°
  • 26. 26 de 61 Histogramas por grupos 1 5°5°5°5° 7°7°7°7° 8°8°8°8° 6°6°6°6° Permite graficar varios gráficos simultáneamente Permite graficar varios gráficos simultáneamente Indicamos en gráficos separados Indicamos en gráficos separados Con la misma Y para poder comparar Con la misma Y para poder comparar
  • 27. 27 de 61 Histogramas por grupos 2 9°9°9°9° Histogramas para cada máquina con la misma escala de Y Histogramas para cada máquina con la misma escala de Y Indicamos la columna en la cual están las variables para segmentar Indicamos la columna en la cual están las variables para segmentar 10°10°10°10° 11°11°11°11°
  • 28. Diagrama de Puntos
  • 29. 29 de 61 Diagrama de Puntos 1°1°1°1° 2°2°2°2° 3°3°3°3° 5°5°5°5° 4°4°4°4° Con gruposCon grupos Columna con los datosColumna con los datos Columna con los gruposColumna con los grupos Gráfico de puntos superpuesto para cada grupo Gráfico de puntos superpuesto para cada grupo
  • 30. Diagrama de Pareto
  • 31. 31 de 61 Diagrama de Pareto 1  Un diagrama de Pareto es un gráfico de barras ordenadas de mayor a menor, donde cada barra refleja la importancia o peso de cada uno de los factores que se analizan.  El Diagrama de Pareto ayuda a enfocarse en los grupos o factores “Pocos Vitales” en lugar de los “Muchos triviales”.  Se basa en el comprobado principio de Pareto: el 20% de las causas produce el 80% de los efectos.  También se lo conoce como la curva A-B-C. La parte A, genera una curva acumulada de gran pendiente, y pertenece a los factores de mayor contribución. La C, generan una curva acumulada prácticamente horizontal; usualmente los factores están agrupados en Varios. La B es la parte intermedia.
  • 32. 32 de 61 Diagrama de Pareto 2  Ayudará al equipo, en etapas posteriores, a enfocarse en aquellas causas que tendrán el más grande impacto en los Ys si son resueltas.
  • 33. 33 de 61 Diagrama de Pareto 3 1°1°1°1° Columna en la cual tenemos los grupos o factores Columna en la cual tenemos los grupos o factores Permite colocar los datos por variables o en formato de tabla. Permite colocar los datos por variables o en formato de tabla. Columna en la cual tenemos la frecuencia para cada grupo o factor. Columna en la cual tenemos la frecuencia para cada grupo o factor. Porcentaje final con el cual arma el “Varios” Porcentaje final con el cual arma el “Varios” 2°2°2°2° 3°3°3°3° 4°4°4°4° 5°5°5°5° Ejercicios Medir Columna 57 “Cantidad” Ejercicios Medir Columna 57 “Cantidad”
  • 34. 34 de 61 Diagrama de Pareto 4 Count 351 49 19 4 Percent 83,0 11,6 4,5 0,9 Cum % 83,0 94,6 99,1 100,0 Count Percent Defectos OtherDobladoCortaduraRayado 400 300 200 100 0 100 80 60 40 20 0 Pareto Chart of Defectos Curva de los “Acumulados” Curva de los “Acumulados” Factores o grupos ordenados según su cantidad o frecuencia Factores o grupos ordenados según su cantidad o frecuencia Cantidad que le corresponde al 1° factor o grupo Cantidad que le corresponde al 1° factor o grupo Nos dice que, inicialmente, debemos poner foco en los rayones. Nos dice que, inicialmente, debemos poner foco en los rayones.
  • 35. 35 de 61 Error usual al aplicar Pareto  Es un error asumir que un diagrama de barras ordenado de mayor a menor es un Diagrama de Pareto.  El Diagrama de Pareto indica la relación 80-20. Si el gráfico no muestra una primera zona claramente diferenciada, con curva Acumulada de mayor pendiente, entonces el eje Y debe ser reconvertido.  Por ejemplo, si se registra la frecuencia con la cual aparece cada factor, cabe reconvertir y graficar el costo que genera cada uno de los factores.
  • 36. 36 de 61 Importante Clave: • Si no aparece la relación 80 - 20 en un Diagrama de Pareto, corresponde reconvertir el eje Y. Clave: • Si no aparece la relación 80 - 20 en un Diagrama de Pareto, corresponde reconvertir el eje Y.
  • 37. Box- Plots
  • 38. 38 de 61 Box-Plots 1  Los diagramas Box Plots permiten graficar los estadísticos esenciales de una serie de datos para evaluar y comparar distribuciones.  La localización, variación y forma de los datos queda en evidencia, permitiendo comparar muy fácilmente varias series simultáneamente.
  • 39. 39 de 61 Box-Plots 2 1°1°1°1° 4°4°4°4° 5°5°5°5° 3°3°3°3° 2°2°2°2° Columna con los datosColumna con los datos Permite graficar una serie de datos o comparar varias de ellas, agrupando y subagrupando. Permite graficar una serie de datos o comparar varias de ellas, agrupando y subagrupando. Como con los Histogramas, permite graficar en diferentes gráficos o paneles Como con los Histogramas, permite graficar en diferentes gráficos o paneles
  • 40. 40 de 61 Box-Plots 3 Promedio 42 41 40 39 38 Boxplot of Promedio Valor máximo de la serie de datos. Si hubiera un valor superior al Q3 + 1.5 (Q3 - Q1) aparecería como “*”. Valor máximo de la serie de datos. Si hubiera un valor superior al Q3 + 1.5 (Q3 - Q1) aparecería como “*”. 3° cuartil (75% de los datos) 3° cuartil (75% de los datos) Mediana de la serie de datos Mediana de la serie de datos 2° cuartil (25% de los datos) 2° cuartil (25% de los datos) Menor valor de los datos. Si hubiera un valor menor a Q1- 1.5 (Q3 - Q1) aparecería como “*”. Menor valor de los datos. Si hubiera un valor menor a Q1- 1.5 (Q3 - Q1) aparecería como “*”. El 50% de los datos están dentro de la caja. El 50% de los datos están dentro de la caja. La posición de la Mediana y la longitud de los “Bigotes” dan idea de la forma de la distribución La posición de la Mediana y la longitud de los “Bigotes” dan idea de la forma de la distribución
  • 41. 41 de 61 Box-Plots agrupados 1 1°1°1°1° 2°2°2°2° Para graficar diferentes subgrupos. Para graficar diferentes subgrupos. 4°4°4°4° 6°6°6°6° 3°3°3°3° 5°5°5°5° Columna en la cual están los datos. Columna en la cual están los datos. Columna en la cual están los factores o grupos. Columna en la cual están los factores o grupos.
  • 42. 42 de 61 Box-Plots agrupados 2 Operador Promedio MaríaJulietaFranco 42 41 40 39 38 Boxplot of Promedio vs Operador Distribución de los datos para María. Distribución de los datos para María. Distribución de los datos para Julieta. Distribución de los datos para Julieta.Distribución de los datos para Franco. Distribución de los datos para Franco. Comparación de los datos para los tres operadores Comparación de los datos para los tres operadores
  • 43. Diagrama de Dispersión
  • 44. 44 de 61 Diagrama de Dispersión 1  Los gráficos o Diagramas de Dispersión muestran cómo los pares de valores de una variable independiente (xs) y la respuesta (Ys) varían a medida que aquella cambia.  Los datos se recolectan de a pares x - y.  La forma de la “nube de puntos” da idea de la asociación que existe entre las variables.
  • 45. 45 de 61 Diagrama de Dispersión 2 Han múltiples opciones para graficar grupos varios y superpuestos Han múltiples opciones para graficar grupos varios y superpuestos 1°1°1°1° 2°2°2°2° 3°3°3°3° 4°4°4°4° 5°5°5°5° 6°6°6°6° Columna en la cual está la variable independiente (x) Columna en la cual está la variable independiente (x) Columna en la cual está la variable dependiente (Y) Columna en la cual está la variable dependiente (Y)
  • 46. 46 de 61 Diagrama de Dispersión 3 Tiempo Dureza 18,518,017,517,016,516,015,515,014,5 210 200 190 180 170 160 150 Scatterplot of Dureza vs Tiempo Variable dependiente (Y) Variable dependiente (Y) Variable independiente (x)Variable independiente (x) Pares de puntos x-Y graficadosPares de puntos x-Y graficados Los puntos se muestran muy dispersos, por lo tanto indican bajo grado de asociación. Para valores de x altos, puede haber valores de Y altos o bajos. Los puntos se muestran muy dispersos, por lo tanto indican bajo grado de asociación. Para valores de x altos, puede haber valores de Y altos o bajos. ¿Cómo se mostrarían los puntos en variables con alto grado de asociación? ¿Cómo se mostrarían los puntos en variables con alto grado de asociación? 7°7°7°7°
  • 47. 47 de 61 120110100908070605040 110 100 90 80 70 60 50 40 30 Input Output R-Squared = 0.876 Y = 9.77271 + 0.745022X Strong Positive Correlation 80706050403020100 110 100 90 80 70 60 50 40 30 Input Output R-Squared = 0.876 Y = 99.1754 -0.745022X Strong Negative Correlation 1009080706050 110 100 90 80 70 60 50 40 Input Output R-Squared = 0.359 Y = 25.7595 + 0.645418X Moderate Positive Correlation 50403020100 110 100 90 80 70 60 50 40 Input Output R-Squared = 0.359 Y = 90.3013 - 0.645418X Moderate Negative Correlation 908070605040 85 75 65 55 Input Output R-Squared = 0.115 Y = 56.6537 + 0.181987X Weak Positive Correlation 605040302010 85 75 65 55 Input Output R-Squared = 0.115 Y = 74.8524 - 0.181987X Weak Negative Correlation Diagrama de Dispersión 4 Fuerte asociación negativa (una variable aumenta, la otra decrece) Fuerte asociación negativa (una variable aumenta, la otra decrece) Fuerte asociación positiva (una variable aumenta, la otra aumenta también) Fuerte asociación positiva (una variable aumenta, la otra aumenta también)
  • 48. 48 de 61 Diagrama de Dispersión agrupado 1 4°4°4°4° 1°1°1°1° 2°2°2°2° 5°5°5°5° 6°6°6°6° 7°7°7°7° 3°3°3°3° Para crear un gráfico por gruposPara crear un gráfico por grupos Columna con el resultado (Y) Columna con el resultado (Y) Columna con la variable (X) Columna con la variable (X) Columna con los grupos Columna con los grupos
  • 49. 49 de 61 Diagrama de Dispersión agrupado 2 8°8°8°8° Grupo 2Grupo 2 Grupo 1Grupo 1
  • 50. Matriz de Dispersión
  • 51. 51 de 61 Matriz de Dispersión 1 1°1°1°1° 2°2°2°2° 3°3°3°3° Columnas con las variables a relacionar Columnas con las variables a relacionar 4°4°4°4° 5°5°5°5°
  • 52. 52 de 61 Matriz de Dispersión 2 Cada unidad del gráfico muestra el Diagrama de Dispersiones entre un par de variables Cada unidad del gráfico muestra el Diagrama de Dispersiones entre un par de variables Dispersión entre Presión y Tiempo_1 Dispersión entre Presión y Tiempo_1 Dispersión entre Dureza y Tiempo_1 Dispersión entre Dureza y Tiempo_1
  • 53. Estratificación
  • 54. 54 de 61 Estratificación  Estratificación es una técnica usada en combinación con otras para analizar los datos de una variable y, Y, x o X.  Cuando los datos de diferentes fuentes, como por ejemplo diferentes procesos, turnos, centros de atención, días de la semana, materiales, proveedores, gerencias o equipos están juntos, el significado de esos datos es imposible de ver.  Esta técnica busca, esencialmente, la separación o una subagrupación de esos datos para encontrar los patrones y estadísticos de cada una.  Una aplicación de esta técnica se da para la identificación de no normalidades.
  • 55. 55 de 61 Cuándo usarla  Cuando los datos vienen de diferentes fuentes o condiciones.  El análisis de los datos sugiere entender a cada una de esas fuentes o condiciones.
  • 56. 56 de 61 Qué hacer  Antes de recolectar los datos, considere el efecto que esas fuentes o condiciones puede tener en el análisis que hará.  Si ese efecto es considerable, o lo anticipa así, “etiquete” los datos; esto es que cada uno de ellos contenga la identificación de las fuentes o condiciones de interés.  Haga un gráfico para cada fuente o condición; o considere identificar los datos de cada fuente o condición con colores distintos. podrá usar Box-Plot, Dot-Plot, gráfico de líneas, histogramas...  Analice cada uno de los subgrupos por separado y compárelos entre sí. Las diferencias, y similitudes, conforman información.
  • 57. 57 de 61 Ejemplo 1  Un equipo ha tomado datos para dos turnos diferentes sobre las condiciones de un equipo: tiempo de tratamiento y dureza del material. Ejercicios Medir Columnas 106 “Tiempo_1” y 107 “Dureza_1”. Ejercicios Medir Columnas 106 “Tiempo_1” y 107 “Dureza_1”.
  • 58. 58 de 61 Ejemplo 2 2°2°2°2° 1°1°1°1° Indica las columnas en las cuales está la respuesta (Y) y la variable (x) Indica las columnas en las cuales está la respuesta (Y) y la variable (x) En este ejemplo se usa un Diagrama de Dispersión En este ejemplo se usa un Diagrama de Dispersión
  • 59. 59 de 61 Ejemplo 3 3°3°3°3° Se pide un solo gráfico Se pide un solo gráfico 5°5°5°5° Con click en el botón derecho, podemos editar los símbolos de identificación de los puntos. Con click en el botón derecho, podemos editar los símbolos de identificación de los puntos. El resultado es un diagrama de Dispersión en el cual todos los puntos tienen igual identficación El resultado es un diagrama de Dispersión en el cual todos los puntos tienen igual identficación 4°4°4°4° 6°6°6°6°
  • 60. 60 de 61 62616059585756555453 15,0 14,5 14,0 13,5 13,0 12,5 12,0 Dureza_1 Tiempo_1 1 2 Turno_2 Scatterplot of Tiempo_ 1 vs Dureza_ 1 Ejemplo 4 7°7°7°7° Se indica la columna en la cual están los equipos a los cuales corresponde cada par de valores. Se indica la columna en la cual están los equipos a los cuales corresponde cada par de valores. 8°8°8°8° Los símbolos toman un color diferente para cada equipo. Los símbolos toman un color diferente para cada equipo. 9°9°9°9°
  • 61. 61 de 61 Otros gráficos  Box-Plot.  Gráficos de puntos. (Dot-Plot)  Gráficos de Individuales.  Gráficos de Efectos Principales. (Main Effect)

×