SlideShare a Scribd company logo
1 of 22
Download to read offline
Análisis y Comunicación de Datos Industriales
1
Introducción al Análisis de Datos
En la vida cotidiana se presentan fenómenos que requieren del empleo de una serie
de tablas, medidas, gráficas, de su análisis e interpretación para comprenderlos, lo
cual nos lleva a plantearnos una serie de interrogantes.
La Estadística es la ciencia que se ocupa del estudio de los métodos y
procedimientos para recolectar, clasificar, resumir y analizar datos y para hacer
inferencias científicas sobre una o varias características de la población, partiendo de
los datos observados sobre muestras representativas de dicha población.
El objetivo de cualquier estudio estadístico es obtener información acerca de
algunas características de los individuos de la población estadística. Los pasos para
realizar un estudio estadístico son:
• Recolección de los datos.
• Descripción de los datos recolectados
• Análisis de los datos para obtener conclusiones.
Ejemplos:
• los alumnos de la escuela (población) y su edad, número de asignaturas en
las que están matriculados, número de créditos que poseen, etc.;
• conjunto de piezas producidas por una fábrica (población) y sus
características de ductilidad, rugosidad, etc.;
• el total de usuarios de una red telefónica (población) y su grado de
satisfacción, el número de llamadas efectuadas en un cierto año, etc.
La estadística interviene en múltiples campos:
‐ Encuesta de población activa.
‐ Estadísticas de aprobados de la Universidad en la Argentina.
‐ Tendencia de voto
Aplicaciones en Ingeniería:
‐ Estudio de materiales (duración, dureza, elasticidad, etc.).
‐ Control de calidad
‐ Control de proceso de producción en masa (tornillos, lamparitas, transistores, etc.)
‐ Medidas (calibración, métodos, etc.)
‐ Comparación de performances de maquinarias
‐ Optimización de la circulación en planta, de salida de trabajadores, etc.
‐ Estudios de mercado.
Análisis y Comunicación de Datos Industriales
2
Recolección de datos
Población se refiere a un grupo de ítems que tienen una característica en común.
Una población puede ser definida como un grupo de individuos, como, por ejemplo,
una persona, un animal, un objeto o una medición. Además, una población puede ser
finita o infinita. Por ejemplo, la población consistente de todos los tornillos producidos
en una fábrica, en un día, es finita. En contraste, la población consistente de todos los
posibles resultados (caras o cruces) de los lanzamientos sucesivos de una moneda
es infinita.
En la colección de datos de un grupo de observaciones, a menudo es imposible o
impráctico observar toda la población. De manera qué, en lugar de examinar el grupo
en su totalidad, llamado la población o universo, es conveniente examinar solamente
una parte de la población llamada muestra. Si la muestra es representativa de la
población se podrán inferir conclusiones acerca de la población.
Se pueden definir así, dos ramas de la Estadística:
Estadística Descriptiva: Rama de la Estadística dedicada a la recolección,
recopilación y reducción de los datos a medidas
descriptivas, tablas y gráficos, permitiendo conocer las
características existentes en la población o de un
subconjunto de ella. También se resumen los datos a
través de cantidades numéricas denominadas
estadísticos que miden el promedio, dispersión, etc.
Inferencia Estadística: Se estudia una parte representativa de la población
(muestra) y a partir de los datos observados se hacen
conclusiones sobre la población.
Como unión entre ambas, aparece la probabilidad, que constituye la base teórica
para poder hacer inferencias a partir de lo observado y crear modelos para problemas
concretos.
Método Estadístico
Pasos que se deben seguir en todo estudio estadístico, (similares a los que se
deben seguir en la resolución de cualquier problema matemático, ingenieril, etc.)
1. Planteo del problema:
- ¿Qué queremos estudiar? (objetivo del estudio);
- ¿Dónde lo vamos a estudiar? (población);
- ¿Qué características o variables se deben tener en cuenta para cumplir con
el objetivo del estudio?
Análisis y Comunicación de Datos Industriales
3
2. Recolección, organización y depuración de los datos: Los datos deben ser
válidos, no tener errores o desviaciones que puedan invalidar el estudio.
3. Construcción del modelo: Con los datos observados se formula una hipótesis
sobre el modelo que representa al problema real. Algunos parámetros de este
modelo pueden ser conocidos y otros tendrán que ser estimados (fase de
estimación).
4. Análisis de resultados: En esta última fase, los resultados obtenidos se comparan
con la hipótesis inicial. Si se observan discrepancias, podría ser necesario variar
la hipótesis inicial, retornando a la etapa de construcción del modelo. Si no hay
discrepancias, se obtienen las conclusiones, aclarando en qué contexto son
válidas o aplicables.
Ejemplo: Una máquina produce ejes cuyo diámetro debe encontrarse entre
3 ± 0.05 mm. Todos los ejes cuyo diámetro no pertenezcan al rango dado se
consideran defectuosos. Se trata de determinar cuál es la proporción (p) de ejes
defectuosos que produce la máquina.
1. Planteo del problema:
- Qué vamos a estudiar: ejes producidos por una maquina
- Donde lo vamos a estudiar: todos los ejes producidos en el turno matutino.
- Que variables: diámetro
2. Recolección, organización y depuración de los datos: Hay que establecer un
procedimiento, número de datos que hay que obtener, en qué condiciones y con
qué intervalo de tiempo, etc. (ej: turno de 8 hs, se miden los ejes producidos a
intervalos de 20 minutos). Eliminar los posibles datos erróneos, por errores en la
recolección o transcripción, etc.
3. Modelo o Hipótesis: Estimación de p a partir de los datos o, si el valor de p
estaba preestablecido (por exigencias del comprador, por ejemplo) contrastar si ese
valor queda suficientemente respaldado por los datos, es decir, comparar la
hipótesis inicial con los datos. En esta fase se determina el modelo.
4. Análisis de resultados. Con los resultados obtenidos se determina si el modelo
es o no válido.
Análisis y Comunicación de Datos Industriales
4
Población y muestra
La estadística tiene su propia terminología, es decir, términos fuera de la estadística
descriptiva y de la estadística inferencial, que debe definirse e ilustrarse. El concepto
de una población es la idea más importante en estadística.
En toda investigación estadística existe un conjunto de elementos sobre los que se
toma información. Este conjunto de elementos es lo que se denota con el nombre de
población.
Población: es la colección, o conjunto, de individuos, objetos o eventos cuyas
propiedades serán analizadas.
La población de interés debe definirse cuidadosamente y se considera que está
definida por completo sólo cuando se especifica la lista de elementos que pertenecen
a ella. El conjunto de “todos los estudiantes que han asistido alguna vez a una
universidad estadounidense” es un ejemplo de una población bien definida.
Hay dos tipos de poblaciones: finitas e infinitas. Cuando se puede enumerar
físicamente a todos los elementos que componen a una población se dice que la
población es finita. Cuando los elementos son ilimitados, se dice que la población es
infinita. Todos los electores registrados en Estados Unidos constituyen una población
finita muy grande; en caso necesario, se puede compilar una composición de todos
los padrones electorales. Por otra parte, la población de todas las personas que
podrían tomar aspirina y la población de todos los focos de 40 w que se producirán en
la planta de Sylvania son infinitas. El estudio de grandes poblaciones se dificulta
grandemente, en consecuencia, se acostumbra seleccionar una muestra y estudiar
los datos que la integran.
Muestra: es el subconjunto de una población.
Cuando se trabaja con todos los datos de la población se dice que se realiza un
censo, sin embargo, esto no es muchas veces posible, ya sea por el costo que resulta
de obtener toda la información, porque la toma de información lleva consigo la
destrucción de los elementos, o porque la población tiene infinitos elementos, etc..
Este problema se soluciona trabajando sólo con una parte de los elementos de la
población estadística, proceso que recibe el nombre de muestreo. El conjunto de
elementos de los que se toma información en el proceso de muestreo se llama
muestra y el número de elementos que la componen tamaño muestral. Por lo tanto,
entenderemos por muestra al subconjunto más representativo posible de una
población.
La muestra debe lograr una representación adecuada de la población, en la que se
reproduzca de la mejor manera los rasgos esenciales de dicha población que son
importantes para la investigación.
Análisis y Comunicación de Datos Industriales
5
Proceso de recolección de datos
La obtención de datos para el análisis estadístico es un proceso complicado que
incluye los siguientes pasos:
1. Definir los objetivos de la investigación o del experimento. Ejemplos: comparar
la eficacia de un nuevo medicamento con la eficacia del medicamento estándar;
estimar el ingreso familiar promedio en Estados Unidos.
2. Definir la variable y la población de interés. Ejemplos: duración del tiempo de
recuperación de los pacientes que sufren alguna enfermedad particular; estimar
el ingreso total en las familias de Norteamérica.
3. Definir los esquemas para recolectar y medir los datos. Esto incluye el marco
muestral, el procedimiento de muestreo, el tamaño de la muestra y el
instrumento de medición (cuestionario, por teléfono, etc.) de los datos.
4. Recolectar su muestra. Seleccionar los sujetos a ser muestreados y recolectar
los datos.
5. Revisar el proceso de muestreo al terminar la recolección. A menudo ocurre que
un analista se encuentra con datos ya recolectados, tal vez, incluso,
recolectados para otros fines, lo cual imposibilita determinar si los datos son
“buenos” o no. Es mucho mejor que usted recolecte los datos utilizando técnicas
aprobadas. Aun cuando el interés primordial de este libro está relacionado con
diversas técnicas de análisis de datos, usted debe estar al tanto de los
problemas de la recolección de datos.
TIPOS DE MUESTREO
Existen diferentes criterios de clasificación de los diferentes tipos de muestreo,
aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo
probabilísticos y métodos de muestreo no probabilísticos.
Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio
de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente,
todas las posibles muestras de tamaño n tienen la misma probabilidad de ser
seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la
representatividad de la muestra extraída y son, por tanto, los más recomendables.
Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:
1.- Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se
asigna un número a cada individuo de la población y 2) a través de algún medio
mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números
aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos
sujetos como sea necesario para completar el tamaño de muestra requerido.
Análisis y Comunicación de Datos Industriales
6
2.- Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior,
numerar todos los elementos de la población, pero en lugar de extraer n números
aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número
elegido al azar, y los elementos que integran la muestra son los que ocupan los
lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k,
siendo k el resultado de dividir el tamaño de la población entre el tamaño de la
muestra: k= N/n. El número i que empleamos como punto de partida será un número
al azar entre 1 y k.
El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en
la población ya que al elegir a los miembros de la muestra con una periodicidad
constante (k) podemos introducir una homogeneidad que no se da en la población.
Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos
en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un
muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres
o sólo mujeres, no podría haber una representación de los dos sexos.
3.- Muestreo estratificado: Consiste en la división previa de la población de estudio
en grupos o clases que se suponen homogéneos respecto a característica a
estudiar y a los cuales se le asigna una cuota que determina el número de miembros
del estrato que compondrán la muestra, estos son escogidos mediante muestreo
aleatorio simple.
Según la cantidad de elementos de la muestra que se han de elegir de cada uno de
los estratos, existen tres técnicas de muestreo estratificado:
- Asignación simple: A cada estrato le corresponde igual número de elementos
muéstrales.
- Asignación proporcional: el tamaño de cada estrato en la muestra es proporcional
a su tamaño en la población.
Supongamos que tienes 3 estratos con 100, 200 y 300 tamaños de la población,
respectivamente. El investigador eligió una fracción de muestreo de ½. Luego, el
investigador debe seleccionar al azar 50, 100 y 150 sujetos de cada estrato,
respectivamente.
Estrato A B C
Tamaño de la población 100 200 300
Fracción de muestreo ½ ½ ½
Tamaño final de la muestra 50 100 150
En esta técnica, lo importante es recordar el uso de la misma fracción de muestreo
en cada estrato, independientemente de las diferencias en el tamaño de la
población de los estratos. Es muy parecido a reunir una población más pequeña
que sea específica de las proporciones relativas de los subgrupos dentro de la
población.
Análisis y Comunicación de Datos Industriales
7
- Asignación óptima: la muestra recogerá más individuos de aquellos estratos que
tengan más variabilidad. Para ello es necesario un conocimiento previo de la
población.
Ejemplo: si suponemos un estudio sobre la población de estudiantes de cierto
curso de la UNS, en el que a través de una muestra de 10 de ellos queremos
obtener información sobre el uso del lápiz labial. Pero reflexionando sobre que el
comportamiento de la población con respecto a esta característica no es
homogéneo, podemos dividir a la población en dos estratos:
- Estudiantes masculinos 40%.
- Estudiantes femeninos 60%.
De modo que la asignación proporcional a esta muestra es en función de sus
respectivos tamaños (4 varones y 6 mujeres).
Pero también podríamos observar que el comportamiento de los varones con
respecto a la característica en estudio es muy homogéneo y diferenciado del grupo
de las mujeres que es muy variable. De modo que la asignación óptima de una
muestra de 10 alumnos, nos indica que es más conveniente elegir más individuos
en los grupos de mayor variabilidad. De la cual obtendríamos mejores resultados
estudiando una muestra de
- 1 varón.
- 9 mujeres.
4.- Muestreo aleatorio por conglomerados: Cuando la población se encuentra
dividida, de manera natural, en grupos que se suponen que contienen toda la
variabilidad de la población, es decir, la representan fielmente respecto a la
característica a elegir, pueden seleccionarse sólo algunos de estos grupos o
conglomerados para la realización del estudio.
Una muestra de conglomerados, usualmente produce un mayor error muestral (por
lo tanto, da menor precisión de las estimaciones acerca de la población) que una
muestra aleatoria simple del mismo tamaño. Los elementos individuales dentro de
cada “conglomerado” tienden usualmente a ser iguales. Por ejemplo, la gente de
alto poder adquisitivo puede vivir en el mismo barrio, mientras que la gente de bajo
poder adquisitivo puede vivir en otra área. No todas las áreas son muestreadas en
un muestreo de áreas. La variación entre los elementos obtenidos de las áreas
seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la
población entera es muestreada mediante muestreo aleatorio simple. Esta debilidad
puede ser reducida cuando se incrementa el tamaño de la muestra de área.
Por otra parte, una muestra de conglomerados puede producir la misma precisión
en la estimación que una muestra aleatoria simple, si la variación de los elementos
individuales dentro de cada conglomerado es tan grande como la de la población.
Análisis y Comunicación de Datos Industriales
8
Métodos de muestreo no probabilísticos
A veces el muestreo probabilístico resulta costoso y se acude a métodos no
probabilísticos, aun siendo conscientes de que no sirven para realizar
generalizaciones (estimaciones inferenciales sobre la población), pues no se tiene
certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de
la población tienen la misma probabilidad de ser elegidos. En general se seleccionan
a los sujetos siguiendo determinados criterios procurando, en la medida de lo posible,
que la muestra sea representativa.
Entre los métodos de muestreo no probabilísticos más utilizados encontramos:
1.- Muestreo por cuotas: Se fundamenta sobre la base de un buen conocimiento de
los estratos de la población y/o de los individuos más "representativos" o
"adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con
el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de
aquél. En este tipo de muestreo se fija el número (cuota) de individuos que reúnen
determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo
femenino y residentes en Dorrego. Una vez determinada la cuota se eligen los
primeros que se encuentren que cumplan esas características. Este método se
utiliza mucho en las encuestas de opinión.
2.- Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza
por un esfuerzo deliberado de obtener muestras "representativas" mediante la
inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su
utilización en sondeos preelectorales de zonas que en anteriores votaciones han
marcado tendencias de voto.
3.- Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y
estos a otros, y así hasta conseguir una muestra suficiente.
4.- Muestreo Discrecional: A criterio del investigador los elementos son elegidos
sobre lo que él cree que pueden aportar al estudio.
Los métodos de selección de muestras también pueden ser clasificados de acuerdo
al número de muestras tomadas de una población dada para un estudio. Bajo la
clasificación de métodos de muestreo clasificados de acuerdo con el número de
muestras tomadas de una población hay tres tipos comunes de métodos de muestreo.
Estos son, muestreo simple, doble y múltiple.
• Muestreo simple: en este tipo de muestreo se toma solo una muestra
de la población. El tamaño de muestra debe ser los suficientemente grande para
extraer una conclusión.
• Muestreo doble: cuando el resultado del estudio de la primera muestra
no es decisivo, una segunda muestra es extraída de la misma población. Las dos
muestras son combinadas para analizar los resultados. Si la primera muestra
arroja un resultado definitivo, la segunda muestra puede no necesitarse.
Análisis y Comunicación de Datos Industriales
9
• Muestreo múltiple: El procedimiento bajo este método es similar al
expuesto en el muestreo doble, excepto que el número de muestras sucesivas
requerido para llegar a una decisión es más de dos muestras.
Además del tipo de método de muestreo que utilizamos, hay otra pregunta
relacionada con lo que le sucede específicamente a un individuo que hemos
seleccionado. Esta pregunta que surge es,
¿Después de seleccionar un individuo y registrar la medición del atributo que
estamos estudiando, ¿qué hacemos con el individuo?
Hay dos opciones: Podemos reemplazar al individuo, ó podemos elegir no
reemplazar al individuo. Estos son muestreo con reemplazo y sin reemplazo.
• Muestreo con reemplazo: Es aquel en que un elemento puede ser
seleccionado más de una vez en la muestra para ello se extrae un elemento de
la población se observa y se devuelve a la población, por lo que de esta forma
se pueden hacer infinitas extracciones de la población aun siendo esta finita.
• Muestreo sin reemplazo: No se devuelve los elementos extraídos a la
población hasta que no se hallan extraídos todos los elementos de la población
que conforman la muestra.
Ejemplo: Suponga que estamos investigando sobre el porcentaje de alumnos que
trabajan de una población de 20 alumnos de una Universidad. Elija una muestra
aleatoria simple de tamaño n=4 de esta población.
Base de datos de la población:
Nombre Alumno ¿Trabaja? Nombre Alumno ¿Trabaja?
Juan SI María NO
Alicia NO Fernanda NO
Pedro NO Julio SI
Marcos NO Rosa NO
Alberto SI Fabián NO
Jorge SI Ana NO
José NO Laura NO
Carlos NO Enrique NO
Miguel NO Carmen SI
Victoria SI Marcelo SI
Análisis y Comunicación de Datos Industriales
10
Respuesta:
Primero asignamos número a cada alumno del 1 al 20:
Nº Nombre Alumno ¿Trabaja? Nº Nombre Alumno ¿Trabaja?
1 Juan SI 11 María NO
2 Alicia NO 12 Fernanda NO
3 Pedro NO 13 Julio SI
4 Marcos NO 14 Rosa NO
5 Alberto SI 15 Fabián NO
6 Jorge SI 16 Ana NO
7 José NO 17 Laura NO
8 Carlos NO 18 Enrique NO
9 Miguel NO 19 Carmen SI
10 Victoria SI 20 Marcelo SI
Segundo generamos nº aleatorios (podemos utilizar una tabla de números
aleatorios o generarlos utilizando un software). Buscamos 4 números entre el 1 y el
20, sin repetir:
20 19 19 8 20 7
14 9 5 14 15 15
4 20 3 8 16 9
Los números seleccionados son: 20, 19, 8, 14. Por lo tanto, la muestra está
compuesta por:
Nº Nombre Alumno ¿Trabaja?
8 Carlos NO
14 Rosa NO
19 Carmen SI
20 Marcelo SI
Ejemplo: En el ejemplo anterior elija una muestra estratificada de tamaño n=4 de
esta población.
Para elegir una muestra estratificada, primero se dividen los hombres de las
mujeres y se asignan número de identificación a cada estrato:
Nº Nombre Alumno ¿Trabaja? Nº Nombre Alumno ¿Trabaja?
1 Juan SI 1 María NO
2 Julio SI 2 Fernanda NO
3 Pedro NO 3 Rosa NO
4 Marcos NO 4 Ana NO
5 Alberto SI 5 Laura NO
6 Jorge SI 6 Carmen SI
7 José NO 7 Alicia NO
8 Carlos NO 8 Victoria SI
9 Miguel NO
10 Enrique NO
11 Fabián NO
12 Marcelo SI
Análisis y Comunicación de Datos Industriales
11
Usando los números aleatorios, se elige una muestra aleatoria simple de tamaño
n=2 de los hombres, buscando números del 1 al 12.
6 5 4 1 9 3
10 7 4 11 4 11
8 1 6 8 7 12
7 10 4 5 9 1
Los números elegidos son: 6 y 5. Por lo tanto la muestra del estrato de hombres
queda constituida por Jorge y Alberto. Ambos trabajan.
Usando la tabla de números aleatorios, se elige una muestra aleatoria simple de
tamaño n=2 de las mujeres, buscando números del 1 al 8.
8 2 1 5
4 7 5 7
8 4 7 5
Los números elegidos son: 8 y 2. Por lo tanto, la muestra del estrato de mujeres
queda constituida por Victoria y Fernanda. Victoria NO trabaja, Fernanda Si trabaja.
Ejemplo de autoevaluación: La próxima semana tendrá lugar una elección y,
realizando encuestas en una muestra de la población votante, queremos predecir si
ganará el candidato A o el B. ¿Cuál de los siguientes métodos de selección es
probable que ofrezca una muestra representativa? Justifique.
a) Encuestar a todas las personas en edad de votar que asistan a un partido de fútbol.
b) Encuestar a todas las personas en edad de votar que salgan de un restaurante de
Puerto Madero
c) Obtener una copia de la lista de votantes registrados y elegir a 100 de ellos en
forma aleatoria
d) Usar los resultados de una encuesta de TV en que la emisora pide a su auditorio
llamar y decir a cuál elige
e) Elegir nombres de la guía telefónica y llamar a estas personas
Análisis y Comunicación de Datos Industriales
12
Variables. Clasificación y escalas de medición
Se va a trabajar con conjuntos de datos asociados a una o más características de
la población, que se llama variable estadística, en general representada por una letra
mayúscula (X,Y,Z,..). Se pueden definir distintos tipos de variables según la naturaleza
de los valores que toman:
Variables cualitativas: no se pueden medir numéricamente, sino que se identifican
con un aspecto o cualidad o característica que las distinga y que no se pueden medir
sino solo observar, a ese aspecto, cualidad o característica se le llama categoría. Por
ej.: nacionalidad, bebida preferida, candidato a votar. Estas variables también se
denominan Categóricas, y pueden clasificarse como:
Variables Cualitativas Nominales: son aquellas a las que no se le puede asignar
un orden, es decir que sólo permiten clasificación en categoría por mención de ésta.
Por ejemplo la nacionalidad de una persona, idioma, sexo, etc..
Variables Cualitativas Ordinales: son aquellas que además de clasificar a los
elementos en distintas categorías les podemos asignar un orden o que podemos
ordenar de acuerdo a cierta característica. Por ejemplo el estado de salud de una
persona; que podemos ordenarla según la urgencia del caso; el color de un objeto
según la tonalidad desde muy clara hasta más oscuro; meses del año, etc..
Variables cuantitativas: son aquellas que se identifican con un valor numérico o que
corresponden a aspectos que son medibles, tienen valor numérico, por ej.: edad,
precio de un producto, ingresos anuales. Estas variables también se denominan
Numéricas, y se dividen en:
Variables Cuantitativas Discretas: sólo pueden tomar valores enteros en un
rango finito. Ejemplos: número de compras de un producto en un mes, el año de
cosecha del vino, número de entradas de cine vendidas en un intervalo de tiempo,
resultado de lanzar un dado, número de hijos en cada familia en una ciudad (1,2,3…,
nunca 3.45);
Variables Cuantitativas Continuas: son aquellas que pueden tomar cualquier
valor entre dos valores dados. Es decir, el rango contiene no sólo valores enteros sino
un intervalo de valores reales. Por ej: velocidad de un auto: [0, 300] en km/h: 0,3 km/h,
94,57 km/h, ..., etc., intensidad de la corriente eléctrica; intervalo de tiempo entre dos
llamadas telefónicas.
Análisis y Comunicación de Datos Industriales
13
Ejemplo de autoevaluación: Sea la siguiente encuesta. Decidir, para cada una de
las preguntas o variables, el tipo al que pertenecen:
a) Edad en años
b) Sexo (1= hombre, 2= mujer)
c) Número de hermanos (incluido uno mismo)
d) Lugar de nacimiento (1= Catalunya, 2= resto de España, 3= extranjero)
e) Bronquitis crónica (1= si, 2= no)
f) Número de cigarrillos que fuma al día
g) Número de tazas de café que toma al día
h) Tiene dolores de cabeza (1= nunca, 2= a veces, 3= muchas veces, 4= siempre)
i) Peso en kilogramos
j) Talla en centímetros
Análisis y Comunicación de Datos Industriales
14
Representación Tabular y Gráfica
Una vez que se han recogido los valores que toman las variables de nuestro estudio
(datos), procederemos al análisis descriptivo de los mismos.
Para variables categóricas, como el sexo o el estadiaje, se quiere conocer el
número de casos en cada una de las categorías, reflejando habitualmente el
porcentaje que representan del total, y expresándolo en una tabla de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores
observados distintos, se ha de optar por un método de análisis distinto, respondiendo
a las siguientes preguntas:
a. ¿Alrededor de qué valor se agrupan los datos?
b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy
concentrados? ¿muy dispersos?
Los datos de una muestra deben ser representados en forma concisa y clara, de tal
manera que un observador obtenga una impresión rápida de las características
esenciales de los datos. Las tablas y gráficos son recursos muy útiles en la
representación de datos que revelan características importantes como el rango, el
grado de concentración y la simetría de los datos.
En el curso de un experimento estadístico se obtiene una sucesión de
observaciones que se escriben en el orden en que se presentan. Después de la
organización de los datos, la información se resume en Tablas Estadísticas, luego la
información contenida en las tablas se puede presentar mediante gráficas.
Construcción de distribución o tabla de frecuencias para datos no agrupados y
agrupados.
Datos no agrupados:
Datos diferentes: Consideraremos como un dato diferente, a cada uno de los
distintos datos que se presentan en la muestra, los denotaremos por xj. Y al número
total de datos diferentes lo denotaremos por m.
Cuando el tamaño de la muestra (n) es finito y el número de datos diferentes es
pequeño (consideraremos pequeño m ≤ 10), es fácil hacer un análisis de los datos
tomando cada uno de los datos diferentes y ordenándolos de alguna de las siguientes
formas:
DATOS ORDENAMIENTO
Cualitativos
Alfabético a-z
Alfabético z-a
Del más al menos repetido
Del menos al más repetido
Cuantitativos
Creciente (menor al mayor)
Decreciente (mayor al menor)
Análisis y Comunicación de Datos Industriales
15
Veremos cómo se puede representar la información en forma de tablas a través de
un ejemplo:
Ejemplo: Durante dos semanas se estudió la productividad de los trabajadores de
una fábrica, contando el número de piezas aceptables producidas por 100 de estos
trabajadores. Se confecciona entonces la Tabla de valores de la muestra que contiene
todos los datos en el orden en que fueron obtenidos:
28 26 37 32 32 40 26 32 37 38
34 22 37 40 32 34 28 40 32 32
28 32 28 26 38 32 32 34 26 34
38 34 34 28 32 26 34 28 32 42
42 45 28 40 32 45 28 34 32 34
37 28 28 37 38 32 22 32 34 26
34 42 40 32 28 40 32 32 28 32
26 28 35 34 32 28 38 22 40 34
32 37 38 22 37 32 38 32 38 37
37 32 26 32 34 26 34 37 26 28
Los datos presentados en el ejemplo son datos cuantitativos, los presentaremos
ahora en una tabla ordenados de manera creciente:
22 26 28 32 32 32 34 37 38 40
22 26 28 32 32 32 34 37 38 40
22 26 28 32 32 32 34 37 38 40
22 26 28 32 32 32 34 37 38 40
26 28 28 32 32 34 34 37 38 40
26 28 28 32 32 34 34 37 38 42
26 28 28 32 32 34 34 37 38 42
26 28 28 32 32 34 34 37 38 42
26 28 28 32 32 34 34 37 40 45
26 28 32 32 32 34 35 37 40 45
Podemos observar que el valor 22 se registró cuatro veces, indicando que solo
cuatro empleados fueron capaces de producir 22 piezas. El valor 26 aparece 10 veces,
es decir, que 10 empleados elaboraron 26 piezas. Y así siguiendo, podemos obtener
el número de veces que aparece un dato, es decir la frecuencia absoluta puntual
del valor y lo notaremos fabs(xj).
La frecuencia relativa puntual con que aparecen los valores de una variable es la
relación entre la frecuencia absoluta puntual de un valor de esta variable y la
frecuencia total de todos los valores registrados (n), lo escribimos como:
𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟�𝑥𝑥𝑗𝑗� =
𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎�𝑥𝑥𝑗𝑗�
𝑛𝑛
, 0 ≤ 𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟�𝑥𝑥𝑗𝑗� ≤ 1
Análisis y Comunicación de Datos Industriales
16
Las frecuencias acumuladas se obtienen por adición sucesiva de las frecuencias
absolutas partiendo del menor valor de la variable y respetando el orden creciente. Lo
escribimos como:
𝐹𝐹𝑎𝑎𝑎𝑎𝑎𝑎�𝑥𝑥𝑗𝑗� = 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎(𝑥𝑥1) + 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎(𝑥𝑥2) + ⋯ + 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎�𝑥𝑥𝑗𝑗�
La suma de todas las frecuencias relativas en una muestra es igual a 1. Por ejemplo,
para una muestra en la cual se obtuvieron m valores diferentes de xi:
� 𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟�𝑥𝑥𝑗𝑗�
𝑚𝑚
𝑗𝑗=1
= 𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟(𝑥𝑥1) + 𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟(𝑥𝑥2) + ⋯ + 𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟(𝑥𝑥𝑚𝑚) = 1
Organizaremos la información en una Tabla Estadística de la siguiente manera:
- Cantidad total de datos: n
- Columna Nº1: valores distintos de la muestra, de menor a mayor (xj, j=1...n)
- Columna Nº2: frecuencia absoluta puntual, fabs(xj), j=1…n: cuántas veces se
repitió cada dato mostrado en la columna 1
- Columna Nº3: frecuencia relativa puntual frel(xj), j=1...n: proporción de veces
que se repitió cada dato mostrado en la columna 1
- Columna Nº4: frecuencia absoluta acumulada Fabs(xj), j=1…n: cuántas veces
se repitieron los datos menores o iguales que el mostrado en la misma fila
en la columna 1
- Columna Nº5: frecuencia relativa acumulada Frel(xj), j=1…n: proporción de
veces que se repitieron los datos menores o iguales que el mostrado en la
misma fila en la columna 1
Confeccionamos entonces la siguiente tabla de frecuencias de la muestra
xj fabs(xj) frel(xj) Fabs(xj) Frel(xj)
22 4 0.04 4 0.04
26 10 0.10 14 0.14
28 15 0.15 29 0.29
32 25 0.25 54 0.54
34 16 0.16 70 0.70
37 10 0.10 80 0.80
38 8 0.08 88 0.88
40 7 0.07 95 0.95
42 3 0.03 98 0.98
45 2 0.02 100 1.00
Cuando el número de valores diferentes de valores en una muestra es pequeño se
presenta adecuadamente en una tabla de frecuencias. La tabla nos provee
información de cuál es el valor más repetido, cuál es el máximo de los valores, el
intervalo donde se han producido datos, etc.
Análisis y Comunicación de Datos Industriales
17
En el ejemplo: 4 trabajadores produjeron la mínima cantidad de piezas (22), 2
trabajadores produjeron la máxima cantidad de piezas (45), 32 piezas fue el valor más
repetido (25).
Los datos así organizados pueden ser presentados gráficamente. Para las
distribuciones de datos discretos (que no toman demasiados valores) se representan
directamente las frecuencias simples bajo la forma de diagrama de barras. En el eje
de abscisas figuran los valores de la variable, el eje de ordenadas lleva la escala de
las frecuencias relativas, los porcentajes o las frecuencias absolutas.
Si las barras se convierten en líneas se tendría un gráfico de líneas o polígono
de frecuencias.
Si utilizamos puntos para la representación obtenemos lo que se denomina gráfico
de puntos.
Análisis y Comunicación de Datos Industriales
18
Gráfica Circular de Pastel o también llamada del 100%: este gráfico se utiliza
fundamentalmente para representar distribuciones de frecuencias relativas (es decir,
porcentajes % o proporciones) haciendo corresponder la medida de la frecuencia
relativa con la medida del ángulo en grados; es decir, si el 100 % de los datos son
360º de la circunferencia, a cada 1% le corresponderán 3.6º; así, para obtener la
medida del ángulo del sector, multiplicamos la frecuencia correspondiente por 3.6º.
La frecuencia relativa del valor de un dato está indicada por el área de su sector.
Se cumplen las siguientes relaciones:
Área Sector= Área del Círculo * frel(xj)
Ángulo del Sector = 360° × frel(xj)
Al utilizar este gráfico se aconseja no sobrepasar los 10 elementos, y ordenar los
sectores de acuerdo a una de dos formas, ya sea siguiendo el orden que se les dé a
los datos o empezando del mayor al menor segmento, iniciando a partir de las 12
horas y en el sentido de las manecillas del reloj. Por último, si el texto que representa
cada sector no puede colocarse dentro del mismo, se elabora una leyenda que se
coloca fuera del segmento, unidos por una flecha.
Ahora resulta un poco inoperante el realizar cálculos repetitivos, sobre todo cuando
se trata de una infinidad de datos o cuando el tamaño de la muestra es
considerablemente grande, por lo que se utiliza el agrupar los datos en subgrupos
llamados intervalos o clases.
Datos agrupados
Cuando el tamaño de la muestra es considerable o grande y los datos numéricos
son muy diversos (n>15), conviene agrupar los datos de tal manera que permita
establecer patrones, tendencias o regularidades de los valores observados. De esta
manera podemos condensar y ordenar los datos tabulando las frecuencias asociadas
a ciertos intervalos de los valores observados.
Análisis y Comunicación de Datos Industriales
19
Intervalos de Clase: Son los intervalos en los que se agrupan y ordenan los valores
observados. Cada uno de estos intervalos está delimitado (acotado) por dos valores
extremos que les llamamos límites.
Pasos a seguir para construir intervalos de frecuencia.
1. Determinar la cantidad de intervalos apropiada.
La selección del número adecuado de intervalos y los límites entre ellos dependen
del criterio o experiencia de quien realiza el estudio. Sin embargo, existen reglas
empíricas para calcular el número de intervalos; la más empleada es la Regla de
Sturges, cuya expresión es: K= 1 + 3.3 Log n.
Donde: K=Número de intervalos el cual siempre debe ser un número entero. Razón
por la cual se deberá redondear el resultado al entero más cercano.
n= Número de datos.
Log = logaritmo en base 10.
Otra regla utilizada es la de Velleman que establece que el número de Intervalos se
obtiene de la raíz cuadrada del número de datos; es decir 𝐾𝐾 = √𝑛𝑛, recomendable para
tamaños de muestra pequeños (n< 50).
El número de intervalos determinado mediante cualquier regla se aproxima al valor
entero más cercano, pero deberá ser responsabilidad de quien realiza el estudio,
pudiendo utilizar éste en ocasiones uno menor o mayor al obtenido por cualquier regla,
si esto le permite tener intervalos con la misma amplitud. Sin embargo, la mayoría de
las reglas subestiman el número de intervalos.
2. Calcular el rango de los datos.
Llamamos rango al número de unidades de variación presente en los datos
recopilados y se obtiene de la diferencia entre el dato mayor y el dato menor. Se
representa con la letra R.
R = dato mayor – dato menor.
3. Obtención de la amplitud o anchura que tendrá cada intervalo.
Se encuentra dividiendo el rango por el número de intervalos. Se representa con la
letra A de tal manera que: 𝐴𝐴𝐴𝐴 =
𝑅𝑅
𝐾𝐾
.
4. Construcción de los intervalos.
Los intervalos de clase son conjuntos numéricos y deben ser excluyentes y
exhaustivos; es decir, si un dato pertenece a un intervalo determinado, ya no podrá
pertenecer a otro, esto quiere decir excluyentes y además todos y cada uno de los
datos deberá estar contenido en alguno de los intervalos, esto les da el valor de
exhaustivos.
Las dos características mencionadas anteriormente se logran construyendo
intervalos cerrados por la derecha y abiertos por la izquierda; esto se simboliza a
Análisis y Comunicación de Datos Industriales
20
través del uso de corchetes y paréntesis respectivamente (,]. Por razones naturales,
el primer intervalo será cerrado por ambos extremos.
El primer intervalo se construye de la siguiente manera: Habrá de iniciar con el dato
menor, el cual será el extremo inferior del intervalo; el otro extremo se obtiene de la
suma del dato menor y la amplitud, con este mismo valor iniciamos el segundo
intervalo, del cual el segundo extremo se encuentra sumando al valor anterior la
amplitud y este proceso se repite sistemáticamente hasta completar el total de
intervalos indicado por la regla elegida, por ejemplo, la de Sturges.
Los valores extremos o límites de intervalo.
Los intervalos de clase deben estar definidos por límites que permitan identificar
plenamente si un dato pertenece a uno u otro intervalo. Estos límites son los valores
extremos de cada intervalo.
Límite inferior: Es el extremo menor de cada intervalo y lo denotaremos por Li.
Límite superior: Es el extremo mayor de cada intervalo y lo denotaremos por Ls.
También será muy útil conocer y calcular la Marca de Clase de cada intervalo: Se
refiere al Punto Medio del intervalo y a través de él representaremos a todo el intervalo,
lo denotaremos por MC y una de las maneras de calcularla es promediando los valores
límites de cada intervalo, es decir:
𝑀𝑀𝑀𝑀 =
𝐿𝐿𝑖𝑖 + 𝐿𝐿𝑠𝑠
2
Ejemplo: Un grupo de investigadores pertenecientes a la secretaría de seguridad
pública, tomó una muestra aleatoria de las velocidades (km/h) registradas por 30
vehículos en el trayecto Monte Hermoso – Bahía Blanca, con el fin de establecer
nuevos límites máximos de velocidad para la ruta. La muestra arrojo los datos
siguientes:
90, 99, 104, 99, 119, 98, 95, 112, 95, 120, 100, 90, 116, 96, 114, 108, 98, 118, 100,
106, 114, 100, 112, 106, 100, 115, 111, 105, 114, 97.
Toda vez que se tienen los datos, se recomienda ordenarlos de menor a mayor o
viceversa:
90, 90, 95, 95, 96, 97, 98, 98, 99, 99, 100, 100, 100, 104, 105, 106, 108, 111, 112,
112, 114, 114, 115, 116, 118, 119, 120.
Ahora llevamos a la práctica los pasos descritos anteriormente para la construcción
de los intervalos.
Primero obtendremos el número de intervalos que vamos a utilizar, para lo cual
empleamos la Regla de Velleman:
𝐾𝐾 = √30 = 5.47 ≈ 6
Segundo, calculamos el rango de variación, R = 120 – 90 = 30
Análisis y Comunicación de Datos Industriales
21
Tercero, obtenemos la amplitud de cada intervalo de clase como sigue:
𝐴𝐴𝐴𝐴 =
30
6
= 5
Finalmente construimos los intervalos, el primero de ellos inicia con 90 que es el
extremo inferior que, sumado a 5 obtenemos 95, que será el extremo superior; este
extremo será el inferior del segundo intervalo; y al sumar nuevamente la amplitud
tendremos 100 que será el extremo superior y así sucesivamente hasta completar los
6 intervalos:
[90 – 95], (95 – 100], (100 – 105], (105 – 110], (110 – 115] y (115 – 120]
Los corchetes expresan que el valor extremo se incluye en el intervalo y los
paréntesis dan a entender que el valor extremo del intervalo no se incluye en el.
Para la construcción de distribuciones de frecuencias contabilizamos el número de
datos que le corresponden a cada intervalo; es decir obtenemos las frecuencias
absolutas y de estas podemos generar los demás tipos de frecuencias y presentarlas
en una tabla de resumen como la que a continuación se muestra:
Intervalos de Clase mc fabs Fabs frel Frel
[90 – 95] 92.5 4 4 0,13 0,13
(95 – 100] 97.5 10 14 0,33 0,47
(100 – 105] 102.5 2 16 0,07 0,53
(105 – 110] 107.5 3 19 0,10 0,63
(110 – 115] 112.5 7 26 0,23 0,87
(115 – 120] 117.5 4 30 0,13 1
Total 30 1.00
Los datos agrupados suelen ser representados gráficamente por medio de
histogramas: es una gráfica en forma de barras que consta de dos ejes, uno
horizontal, llamado eje de la variable en observación, en donde situamos la base de
las barras contiguas (no van separadas), y que se rotula con los límites inferiores de
cada clase o intervalo excepto el último que deberá llevar también el límite superior,
centradas en la marca de clase. Y un eje vertical llamado eje de las frecuencias, en
donde se miden las alturas que vienen dadas por la frecuencia del intervalo que
representa. Todos los intervalos deben tener la misma longitud.
Análisis y Comunicación de Datos Industriales
22
Veámoslo a través del ejemplo:
Gráfica de Frecuencias Acumuladas u Ojiva: Es un gráfico que igual al
histograma y se utiliza para el análisis y representación de variables continuas, se
construye uniendo con segmentos de recta, de izquierda a derecha, las parejas
ordenadas que se forman, al considerar como abscisa los límites superiores de cada
intervalo (eje horizontal) y como ordenada las frecuencias relativas acumuladas hasta
cada intervalo representado (eje vertical).
Existen dos tipos de ojivas, las llamadas de mayor que inician en la frecuencia más
alta 1 hacia la más baja 0, y las llamadas de menor que inician en la frecuencia más
baja 0 hacia la más alta 1.
El gráfico ojiva representa mayor importancia cuando se trata de comparar las
observaciones de una misma característica en dos experimentos distintos, ya que no
se puede ejecutar comparaciones sobre frecuencias absolutas, es necesario una
comparación sobre frecuencias relativa; además permite ver cuantas observaciones
se hallan por arriba o debajo de ciertos valores establecidos.

More Related Content

Similar to Introducción al análisis de datos

Bahir dar institute of technology.pdf
Bahir dar institute of technology.pdfBahir dar institute of technology.pdf
Bahir dar institute of technology.pdfHailsh
 
Statistik Chapter 1
Statistik Chapter 1Statistik Chapter 1
Statistik Chapter 1WanBK Leo
 
Basics of Research Methodology- Part-II.ppt
Basics of Research Methodology- Part-II.pptBasics of Research Methodology- Part-II.ppt
Basics of Research Methodology- Part-II.pptPratibha Jagtap
 
General Statistics boa
General Statistics boaGeneral Statistics boa
General Statistics boaraileeanne
 
Research Methodology - Research Design & Sample Design
Research Methodology - Research Design & Sample DesignResearch Methodology - Research Design & Sample Design
Research Methodology - Research Design & Sample DesignJosephin Remitha M
 
statics engineering mechanics slides.pdf
statics engineering mechanics slides.pdfstatics engineering mechanics slides.pdf
statics engineering mechanics slides.pdfAurangzebRashidMasud2
 
Stastistics in Physical Education - SMK.pptx
Stastistics in Physical Education - SMK.pptxStastistics in Physical Education - SMK.pptx
Stastistics in Physical Education - SMK.pptxshatrunjaykote
 
Unit III - Statistical Process Control (SPC)
Unit III - Statistical Process Control (SPC)Unit III - Statistical Process Control (SPC)
Unit III - Statistical Process Control (SPC)Dr.Raja R
 
Characteristic of a Quantitative Research PPT.pptx
Characteristic of a Quantitative Research PPT.pptxCharacteristic of a Quantitative Research PPT.pptx
Characteristic of a Quantitative Research PPT.pptxJHANMARKLOGENIO1
 
Aed1222 lesson 1 and 3
Aed1222 lesson 1 and 3Aed1222 lesson 1 and 3
Aed1222 lesson 1 and 3nurun2010
 
Statistics Assignments 090427
Statistics Assignments 090427Statistics Assignments 090427
Statistics Assignments 090427amykua
 
Meaning and Importance of Statistics
Meaning and Importance of StatisticsMeaning and Importance of Statistics
Meaning and Importance of StatisticsFlipped Channel
 
Statistics for Data Analytics
Statistics for Data AnalyticsStatistics for Data Analytics
Statistics for Data AnalyticsSSaudia
 

Similar to Introducción al análisis de datos (20)

Presentation of BRM.pptx
Presentation of BRM.pptxPresentation of BRM.pptx
Presentation of BRM.pptx
 
Bahir dar institute of technology.pdf
Bahir dar institute of technology.pdfBahir dar institute of technology.pdf
Bahir dar institute of technology.pdf
 
Statistics
StatisticsStatistics
Statistics
 
Statistik Chapter 1
Statistik Chapter 1Statistik Chapter 1
Statistik Chapter 1
 
Sampling techniques
Sampling techniquesSampling techniques
Sampling techniques
 
Statistics
StatisticsStatistics
Statistics
 
Basics of Research Methodology- Part-II.ppt
Basics of Research Methodology- Part-II.pptBasics of Research Methodology- Part-II.ppt
Basics of Research Methodology- Part-II.ppt
 
General Statistics boa
General Statistics boaGeneral Statistics boa
General Statistics boa
 
Mm22
Mm22Mm22
Mm22
 
Research Methodology - Research Design & Sample Design
Research Methodology - Research Design & Sample DesignResearch Methodology - Research Design & Sample Design
Research Methodology - Research Design & Sample Design
 
statics engineering mechanics slides.pdf
statics engineering mechanics slides.pdfstatics engineering mechanics slides.pdf
statics engineering mechanics slides.pdf
 
Stastistics in Physical Education - SMK.pptx
Stastistics in Physical Education - SMK.pptxStastistics in Physical Education - SMK.pptx
Stastistics in Physical Education - SMK.pptx
 
Unit III - Statistical Process Control (SPC)
Unit III - Statistical Process Control (SPC)Unit III - Statistical Process Control (SPC)
Unit III - Statistical Process Control (SPC)
 
Characteristic of a Quantitative Research PPT.pptx
Characteristic of a Quantitative Research PPT.pptxCharacteristic of a Quantitative Research PPT.pptx
Characteristic of a Quantitative Research PPT.pptx
 
Aed1222 lesson 1 and 3
Aed1222 lesson 1 and 3Aed1222 lesson 1 and 3
Aed1222 lesson 1 and 3
 
Statistics Assignments 090427
Statistics Assignments 090427Statistics Assignments 090427
Statistics Assignments 090427
 
Meaning and Importance of Statistics
Meaning and Importance of StatisticsMeaning and Importance of Statistics
Meaning and Importance of Statistics
 
Statistics for Data Analytics
Statistics for Data AnalyticsStatistics for Data Analytics
Statistics for Data Analytics
 
Survey procedures
Survey proceduresSurvey procedures
Survey procedures
 
Business statistics
Business statisticsBusiness statistics
Business statistics
 

Recently uploaded

KSHARA STURA .pptx---KSHARA KARMA THERAPY (CAUSTIC THERAPY)————IMP.OF KSHARA ...
KSHARA STURA .pptx---KSHARA KARMA THERAPY (CAUSTIC THERAPY)————IMP.OF KSHARA ...KSHARA STURA .pptx---KSHARA KARMA THERAPY (CAUSTIC THERAPY)————IMP.OF KSHARA ...
KSHARA STURA .pptx---KSHARA KARMA THERAPY (CAUSTIC THERAPY)————IMP.OF KSHARA ...M56BOOKSTORE PRODUCT/SERVICE
 
How to Configure Email Server in Odoo 17
How to Configure Email Server in Odoo 17How to Configure Email Server in Odoo 17
How to Configure Email Server in Odoo 17Celine George
 
Call Girls in Dwarka Mor Delhi Contact Us 9654467111
Call Girls in Dwarka Mor Delhi Contact Us 9654467111Call Girls in Dwarka Mor Delhi Contact Us 9654467111
Call Girls in Dwarka Mor Delhi Contact Us 9654467111Sapana Sha
 
How to Make a Pirate ship Primary Education.pptx
How to Make a Pirate ship Primary Education.pptxHow to Make a Pirate ship Primary Education.pptx
How to Make a Pirate ship Primary Education.pptxmanuelaromero2013
 
Science 7 - LAND and SEA BREEZE and its Characteristics
Science 7 - LAND and SEA BREEZE and its CharacteristicsScience 7 - LAND and SEA BREEZE and its Characteristics
Science 7 - LAND and SEA BREEZE and its CharacteristicsKarinaGenton
 
mini mental status format.docx
mini    mental       status     format.docxmini    mental       status     format.docx
mini mental status format.docxPoojaSen20
 
Class 11 Legal Studies Ch-1 Concept of State .pdf
Class 11 Legal Studies Ch-1 Concept of State .pdfClass 11 Legal Studies Ch-1 Concept of State .pdf
Class 11 Legal Studies Ch-1 Concept of State .pdfakmcokerachita
 
_Math 4-Q4 Week 5.pptx Steps in Collecting Data
_Math 4-Q4 Week 5.pptx Steps in Collecting Data_Math 4-Q4 Week 5.pptx Steps in Collecting Data
_Math 4-Q4 Week 5.pptx Steps in Collecting DataJhengPantaleon
 
Hybridoma Technology ( Production , Purification , and Application )
Hybridoma Technology  ( Production , Purification , and Application  ) Hybridoma Technology  ( Production , Purification , and Application  )
Hybridoma Technology ( Production , Purification , and Application ) Sakshi Ghasle
 
“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...
“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...
“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...Marc Dusseiller Dusjagr
 
Sanyam Choudhary Chemistry practical.pdf
Sanyam Choudhary Chemistry practical.pdfSanyam Choudhary Chemistry practical.pdf
Sanyam Choudhary Chemistry practical.pdfsanyamsingh5019
 
Concept of Vouching. B.Com(Hons) /B.Compdf
Concept of Vouching. B.Com(Hons) /B.CompdfConcept of Vouching. B.Com(Hons) /B.Compdf
Concept of Vouching. B.Com(Hons) /B.CompdfUmakantAnnand
 
Employee wellbeing at the workplace.pptx
Employee wellbeing at the workplace.pptxEmployee wellbeing at the workplace.pptx
Employee wellbeing at the workplace.pptxNirmalaLoungPoorunde1
 
Presentation by Andreas Schleicher Tackling the School Absenteeism Crisis 30 ...
Presentation by Andreas Schleicher Tackling the School Absenteeism Crisis 30 ...Presentation by Andreas Schleicher Tackling the School Absenteeism Crisis 30 ...
Presentation by Andreas Schleicher Tackling the School Absenteeism Crisis 30 ...EduSkills OECD
 
Introduction to ArtificiaI Intelligence in Higher Education
Introduction to ArtificiaI Intelligence in Higher EducationIntroduction to ArtificiaI Intelligence in Higher Education
Introduction to ArtificiaI Intelligence in Higher Educationpboyjonauth
 
The basics of sentences session 2pptx copy.pptx
The basics of sentences session 2pptx copy.pptxThe basics of sentences session 2pptx copy.pptx
The basics of sentences session 2pptx copy.pptxheathfieldcps1
 

Recently uploaded (20)

KSHARA STURA .pptx---KSHARA KARMA THERAPY (CAUSTIC THERAPY)————IMP.OF KSHARA ...
KSHARA STURA .pptx---KSHARA KARMA THERAPY (CAUSTIC THERAPY)————IMP.OF KSHARA ...KSHARA STURA .pptx---KSHARA KARMA THERAPY (CAUSTIC THERAPY)————IMP.OF KSHARA ...
KSHARA STURA .pptx---KSHARA KARMA THERAPY (CAUSTIC THERAPY)————IMP.OF KSHARA ...
 
How to Configure Email Server in Odoo 17
How to Configure Email Server in Odoo 17How to Configure Email Server in Odoo 17
How to Configure Email Server in Odoo 17
 
TataKelola dan KamSiber Kecerdasan Buatan v022.pdf
TataKelola dan KamSiber Kecerdasan Buatan v022.pdfTataKelola dan KamSiber Kecerdasan Buatan v022.pdf
TataKelola dan KamSiber Kecerdasan Buatan v022.pdf
 
Call Girls in Dwarka Mor Delhi Contact Us 9654467111
Call Girls in Dwarka Mor Delhi Contact Us 9654467111Call Girls in Dwarka Mor Delhi Contact Us 9654467111
Call Girls in Dwarka Mor Delhi Contact Us 9654467111
 
How to Make a Pirate ship Primary Education.pptx
How to Make a Pirate ship Primary Education.pptxHow to Make a Pirate ship Primary Education.pptx
How to Make a Pirate ship Primary Education.pptx
 
Science 7 - LAND and SEA BREEZE and its Characteristics
Science 7 - LAND and SEA BREEZE and its CharacteristicsScience 7 - LAND and SEA BREEZE and its Characteristics
Science 7 - LAND and SEA BREEZE and its Characteristics
 
mini mental status format.docx
mini    mental       status     format.docxmini    mental       status     format.docx
mini mental status format.docx
 
Class 11 Legal Studies Ch-1 Concept of State .pdf
Class 11 Legal Studies Ch-1 Concept of State .pdfClass 11 Legal Studies Ch-1 Concept of State .pdf
Class 11 Legal Studies Ch-1 Concept of State .pdf
 
_Math 4-Q4 Week 5.pptx Steps in Collecting Data
_Math 4-Q4 Week 5.pptx Steps in Collecting Data_Math 4-Q4 Week 5.pptx Steps in Collecting Data
_Math 4-Q4 Week 5.pptx Steps in Collecting Data
 
9953330565 Low Rate Call Girls In Rohini Delhi NCR
9953330565 Low Rate Call Girls In Rohini  Delhi NCR9953330565 Low Rate Call Girls In Rohini  Delhi NCR
9953330565 Low Rate Call Girls In Rohini Delhi NCR
 
Hybridoma Technology ( Production , Purification , and Application )
Hybridoma Technology  ( Production , Purification , and Application  ) Hybridoma Technology  ( Production , Purification , and Application  )
Hybridoma Technology ( Production , Purification , and Application )
 
“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...
“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...
“Oh GOSH! Reflecting on Hackteria's Collaborative Practices in a Global Do-It...
 
Model Call Girl in Tilak Nagar Delhi reach out to us at 🔝9953056974🔝
Model Call Girl in Tilak Nagar Delhi reach out to us at 🔝9953056974🔝Model Call Girl in Tilak Nagar Delhi reach out to us at 🔝9953056974🔝
Model Call Girl in Tilak Nagar Delhi reach out to us at 🔝9953056974🔝
 
Sanyam Choudhary Chemistry practical.pdf
Sanyam Choudhary Chemistry practical.pdfSanyam Choudhary Chemistry practical.pdf
Sanyam Choudhary Chemistry practical.pdf
 
Concept of Vouching. B.Com(Hons) /B.Compdf
Concept of Vouching. B.Com(Hons) /B.CompdfConcept of Vouching. B.Com(Hons) /B.Compdf
Concept of Vouching. B.Com(Hons) /B.Compdf
 
Model Call Girl in Bikash Puri Delhi reach out to us at 🔝9953056974🔝
Model Call Girl in Bikash Puri  Delhi reach out to us at 🔝9953056974🔝Model Call Girl in Bikash Puri  Delhi reach out to us at 🔝9953056974🔝
Model Call Girl in Bikash Puri Delhi reach out to us at 🔝9953056974🔝
 
Employee wellbeing at the workplace.pptx
Employee wellbeing at the workplace.pptxEmployee wellbeing at the workplace.pptx
Employee wellbeing at the workplace.pptx
 
Presentation by Andreas Schleicher Tackling the School Absenteeism Crisis 30 ...
Presentation by Andreas Schleicher Tackling the School Absenteeism Crisis 30 ...Presentation by Andreas Schleicher Tackling the School Absenteeism Crisis 30 ...
Presentation by Andreas Schleicher Tackling the School Absenteeism Crisis 30 ...
 
Introduction to ArtificiaI Intelligence in Higher Education
Introduction to ArtificiaI Intelligence in Higher EducationIntroduction to ArtificiaI Intelligence in Higher Education
Introduction to ArtificiaI Intelligence in Higher Education
 
The basics of sentences session 2pptx copy.pptx
The basics of sentences session 2pptx copy.pptxThe basics of sentences session 2pptx copy.pptx
The basics of sentences session 2pptx copy.pptx
 

Introducción al análisis de datos

  • 1. Análisis y Comunicación de Datos Industriales 1 Introducción al Análisis de Datos En la vida cotidiana se presentan fenómenos que requieren del empleo de una serie de tablas, medidas, gráficas, de su análisis e interpretación para comprenderlos, lo cual nos lleva a plantearnos una serie de interrogantes. La Estadística es la ciencia que se ocupa del estudio de los métodos y procedimientos para recolectar, clasificar, resumir y analizar datos y para hacer inferencias científicas sobre una o varias características de la población, partiendo de los datos observados sobre muestras representativas de dicha población. El objetivo de cualquier estudio estadístico es obtener información acerca de algunas características de los individuos de la población estadística. Los pasos para realizar un estudio estadístico son: • Recolección de los datos. • Descripción de los datos recolectados • Análisis de los datos para obtener conclusiones. Ejemplos: • los alumnos de la escuela (población) y su edad, número de asignaturas en las que están matriculados, número de créditos que poseen, etc.; • conjunto de piezas producidas por una fábrica (población) y sus características de ductilidad, rugosidad, etc.; • el total de usuarios de una red telefónica (población) y su grado de satisfacción, el número de llamadas efectuadas en un cierto año, etc. La estadística interviene en múltiples campos: ‐ Encuesta de población activa. ‐ Estadísticas de aprobados de la Universidad en la Argentina. ‐ Tendencia de voto Aplicaciones en Ingeniería: ‐ Estudio de materiales (duración, dureza, elasticidad, etc.). ‐ Control de calidad ‐ Control de proceso de producción en masa (tornillos, lamparitas, transistores, etc.) ‐ Medidas (calibración, métodos, etc.) ‐ Comparación de performances de maquinarias ‐ Optimización de la circulación en planta, de salida de trabajadores, etc. ‐ Estudios de mercado.
  • 2. Análisis y Comunicación de Datos Industriales 2 Recolección de datos Población se refiere a un grupo de ítems que tienen una característica en común. Una población puede ser definida como un grupo de individuos, como, por ejemplo, una persona, un animal, un objeto o una medición. Además, una población puede ser finita o infinita. Por ejemplo, la población consistente de todos los tornillos producidos en una fábrica, en un día, es finita. En contraste, la población consistente de todos los posibles resultados (caras o cruces) de los lanzamientos sucesivos de una moneda es infinita. En la colección de datos de un grupo de observaciones, a menudo es imposible o impráctico observar toda la población. De manera qué, en lugar de examinar el grupo en su totalidad, llamado la población o universo, es conveniente examinar solamente una parte de la población llamada muestra. Si la muestra es representativa de la población se podrán inferir conclusiones acerca de la población. Se pueden definir así, dos ramas de la Estadística: Estadística Descriptiva: Rama de la Estadística dedicada a la recolección, recopilación y reducción de los datos a medidas descriptivas, tablas y gráficos, permitiendo conocer las características existentes en la población o de un subconjunto de ella. También se resumen los datos a través de cantidades numéricas denominadas estadísticos que miden el promedio, dispersión, etc. Inferencia Estadística: Se estudia una parte representativa de la población (muestra) y a partir de los datos observados se hacen conclusiones sobre la población. Como unión entre ambas, aparece la probabilidad, que constituye la base teórica para poder hacer inferencias a partir de lo observado y crear modelos para problemas concretos. Método Estadístico Pasos que se deben seguir en todo estudio estadístico, (similares a los que se deben seguir en la resolución de cualquier problema matemático, ingenieril, etc.) 1. Planteo del problema: - ¿Qué queremos estudiar? (objetivo del estudio); - ¿Dónde lo vamos a estudiar? (población); - ¿Qué características o variables se deben tener en cuenta para cumplir con el objetivo del estudio?
  • 3. Análisis y Comunicación de Datos Industriales 3 2. Recolección, organización y depuración de los datos: Los datos deben ser válidos, no tener errores o desviaciones que puedan invalidar el estudio. 3. Construcción del modelo: Con los datos observados se formula una hipótesis sobre el modelo que representa al problema real. Algunos parámetros de este modelo pueden ser conocidos y otros tendrán que ser estimados (fase de estimación). 4. Análisis de resultados: En esta última fase, los resultados obtenidos se comparan con la hipótesis inicial. Si se observan discrepancias, podría ser necesario variar la hipótesis inicial, retornando a la etapa de construcción del modelo. Si no hay discrepancias, se obtienen las conclusiones, aclarando en qué contexto son válidas o aplicables. Ejemplo: Una máquina produce ejes cuyo diámetro debe encontrarse entre 3 ± 0.05 mm. Todos los ejes cuyo diámetro no pertenezcan al rango dado se consideran defectuosos. Se trata de determinar cuál es la proporción (p) de ejes defectuosos que produce la máquina. 1. Planteo del problema: - Qué vamos a estudiar: ejes producidos por una maquina - Donde lo vamos a estudiar: todos los ejes producidos en el turno matutino. - Que variables: diámetro 2. Recolección, organización y depuración de los datos: Hay que establecer un procedimiento, número de datos que hay que obtener, en qué condiciones y con qué intervalo de tiempo, etc. (ej: turno de 8 hs, se miden los ejes producidos a intervalos de 20 minutos). Eliminar los posibles datos erróneos, por errores en la recolección o transcripción, etc. 3. Modelo o Hipótesis: Estimación de p a partir de los datos o, si el valor de p estaba preestablecido (por exigencias del comprador, por ejemplo) contrastar si ese valor queda suficientemente respaldado por los datos, es decir, comparar la hipótesis inicial con los datos. En esta fase se determina el modelo. 4. Análisis de resultados. Con los resultados obtenidos se determina si el modelo es o no válido.
  • 4. Análisis y Comunicación de Datos Industriales 4 Población y muestra La estadística tiene su propia terminología, es decir, términos fuera de la estadística descriptiva y de la estadística inferencial, que debe definirse e ilustrarse. El concepto de una población es la idea más importante en estadística. En toda investigación estadística existe un conjunto de elementos sobre los que se toma información. Este conjunto de elementos es lo que se denota con el nombre de población. Población: es la colección, o conjunto, de individuos, objetos o eventos cuyas propiedades serán analizadas. La población de interés debe definirse cuidadosamente y se considera que está definida por completo sólo cuando se especifica la lista de elementos que pertenecen a ella. El conjunto de “todos los estudiantes que han asistido alguna vez a una universidad estadounidense” es un ejemplo de una población bien definida. Hay dos tipos de poblaciones: finitas e infinitas. Cuando se puede enumerar físicamente a todos los elementos que componen a una población se dice que la población es finita. Cuando los elementos son ilimitados, se dice que la población es infinita. Todos los electores registrados en Estados Unidos constituyen una población finita muy grande; en caso necesario, se puede compilar una composición de todos los padrones electorales. Por otra parte, la población de todas las personas que podrían tomar aspirina y la población de todos los focos de 40 w que se producirán en la planta de Sylvania son infinitas. El estudio de grandes poblaciones se dificulta grandemente, en consecuencia, se acostumbra seleccionar una muestra y estudiar los datos que la integran. Muestra: es el subconjunto de una población. Cuando se trabaja con todos los datos de la población se dice que se realiza un censo, sin embargo, esto no es muchas veces posible, ya sea por el costo que resulta de obtener toda la información, porque la toma de información lleva consigo la destrucción de los elementos, o porque la población tiene infinitos elementos, etc.. Este problema se soluciona trabajando sólo con una parte de los elementos de la población estadística, proceso que recibe el nombre de muestreo. El conjunto de elementos de los que se toma información en el proceso de muestreo se llama muestra y el número de elementos que la componen tamaño muestral. Por lo tanto, entenderemos por muestra al subconjunto más representativo posible de una población. La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de la mejor manera los rasgos esenciales de dicha población que son importantes para la investigación.
  • 5. Análisis y Comunicación de Datos Industriales 5 Proceso de recolección de datos La obtención de datos para el análisis estadístico es un proceso complicado que incluye los siguientes pasos: 1. Definir los objetivos de la investigación o del experimento. Ejemplos: comparar la eficacia de un nuevo medicamento con la eficacia del medicamento estándar; estimar el ingreso familiar promedio en Estados Unidos. 2. Definir la variable y la población de interés. Ejemplos: duración del tiempo de recuperación de los pacientes que sufren alguna enfermedad particular; estimar el ingreso total en las familias de Norteamérica. 3. Definir los esquemas para recolectar y medir los datos. Esto incluye el marco muestral, el procedimiento de muestreo, el tamaño de la muestra y el instrumento de medición (cuestionario, por teléfono, etc.) de los datos. 4. Recolectar su muestra. Seleccionar los sujetos a ser muestreados y recolectar los datos. 5. Revisar el proceso de muestreo al terminar la recolección. A menudo ocurre que un analista se encuentra con datos ya recolectados, tal vez, incluso, recolectados para otros fines, lo cual imposibilita determinar si los datos son “buenos” o no. Es mucho mejor que usted recolecte los datos utilizando técnicas aprobadas. Aun cuando el interés primordial de este libro está relacionado con diversas técnicas de análisis de datos, usted debe estar al tanto de los problemas de la recolección de datos. TIPOS DE MUESTREO Existen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos. Muestreo probabilístico Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: 1.- Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido.
  • 6. Análisis y Comunicación de Datos Industriales 6 2.- Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. 3.- Muestreo estratificado: Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos respecto a característica a estudiar y a los cuales se le asigna una cuota que determina el número de miembros del estrato que compondrán la muestra, estos son escogidos mediante muestreo aleatorio simple. Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen tres técnicas de muestreo estratificado: - Asignación simple: A cada estrato le corresponde igual número de elementos muéstrales. - Asignación proporcional: el tamaño de cada estrato en la muestra es proporcional a su tamaño en la población. Supongamos que tienes 3 estratos con 100, 200 y 300 tamaños de la población, respectivamente. El investigador eligió una fracción de muestreo de ½. Luego, el investigador debe seleccionar al azar 50, 100 y 150 sujetos de cada estrato, respectivamente. Estrato A B C Tamaño de la población 100 200 300 Fracción de muestreo ½ ½ ½ Tamaño final de la muestra 50 100 150 En esta técnica, lo importante es recordar el uso de la misma fracción de muestreo en cada estrato, independientemente de las diferencias en el tamaño de la población de los estratos. Es muy parecido a reunir una población más pequeña que sea específica de las proporciones relativas de los subgrupos dentro de la población.
  • 7. Análisis y Comunicación de Datos Industriales 7 - Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población. Ejemplo: si suponemos un estudio sobre la población de estudiantes de cierto curso de la UNS, en el que a través de una muestra de 10 de ellos queremos obtener información sobre el uso del lápiz labial. Pero reflexionando sobre que el comportamiento de la población con respecto a esta característica no es homogéneo, podemos dividir a la población en dos estratos: - Estudiantes masculinos 40%. - Estudiantes femeninos 60%. De modo que la asignación proporcional a esta muestra es en función de sus respectivos tamaños (4 varones y 6 mujeres). Pero también podríamos observar que el comportamiento de los varones con respecto a la característica en estudio es muy homogéneo y diferenciado del grupo de las mujeres que es muy variable. De modo que la asignación óptima de una muestra de 10 alumnos, nos indica que es más conveniente elegir más individuos en los grupos de mayor variabilidad. De la cual obtendríamos mejores resultados estudiando una muestra de - 1 varón. - 9 mujeres. 4.- Muestreo aleatorio por conglomerados: Cuando la población se encuentra dividida, de manera natural, en grupos que se suponen que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio. Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Los elementos individuales dentro de cada “conglomerado” tienden usualmente a ser iguales. Por ejemplo, la gente de alto poder adquisitivo puede vivir en el mismo barrio, mientras que la gente de bajo poder adquisitivo puede vivir en otra área. No todas las áreas son muestreadas en un muestreo de áreas. La variación entre los elementos obtenidos de las áreas seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la población entera es muestreada mediante muestreo aleatorio simple. Esta debilidad puede ser reducida cuando se incrementa el tamaño de la muestra de área. Por otra parte, una muestra de conglomerados puede producir la misma precisión en la estimación que una muestra aleatoria simple, si la variación de los elementos individuales dentro de cada conglomerado es tan grande como la de la población.
  • 8. Análisis y Comunicación de Datos Industriales 8 Métodos de muestreo no probabilísticos A veces el muestreo probabilístico resulta costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones (estimaciones inferenciales sobre la población), pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra sea representativa. Entre los métodos de muestreo no probabilísticos más utilizados encontramos: 1.- Muestreo por cuotas: Se fundamenta sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de muestreo se fija el número (cuota) de individuos que reúnen determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Dorrego. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. 2.- Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. 3.- Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. 4.- Muestreo Discrecional: A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al estudio. Los métodos de selección de muestras también pueden ser clasificados de acuerdo al número de muestras tomadas de una población dada para un estudio. Bajo la clasificación de métodos de muestreo clasificados de acuerdo con el número de muestras tomadas de una población hay tres tipos comunes de métodos de muestreo. Estos son, muestreo simple, doble y múltiple. • Muestreo simple: en este tipo de muestreo se toma solo una muestra de la población. El tamaño de muestra debe ser los suficientemente grande para extraer una conclusión. • Muestreo doble: cuando el resultado del estudio de la primera muestra no es decisivo, una segunda muestra es extraída de la misma población. Las dos muestras son combinadas para analizar los resultados. Si la primera muestra arroja un resultado definitivo, la segunda muestra puede no necesitarse.
  • 9. Análisis y Comunicación de Datos Industriales 9 • Muestreo múltiple: El procedimiento bajo este método es similar al expuesto en el muestreo doble, excepto que el número de muestras sucesivas requerido para llegar a una decisión es más de dos muestras. Además del tipo de método de muestreo que utilizamos, hay otra pregunta relacionada con lo que le sucede específicamente a un individuo que hemos seleccionado. Esta pregunta que surge es, ¿Después de seleccionar un individuo y registrar la medición del atributo que estamos estudiando, ¿qué hacemos con el individuo? Hay dos opciones: Podemos reemplazar al individuo, ó podemos elegir no reemplazar al individuo. Estos son muestreo con reemplazo y sin reemplazo. • Muestreo con reemplazo: Es aquel en que un elemento puede ser seleccionado más de una vez en la muestra para ello se extrae un elemento de la población se observa y se devuelve a la población, por lo que de esta forma se pueden hacer infinitas extracciones de la población aun siendo esta finita. • Muestreo sin reemplazo: No se devuelve los elementos extraídos a la población hasta que no se hallan extraídos todos los elementos de la población que conforman la muestra. Ejemplo: Suponga que estamos investigando sobre el porcentaje de alumnos que trabajan de una población de 20 alumnos de una Universidad. Elija una muestra aleatoria simple de tamaño n=4 de esta población. Base de datos de la población: Nombre Alumno ¿Trabaja? Nombre Alumno ¿Trabaja? Juan SI María NO Alicia NO Fernanda NO Pedro NO Julio SI Marcos NO Rosa NO Alberto SI Fabián NO Jorge SI Ana NO José NO Laura NO Carlos NO Enrique NO Miguel NO Carmen SI Victoria SI Marcelo SI
  • 10. Análisis y Comunicación de Datos Industriales 10 Respuesta: Primero asignamos número a cada alumno del 1 al 20: Nº Nombre Alumno ¿Trabaja? Nº Nombre Alumno ¿Trabaja? 1 Juan SI 11 María NO 2 Alicia NO 12 Fernanda NO 3 Pedro NO 13 Julio SI 4 Marcos NO 14 Rosa NO 5 Alberto SI 15 Fabián NO 6 Jorge SI 16 Ana NO 7 José NO 17 Laura NO 8 Carlos NO 18 Enrique NO 9 Miguel NO 19 Carmen SI 10 Victoria SI 20 Marcelo SI Segundo generamos nº aleatorios (podemos utilizar una tabla de números aleatorios o generarlos utilizando un software). Buscamos 4 números entre el 1 y el 20, sin repetir: 20 19 19 8 20 7 14 9 5 14 15 15 4 20 3 8 16 9 Los números seleccionados son: 20, 19, 8, 14. Por lo tanto, la muestra está compuesta por: Nº Nombre Alumno ¿Trabaja? 8 Carlos NO 14 Rosa NO 19 Carmen SI 20 Marcelo SI Ejemplo: En el ejemplo anterior elija una muestra estratificada de tamaño n=4 de esta población. Para elegir una muestra estratificada, primero se dividen los hombres de las mujeres y se asignan número de identificación a cada estrato: Nº Nombre Alumno ¿Trabaja? Nº Nombre Alumno ¿Trabaja? 1 Juan SI 1 María NO 2 Julio SI 2 Fernanda NO 3 Pedro NO 3 Rosa NO 4 Marcos NO 4 Ana NO 5 Alberto SI 5 Laura NO 6 Jorge SI 6 Carmen SI 7 José NO 7 Alicia NO 8 Carlos NO 8 Victoria SI 9 Miguel NO 10 Enrique NO 11 Fabián NO 12 Marcelo SI
  • 11. Análisis y Comunicación de Datos Industriales 11 Usando los números aleatorios, se elige una muestra aleatoria simple de tamaño n=2 de los hombres, buscando números del 1 al 12. 6 5 4 1 9 3 10 7 4 11 4 11 8 1 6 8 7 12 7 10 4 5 9 1 Los números elegidos son: 6 y 5. Por lo tanto la muestra del estrato de hombres queda constituida por Jorge y Alberto. Ambos trabajan. Usando la tabla de números aleatorios, se elige una muestra aleatoria simple de tamaño n=2 de las mujeres, buscando números del 1 al 8. 8 2 1 5 4 7 5 7 8 4 7 5 Los números elegidos son: 8 y 2. Por lo tanto, la muestra del estrato de mujeres queda constituida por Victoria y Fernanda. Victoria NO trabaja, Fernanda Si trabaja. Ejemplo de autoevaluación: La próxima semana tendrá lugar una elección y, realizando encuestas en una muestra de la población votante, queremos predecir si ganará el candidato A o el B. ¿Cuál de los siguientes métodos de selección es probable que ofrezca una muestra representativa? Justifique. a) Encuestar a todas las personas en edad de votar que asistan a un partido de fútbol. b) Encuestar a todas las personas en edad de votar que salgan de un restaurante de Puerto Madero c) Obtener una copia de la lista de votantes registrados y elegir a 100 de ellos en forma aleatoria d) Usar los resultados de una encuesta de TV en que la emisora pide a su auditorio llamar y decir a cuál elige e) Elegir nombres de la guía telefónica y llamar a estas personas
  • 12. Análisis y Comunicación de Datos Industriales 12 Variables. Clasificación y escalas de medición Se va a trabajar con conjuntos de datos asociados a una o más características de la población, que se llama variable estadística, en general representada por una letra mayúscula (X,Y,Z,..). Se pueden definir distintos tipos de variables según la naturaleza de los valores que toman: Variables cualitativas: no se pueden medir numéricamente, sino que se identifican con un aspecto o cualidad o característica que las distinga y que no se pueden medir sino solo observar, a ese aspecto, cualidad o característica se le llama categoría. Por ej.: nacionalidad, bebida preferida, candidato a votar. Estas variables también se denominan Categóricas, y pueden clasificarse como: Variables Cualitativas Nominales: son aquellas a las que no se le puede asignar un orden, es decir que sólo permiten clasificación en categoría por mención de ésta. Por ejemplo la nacionalidad de una persona, idioma, sexo, etc.. Variables Cualitativas Ordinales: son aquellas que además de clasificar a los elementos en distintas categorías les podemos asignar un orden o que podemos ordenar de acuerdo a cierta característica. Por ejemplo el estado de salud de una persona; que podemos ordenarla según la urgencia del caso; el color de un objeto según la tonalidad desde muy clara hasta más oscuro; meses del año, etc.. Variables cuantitativas: son aquellas que se identifican con un valor numérico o que corresponden a aspectos que son medibles, tienen valor numérico, por ej.: edad, precio de un producto, ingresos anuales. Estas variables también se denominan Numéricas, y se dividen en: Variables Cuantitativas Discretas: sólo pueden tomar valores enteros en un rango finito. Ejemplos: número de compras de un producto en un mes, el año de cosecha del vino, número de entradas de cine vendidas en un intervalo de tiempo, resultado de lanzar un dado, número de hijos en cada familia en una ciudad (1,2,3…, nunca 3.45); Variables Cuantitativas Continuas: son aquellas que pueden tomar cualquier valor entre dos valores dados. Es decir, el rango contiene no sólo valores enteros sino un intervalo de valores reales. Por ej: velocidad de un auto: [0, 300] en km/h: 0,3 km/h, 94,57 km/h, ..., etc., intensidad de la corriente eléctrica; intervalo de tiempo entre dos llamadas telefónicas.
  • 13. Análisis y Comunicación de Datos Industriales 13 Ejemplo de autoevaluación: Sea la siguiente encuesta. Decidir, para cada una de las preguntas o variables, el tipo al que pertenecen: a) Edad en años b) Sexo (1= hombre, 2= mujer) c) Número de hermanos (incluido uno mismo) d) Lugar de nacimiento (1= Catalunya, 2= resto de España, 3= extranjero) e) Bronquitis crónica (1= si, 2= no) f) Número de cigarrillos que fuma al día g) Número de tazas de café que toma al día h) Tiene dolores de cabeza (1= nunca, 2= a veces, 3= muchas veces, 4= siempre) i) Peso en kilogramos j) Talla en centímetros
  • 14. Análisis y Comunicación de Datos Industriales 14 Representación Tabular y Gráfica Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al análisis descriptivo de los mismos. Para variables categóricas, como el sexo o el estadiaje, se quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una tabla de frecuencias. Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas: a. ¿Alrededor de qué valor se agrupan los datos? b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy dispersos? Los datos de una muestra deben ser representados en forma concisa y clara, de tal manera que un observador obtenga una impresión rápida de las características esenciales de los datos. Las tablas y gráficos son recursos muy útiles en la representación de datos que revelan características importantes como el rango, el grado de concentración y la simetría de los datos. En el curso de un experimento estadístico se obtiene una sucesión de observaciones que se escriben en el orden en que se presentan. Después de la organización de los datos, la información se resume en Tablas Estadísticas, luego la información contenida en las tablas se puede presentar mediante gráficas. Construcción de distribución o tabla de frecuencias para datos no agrupados y agrupados. Datos no agrupados: Datos diferentes: Consideraremos como un dato diferente, a cada uno de los distintos datos que se presentan en la muestra, los denotaremos por xj. Y al número total de datos diferentes lo denotaremos por m. Cuando el tamaño de la muestra (n) es finito y el número de datos diferentes es pequeño (consideraremos pequeño m ≤ 10), es fácil hacer un análisis de los datos tomando cada uno de los datos diferentes y ordenándolos de alguna de las siguientes formas: DATOS ORDENAMIENTO Cualitativos Alfabético a-z Alfabético z-a Del más al menos repetido Del menos al más repetido Cuantitativos Creciente (menor al mayor) Decreciente (mayor al menor)
  • 15. Análisis y Comunicación de Datos Industriales 15 Veremos cómo se puede representar la información en forma de tablas a través de un ejemplo: Ejemplo: Durante dos semanas se estudió la productividad de los trabajadores de una fábrica, contando el número de piezas aceptables producidas por 100 de estos trabajadores. Se confecciona entonces la Tabla de valores de la muestra que contiene todos los datos en el orden en que fueron obtenidos: 28 26 37 32 32 40 26 32 37 38 34 22 37 40 32 34 28 40 32 32 28 32 28 26 38 32 32 34 26 34 38 34 34 28 32 26 34 28 32 42 42 45 28 40 32 45 28 34 32 34 37 28 28 37 38 32 22 32 34 26 34 42 40 32 28 40 32 32 28 32 26 28 35 34 32 28 38 22 40 34 32 37 38 22 37 32 38 32 38 37 37 32 26 32 34 26 34 37 26 28 Los datos presentados en el ejemplo son datos cuantitativos, los presentaremos ahora en una tabla ordenados de manera creciente: 22 26 28 32 32 32 34 37 38 40 22 26 28 32 32 32 34 37 38 40 22 26 28 32 32 32 34 37 38 40 22 26 28 32 32 32 34 37 38 40 26 28 28 32 32 34 34 37 38 40 26 28 28 32 32 34 34 37 38 42 26 28 28 32 32 34 34 37 38 42 26 28 28 32 32 34 34 37 38 42 26 28 28 32 32 34 34 37 40 45 26 28 32 32 32 34 35 37 40 45 Podemos observar que el valor 22 se registró cuatro veces, indicando que solo cuatro empleados fueron capaces de producir 22 piezas. El valor 26 aparece 10 veces, es decir, que 10 empleados elaboraron 26 piezas. Y así siguiendo, podemos obtener el número de veces que aparece un dato, es decir la frecuencia absoluta puntual del valor y lo notaremos fabs(xj). La frecuencia relativa puntual con que aparecen los valores de una variable es la relación entre la frecuencia absoluta puntual de un valor de esta variable y la frecuencia total de todos los valores registrados (n), lo escribimos como: 𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟�𝑥𝑥𝑗𝑗� = 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎�𝑥𝑥𝑗𝑗� 𝑛𝑛 , 0 ≤ 𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟�𝑥𝑥𝑗𝑗� ≤ 1
  • 16. Análisis y Comunicación de Datos Industriales 16 Las frecuencias acumuladas se obtienen por adición sucesiva de las frecuencias absolutas partiendo del menor valor de la variable y respetando el orden creciente. Lo escribimos como: 𝐹𝐹𝑎𝑎𝑎𝑎𝑎𝑎�𝑥𝑥𝑗𝑗� = 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎(𝑥𝑥1) + 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎(𝑥𝑥2) + ⋯ + 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎�𝑥𝑥𝑗𝑗� La suma de todas las frecuencias relativas en una muestra es igual a 1. Por ejemplo, para una muestra en la cual se obtuvieron m valores diferentes de xi: � 𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟�𝑥𝑥𝑗𝑗� 𝑚𝑚 𝑗𝑗=1 = 𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟(𝑥𝑥1) + 𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟(𝑥𝑥2) + ⋯ + 𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟(𝑥𝑥𝑚𝑚) = 1 Organizaremos la información en una Tabla Estadística de la siguiente manera: - Cantidad total de datos: n - Columna Nº1: valores distintos de la muestra, de menor a mayor (xj, j=1...n) - Columna Nº2: frecuencia absoluta puntual, fabs(xj), j=1…n: cuántas veces se repitió cada dato mostrado en la columna 1 - Columna Nº3: frecuencia relativa puntual frel(xj), j=1...n: proporción de veces que se repitió cada dato mostrado en la columna 1 - Columna Nº4: frecuencia absoluta acumulada Fabs(xj), j=1…n: cuántas veces se repitieron los datos menores o iguales que el mostrado en la misma fila en la columna 1 - Columna Nº5: frecuencia relativa acumulada Frel(xj), j=1…n: proporción de veces que se repitieron los datos menores o iguales que el mostrado en la misma fila en la columna 1 Confeccionamos entonces la siguiente tabla de frecuencias de la muestra xj fabs(xj) frel(xj) Fabs(xj) Frel(xj) 22 4 0.04 4 0.04 26 10 0.10 14 0.14 28 15 0.15 29 0.29 32 25 0.25 54 0.54 34 16 0.16 70 0.70 37 10 0.10 80 0.80 38 8 0.08 88 0.88 40 7 0.07 95 0.95 42 3 0.03 98 0.98 45 2 0.02 100 1.00 Cuando el número de valores diferentes de valores en una muestra es pequeño se presenta adecuadamente en una tabla de frecuencias. La tabla nos provee información de cuál es el valor más repetido, cuál es el máximo de los valores, el intervalo donde se han producido datos, etc.
  • 17. Análisis y Comunicación de Datos Industriales 17 En el ejemplo: 4 trabajadores produjeron la mínima cantidad de piezas (22), 2 trabajadores produjeron la máxima cantidad de piezas (45), 32 piezas fue el valor más repetido (25). Los datos así organizados pueden ser presentados gráficamente. Para las distribuciones de datos discretos (que no toman demasiados valores) se representan directamente las frecuencias simples bajo la forma de diagrama de barras. En el eje de abscisas figuran los valores de la variable, el eje de ordenadas lleva la escala de las frecuencias relativas, los porcentajes o las frecuencias absolutas. Si las barras se convierten en líneas se tendría un gráfico de líneas o polígono de frecuencias. Si utilizamos puntos para la representación obtenemos lo que se denomina gráfico de puntos.
  • 18. Análisis y Comunicación de Datos Industriales 18 Gráfica Circular de Pastel o también llamada del 100%: este gráfico se utiliza fundamentalmente para representar distribuciones de frecuencias relativas (es decir, porcentajes % o proporciones) haciendo corresponder la medida de la frecuencia relativa con la medida del ángulo en grados; es decir, si el 100 % de los datos son 360º de la circunferencia, a cada 1% le corresponderán 3.6º; así, para obtener la medida del ángulo del sector, multiplicamos la frecuencia correspondiente por 3.6º. La frecuencia relativa del valor de un dato está indicada por el área de su sector. Se cumplen las siguientes relaciones: Área Sector= Área del Círculo * frel(xj) Ángulo del Sector = 360° × frel(xj) Al utilizar este gráfico se aconseja no sobrepasar los 10 elementos, y ordenar los sectores de acuerdo a una de dos formas, ya sea siguiendo el orden que se les dé a los datos o empezando del mayor al menor segmento, iniciando a partir de las 12 horas y en el sentido de las manecillas del reloj. Por último, si el texto que representa cada sector no puede colocarse dentro del mismo, se elabora una leyenda que se coloca fuera del segmento, unidos por una flecha. Ahora resulta un poco inoperante el realizar cálculos repetitivos, sobre todo cuando se trata de una infinidad de datos o cuando el tamaño de la muestra es considerablemente grande, por lo que se utiliza el agrupar los datos en subgrupos llamados intervalos o clases. Datos agrupados Cuando el tamaño de la muestra es considerable o grande y los datos numéricos son muy diversos (n>15), conviene agrupar los datos de tal manera que permita establecer patrones, tendencias o regularidades de los valores observados. De esta manera podemos condensar y ordenar los datos tabulando las frecuencias asociadas a ciertos intervalos de los valores observados.
  • 19. Análisis y Comunicación de Datos Industriales 19 Intervalos de Clase: Son los intervalos en los que se agrupan y ordenan los valores observados. Cada uno de estos intervalos está delimitado (acotado) por dos valores extremos que les llamamos límites. Pasos a seguir para construir intervalos de frecuencia. 1. Determinar la cantidad de intervalos apropiada. La selección del número adecuado de intervalos y los límites entre ellos dependen del criterio o experiencia de quien realiza el estudio. Sin embargo, existen reglas empíricas para calcular el número de intervalos; la más empleada es la Regla de Sturges, cuya expresión es: K= 1 + 3.3 Log n. Donde: K=Número de intervalos el cual siempre debe ser un número entero. Razón por la cual se deberá redondear el resultado al entero más cercano. n= Número de datos. Log = logaritmo en base 10. Otra regla utilizada es la de Velleman que establece que el número de Intervalos se obtiene de la raíz cuadrada del número de datos; es decir 𝐾𝐾 = √𝑛𝑛, recomendable para tamaños de muestra pequeños (n< 50). El número de intervalos determinado mediante cualquier regla se aproxima al valor entero más cercano, pero deberá ser responsabilidad de quien realiza el estudio, pudiendo utilizar éste en ocasiones uno menor o mayor al obtenido por cualquier regla, si esto le permite tener intervalos con la misma amplitud. Sin embargo, la mayoría de las reglas subestiman el número de intervalos. 2. Calcular el rango de los datos. Llamamos rango al número de unidades de variación presente en los datos recopilados y se obtiene de la diferencia entre el dato mayor y el dato menor. Se representa con la letra R. R = dato mayor – dato menor. 3. Obtención de la amplitud o anchura que tendrá cada intervalo. Se encuentra dividiendo el rango por el número de intervalos. Se representa con la letra A de tal manera que: 𝐴𝐴𝐴𝐴 = 𝑅𝑅 𝐾𝐾 . 4. Construcción de los intervalos. Los intervalos de clase son conjuntos numéricos y deben ser excluyentes y exhaustivos; es decir, si un dato pertenece a un intervalo determinado, ya no podrá pertenecer a otro, esto quiere decir excluyentes y además todos y cada uno de los datos deberá estar contenido en alguno de los intervalos, esto les da el valor de exhaustivos. Las dos características mencionadas anteriormente se logran construyendo intervalos cerrados por la derecha y abiertos por la izquierda; esto se simboliza a
  • 20. Análisis y Comunicación de Datos Industriales 20 través del uso de corchetes y paréntesis respectivamente (,]. Por razones naturales, el primer intervalo será cerrado por ambos extremos. El primer intervalo se construye de la siguiente manera: Habrá de iniciar con el dato menor, el cual será el extremo inferior del intervalo; el otro extremo se obtiene de la suma del dato menor y la amplitud, con este mismo valor iniciamos el segundo intervalo, del cual el segundo extremo se encuentra sumando al valor anterior la amplitud y este proceso se repite sistemáticamente hasta completar el total de intervalos indicado por la regla elegida, por ejemplo, la de Sturges. Los valores extremos o límites de intervalo. Los intervalos de clase deben estar definidos por límites que permitan identificar plenamente si un dato pertenece a uno u otro intervalo. Estos límites son los valores extremos de cada intervalo. Límite inferior: Es el extremo menor de cada intervalo y lo denotaremos por Li. Límite superior: Es el extremo mayor de cada intervalo y lo denotaremos por Ls. También será muy útil conocer y calcular la Marca de Clase de cada intervalo: Se refiere al Punto Medio del intervalo y a través de él representaremos a todo el intervalo, lo denotaremos por MC y una de las maneras de calcularla es promediando los valores límites de cada intervalo, es decir: 𝑀𝑀𝑀𝑀 = 𝐿𝐿𝑖𝑖 + 𝐿𝐿𝑠𝑠 2 Ejemplo: Un grupo de investigadores pertenecientes a la secretaría de seguridad pública, tomó una muestra aleatoria de las velocidades (km/h) registradas por 30 vehículos en el trayecto Monte Hermoso – Bahía Blanca, con el fin de establecer nuevos límites máximos de velocidad para la ruta. La muestra arrojo los datos siguientes: 90, 99, 104, 99, 119, 98, 95, 112, 95, 120, 100, 90, 116, 96, 114, 108, 98, 118, 100, 106, 114, 100, 112, 106, 100, 115, 111, 105, 114, 97. Toda vez que se tienen los datos, se recomienda ordenarlos de menor a mayor o viceversa: 90, 90, 95, 95, 96, 97, 98, 98, 99, 99, 100, 100, 100, 104, 105, 106, 108, 111, 112, 112, 114, 114, 115, 116, 118, 119, 120. Ahora llevamos a la práctica los pasos descritos anteriormente para la construcción de los intervalos. Primero obtendremos el número de intervalos que vamos a utilizar, para lo cual empleamos la Regla de Velleman: 𝐾𝐾 = √30 = 5.47 ≈ 6 Segundo, calculamos el rango de variación, R = 120 – 90 = 30
  • 21. Análisis y Comunicación de Datos Industriales 21 Tercero, obtenemos la amplitud de cada intervalo de clase como sigue: 𝐴𝐴𝐴𝐴 = 30 6 = 5 Finalmente construimos los intervalos, el primero de ellos inicia con 90 que es el extremo inferior que, sumado a 5 obtenemos 95, que será el extremo superior; este extremo será el inferior del segundo intervalo; y al sumar nuevamente la amplitud tendremos 100 que será el extremo superior y así sucesivamente hasta completar los 6 intervalos: [90 – 95], (95 – 100], (100 – 105], (105 – 110], (110 – 115] y (115 – 120] Los corchetes expresan que el valor extremo se incluye en el intervalo y los paréntesis dan a entender que el valor extremo del intervalo no se incluye en el. Para la construcción de distribuciones de frecuencias contabilizamos el número de datos que le corresponden a cada intervalo; es decir obtenemos las frecuencias absolutas y de estas podemos generar los demás tipos de frecuencias y presentarlas en una tabla de resumen como la que a continuación se muestra: Intervalos de Clase mc fabs Fabs frel Frel [90 – 95] 92.5 4 4 0,13 0,13 (95 – 100] 97.5 10 14 0,33 0,47 (100 – 105] 102.5 2 16 0,07 0,53 (105 – 110] 107.5 3 19 0,10 0,63 (110 – 115] 112.5 7 26 0,23 0,87 (115 – 120] 117.5 4 30 0,13 1 Total 30 1.00 Los datos agrupados suelen ser representados gráficamente por medio de histogramas: es una gráfica en forma de barras que consta de dos ejes, uno horizontal, llamado eje de la variable en observación, en donde situamos la base de las barras contiguas (no van separadas), y que se rotula con los límites inferiores de cada clase o intervalo excepto el último que deberá llevar también el límite superior, centradas en la marca de clase. Y un eje vertical llamado eje de las frecuencias, en donde se miden las alturas que vienen dadas por la frecuencia del intervalo que representa. Todos los intervalos deben tener la misma longitud.
  • 22. Análisis y Comunicación de Datos Industriales 22 Veámoslo a través del ejemplo: Gráfica de Frecuencias Acumuladas u Ojiva: Es un gráfico que igual al histograma y se utiliza para el análisis y representación de variables continuas, se construye uniendo con segmentos de recta, de izquierda a derecha, las parejas ordenadas que se forman, al considerar como abscisa los límites superiores de cada intervalo (eje horizontal) y como ordenada las frecuencias relativas acumuladas hasta cada intervalo representado (eje vertical). Existen dos tipos de ojivas, las llamadas de mayor que inician en la frecuencia más alta 1 hacia la más baja 0, y las llamadas de menor que inician en la frecuencia más baja 0 hacia la más alta 1. El gráfico ojiva representa mayor importancia cuando se trata de comparar las observaciones de una misma característica en dos experimentos distintos, ya que no se puede ejecutar comparaciones sobre frecuencias absolutas, es necesario una comparación sobre frecuencias relativa; además permite ver cuantas observaciones se hallan por arriba o debajo de ciertos valores establecidos.