Texto estudiante etad01

APUNTES DE
ANÁLISIS ESTADÍSTICO DE DATOS
ETAD01
INACAP
Ciencias Básicas
Vicerrectoría de Académica de Pregrado
2015

2
ÍNDICE
UNIDAD 1 ....................................................................................................................................................................4
ANÁLISIS DE DATOS UNIVARIADOS..............................................................................................................4
UNIDAD 2 ..................................................................................................................................................................28
ANÁLISIS DE DATOS BIVARIADOS................................................................................................................28
UNIDAD 3 ..................................................................................................................................................................46
DISTRIBUCIÓN DE PROBABILIDAD NORMAL.........................................................................................46

3

PRESENTACIÓN
Estimado Alumno y Alumna, te damos la más cordial bienvenida a Estadística y Probabilidad,
asignatura lectiva del área formativa de Disciplinas Básicas, del área del conocimiento de
Ciencias Básicas.
Estadística y Probabilidad tiene el propósito de entregar la herramientas elementales para la
caracterización de un conjunto de datos uni y bivariado, como también comprender el
concepto de probabilidades y realizar inferencia bajo incertidumbre, mediante estrategias de
clase expositiva, solución de ejercicios y problemas; además de, contribuir en la formación
técnica de los alumnos, mediante el desarrollo de destrezas que mejoren su desempeño
profesional.
La asignatura se realizará, a partir de experiencias de aprendizajes que involucren
metodologías principalmente deductivas, donde tu rol es activo y participativo, y el del
docente un mediador.
El presente texto, que INACAP pone a tu disposición, tiene los contenidos que sirven de
base y apoyo a tus clases, y puede ser utilizado como material de consulta permanente.
Confía en tus capacidades, te deseamos mucho éxito.

4
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
a necesidad de caracterizar y extraer información desde conjunto de datos, a generado
el desarrollo de técnicas de clasificación y de resumen de conjuntos de datos, lo que
a la larga se a traducido en la Estadística.
El análisis estadístico tiene por objetivo encontrar propiedades, rasgos y relaciones
estadísticas de todo tipo respecto a las variables investigadas, las cuales se derivan de tablas
en las que se agrupan y clasifican los datos estadísticos en una investigación.
El nálisis descriptivo univariado trabaja con datos de una sola variable o distribución de
frecuencias y pretende determinar sus propiedades estadísticas. Este análisis proporciona
medidas representatvas de la distribución, estadísticos de dispersión, medidas de asimetría,
etc.
El análisis estadístico, involucra muchos más aspectos que solo definir, calcular y representar
en gráficos los datos, implica conocer la naturaleza de los datos y de esa forma la naturaleza
de la información. Al enfrentar los problemas que dan origen al conocimiento estadístico, los
investigadores utilizaron la intuición, la inventiva y la experimentación, elementos
fundamentales de todo experimento, que en muchas ocaciones no son perceptibles en las
fórmulas presentadas por los libros de textos.
UNIDAD 1
ANÁLISIS DE
DATOS
UNIVARIADOS
L
El término Estadística deriva de la palabra en
latin “status” que significa Estado.
Los primeros usos de la estadística fue la
compilación de datos y elaboración de gráficas
para describir diversos aspectos de un estado o
país.

5
PROGRAMA DE LA ASIGNATURA ETEP01
UNIDAD 1
ANÁLISIS DE DATOS UNIVARIADOS
APRENDIZAJE ESPERADO
Analiza información proveniente de tablas de frecuencias y gráficas para describir un fenómeno.
CRITERIOS DE EVALUACIÓN
 Clasifica diferentes tipos de variables que contenga un conjunto de observaciones.
 Construye tablas de frecuencias y gráficas a partir de un conjunto de observaciones.
 Analiza tablas de frecuencias y gráficas para determinar el comportamiento de un conjunto de observaciones.
Sintetiza información de un conjunto de datos aplicando las medidas de resumen.
 Calcula medidas de tendencia central y las relaciona para definir el centro de un conjunto de datos.
 Calcula medidas de dispersión, para describir la variabilidad de un conjunto de datos.
 Compara conjuntos de datos mediante el uso de las medidas de resumen.
Caracteriza un conjunto de datos utilizando las medidas de posición relativa.
 Calcula medidas de posición relativa para describir un conjunto de datos.
 Representa gráficamente las medidas de posición mediante boxplot.
 Relaciona medidas de posición para caracterizar un conjunto de datos.

6
Introducción
¿Qué significa aprender Estadística?
Habitualmente hablar de las estadísticas, trae a la mente gráfico y
uorcentuales que, en muchas ocaciones no tienen mucho sentido si son
descontextualizadas.
Pero en general, la Estadística son una colección de herramientas que
permiten realizar análisis y caracterización de conjunts de datos, que tal forma
sería imposible de entender.
La Estadística, entrega técnicas que permiten resumir la información que se
mantiene oculta en los datos, es decir, extraer la información que el conjunto
de datos entrega y no los datos por si solos.
El principal objetivo que está detrás de las técnicas estadísticas, es resumir
la información contenida en una colección de datos, de tal forma que que se
pueda transformar en información valiosa para la toma de decisiones.
Para lo anterior, existen variadas técnicas que facilitan
¿Por qué estudiar estadística?
La estadística es básica es la investigación científica, dada la necesidad de
manejar y tratar en ellas grandes catidades, progresivamente creciente, de
datos.
La rama de la estadística que trata sobre la descripción y análisis de un
conjuntos de datos, sin pretender extender o generalizar sus resultados y
conclusiones a poblaciones distintas o más amplias que aquella de donde
proviene la información analizada recibe el nombre de “Estadística
Descriptiva”
Cuando este análisis descriptivo se centra en una variable, recibe el nombre
de Analisis Univariado y si se estudian simultaneamente dos variables, se
denomina Análisis Bivariado.


 VARIABLES Y
TABLAS 
La ciencia de la
Estadística en sus
inicios también fue
llamada fue
aritmética política,
pero fue hasta el siglo
XIX cuando la
estadística adquirió el
significado de
recolectar y clasificar
datos, término que
fue introducido por el
militar británico sir
John Sinclair (1754-
1835).

7
Definiciones:
Población: Es la colección de todos individuos, elementos u observaciones
que poseen al menos una caracterísca común.
 Muestra: Es una parte o subconjunto representativo de la población.
Al proceso de obtener la muestra se llama Muestreo.
 Parámetro: Es una medida de resumen que describe una característica
de toda la población. Por ejemplo media de la población = μ (se lee mu)
 Estadístico o estadígrafo: Es una medida de resumen que describe
una característica de la muestra. Por ejemplo media de la muestra =𝑥̅.
 Unidad de observación o muetreo: Es el elemento o individuo
sobre el cual se mide la característica de interés.
 Variable: Es una característica de la población que se va a investigar
y que puede tomar dieferentes valores.
1.1 Clasificación de variables
 Variables Cualitativas: Son variables cuyos valores son cualidades que
represetan la población. Cualitativa nominas: las categorías de la variables
no implican orden. Cualitativa ordinal: las categorías de la variables si
implican orden.
 Variables Cuantitativas: Surgen cuando se puede establecer cuánto o
qué cantidad se posee de una determinada característica. Cuantitativa
discreta: son aquellas que surgen por el procedimiento de conteo.
Cuantitativa continua: surgen cuando se mide alguna característica.
Cuanlitativas
Cuantitativas
Nominal
Ordinal
Discreta
Continua


 VARIABLES Y
TABLAS 

8
Problema 1:
En los siguientes casos identifique: Población, Variable y Clasifique la
variable:
a) La empresa XX se desea estudiar el número de horas trabajadas por
sus empleados.
b) En una fábrica se desea estudiar el número de hijos por cada
trabajador.
c) En la municipalidad de Santiago se estudia las marcas de automóviles
que tienen su patente obtenida en dicha Municipalidad.
d) En una Universidad se estudia las carreras que los alumnos siguen.
e) En un sindicato se desea estudiar el nivel de educación que tienen sus
afiliados.
Solución:
Letra Población Variable Clasificación
a
Todos los
trabajadores de la
empresa XX
Horas
trabajadas
Cuantitativa
continua
b
Todos los
trabajadores de la
fábrica
Número de
hijos
Cauntitativa
discreta
c
Todos los autos
con patente en la
municipalidad de
Santiago
Marca del
auto
Cualitativa
nominal
d
Todos los afiliados
al sindicato
Nivel de
educación
Cualitativa
ordinal


 VARIABLES Y
TABLAS 

9
1.2 Tablas de distribución de frecuencias.
La información se resume en un cuadro o tabla que detalla las categorías de
una variable con sus correspondientes frecuencias. Es sinónimo de
distribución de frecuencias.
Clases
𝑥𝑖
Frecuencia
Absoluta
(𝑛𝑖)
Frecuencia
relativa
(ℎ𝑖)
Frecuencia
Absoluta
Acumulada
Frecuencia
relativa
acumulada
𝑥1 𝑛1 ℎ1 𝑁1 𝐻1
… … … … …
𝑥𝑚 𝑛𝑚 ℎ𝑚 𝑁𝑚 1
Total 𝑁 1
𝑥𝑖 : marca de clase, se calcula promediando los límites del intervalo o clase.
𝑛𝑖: Se llama frecuencia absoluta, es el número de veces que aparece la categoría i-
ésima en el total de datos (𝑁).
ℎ𝑖 : Se llama frecuencia relativa, corresponde a la proporción que aparece la
categoría i-ésima en el total de datos (𝑁). Se calcula de la siguiente forma:
ℎ𝑖 =
𝑛𝑖
𝑁
𝑁𝑖: Se llama frecuencia absoluta acumulada “menor que”, se obtine sumando en
orden descendente la columna de frecuencia absoluta.
𝐻𝑖: Se llama frecuencia relativa acumula “menor que”, se obtiene sumando en
orden descendente la columna de frecuencia relativa.
Problema 2:
En la tabla de frecuencias que se da a continuación faltan algunos datos complétela.
Variable 𝑥𝑖 𝑁𝑖
20 – 24 0,10
24 – 28 0,25
- 32 11 0,55
32 - 0,85
- 40 1,00
Complete en cuadro.
i
n i
h i
H





 VARIABLES Y
TABLAS 

10
Solución:
calcular la marca de clase del intervalo:
𝑥𝑖 =
𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑙í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟
2
Para obtener el total de datos, usar la frecuencias acumuladas (𝑁3 y 𝐻3)
𝐻3 =
𝑁3
𝑛
⇒ 0,55 =
11
𝑛
⇒ 𝑛 = 20
1.3 Medidas de Tendencia Central.
Esta medidas deben su nombre al hecho de que sus valores tienden a ocupar
posiciones centrales o intermedios entre el menor y mayor valor del conjunto
de datos, es decir entregan información sobre el centro de la distribución.
Los más usados:
 Media o Promedio. Es el punto de equilibrio de la distribución. Se
calcula sumando todas la observaciones de una serie de datos y luego
dividiendo el total entre el número de elementos involucrados.
 Mediana: es el valor medio de una secuencia ordenada de datos.
Esta medida de resumen no se ve afectada por ninguna observación
extrema.
 Moda: es aquel valor de la variable que presenta mayor frecuencia
absoluta, es decir, aquel que más veces se repite. Puede darse el caso de que
existan varios valores que presenten la máxima frecuencia absoluta,
entonces se tendrá una distribución bimodal, trimodal, etc.
Variable 𝑥𝑖 𝑁𝑖
20 – 24 22 2 0,10 2 0,10
24 – 28 26 3 0,15 5 0,25
28 – 36 30 6 0,30 11 0,55
32 – 36 34 6 0,30 17 0,85
36 – 40 38 3 0,15 20 1,00
i
n i
h i
H





 VARIABLES Y
TABLAS 

11
Problema 3:
Los empleados de la empresa ALFA son sometidos a un test de habilidades, que otorga de 0 a 10 puntos. Los
resultados obtenidos por un grupo de trabajadores de la empresa son los siguientes:
4 7 9 10 10 7 5 6 7 8 5 5 6 7 3
3 4 9 8 7 9 10 7 8 4 5 6 9 10 9
¿Cuál es el puntaje máximo que obtuvo el 50% de los empleados?
Solución:
Como primer paso, se deben ordenar los datos de menor a mayor.
3 3 4 4 4 5 5 5 5 6 6 6 7 7 7
7 7 7 8 8 8 9 9 9 9 9 10 10 10 10
Como la cantidad de observaciones es par, se debe utilizar la fórmula:
𝑴𝒆 =
𝑿
(
𝟑𝟎
𝟐
)
+𝑿
(
𝟑𝟎
𝟐
+𝟏)
𝟐
=
𝑿(𝟏𝟓)+𝑿(𝟏𝟔)
𝟐
=
𝟕+𝟕
𝟐
= 𝟕

12
Problema 4:
Los siguientes datos corresponden a los trabajadores que se ausentaron de
una fábrica en 55 días laborales.
Días xi Trabajadores (ni)
0 – 4 2 5
4 – 8 6 15
8 – 12 10 16
12 – 16 14 8
16 – 20 18 3
20 – 24 22 7
a) Identifique y clasifique la variable.
Solución:
Días de ausencia: Cuantitativa continua.
b) ¿Es el número días de ausencia promedio es mayor al número de
días de ausencia mediano?
Solución:
𝑋
̅ =
2 ∗ 6 + 6 ∗ 15 + 10 ∗ 16 + 14 ∗ 8 + 18 ∗ 3 + 22 ∗ 7
55
= 10,58 [𝑑í𝑎𝑠]
𝑀𝑒 = 8 + [27,5 − 21] ∗
4
16
= 9,625[𝑑í𝑎𝑠]
Con lo anterior, se puede decir que la afirmación es correcta.
c) ¿Cuál el el número de ausencias más frecuente?
Solución:
𝑀𝑜 = 8 + (
16 − 15
(16 − 15) + (16 − 8)
) ⋅ 4 = 8,44[𝑑í𝑎𝑠]
El número de ausencias más frecuente es de 8,44 días.


 ANALISIS DE
DATOS
UNIVARIADOS 

13
Problema 5:
La información de la tabla presenta la distribución del sueldo de un grupo
de Ingenieros Civiles industriales, en miles de pesos, con más de 3 años de
experiencia laboral y su calsificación según sexo.
Sueldo mensual[M$] xi Masculino Femenino
800 – 1100 950 1 3
1100 – 1400 1250 7 5
1400 – 1700 1550 10 6
1700 – 2000 1850 8 4
Total 26 18
a) Identifique y clasifique la o las variables.
Solución:
X: Sueldo mensual en miles de pesos. Cuantitativa continua.
Y: Sexo. Cualitativa nominal
b) ¿Es posible afirmar que el ingreso medio mensual es superior en los
varones?
𝑋
̅ =
950 ∗ 1 + 1250 ∗ 7 + 1550 ∗ 10 + 1850 ∗ 8
26
= 1538,46[𝑀$]
𝑌
̅ =
950 ∗ 3 + 1250 ∗ 5 + 1550 ∗ 6 + 1850 ∗ 4
18
= 1433,33[𝑀$]
El ingreso medio mensual de los varones es 1538,46 [M$], y el ingreso medio
mensual de las mujeres es 1433,33[M$], por lo tanto la afirmación es
verdadera.


 ANALISIS DE
DATOS
UNIVARIADOS

14
c) Indique cuál es el sueldo máximo del 50% de los ingenieros?
Para respoder esta pregunta se debe considerar la información sin separar por
sexo.
Sueldo mensual[M$] Ingenieros
800 – 1100 4
1100 – 1400 12
1400 – 1700 16
1700 – 2000 12
Total 44
Solución:
𝑀𝑒 = 1400 + (22 − 20) ⋅
300
16
= 1437,5[𝑀$]
El sueldo máximo del 50% de los ingenieros es de 1437,5 [M$].
1.3 Medidas de Localización
Corresponden a estadígrafos que dividen a los datos en porciones iguales y no
sólo a la mitad como lo hace la mediana. Estas medidas reciben el nombre de
Cuantiles. Los cuantiles más usados son: cuartiles, deciles y percentiles.
Como los percentiles dividen al conjunto en 100 partes iguales, para el claculo
de cualquier valor de cuantil usaremos sólo la fórmula de percentil.


 ANALISIS DE
DATOS
UNIVARIADOS 

15
Problema 6:
Usando la información del ejercicio 5, determine:
a) ¿Cuál es el ingreso máximo del 25% de los ingenieros varones?
Solución:
La expresión de percentil entrega el valor máximo para el porcentaje buscado,
por lo tanto el ingreso máximo del 25% es:
𝑃25 = 1100 + [6,5 − 1] ⋅
300
7
= 1335,71[𝑀$]
Por lo tanto el ingreso máximo del 25% de los ingenieros varones es de 1335,71
[M$]
b) ¿Cuál es el ingreso mínimo del 75% de los ingenieros varones que más ganan?
Solución:
Con apoyo de la resolución anterior. Si el ingreso máximo del 25% de los
ingenieros varones, entonces este valor equivale al ingreso mínimo del porcentaje
superior, que corresponde al 75%
c) ¿Qué porcentaje de ingenieros varones recibe ingresos entre $950.000 y
$1.200.000?
Solución:
950 = 800 + [
26 ∗ 𝑘1
100
− 0] ⋅
300
1
⇒ 𝑘1 = 1,92%
1200 = 1100 + [
26 ∗ 𝑘2
100
− 1] ⋅
300
7
⇒ 𝑘2 = 12,82%
𝑘2 − 𝑘1 = 12,82 − 1,92 = 10,9%
El 10.9% de los varones reciben ingresos entre $950.000 y $1.200.000.


 ANALISIS DE
DATOS
UNIVARIADOS 
25%
800 [M$] 2000 [M$]

16
1.4 Medidas de Variabilidad
Miden la dispersión de los datos de una muestra, es decir mide cuán
similares son los valores que conforman la distribución de datos.
Dos conjunto de datos pueden tener la misma medida de tendencia central,
pero ser muy diferentes, por ejemplo: se tienen dos conjunto de datos
(medidos en cm).
a. 9-10-11-12-13-14-15.
b. 6-8-10-12-14-16-18.
En ambas conjuntos el promedio es de 12 cm y la mediana de 12 cm. A
simple vista es posible darse cuenta que cada conjunto está formado por
distintos valores, razón que hace tan importante la entrega de una medida
de variabilidad al momento de describir un conjunto de datos.
Acontinuación se detallan las más utilizadas:
 Rango o recoerrido de la variable (R): Corresponde a la diferencia
entre el valor máximo y mínimo del conjunto de datos.
 Rango Intercuartílico (RI): Corresponde a la diferencia entre en Cuartil
3 y Cuartil 1, lo que equivale a la diferencia entre en percentil 75 y percentil
25, siendo interpretada como la dispersión del 50% central de la distribución
de valores.
 Varianza (𝜎2
): Corresponde a la media de de los cuadrados de las
desviaciones de los datos de una distribución respecto a su media.
 Desviación Estándar (𝜎): Es simplemente la raíz cuadrada de la
varianza, es muy conveniente usar esta medida de dispersión, ya que se
encuentra en la misma dimensión en que están los datos.
 Coeficiente de variación o coeficiente de variabilidad (C.V.): Medida
de dispersión adimensional, lo que la hace adecuada para comparar en
términos de variabilidad dos o más grupos de datos. Corresponde al número
de veces en que se encuentra contenida la desviación estándar sobre la
media.


 ANALISIS DE
DATOS
UNIVARIADOS 

17
Problema 7:
En la última encuesta de opinión general, EOG, se consultó sobre qué
puntuación le pondrían a las modificaciones que se desean realizar a la ley de
IVA a la compra de viviendas nuevas, obteniéndose los siguientes resultados:
Puntuación Frecuencia
0 – 20 40
20 – 40 35
40 – 60 15
60 – 80 5
80 – 100 5
Total 100
A partir de la información, calcule e interprete el Rango, Rango Intercuartílico,
Varianza, Desviación Estándar y Coeficiente de Variabilidad.
Solución:
 Rango:
𝑅 = 100 − 0 = 100 [𝑃𝑢𝑛𝑡𝑜𝑠]
La amplitud de los datos es de 100 puntos.
 Rango Intercuartílico:
𝑄3 = 𝑃75 = 20 + [75 − 40] ∗
20
35
= 40 [𝑝𝑢𝑛𝑡𝑜𝑠]
𝑄1 = 𝑃25 = 0 + [25 − 0] ∗
20
40
= 12,5[𝑝𝑢𝑛𝑡𝑜𝑠]
𝑅𝐼 = 𝑄3 − 𝑄1 = 40 − 12,5 = 27,5[𝑝𝑢𝑛𝑡𝑜𝑠]
Existe una diferencia de 27,5 puntos en el 50% central de la distribución.
 Varianza:
𝜎2
=
∑ 𝑥𝑖
2
∗ 𝑛𝑖
𝑁
− 𝜇2
𝜎2
=
102⋅40+302⋅35+502⋅15+702⋅5+902⋅5
100
− (30)2
= 480 [𝑝𝑢𝑛𝑡𝑜𝑠]2
La dispersión promedio de las puntuaciones en torno a la media de la
distribución es de 480 [puntos]2
.


 ANALISIS DE
DATOS
UNIVARIADOS 

18
 Desviación Estándar:
𝜎 = √480 = 21,91 [𝑝𝑢𝑛𝑡𝑜𝑠]
La dispersión promedio de las puntuaciones en torno a la media de la
distribución es de 21,91 [puntos].
 Coeficiente de Variabilidad:
𝐶𝑉 =
𝜎
𝑥̅
∗ 100 =
21,91
30
∗ 100 = 73%
La dispersión porcentual de las puntuaciones alcanza el 73%, esto indica que
existe una alta dispersión en los datos.
Problema 8:
Suponga que se quieren comparar la dispersión existente entre los sueldos de
los técnicos y profesionales de una empresa.
Sueldo
mensual
[M$]
Nº de técnicos (ni) nixi x2
i nix2
i
200 10 2000 40000 400000
250 10 2500 62500 625000
300 10 3000 90000 900000
Total 30 7500 1925000
Sueldo
mensual
[M$]
Nº de
profesionales
(ni)
nixi x2
i nix2
i
400 5 2000 160000 800000
500 10 5000 250000 2500000
600 5 3000 360000 1800000
Total 20 7500 5100000


 ANALISIS DE
DATOS
UNIVARIADOS 

19
Estadístico Técnicos Profesionales
Recorrido 𝑅
= 300 − 200
= 100
𝑅 = 200
Rango Intercuartílico 𝑅𝐼
= 300 − 200
= 100
𝑅𝐼 = 150
Varianza 𝜎2
=
1925000
30
−
(250)2
=
1666,67
𝜎2
= 5000
Desviación estándar 𝜎 = 40,82 𝜎 = 70,71
Coeficiente de Variabilidad 𝐶𝑉
=
40,82
250
∗ 100
= 16,33%
𝐶𝑉
= 14,14%
Solución:
Notar que todas las medidas de dispersión absoluta son más altas en el
grupo de los profesionales, antes de concluir que estos sueldos
presentan mayor variabilidad hay que tener en cuenta que se están
comparardo dos grupos diferentes, donde los sueldos son siempre
mayores en los profesionales, por esta razón el coeficiente de
variabilidad es una medida de variabilidad perfecta, ya que tiene en
cuenta todos los valores de la variable y al no tener dimensión permite
comparar la dispersión entre grupos, entonces se puede concluir que el
grupo con mayor dispersión es el de los sueldos de los técnicos.
Problema 9:
Estado Civil de las personas que trabajan en “INACAP”. Realice una
representación gráfica de las frecuencias absolutas y relativas.
Estado Civil
Frecuencia
Absoluta
Frecuencia Relativa
Soltero 85 65,9%
Casado 36 27,9%
Divorciado 5 3,9%
Viudo 3 2,3%
Total 129 100%


 ANALISIS DE
DATOS
UNIVARIADOS 

20
a) ¿Cuál es el estado civil que presenta mayor cantidad de personas?
Solución:
Son las personas solteras, hay 85 y es equivalente al 65,9%
b) Realice una representación gráfica de la situación descrita por la tabla
de frecuencias.
Solución:
Una gráfica de barras de la frecuencia absoluta es:
También es posible representar gráficamente las frecuencias relativas, como
sigue:
Pensamiento crítico y conocimiento estadístico. ¿Cuál de las gráficas
anteriores es más útil? En comparación, es más útil en el sentido de
información la gráfica de las frecuencias absolutas.
0
20
40
60
80
100 85
36
5 3
Frecuencia absoluta
0%
10%
20%
30%
40%
50%
60%
70%
Frecuencia relativa


 ANALISIS DE
DATOS
UNIVARIADOS 

21
Problema 10:
Construcción de una tabla de frecuencias a partir de datos no
agrupados. Los siguientes datos corresponden, a los datos obtenidos en
una empresa en el turno vespertino, compuesto por trabajadores que
prestan servicios a la empresa. Los datos se presentan en horas trabajadas
en la semana.
14,0 8 18,4 16,6 20
15,6 18,4 17,6 26 12,2
17,6 19,4 19,8 21,6 24
15,6 15,8 15 12,2 20
10 22,4 9,4 13 17,4
16 16,8 12,6 18 10,5
18 17 19 16,6 15,5
11,2 21,8 19,6 12,8 18
a) Identifique y defina la población y la muestra.
Solución:
La población corresponde a todos los trabajadores de turno vespertino de
la empresa y la muestra corresponde a los 40 trabajadores que fueron
seleccionados.
b) Identifique la unidad y la variable.
Solución:
La unidad es un trabajador y la variable es el número de horas trabajadas en
el turno vespertino en una semana.
c) Construya una tabla de distribución de frecuencias.
Solución:
Rango=26,0-8,0=18,0
𝑘 = 1 + 3,3 ⋅ 𝑙𝑜𝑔 (40) = 6,28 𝑙𝑢𝑒𝑔𝑜 𝑘 = 6
C=18,0/6=3,0
𝐸 = 8,0 + 6 ⋅ 3,0 − 26,0 − 0,1 = −0,1 por lo tanto se debe corregir.
Entonces 𝐸 = 8,0 + 6 ⋅ 3,1 − 26,0 − 0,1 = 0,5
El límite inferior 1 es: I1=8,0-0,5/2=7,75 finalmente I1=7,8.


 ANALISIS DE
DATOS
UNIVARIADOS 

22
LI LS 𝑛𝑖 ℎ𝑖 (%) 𝑁𝑖 𝐻𝑖 (%) 𝑥𝑖
7,8 10,8 4 10,0 4 10,0 9,3
10,9 13,9 6 15,0 10 25,0 12,4
14,0 17,0 11 27,5 21 52,5 15,5
17,1 20,1 14 35,0 35 87,5 18,6
20,2 23,2 3 7,5 38 95,0 21,7
23,3 26,3 2 5,0 40 100,0 24,8
Conteste las siguientes preguntas en referencia a la información proporcionada
por la tabla de frecuencias.
d) ¿Cuántos intervalos de clases son?
Solución:
6 intervalos de clase.
e) ¿Cuál de las clases contiene el 15% de las observaciones?
Solución:
La clase 2, que contiene los valores de horas trabajadas desde 10,9 hasta 13,9.
f) ¿Cuál es la cantidad de horas más frecuente de trabajo?
Solución:
Existe un total de 14 observaciones en la clase 4 y valor que representa es 18,6
horas.
g) ¿Qué valor acumula el 87,5% de las horas trabajadas?
Solución:
20,1 horas trabajadas
h) ¿Qué proporción de las observaciones se encuentra por sobre 23,2
horas trabajadas?
Solución:
Sólo la última clase que contiene el 5% de las observaciones de la muestra.


 ANALISIS DE
DATOS
UNIVARIADOS 

23
i) ¿Qué porcentaje se observa entre 10,9 y 20,1 horas trabajadas?
Solución:
El 77,5%.
j) Determine el promedio de horas trabajadas en la clase 4.
Solución:
18,6 horas.
k) Mediante una gráfica adecuada, caracterice la forma de la distribución.
Solución:
Problema 11:
Construya el Box-plot para los datos del número de accidentes por año en una
intersección muy transitada en los últimos 20 años. Los valores ordenados son:
32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49
50 51
Solución: Para construir el Box-plot, se requiere los cinco números, que son
los siguientes:
Estadígrafo Valor
Mínimo (Xmin) 32
Primer cuartil (Q1) 41
Segundo cuartil (Q2) 43,5
Tercer cuartil (Q3) 46,5
Máximo (Xmax) 51


 ANALISIS DE
DATOS
UNIVARIADOS 
0
5
10
15
9,3 12,4 15,5 18,6 21,7 24,8
Frecuencia absoluta

24
Así, el Box-plot (gráfico de caja) que definido por, no existen valores extremos
en la muestra:
Gráfico de Statdisk
Problemas Propuestos:
1. Consideremos la distribución de frecuencias de los 210 dispositivos en el
control de calidad, distribuidos como lo muestra la siguiente tabla:
Intervalo
Marcas de
clase
Frecuencia
Absoluta
Frecuencia
Absoluta
Acumulada
Frecuencia
Relativa
Frecuencia
Relativa
Acumulada
350 – 400
400 – 450
450 – 500
500 – 550
550 – 600
600 – 650
650 – 700
700 – 750
750 – 800
800 - 850
4
6
9
20
31
80
42
10
8
2
a) Completa la información de la tabla de frecuencias
b) Dibuja en un gráfico, el histograma y el polígono de frecuencias.
c) ¿Cuál es la cantidad de dispositivos entre 450-700?
d) ¿Qué % de estos dispositivos se encuentran entre 550 y 750?
e) ¿Qué % de estos dispositivos se encuentran acumulados hasta 650?
f) ¿Qué valor representa la categoría de 750-800?


 ANALISIS DE
DATOS
UNIVARIADOS 

25
2. La siguiente información corresponde a la población que puede sostener una conversación en
inglés, según grupo de edad (censo 2012).
Grupo de
edad (años)
Frecuencia
Absoluta
(ni)
Frecuencia
Relativa
(pi)
Frecuencia
Absoluta
Acumulada (Ni)
Frecuencia
Relativa
Acumulada (Pi)
Marca de Clase
(Xi)
0-14 119638
15-29 664257
30-44 437453
45-59 220559
60-90 143120
Total
a) ¿Cuál es el número de personas consideradas?
b) ¿A qué rango de edad pertenece la mayor cantidad de personas y cuál es su porcentaje?
c) Realiza una gráfica de barras de las frecuencias relativas.
d) Realiza una gráfica de las frecuencias absolutas acumuladas.
e) ¿Cuál es la edad promedio de personas que en mayor proporción pueden mantener una
conversación en inglés?
f) ¿Cuántas personas con 44 años o menos pueden mantener una conversación en inglés?
g) ¿Cuántas personas con más de 59 años pueden mantener una conversación en inglés? ¿Cuál es su
proporción?
3. Utilizando los datos del Variación mensual de ventas para una empresa de retail, con año base 2009,
0,09 0,20 0,42 0,62
0,11 0,21 0,43 0,66
0,12 0,25 0,43 0,69
0,13 0,26 0,44 0,80
0,14 0,28 0,47 0,81
0,14 0,30 0,51 0,83
0,15 0,36 0,52 0,86
0,15 0,36 0,52 0,86
0,16 0,36 0,54 0,99
0,19 0,36 0,55
a) Construye una tabla de frecuencias
b) Determina el porcentaje de observaciones de la tercera clase
c) ¿Cuál es la cantidad de datos contendidos hasta la cuarta categoría?
d) ¿Cuál es el promedio de la clase dos?
e) Defina el porcentaje de datos menores o iguales a una tasa de variación de 0,70.

26
4. Su firma está introduciendo un nuevo chip de computador del cual se promociona que realiza
cálculos estadísticos mucho más rápidamente que los que actualmente se encuentran en el mercado.
Se hacen veinte cálculos diferentes, produciendo los tiempos en segundos que se ven más adelante.
Aunque usted no puede tergiversar su producto, usted desea presentar los resultados de la manera
más favorable para su empresa. Determine la media, la mediana y la moda. Además, calcule la
desviación estándar y los valores comunes utilizando la regla empírica.
3,2 4,1 6,3 1,9 0,6
5,4 5,2 3,2 4,9 6,2
1,8 1,7 3,6 1,5 2,6
4,3 6,1 2,4 2,2 3,3
5. Una empresa grande de equipos deportivos está probando el efecto de dos planes publicitarios sobre
las ventas de los últimos 4 meses. Dadas las ventas que se ven aquí, ¿cuál programa de publicidad
parece producir el crecimiento promedio más alto en ventas mensuales?
Mes Plan 1 Plan 2
Enero 1.657.000 4.735.000
Febrero 1.998.000 5.012.000
Marzo 2.267.000 5.479.000
Abril 3.432.000 5.589.000
6. Pensamiento crítico y medidas de tendencia central. Para cada uno de los siguientes ejercicios
podemos calcular medidas de tendencia central como la media y la mediana. Identifique una razón
importante por la que, en estos casos, la media y la mediana no son estadísticos que puedan servir de
manera precisa y efectiva como medidas de tendencia central.
 Códigos postales: 12601; 90210; 02116; 76177; 19102
 Clasificaciones de los niveles de estrés de distintos empleos: 1; 2; 3; 7; 9
 Los sujetos encuestados se codifican de la siguiente manera según la preferencia de club: 1 (U. de
Chile), 2 (U. Católica), 3 (Colo-colo), 4 (Palestino) o 5 (U. Española).
7. Exactitud del pronóstico del clima. En un análisis de la exactitud del pronóstico del clima se
comparan las temperaturas máximas reales con las temperaturas máximas pronosticadas un día
anterior y con las temperaturas máximas pronosticadas cinco días antes. Más abajo se señalan los
errores entre las temperaturas pronosticadas y las temperaturas máximas reales para días consecutivos
en Santiago. ¿La desviación estándar sugiere que las temperaturas pronosticadas un día antes son más
exactas que las pronosticadas cinco días antes, como se esperaría?
(real) — (pronosticada un día antes) 2 2 0 0 -3 -3 1 -2 8 1 0 -1 0 1
(real) — (pronosticada cinco días antes) 0 -3 2 5 -6 -9 4 -1 6 -2 -2 -1 6 -4

27
8. Los datos financieros con frecuencia están contenidos en un gráfico de máximos - mínimos y al
cierre. Como su nombre lo indica, muestra el valor más alto, el valor más bajo y el valor al cierre de
los instrumentos financieros como por ejemplo las acciones. Los datos tomados de The Wall Street
Journal para el índice Dow Jones respecto a 15 acciones durante un período de cinco días con base
en los siguientes datos, compare los valores máximos mínimos y de cierre utilizando elementos
estadísticos de tendencia central y variabilidad, además de la regla empírica.
Día Máximos Mínimos Cierre
1 181,07 178,17 178,88
2 180,65 178,28 179,11
3 180,24 178,17 179,35
4 182,79 179,82 181,37
5 182,14 179,53 181,31
9. Para ilustrar el cálculo de percentiles, se asume que se tienen observaciones para el número de
acciones correspondientes a 50 acciones transadas en la Bolsa de Valores de Santiago, como se
muestra en la tabla. Se desea calcular los cuartiles del conjunto de datos.
3 10 19 27 34 38 48 56 67 74
4 12 20 29 34 39 48 59 67 74
7 14 21 31 36 43 52 62 69 76
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80
10. La siguiente tabla muestra la distribución de frecuencia de los sueldos (en miles de pesos) que reciben
150 empleados en una empresa.
Clases ni
120 – 160 20
160 – 200 30
200 – 240 50
240 – 280 30
280 – 320 20
Calcule el promedio, la mediana y la moda de los sueldos de los trabajadores de esta empresa.

28
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
n todo proceso de análisis, las variables cumplen un papel fundamental en el
momento de realizar un análisis, puesto que la cantidad de variables en análisis
condiciona, de alguna forma, las herramientas estadísticas a utilizar, un caso
particular es el Análisis Bivariado, esto ocurre cuando dos variables de interés son observadas
conjuntamente para el mismo grupo de elementos en estudio.
En general, el análisis bivariado no difiere significativamente al análisis univariado, la
diferencias fundamentales son en la cantidad de información contenida en los datos.
UNIDAD 2
ANÁLISIS DE DATOS BIVARIADOS
E

29
UNIDAD 2
ANÁLISIS DE DATOS BIVARIADOS
Utiliza tablas bivariadas para describir la distribución de un conjunto de observaciones.
 Realiza tablas de doble entrada utilizando distintos tipos de variables para su análisis.
 Calcula distribuciones de frecuencias marginales y condicionales para describir las variables.
 Aplica análisis conjunto de las variables para caracterizar su comportamiento simultáneo.
Evalúa el grado de asociación entre dos variables mediante el coeficiente y el análisis gráfico.
 Construye graficas de dispersión para presentar la relación entre variables.
 Estima el grado de asociación entre dos variables en base a gráfico de dispersión.
 Determina e interpreta de coeficiente de correlación lineal para estimar el grado de asociación entre variables.
Establece el comportamiento entre dos variables por medio de un modelo estadístico de regresión.
 Determina componentes del modelo de regresión mediante el método de mínimos cuadrados.
 Interpreta los coeficientes de regresión y la variación explicada por el modelo.
 Analiza predicciones y residuos en un análisis posterior a los datos.

30
Introducción
En muchas ocasiones el interés del investigador es estudiar
simultaneamente dos caráterísticas o variables medidas en cada individuo o
elemento. Por ejemplo medir estatura y peso en cada trabajador de una
empresa. Expresando la variable estatura con la letra x y el peso con la letra
y, por lo tanto se tendrán tantos pares de datos (x,y) como trabajadores
tenga la empresa. En esta unidad se estudian pares de variables de tipo
cuantitativas.
Tablas Estadísticas Bidimensionales: tablas de doble entrada. La
primera columna detalla frecuentemente la variable x y la primera fila detalla
la variable y.
Estructura de una Tabla Bidimensional con Frecuencias Absolutas:
XY yi … yl
∑ 𝑛𝑖𝑗 = 𝑛𝑖.
𝑙
𝑗=1
x1 n11 … n1l n.1
x2 n21 … n2l n.2
… …
xk nk1 … nkl n.k
= ∑ 𝑛𝑖𝑗 = 𝑛.𝑗
𝑘
𝑖=1
n.1 … n.l
∑ ∑ 𝑛𝑖𝑗 = 𝑛
𝑙
𝑗=1
𝑘
𝑖=1
Para representar las frecuencias absoluta acumulada, frecuencia relativa y
relativa acumuladas se debe construir una tabla por separado por cada una
de ellas.
Distribuciones marginales: Corresponde a la representación de cada
variable en tablas unidimensionales y se obtiene con la suma de las filas o
columnas para las respectivas variables.


 ANALISIS DE
DATOS
UNIVARIADOS 

31
Otro aspecto interesante del análisis bivariado, es que es posible determinar
el tipo y nivel de relación entre las variables, esto se puede realizar al
considerar una relación lineal entre las variables en estudio.
Definiciones:
 Coeficiente de Correlación Lineal de Pearson.
𝑟𝑋𝑌 =
𝑆𝑋𝑌
√𝑆𝑋𝑋 ⋅ 𝑆𝑌𝑌
𝑆𝑋𝑌 = ∑ 𝑥𝑖𝑦𝑖
𝑛
𝑖=1
− 𝑛 ⋅ 𝑋
̅ ⋅ 𝑌
̅
𝑆𝑋𝑋 = ∑ 𝑥𝑖
2
𝑛
𝑖=1
− 𝑛 ⋅ 𝑋
̅2
𝑆𝑌𝑌 = ∑ 𝑦𝑖
2
𝑛
𝑖=1
− 𝑛 ⋅ 𝑌
̅2
 El modelo de regresión lineal estimado es: 𝑦
̂ = 𝛽
̂0 + 𝛽
̂1 ⋅ 𝑥.
𝛽
̂0 = 𝑌
̅ − 𝛽
̂1 ⋅ 𝑋
̅
𝛽
̂1 =
𝑆𝑋𝑌
𝑆𝑋𝑋
 El coeficiente de correlación lineal cumple que −1 ≤ 𝑟𝑋𝑌 ≤ 1.
 También se define el coeficiente de determinación 𝑅2
= (𝑟𝑋𝑌)2
.


 ANALISIS DE
DATOS
UNIVARIADOS 

32
Problema 1:
Un examen de ingreso a la una universidad está compuesto de dos partes. El
puntaje obtenido por un grupo de estudiantes se detalla en la tabla adjunta. Sea
X el puntaje obtenido en la primera parte e Y el puntaje obtenido en la segunda
parte.
Y
0 5 10 15
X 0 2 6 2 10
5 4 15 20 10
10 1 15 14 1
a)Determine las distribuciones marginales de X e Y.
Solución:
b) ¿En qué parte del examen los estudiantes obtuvieron mayor puntaje
medio?
𝑋
̅ =
0 ⋅ 20 + 5 ⋅ 49 + 10 ⋅ 31
100
𝑌
̅ =
0 ⋅ 7 + 5 ⋅ 36 + 10 ⋅ 36 + 15 ⋅ 21
100
La parte Y obtuvo mayor puntaje medio.
c)Para aquellos estudiantes que obtuvieron 5 puntos en la parte X, ¿cuál es la
media en la parte Y?
Solución:
Puntaje (𝑌|𝑥 = 5) Frecuencia
0 4
5 15
10 20
15 10
Total 49
𝑌
̅𝑥=5 =
0 ∗ 4 + 5 ∗ 15 + 10 ∗ 20 + 15 ∗ 10
49
= 8,67 [𝑝𝑢𝑛𝑡𝑜𝑠]
El puntaje medio en la parte Y para aquellos estudiantes que obtuvieron en la
parte X, 5 puntos fue de 8,67.
Puntaje obtenido
en la parte X
Nº de
estudiantes
0 7
5 36
10 36
15 21
Total 100
Puntaje obtenido
en la parte X
Nº de
estudiantes
0 20
5 49
10 31
Total 100


 ANALISIS DE
DATOS
UNIVARIADOS 

33
Problema 2:
¿Existirá relación entre el estado nutricional y el rendimiento académico de
estudiantes de enseñanza básica? Se midió el estado nutricional de 1000 niños
de enseñanza básica, el que fue clasificado como "malo", "regular" "bueno". El
rendimiento académico fue clasificado como “bajo el promedio” “promedio” o
“sobre el promedio”.
Estado Nutricional
Malo Regular Bueno
Total
Rendimiento
Académico
Bajo
130 95 30 255
Promedio
120 450 35 605
Sobre
30 40 70 140
Total
280 585 135 1000
a)¿Cuál es la cantidad de los niños de enseñanza básica tienen un rendimiento
académico promedio?
Solución:
Son 605 niños en la muestra
b) ¿Qué cantidad de los niños de enseñanza básica tienen un estado
nutricional regular?
Solución:
c)¿Qué cantidad de los niños de enseñanza básica tienen un rendimiento
académico promedio y un estado nutricional bueno?
Solución:


 ANALISIS DE
DATOS
UNIVARIADOS 



34
d) Calcule el porcentaje de los niños de enseñanza básica tienen un
rendimiento académico sobre el promedio
Solución:
Son 140 niños en la muestra de 1.000, entonces el porcentaje es:
140
1000
= 0,14 =
14%
e) Determine el porcentaje de los niños de enseñanza básica tienen un
estado nutricional malo?
Solución:
Son 30 niños en la muestra de 1.000, entonces el porcentaje es:
30
1000
= 0,03 =
3%
f)¿Qué porcentaje de los niños de enseñanza básica que tienen un estado
nutricional bueno están sobre el promedio en su rendimiento académico?
Solución:
Son 70 niños de 135 que tienen un estado nutricional bueno, entonces el
porcentaje es:
70
135
= 0,519 = 51,9%
g) Obtenga la distribución marginal del Estado Nutricional .
Solución:
Estado Nutricional
Malo Regular Bueno TOTAL
Frecuencia 280 585 135 1000
Frecuencia relativa 28% 58,5% 13,5% 100%
h) Calcule la distribución marginal del Rendimiento Académico.
Solución:
Rendimiento Académico
Bajo Promedio Sobre TOTAL
Frecuencia 255 605 140 1000
Frecuencia relativa 25,5% 60,5% 14% 100%


 ANALISIS DE
DATOS
UNIVARIADOS 

35
i) Obtenga la distribución condicional del rendimiento académico dado el estado nutricional, es
decir que consideramos al rendimiento académico como respuesta al estado nutricional.
Solución:
Estado Nutricional
Malo Regular Bueno
Rendimiento
Académico
Bajo
130/280 95/585 30/135
Promedio
120/280 450/585 35/135
Sobre
30/280 40/585 70/135
Total
280/280 585/585 135
Luego:
Estado Nutricional
Malo Regular Bueno
Rendimiento
Académico
Bajo
46,4% 16,2% 22,2%
Promedio
42,9% 76,9% 25,9%
Sobre
10,7% 6,8% 51,9%
Total
100% 100% 100%
Problema 3:
En una empresa donde trabajan 54 personas, se ordenó en una tabla de doble entrada, la información referida
al ingreso mensual y al tiempo de servicio en la empresa, Las variables definidas como sigue: 𝑋 =
𝑖𝑛𝑔𝑟𝑒𝑠𝑜 𝑚𝑒𝑛𝑠𝑢𝑎𝑙 (𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝑝𝑒𝑠𝑜𝑠) e 𝑌 = 𝑡𝑖𝑒𝑚𝑝𝑜 𝑑𝑒 𝑠𝑒𝑟𝑣𝑖𝑐𝑖𝑜 𝑒𝑛 𝑙𝑎 𝑒𝑚𝑝𝑟𝑒𝑠𝑎 (𝑎ñ𝑜𝑠)
Tabla: ingreso y tiempo de servicio
Tiempo de Servicio
0-4 4-8 8-12
Ingreso
Mensual
300-340
6 4 2
340-480
3 6 4
480-620 2 8 6
620-960
1 2 10

36
a) ¿Cuál es la cantidad de personas que llevan 4-8 años en la empresa y que tienen un ingreso mensual
de 480-620?
Solución:
Son 8 personas
b) ¿Cuál es el porcentaje de personas que tienen un tiempo de servicio entre 0-4 años y su ingreso
mensual está entre 620-960? ¿Qué porcentaje representa de los empleados?
Solución:
Es 1 persona de 54 personas empleadas, entonces el porcentaje es:
1
54
= 0,0185 = 1,85%
c) Obtenga la Media marginal del Ingreso Mensual.
Solución:
Para Obtener la media marginal de la variable Ingreso Mensual, es necesario conocer la distribución
marginal, luego esta es:
Estado Nutricional
300-340 340-480 480-620 620-960 TOTAL
Marca de Clase 320 410 550 790
Frecuencia 12 13 16 13 54
En base a la información proporcionada por la distribución marginal, se calcula la media marginal,
como sigue:
𝑀𝑒𝑑𝑖𝑎 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 = 𝑥̅ =
12∗320+⋯+13∗790
54
= 523 (Miles de pesos)
Entonces, el ingreso promedio es de $523.000.- para el conjunto de datos.
Observación: Así también, se puede calcular la media marginal de la variable tiempo de servicio,
replicando el procedimiento anterior.
d) Calcule la Varianza marginal de la variable Ingreso Mensual:
Solución: La varianza cuantifica la variabilidad de un conjunto de datos, su obtención se basa en la
información proporcionada por los datos de la frecuencia marginal.
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 = 𝑆2
=
12∗(320−523)2+⋯+13∗(790−523)2
54−1
= 30.168 (Miles de pesos)2

37
Debido a que la unidad de los datos está al cuadrado no es posible interpretar de manera directa con el
promedio, luego, la desviación estándar marginal de los ingresos mensuales es:
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 = 𝑆 = √30.168 = 173,689 ≈ 174 (Miles de pesos)
e) ¿Cuál es la variación conjunta de las variables?
Solución: Para definir la variación conjunta, se obtiene la covarianza (𝐶𝑂𝑉(𝑥, 𝑦))
Tiempo de Servicio
Marcas de Clase 2 6 10
Ingreso
Mensual
320
6 4 2
410
3 6 4
550 2 8 6
790
1 2 10
𝐶𝑂𝑉(𝑥, 𝑦) =
320 ∗ 2 ∗ 6 + ⋯ + 790 ∗ 10 ∗ 10
54
− 523,0 ∗ 6,7 = 237,8
Esto es la variación conjunta de las variables Ingreso Mensual y Tiempo de servicio. Podemos mencionar
que las variables 𝑥 e 𝑦 tiende a moverse en la misma dirección, es decir existe una relación positiva.
Problema 4:
Un docente de la asignatura de estadística desea relacionar los resultados obtenidos en la prueba 1 y los
resultados alcanzados en el examen, para lo cual cuenta con la siguiente información de sus estudiantes:
Su pregunta es ¿Existe correlación entre los resultados de la prueba 1 y el examen?
Solución:
El primer indicador es una referencia gráfica, a Continuación se presenta el Gráfico de Dispersión de Notas
en la Prueba 1 (X) versus Notas el Examen (Y) del curso de 25 alumnos.
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
P1 1,7 3,8 5,1 5,6 5,0 5,7 2,1 3,7 3,8 4,1 3,4 4,4 6,8 5,1 4,3 6,2 5,9 5,4 4,1 6,2 5,2 4,6 4,9 5,9 5,5
Ex 3,5 3,2 3,5 5,2 4,9 3,7 3,6 4,5 4,0 3,6 4,4 3,3 5,5 3,9 4,6 5,7 4,3 4,1 5,0 3,8 4,4 4,0 4,5 3,4 4,5

38
La gráfica presenta una correlación positiva (ascendente) leve entre las notas obtenidas en la prueba 1 y el
examen, por otra parte para determinar el grado de asociación entre dos variables se utiliza el coeficiente de
correlación de Pearson, denotado por “r”, en este caso su valor es:
Coeficiente de correlación 𝑟 = 0,407
El cual es consistente a la información gráfica, lo que señala finalmente que existe una correlación positiva y
leve entre ambas variables analizadas.
Problema 5:
Las estaturas y pesos de los 10 jugadores de baloncesto de la Universidad Tecnológica De Chile, Inacap son:
Estatura (x) 186 189 190 192 193 193 198 201 203 205
Pesos (y) 85 85 86 90 87 91 93 103 100 101
a) ¿Existe una correlación entre las estaturas y el peso?
Solución:
La gráfica de dispersión (scatterplot), entre la estatura y el peso es la siguiente:

39
La gráfica presenta una correlación positiva (ascendente) fuerte entre la estatura y el peso, el coeficiente de
correlación de Pearson, 𝑟 = 0,944, es cercano a 1, lo que es considerado como alto o fuerte.
b) La regresión lineal e identifique las variables (predictiva y respuesta)
Solución:
El modelo de regresión lineal para las variables: la estatura en centímetros (𝑥), que corresponde a la variable
predictiva o independiente y el peso en kilogramos (𝑦), que es la variable respuesta o dependiente, es:
𝑦 = 𝑎 + 𝑏 ∗ 𝑥
Donde:
𝑎 = −107,139
𝑏 = 1,022
Luego el modelo es:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎
c) Calcule el peso estimado de un jugador que mide 208 cm.
Solución:
Para estimar el peso de un jugador que mide 208 cm,
Se tiene que 𝑥 = 208, entonces:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 208
𝑃𝑒𝑠𝑜 = 105,4
El peso estimado es 105,4 Kg.
d) La estatura estimada de un jugador que pesa 100 kg.
Solución:
Para estimar la estatura de un jugador que pesa 100 kg.
Se tiene que 𝑦 = 100, entonces:

40
100 = −107,139 + 1,022 ∗ 𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎
Despejando, el resultado es:
𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎 = 202,7
La estatura estimada es 202,7 cm.
e) El peso estimado de un jugador que mide 198 cm. ¿cuál es el residuo de la estimación?
Solución:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 198
𝑃𝑒𝑠𝑜 = 95,2
La estimación del residuo o error: 𝑒 = 93 − 95,2 = −2,2
Esto significa que se estima un error de 2,2 kilogramos de sobrestimación.
f) El peso estimado de un jugador que mide 201 cm. ¿cuál es el residuo de la estimación?
Solución:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 201
𝑃𝑒𝑠𝑜 = 98,3
La estimación del residuo o error: 𝑒 = 103 − 98,3 = 4,7
Esto significa que se estima un error de 4,7 kilogramos de subestimación.
Observación: las preguntas anteriores relejan los tipos de errores que se pueden estimar.
g) Estime el peso de un jugador de una estatura “particular” para la talla de los jugadores, que mide 155
cm. ¿cuál es el residuo de la estimación?
Solución:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 155
𝑃𝑒𝑠𝑜 = 51,3
La estimación del residuo o error: en esta situación no es posible afirmar que sea una buena estimación,
debido a que el valor de la variable 𝑥, se encuentra fuera del ámbito de los valores obtenidos en la muestra.

41
h) Desarrollemos el análisis residual de nuestro modelo de regresión. Los datos considerados son
los siguientes:
Solución:
Estatura (𝑥) 186 189 190 192 193 193 198 201 203 205
Pesos (𝑦) 85 85 86 90 87 91 93 103 100 101
Estimado (𝑦
̂) 83,0 86,0 87,0 89,1 90,1 90,1 95,2 98,3 100,3 102,4
Residuo (𝑒) 2,0 -1,0 -1,0 0,9 -3,1 0,9 -2,2 4,7 -0,3 -1,4
En base a los datos de los errores es posible realizar su representación gráfica:
Esta gráfica presenta una distribución uniforme de los errores o residuos, esto es un indicador de que el
modelo es adecuado.
i) Determinación de la variabilidad de los residuos, es error estándar de estimación, denotado 𝑆𝑒.
Solución:
Donde: 𝑆𝑒 = √
2,02+⋯+(−1,4)2
=10−2
= √
5,776
8
= 2,4 (kilogramos)
Este valor señala que el error estándar de estimación del modelo es de 2,4 kilogramos.
-4,0
-2,0
0,0
2,0
4,0
6,0
185 190 195 200 205 210
Residuos
Residuos

42
Problemas Propuestos
1. Un grupo de investigadores, al estudiar la relación entre el tipo acción y la severidad de la
variabilidad, reunió los datos de 1500 acciones, los cuales se presentan en la tabla de
contingencia adjunta.
Tipo de Acción
A B C D
Variabilidad
Baja
543 211 90 476
Moderada 44 22 8 21
Severa
28 9 7 31
a) Calcule las distribuciones marginales. Interprete.
b) ¿Cuál es el porcentaje de acciones con variabilidad baja del tipo A?
c) ¿Cuál es el total de acciones que tienen una variabilidad severa, y su proporción de la muestra?
d) ¿Cuál de las acciones es la más estable?
e) Realice una representación gráfica de información proporcionada por la tabla
2. Una compañía aérea desea estudiar la relación entre el número de vuelos y la edad de sus
pasajeros, consultó a sus pasajeros y recabó información resumida en la siguiente tabla.
Número de vuelos por año
0-1 2-4 5-7
Edad
10-25
4 19 15
25-40 4 25 9
40-65
8 16 6
65-80
6 23 11
a) Determine las distribuciones marginales para las variables.
b) ¿Qué porcentaje de las personas entre 40 y 65 años, toma entre 2-4 vuelos?
c) ¿Cuál es el promedio de la variable edad? Y ¿Cuál es su variabilidad?
d) ¿Qué valor tiene la media de los vuelos por años?
e) Obtenga la Covarianza.

43
3. Interprete cada uno de los siguientes coeficientes de correlación y use gráficos de
dispersión para representar como se vería cada una de las relaciones entre dos variables (x, y)
cualesquiera:
a) r = -1,0 b) r = 0,05 c) r = 0,85 d) r = -0,99 e) r = -0,03
4. Si el coeficiente de correlación para los datos de la tabla es 0,97, responda a las preguntas
siguientes, primero sin realizar ningún cálculo y después, comprobar las respuestas haciendo
los cálculos necesarios con su calculadora.
X 2 3 4 5 6
Y 5 7 8 13 14
Revise los gráficos de dispersión correspondientes y responda cómo cambiaría este
coeficiente si:
a) Sumamos 3 a la variable X (cada valor)
b) Sumamos 3 en ambas variables (cada valor)
c) Multiplicamos la variable X por 2 (cada valor)
d) Intercambiamos todos los valores de X por los de Y
e) Cambiamos el último valor de X por el de Y
f) Sumamos 10 a ambas variables pero sólo en el primer punto observado
5. Cada una de las frases siguientes contiene un error, explique en cada caso qué es lo que está
mal.
a) “Existe una alta correlación (r=0,32) entre el sexo de los trabajadores en Santiago y su salario”
b) “Se encontró una alta correlación (r=1,09) entre las evaluaciones de los estudiantes a los profesores
y los salarios de los académicos”
c) “La correlación entre el tamaño familiar y los metros cuadrados del hogar es r=0,65 metros
cuadrados”
6. La correlación lineal de X con Y es r = 0,60; la correlación de X con W es de r = -0,80. ¿Con
cuál de las variables Y o W, es mayor el grado de asociación lineal?
7. En un curso de introducción a la estadística, un profesor hace dos exámenes. El profesor
quiere determinar si los puntajes de los estudiantes en el segundo examen están
correlacionados con los puntajes del primero. Para facilitar los cálculos, se elige una muestra
de ocho estudiantes. Sus calificaciones aparecen en la siguiente tabla.
Estudiante 1 2 3 4 5 6 7 8
Examen 1 60 75 70 72 54 83 80 65
Examen 2 60 100 80 68 73 97 85 90

44
a) Construya una gráfica de dispersión para estos datos, utilizando el puntaje del primer examen
como la variable X. ¿Parece lineal la relación?
b) Suponga que existe una relación lineal entre las calificaciones de los dos exámenes, calcule el valor
r de Pearson.
c) ¿Cuál es la variable explicativa y la variable respuesta?
d) Construya un modelo de regresión lineal simple
e) ¿Cuál es el puntaje estimado para el examen 2, si un estudiante logró 83 puntos en el examen 1?
f) Obtenga el error (residuo) de la estimación de la pregunta anterior. ¿Qué tipo de error se produce?
8. A partir de los siguientes datos referentes a horas trabajadas en un taller y unidades
producidas, determina:
a) Grafica los datos, califique el gráfico según sus parámetros e infiera los resultados posibles del modelo
y la correlación,
b) La recta de regresión lineal de la producción sobre las horas.
c) El coeficiente de correlación lineal e interpreta la respuesta.
d) ¿Cuál es la proporción de variación de los resultados que puede explicarse por el modelo?
e) Obtenga el error estándar de estimación del modelo e interprete su valor.
Horas 80 79 83 84 78 60 82 85 79 84 80 62
Producción 300 302 315 330 300 250 300 340 315 330 310 240
9.Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país a
partir de la relación de éstas y la renta nacional. Para investigar la relación cuenta con los
siguientes datos:
X 189 190 208 227 239 252 257 274 293 308 316
Y 402 404 412 425 429 436 440 447 458 469 469
X representa la renta nacional en miles de millones de pesos e Y representa las ventas las ventas de
la compañía en miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive):
a) La recta de regresión lineal, ¿Cuál es la variable explicativa y la variable respuesta?
b) El coeficiente de correlación lineal e interpretación y el coeficiente de determinación.
c) Si en 2001 la renta nacional del país fue de 325 miles de millones de pesos. ¿Cuál será la predicción
(extrapolación) para las ventas de la compañía en este año? ¿Es confiable dicho valor? ¿cuál es su
residuo?
d) Obtén los errores producidos en las estimaciones, para cada una de las observaciones (datos).
e) ¿El modelo calculado es representativo de los datos?

45
ñ
10. Remítase a los datos de la siguiente tabla y analice los valores extremos, en base a las
preguntas siguientes. (Efectos de un valor extremo)
x 1 1 1 2 2 2 3 3 3 10
y 1 2 3 1 2 3 1 2 3 10
a) Examine el patrón de los 10 puntos y determine de forma subjetiva sí parece existir una correlación
entre 𝑥 y 𝑦.
b) Después de identificar los 10 pares de coordenadas correspondientes a los 10 puntos, calcule el valor
del coeficiente de correlación r y determine si existe una correlación lineal.
c) Ahora elimine el punto con las coordenadas (10, 10) y repita los incisos a) y b). ¿Qué concluye cerca
del posible efecto de un solo par de valores?
11. Considere los siguientes conjuntos de datos. Desarrolle los siguientes puntos para cada uno
de los casos:
a) Construya una gráfica de dispersión
b) Obtenga e interprete el coeficiente de correlación lineal
c) Calcule el modelo de regresión
d) Obtenga los errores y realice una gráfica de éstos.
e) Calcule el error estándar de estimación
f) Interprete de forma conjunta ambas graficas realizadas
Caso 1
X 0 1 2 3 4 5 7 8 9 10
Y 1 4 8 18 19 24 36 43 42 47
Caso 2
X 0 1 2 3 4 5 7 8 9 10
Y 1 0 2 5 10 20 15 10 7 3
Caso 3
X 0 1 2 3 4 5 7 8 9 10
Y 0 6 9 15 10 35 15 60 75 20

46
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
a probabilidad, puede ser uno de los tópicos más interesantes para la caracterización
de un conjunto de datos, puesto que permite medir la incerteza que se tiene respecto
a un fenómeno de interés.
UNIDAD 3
DISTRIBUCIÓN DE PROBABILIDAD
NORMAL
L

47
UNIDAD 3
DISTRIBUCIONES DE PROBABILIDAD
Resuelve problemas aplicando los principios de probabilidades en problemas de aplicación
 Utiliza propiedades para determinación de probabilidades en problemas de aplicación.
 Construye la distribución de probabilidades para una variable aleatoria.
Describe el comportamiento de una variable aleatoria con distribución normal estándar.
 Reconoce los parámetros de la distribución normal estándar.
 Calcula probabilidades de una distribución normal estándar.
 Obtiene e interpreta percentiles de una distribución normal estándar.
Aplica la distribución normal a resolución de problemas de la especialidad.
 Estandariza una variable aleatoria normal para su aplicación a problemas.
 Determina probabilidades y percentiles de una variable aleatoria mediante el uso de la distribución normal
estandarizada.
 Resuelve problemas de la especialidad a través del uso de la distribución normal.

48
Introducción
El concepto de probabilidad, aunque tiene suele ser utilizado con bastante
frecuencia en distintas situaciones, no siempre es utilizado de forma
adecuada. La medida de probabilidad permite medir el nivel de conocimiento
o de incertidumbre que se tiene respecto a un fenómeno de interés, es decir,
permite cuantificar qué tan seguros estamos que un determinado evento o
fenómeno puede ocurrir (respectivamente no ocurrir).


 PROBABILIDAD 
Definiciones:
 Ω: Espacio muestral, conjunto de todos los posibles resultados
de un experimento.
 𝐴 ⊆ Ω: Evento o fenómeno en Ω.
 #Ω: cardinalidad de Ω,cantidad de elementos del conjunto.
 𝑃(𝐴): Probabilidad de que ocurra el evento A.
𝑃(𝐴) =
⋕ A
⋕ Ω
=
𝐶𝑎𝑠𝑜𝑠 𝑎 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐴
𝑐𝑎𝑠𝑜𝑠 𝑇𝑜𝑡𝑎𝑙𝑒𝑠 𝑑𝑒 Ω
=
𝐶𝐹
𝐶𝑇
 𝐶𝑘
𝑛
: Cantidad de formas de seleccionar 𝑘 elementos sin
devolución desde un total de 𝑛, sin importar el orden en el cual
son seleccionados.
𝐶𝑘
𝑛
= (
𝑛
𝑘
) =
𝑛!
(𝑛 − 𝑘)! 𝑘!
 𝑃𝑘
𝑛
: Cantidad de formas de seleccionar 𝑘 elementos sin
devolución desde un total de 𝑛, cuando importar el orden en el
cual son seleccionados.
𝑃𝑘
𝑛
= (
𝑛
𝑘
) 𝑘! =
𝑛!
(𝑛 − 𝑘)!

49
Además todas las propiedades de conjuntos son válidads en probabilidades.


Axiomas:
 P(Ω) = 1
 P(Ω𝑐) = P(ϕ) = 0
 Sea un evento 𝐴 ⊆ Ω, entonces
0 ≤ 𝑃(𝐴) ≤ 1
 Si 𝐴 ⊆ Ω, entonces 𝐴𝑐
⊆ Ω, así
𝑃(𝐴𝑐) = 1 − 𝑃(𝐴)
 Sean 𝐴, 𝐵 ⊆ Ω, entonces:
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
Definiciones:
 Dos eventos 𝐴 y 𝐵 se dicen independientes estocásticamente si
la ocurrencia de uno de ellos no afecta ni altera la ocurrencia del
otro, y viceversa.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)
 Dos eventos 𝐴 y 𝐵 se dicen excluyentes si la ocurrencia de uno
de ellos impide la ocurrencia del otro, y viceversa.
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵), 𝑃(𝐴 ∩ 𝐵) = 0
 Dos eventos 𝐴 y 𝐵 se dicen dependientes si la ocurrencia de uno
de ellos entrega información sobre la ocurrencia del otro, y
viceversa.
𝑃(𝐴|𝐵) =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
, 𝑠𝑖 𝑃(𝐵) > 0

50
Teoremas:


 PROBABILIDAD  Teorema de la Multiplicación:
𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑒𝑛 Ω, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠:
𝑃 (⋂ 𝐴𝑖
𝑛
𝑖=1
) = {
∏ 𝑃(𝐴𝑖)
𝑛
𝑖=1
𝑠𝑖 𝑙𝑜𝑠 𝐴𝑖
′
𝑠𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠.
𝑃(𝐴1) ⋅ 𝑃(𝐴2|𝐴1) ⋅ 𝑃(𝐴3|𝐴1 ∩ 𝐴2) ⋯ 𝑃(𝐴𝑛| ⋂ 𝐴𝑖
𝑛−1
𝑖=1 )
Teorema de Probabilidades Totales:
𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 una partición disjunta y exhaustiva de Ω, y sea 𝐵 otro
evento en Ω, entonces:
𝑃(𝐵) = ∑ 𝑃(𝐵|𝐴𝑖) ⋅ 𝑃(𝐴𝑖)
𝑛
𝑖=1
Teorema de Bayes:
𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 una partición disjunta y exhaustiva de Ω, entonces para
cualquier otro evento 𝐵 en Ω, se tiene que:
𝑃(𝐴𝑖|𝐵) =
𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)
∑ 𝑃(𝐵|𝐴𝑗) ⋅ 𝑃(𝐴𝑗)
𝑛
𝑗=1
, ∀ 𝑖 = 1, … , 𝑛.

51
Problema 1:
Se lanza una vez un dado cúbico con sus caras enumeradas del 1 al 6 y se
observa la cara superior.
a) Determine el espacio muestral del experimento.
Solución:
Ω = {1,2,3,4,5,6}
b) Determine la probabilidad de que salga el 5.
Solución:
Sea el evento A = el dado muestra el número 5.
P(A) =
#A
#Ω
=
1
6
c) Determine la probabilidad que salga un número par.
Solución:
Sea el evento B = el dado muestra un número par.
P(𝐵) =
CF(B)
𝐶𝑇(Ω)
=
3
6
=
1
2
d) Determine la probabilidad que salga un número mayor a 4.
Solución:
Sea el evento C = el dado muestra un número mayor a 4.
P(𝐶) =
CF(𝐶)
𝐶𝑇(Ω)
=
2
6
=
1
3



52
Problema 2:
Se tiene una moneda desbalanceada, con probabilidad de cara
1
3
y dos urnas,
la urna A tiene 5 fichas blancas y 3 negras, la urna B tiene 3 fichas blancas y
5 negras. El experimento consiste en lanzar una vez la moneda al aire, si sale
cara se selecciona una ficha al azar desde la urna A, en cambio si sale sello se
selecciona al azar una ficha desde la urna B.
a) Determine el espacio muestral del experimento.
Solución:
𝑆𝑒𝑎𝑛 𝑙𝑜𝑠 𝑒𝑣𝑒𝑛𝑡𝑜𝑠:
𝐶: 𝑙𝑎 𝑚𝑜𝑛𝑒𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑐𝑎𝑟𝑎
𝑆: 𝑙𝑎 𝑚𝑜𝑛𝑒𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑠𝑒𝑙𝑙𝑜
𝐵: la ficha extraída es blanca
𝑁: la ficha extraída es negra
Ω = {(𝐶, 𝐵), (𝐶, 𝑁), (𝑆, 𝐵), (𝑆, 𝑁)}
b) Determine la probabilidad de que la ficha extraída sea blanca.
Solución:
P(B) =
1
3
⋅
5
8
+
2
3
⋅
3
8
=
11
24
c) Si la ficha extarída es de color negro, ¿Cuál es la probabilidad que la
moneda haya mostrado sello?
Solución:
P(𝑆|𝑁) =
P(N|S)P(S)
𝑃(𝑁)
=
3
8
⋅
2
3
1
3
⋅
3
8
+
2
3
⋅
5
8
=
6
24
13
24
=
6
13


C
S
B
N
B
N
Una forma de representar el
experimento, es mediante un
árbol de probabilidades, en el
cual se representan
secuencialmente los eventos
y sus respectivas
probabilidades de ocurrencia.

53
1. Demostrar que si dos eventos 𝐴 y 𝐵 son independientes, entonces 𝐴𝑐
y 𝐵𝑐
son independientes.
2. Una urna contiene cinco dados con sus caras de color blanco o rojo.
El dado número 𝑖 (𝑖 = 1, … ,5) tiene 𝑖 de sus caras blancas y el resto rojas.
Se selecciona al azar un dado de la urna, se lanza y sale cara roja. ¿Cuál es la
probabilidad de que el dado seleccionado sea el 𝑖?
3. Una caja contiene 5 fichas blancas y 10 negras. Se lanza un dado y
luego se extraen (sin reposición) de la caja tantas fichas como puntos se
obtienen en el dado,
a) ¿Cuál es la probabilidad de que exactamente dos de las fichas extraídas
sean blancas?
b) ¿Cuál es la probabilidad de que el dado muestre 3 si todas las fichas
extraídas fueron blancas?
4. Una mano de póker consiste en cinco cartas seleccionadas sin
reemplazo de una baraja de 52 (sin comodines). Determine la probabilidad
de obtener las siguientes combinaciones:
a) Escalera de color: las cinco cartas consecutivas y del mismo palo.
b) Escalera de color real: escalera de color con el As como carta mayor,
detrás de la K.
c) Póker: cuatro cartas con la misma numeración.
d) Póker de ases.
e) Full: tres cartas con una numeración y las otras dos con otra.
f) Escalera: las cinco cartas consecutivas (el As puede ir al comienzo o al
final).
g) Color: las cinco cartas del mismo palo.
h) Dobles parejas.
i) Trío.
j) Pareja.



54
5. Un banco ha comprobado que la probabilidad de que un cliente con
fondos extienda un cheque con fecha equivocada es de 0,001. En cambio, todo
cliente sin fondos pone una fecha errónea en sus cheques. El 90% de los
clientes del banco tienen fondos. Se recibe hoy en caja un cheque con fecha
equivocada. ¿Qué probabilidad hay de que sea de un cliente sin fondos?
6. Obtener la probabilidad 𝑝 de que al lanzar n veces dos dados se
obtenga al menos un 6 doble. ¿Cuántas partidas habrá que jugar para que
tengamos 𝑝 = 1/2 de obtener un 6 doble?
7. Problema de Galton. Se lanzan tres monedas al aire, ¿cuál es la
probabilidad de que las tres sean caras o las tres cruces?
8. Una caja contiene ocho bolas rojas, tres blancas y nueve azules. Si se
sacan tres bolas al azar, determinar la probabilidad de que:
a) las tres sean rojas;
b) las tres sean blancas;
c) dos sean rojas y una blanca;
d) al menos una sea blanca;
e) sean una de cada color;
f) salgan en el orden roja, blanca, azul.



55
Introducción
En variados problemas, es posible definir una variable que represente el
fenómeno de interés, ya sea que cuente la cantidad de caras al lanzar una
moneda diez veces o que cuente la cantidad de automóviles que pasan por
pórtico en una carretera.


 VARIABLE
ALEATORIA
DISCRETA 
Definición:
Se dice que una variable aleatoria (v.a.) 𝑋 es discreta, si el conjunto de
posibles resultados 𝐵 ∈ Ω (soporte), es un conjunto finito o infinito
numerable, de tal forma que existe una función que asocia un número
real con cada elemento del soporte.
Definiciones:
 Se denomina función de probabilidad o función de
distribución de probabilidad de la variable aleatoria 𝑿, al
conjunto de pares ordenados (𝑥, 𝑓(𝑥)) si se cumple:
1. 𝑓(𝑥) ≥ 0 ∀ 𝑥 ∈ 𝐵.
2. ∑ 𝑓(𝑥)
𝑥∈𝐵 = 1.
3. 𝑃(𝑋 = 𝑥) = 𝑓(𝑥).
 Se denomina función de distribución acumulada 𝑭(𝒙) de la
variable aleatoria 𝑿:
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑓(𝑡)
𝑡≤𝑥
∀ 𝑥 ∈ 𝐵.

56
Problema 1:
Se lanzar una moneda equilibrada tres veces y se observa la cantidad de caras
que muestre la moneda.
a) Construya la función de distribución de probabilidad para el número
de caras.
Solución:
Sea 𝑋 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑎𝑠, entonces los valores posibles de la variable
aleatoria son: 𝑋 = 0, 1, 2, 3 luego la distribución de probabilidad queda
definida como:
X: número de caras Espacio Muestral Probabilidad
0 (S,S,S) 1
8
1 (C,S,S); (S,C,S); (S,S,C) 3
8
2 (C,C,S); (C,S,C); (C,C,S) 3
8
3 (C,C,C) 1
8
Total 1


 VARIABLE
ALEATORIA
DISCRETA 
Definiciones:
 Se define el Valor Esperado de la variable aleatoria 𝑋, como:
𝐸(𝑋) = ∑ 𝑥 ⋅ 𝑓(𝑥)
𝑥∈𝐵
.
 Se define el Momento de orden 𝒌 de la variable aleatoria 𝑋,
como:
𝐸(𝑋𝑘) = ∑ 𝑥𝑘
⋅ 𝑓(𝑥)
𝑥∈𝐵
.
 Se define la Varianza de la variable aleatoria 𝑋, como:
𝑉𝑎𝑟(𝑋) = 𝐸((𝑋 − 𝐸(𝑋) )2) = 𝐸(𝑋2) − 𝐸(𝑋)2
.

57
b) Obtener la media de la distribución.
Solución:
𝐸(𝑋) = μ = 0 (
1
8
) + 1 (
3
8
) + 2 (
3
8
) + 3 (
1
8
) = 1,5
El resultado de la media o valor esperado es 1,5 caras, para el experimento
aleatorio de lanzar tres veces una moneda.
c) Calcular e interpretar la varianza y desviación estándar.
Solución:
𝑉𝑎𝑟(𝑋) = 𝜎2
= [02
(
1
8
) + 12
(
3
8
) + 22
(
3
8
) + 32
(
1
8
)] − 1,52
= 0,75
Luego, la desviación estándar es:
𝐷. 𝐸. (𝑋) = 𝜎 = √𝑉𝑎𝑟(𝑋) = √0,75 = 0,87
El valor de la desviación estándar es de 0,87 caras, lo cual nos indica que tan
desviados están los valores alrededor de la media.
d) Representar gráficamente la distribución.
Solución:
0,00
0,10
0,20
0,30
0,40
0 1 2 3
Distribución de probabilidad


 VARIABLE
ALEATORIA
DISCRETA 

58
Problema 2:
Se realizó un estudio para caracterizar el comportamiento de la cantidad de
hijos por familia. La tabla siguiente, resume los resultados del estudio:
Con la información de la tabla anterior,
a) Determine el valor de la constante k para que la función sea una
función de probabilidad.
Solución:
∑ 𝑃(𝑋 = 𝑥) = 1
4
𝑥=0
⟺ 0,10 + 𝑘 + 0,20 + 0,15 + 0,05 = 1
𝑘 = 1 − (0,10 + 0,20 + 0,15 + 0,05) = 0,50
b) ¿Cuál es la probabilidad que una familia tenga al menos 2 hijos?
Solución:
𝑃(𝑋 ≥ 2) = 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3) + 𝑃(𝑋 = 4)
= 0,20 + 0,15 + 0,05 = 0,4
El 40% de las familias tienen al menos 2 hijos.
c) Determine la cantidad de hijos esperado por familia.
Solución:
𝐸(𝑋) = 0 ⋅ 0,10 + 1 ⋅ 0,50 + 2 ⋅ 0,20 + 3 ⋅ 0,15 + 4 ⋅ 0,05 =1,55
La cantidad esperada de hijos por familia es de 1,55 ≈ 2.
d) Determine la desviación estándar de la cantidad de hijos por familia.
Solución:
𝐸(𝑋2) = 02
⋅ 0,10 + 12
⋅ 0,50 + 22
⋅ 0,20 + 32
⋅ 0,15 + 42
⋅ 0,05 = 3,45
𝑉𝑎𝑟(𝑋) = 3,45 − 1,552
= 1,0475 ⟹ 𝜎 = √1,0475 = 1,02
La desviaciónestándar del número de hijos por familia es de 1,02.
X 0 1 2 3 4
𝑃(𝑋 = 𝑥) 0,10 k 0,20 0,15 0,05


 VARIABLE
ALEATORIA
DISCRETA 

59
1. Estudiemos el modelo para el número de cuadernos en las mochilas
de estudiantes. Sea X una variable aleatoria que representa el número de
cuadernos que llevan los estudiantes de esta Universidad:
X 0 1 2 3
𝑃(𝑋 = 𝑥) 0,5 0,2 0,2 0,1
a) Describir la forma de la distribución, de manera gráfica.
b) ¿Qué proporción de estudiantes llevan 3 o menos libros?
c) ¿Qué proporción de estudiantes llevan más de 2 libros?
d) ¿Qué proporción de estudiantes llevan entre 2,1 y 2,8 libros?
e) ¿Qué proporción de estudiantes llevan entre 1 y 2 libros (inclusive)?
2. En un estudio de reconocimiento de la marca Sony se entrevistaron
grupos de cuatro consumidores. Si X es el número de personas en el grupo
que reconocen la marca Sony entonces x puede ser 0, 1, 2, 3 o 4, y las
probabilidades correspondientes son 0,0016; 0,0250; 0,1746; 0,3892 y
0,4096. ¿Será infrecuente seleccionar al azar a cuatro consumidores y
descubrir que ninguno de ellos reconoce la marca Sony? ¿Cuál es la cantidad
esperada de personas que reconocen la marca?
3. Determine si 𝑃(𝑋 = 𝑥) =
𝑥
10
con X= 1, 2, 3, 4 es una función de
probabilidad. Verifique las propiedades que debe cumplir. Uno de los
requisitos de una distribución de probabilidad es que la suma de las
probabilidades debe ser 1 (se permite una pequeña cantidad de variación por
errores de redondeo). ¿Cuál es la justificación de este requisito?
4. Un trabador asigna un beneficio de carácter vitalicio a cinco personas.
Según las tablas actuales, la probabilidad de que una persona en estas
condiciones viva 30 años o más es 2/3. Hállese la probabilidad de que,
transcurridos 30 años, vivan:
a) Las cinco personas.
b) Al menos tres personas.
c) Exactamente dos personas.
d) Menos de dos personas.


 VARIABLE
ALEATORIA
DISCRETA 

60
5. En el informe del Mapa Socioeconómico de Chile elaborado por
Adimark aparece la distribución de número de bienes en el hogar (Ducha +
TV color + Refrigerador + Lavadora + Calefont + Microondas + TV Cable
o Satelital + PC + Internet + Vehículo)
X 𝑃(𝑋 = 𝑥)
0 0,038
1 0,057
2 0,056
3 0,091
4 0,152
5 0,189
6 0,150
7 0,103
8 0,072
9 0,051
10 0,042
a) ¿Cuál es la probabilidad de encontrar un hogar con menos de 4 bienes?
b) ¿Cuál es la probabilidad de encontrar un hogar con más de 7 bienes?
c) ¿Cuál es la probabilidad de encontrar un hogar con 5 o más y menos
de 9?
d) Calcule el valor esperado de la variable aleatoria de interés, interprete
el resultado.
e) Determine la desviación estándar.
f) Represente gráficamente la distribución.
6. En la tabla distribución de probabilidades que se presenta a
continuación, se detalla número de artículos con fallas, en un embarque de
10.000 unidades de ese producto electrónico importado desde China y la
probabilidad respectiva.
N° de artículos con falla Probabilidad
3 0,111
4 0,278
5 0,222
6 0,167
7 0,139
8 0,083
Determine el intervalo de los ingresos esperados (𝜇 ± 𝜎).


 VARIABLE
ALEATORIA
DISCRETA 

61
7. En un sector de la ciudad de Santiago, se han otorgado subsidios de
agua con anterioridad alcanzando a un 25% de la población, si se extrae una
muestra aleatoria de 10 familias.
a) ¿Cuál es la probabilidad de que exactamente en tres familias hayan
recibido el subsidio?
b) ¿Cuál es la probabilidad de que por lo menos una familia haya recibido
el subsidio?
8. El IPEC de abril muestra que se mantiene el buen ánimo de los
consumidores. Este resultado, además, se ubica como uno de los niveles
más altos de los últimos 16 años, señala que el 59,4%, de los chilenos
considera que nuestro país presenta actualmente una situación económica
buena. Determine la probabilidad de en una muestra de 30 personas entre
13 y 15, consideren una “buena situación económica” nacional.
9. Al analizar los impactos de las bombas V-1 en la Segunda Guerra
Mundial, el sur de Londres se subdividió en 576 regiones, cada una con área
de 0,25 km2
. En total, 535 bombas impactaron el área combinada de 576
regiones. Si se selecciona al azar una región, calcule la probabilidad de que
haya sido impactada en dos ocasiones o menos.
10. El número promedio de goles de un equipo de fútbol de Inacap
durante el primer tiempo de un partido de futbol es 1,67. Calcule la
probabilidad de que pasen 2 goles en ese tiempo.
11. Un asistente comercial atiende en promedio a 5 personas por hora.
¿Cuál es la probabilidad de que en una determinada hora atienda a más de 7
personas? Además, calcule la desviación estándar.
12. Una compañía “asegura” la vida de 5000 personas mayores de 50 años.
La probabilidad de que una persona de 50 años muera en un determinado
año es de 0,001. ¿Cuál es la probabilidad de que la compañía pague 4
indemnizaciones en un determinado año?


 VARIABLE
ALEATORIA
DISCRETA 

62
Introducción
Dentro de las variables aleatorias, también se pueden distinguir las variables
aleatorias continuas, de las cuales las más utilizadas para describir el
comportamiento de distintos fenómenos y procesos de producción, en
especial en control de calidad es el llamado modelo Normal.
La distribución Normal, es un modelo que permite represntar el
comportamiento de una variable aleatoria continua. Su función de
distribución de probabilidad es:
𝑓(𝑥) =
1
√2 ⋅ 𝜋 ⋅ 𝜎2
⋅ 𝑒
−
1
2⋅𝜎2(𝑥−𝜇)2
, 𝑠𝑖 − ∞ < 𝑥 < ∞
Anotaremos, 𝑋 ∼ 𝑁(𝜇, 𝜎2). La expresión anterior, indica que la variable 𝑋
tiene una distribución Normal de media 𝜇 y varianza 𝜎2
.
Al construir el gráfico de la distribución Normal, se obtiene una forma muy
característica de esta distribución, forma por la cual recibe el nombre de
Campana de Gauss.
Aunque la distribución normal es muy útil para representar distintos
problemas sobre todo en control de calidad, el cálculo de las probabilidades
asociadas a una variable aleatoria normal, corresponderá al área bajo la
curva, cuya determinación implica técnicas complejas de Cálculo Integral.
Pero, toda variable normal puede ser transformada, mediante el siguiente
cambio de variable:
𝑍 =
𝑋 − 𝜇
𝜎
∼ 𝑁(0,1)
La expresión 𝑍 ∼ 𝑁(0,1) indica que la variable aleatoria es normal con
media 0 y varianza 1, y se llama Distribución Normal Estándar.


 DISTRIBUCIÓN
NORMAL 

63
Los valores de la distribución normal estándar se encuentran tabulados, y
esta transformación se denomina estandarización.
Problema 1:
Sea una variable aleatoria con distribución Normal Estándar 𝑧 ∼ 𝑁(0,1).
a) Calcular el área que se encuentra a la izquierda de 𝑍 = 1,22
Solución:
La representación gráfica del problema, se muestra en la figura siguiente:
Utilizando la tabla de la distribución normal estándar acumulada, se obtiene
que 𝑃(𝑍 ≤ 1,22) = 0,8888.
b) Calcular el área que se encuentra a la derecha de 𝑍 = 1,22
(complemento).
Solución:
𝑃(𝑍 > 1,22) = 1 − 𝑃(𝑍 ≤ 1,22) = 1 − 0,8888 = 0,1112


 DISTRIBUCIÓN
NORMAL 

64
c) Encuentre el área (probabilidad) de la distribución Normal
estándar 𝑍 ∼ 𝑁(0,1) que se encuentra entre 𝑍 = 0 y 𝑍 = 1,22.
Solución:
𝑃(0 ≤ 𝑍 ≤ 1,22) = P(Z ≤ 1,22) − P(Z ≤ 0)
= 0,8888 − 0,5000 = 0,3888
d) Encuentre el área (probabilidad) de la distribución Normal estándar
𝑍 ∼ 𝑁(0,1) que se encuentra entre 𝑍 = −2,07 y 𝑍 = 1,96.
Solución:
𝑃(−2,07 ≤ 𝑍 ≤ 1,96) = P(Z ≤ 1,96) − P(Z ≤ −2,07)
= 0,975 − 0,0192 = 0,9558


 DISTRIBUCIÓN
NORMAL 

65
Problema 2:
De acuerdo a los resultados de la Encuesta Suplementaria de Ingresos 2010-
2011 dada a conocer por el Instituto Nacional de Estadísticas (INE), el
ingreso medio mensual per cápita de los ocupados es de $ 360.300 con una
variación típica $ 55.200.
a) ¿Cuál es la probabilidad de seleccionar una persona al azar y que su
ingreso se encuentre entre $300.00 y $450.000 pesos?
Solución:
𝑃(300.000 ≤ 𝑋 ≤ 450.000)
Estandarizando:
= 𝑃 (
300.000 − 360.300
55.200
≤ 𝑍 ≤
450.000 − 360.300
55.200
)
= 𝑃(−1,09 ≤ 𝑍 ≤ 1,63) = 𝑃(𝑍 ≤ 1,63) − 𝑃(𝑍 ≤ −1,09)
= Φ(1,63) − Φ(−1,09) = 0,9484 − 0,1379 = 0,8105
Finalmente: 𝑃(300.000 ≤ 𝑋 ≤ 450.000) = 0,8105.
El 81,05% de la población recibe un ingreso mensual entre $300.00 y
$450.000 pesos.
b) ¿Cuál es la probabilidad de seleccionar una persona al azar y que su
ingreso sea de al menos $490.000?
Solución:
𝑃(𝑋 ≥ 490.000) = 1 − 𝑃(𝑋 ≤ 490.000)
= 1 − 𝑃 (𝑍 ≤
490.000 − 360.300
55.200
) = 1 − 𝑃(𝑍 ≤ 2,35)
= 1 − Φ(2,35) = 1 − 0,9906 = 0,0094
El 0,94% de la población recibe un ingreso mensual de al menos $490.000.
c) Determine el monto mínimo del ingreso que percibe el 20% superior
de los sueldos (cuarto quintil).
Solución:
𝑃(𝑋 ≥ 𝑥) = 0,20
Utilizando la estandarización y calculando el percentil 80, se tiene que:


 DISTRIBUCIÓN
NORMAL 


 DISTRIBUCIÓN
NORMAL 

66
𝑃 (𝑍 ≤
x − 360.300
55.200
) = 1 − 0,20 = 0,80
𝑥 − 360.300
55.200
= 𝑍0,80
𝑥 = 0,84 ⋅ 55.200 + 360.300
𝑥 = 406.668
El 20% se los sueldos superiores, son de al menos $406.668.
Problemas propuestos:
1. La pirámide poblacional de nuestro país presenta un promedio
poblacional de 𝜇 = 34,4 años y una desviación estándar de 𝜎 = 21,5, si
consideramos que nuestro país presenta un distribución Normal en la edad
¿Cuáles sería los valores para los cuartiles?
2. Calcular las probabilidades de la variable aleatoria Z, con una
distribución normal Z ~ N(0,1).
a) P(Z≤1,75)
b) P(Z>1,75)
c) P(Z≤0)
d) P(Z≥2,57)
e) P(1,89≤Z≤2,07)
f) P(-1,96≤Z≤-0,52)
3. Si X es una variable aleatoria distribuida normalmente con media 80 y
desviación estándar 10, calcular las siguientes probabilidades
a) P(X≤100)
b) P(X>80)
c) P(67≤X≤103)
d) P(82<X<92)
e) P(X>120)
f) P(X≤58)
4. Los administrativos de la municipalidad de Rioseco ganan en
promedio un sueldo líquido de $650.000 mensuales, con una desviación
estándar de $100.000, que se distribuye de forma Normal. Calcular la
probabilidad de que un empleado elegido aleatoriamente gane:
a) Un sueldo mayor a $850.000


 DISTRIBUCIÓN
NORMAL 

67
b) Un sueldo menor a $750.000
c) Un sueldo superior a $450.000
d) Un sueldo entre $550.000 y $950.000
e) Un sueldo inferior a $650.000
f) P(X>680.000)
g) P(X≤596.000)
h) P(567.000≤X≤803.000)
i) P(650.000<X<712.000)
j) ¿Cuál es el monto de sueldo que concentra el primer quintil?
k) ¿Cuál es el monto de sueldo que concentra el 10% de suelos más altos?
l) ¿Cuáles son los valores que concentran el 50% en torno a la media?
5. En una ciudad se estima que la temperatura máxima en el mes de abril
sigue una distribución normal, con media 23° y desviación típica 5°.Calcular
el número de días del mes en los que se espera alcanzar máximas entre 21°
y 27°. (Considere un mes=30 días).
6. La media de los pesos de 500 estudiantes de primero a cuarto medio
es 70 kilogramos y la desviación típica 5,5 kilógramos. Suponiendo que los
pesos se distribuyen normalmente. Construir la siguiente clasificación y
determinar el número de estudiantes que pertenecen a cada uno de las
categorías para determinar el gasto en un plan de salud:
a) Bajo peso: menos de 61,2 kilogramos
b) Peso normal: entre 61,2 y 77,2 kilogramos
c) Sobre peso: más de 77,2 kilogramos
7. El plan de salud que desea desarrollar una institución de ayuda tiene
los siguientes costos, debe invertir $50.000 por cada estudiante en categoría
bajo peso para su recuperación y $ 90.000 por cada estudiante con sobre
peso. El departamento de asistencia social cuenta con $5.000.000 de
presupuesto destinado a este colegio. ¿Es suficiente el monto para activar el
plan?
8. Se supone que los resultados de un examen siguen una distribución
normal con media 78 y varianza 36. Se pide:
a) ¿Cuál es la probabilidad de que una persona que se presenta el examen
obtenga una calificación superior a 72?
b) Si se sabe que con 64 puntos un estudiante obtiene nota de
aprobación. Calcule la proporción de estudiantes que tienen puntuaciones
que exceden por lo menos en cinco puntos de la puntuación que marca la
frontera entre aprobado y no aprobado.


 DISTRIBUCIÓN
NORMAL 

68
9. Los puntajes de una prueba de concentración tienen una
puntuación que sigue una distribución normal, con media 100 y desviación
típica 15. Determinar el porcentaje de población que obtendría un puntaje
entre 95 y 110.
10. Se supone que el nivel de colesterol de los enfermos de un hospital
sigue una distribución normal con una media de 179,1 mg/dL y una
desviación estándar de 28,2 mg/dL.
a) Calcule el porcentaje de enfermos con un nivel de colesterol inferior
a 169 mg/dL.
b) ¿Cuál será el valor del nivel de colesterol a partir del cual se encuentra
el 10% de los enfermos del hospital con los niveles más altos?
11. El tiempo que demoran los nadadores de 100 metros estilo libre sigue
una normal con media 55 segundos y desviación estándar de 5 segundos.
a) Los organizadores de un campeonato deciden dar certificados a todos
los nadadores que terminen antes de 49 segundos. Si hay 50 nadadores en
los 100 metros mariposa, ¿cuántos certificados se necesitarán?
b) ¿Con qué tiempo debe terminar un nadador para estar entre el 2% más
rápido de la distribución de tiempos?


 DISTRIBUCIÓN
NORMAL 

Texto estudiante etad01

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Texto estudiante etad01

Similar to Texto estudiante etad01 (20)

Recently uploaded

Recently uploaded (20)

Texto estudiante etad01