SlideShare a Scribd company logo
APUNTES DE
ANÁLISIS ESTADÍSTICO DE DATOS
ETAD01
INACAP
Ciencias Básicas
Vicerrectoría de Académica de Pregrado
2015
2
ÍNDICE
UNIDAD 1 ....................................................................................................................................................................4
ANÁLISIS DE DATOS UNIVARIADOS..............................................................................................................4
UNIDAD 2 ..................................................................................................................................................................28
ANÁLISIS DE DATOS BIVARIADOS................................................................................................................28
UNIDAD 3 ..................................................................................................................................................................46
DISTRIBUCIÓN DE PROBABILIDAD NORMAL.........................................................................................46
3

PRESENTACIÓN
Estimado Alumno y Alumna, te damos la más cordial bienvenida a Estadística y Probabilidad,
asignatura lectiva del área formativa de Disciplinas Básicas, del área del conocimiento de
Ciencias Básicas.
Estadística y Probabilidad tiene el propósito de entregar la herramientas elementales para la
caracterización de un conjunto de datos uni y bivariado, como también comprender el
concepto de probabilidades y realizar inferencia bajo incertidumbre, mediante estrategias de
clase expositiva, solución de ejercicios y problemas; además de, contribuir en la formación
técnica de los alumnos, mediante el desarrollo de destrezas que mejoren su desempeño
profesional.
La asignatura se realizará, a partir de experiencias de aprendizajes que involucren
metodologías principalmente deductivas, donde tu rol es activo y participativo, y el del
docente un mediador.
El presente texto, que INACAP pone a tu disposición, tiene los contenidos que sirven de
base y apoyo a tus clases, y puede ser utilizado como material de consulta permanente.
Confía en tus capacidades, te deseamos mucho éxito.
4
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
a necesidad de caracterizar y extraer información desde conjunto de datos, a generado
el desarrollo de técnicas de clasificación y de resumen de conjuntos de datos, lo que
a la larga se a traducido en la Estadística.
El análisis estadístico tiene por objetivo encontrar propiedades, rasgos y relaciones
estadísticas de todo tipo respecto a las variables investigadas, las cuales se derivan de tablas
en las que se agrupan y clasifican los datos estadísticos en una investigación.
El nálisis descriptivo univariado trabaja con datos de una sola variable o distribución de
frecuencias y pretende determinar sus propiedades estadísticas. Este análisis proporciona
medidas representatvas de la distribución, estadísticos de dispersión, medidas de asimetría,
etc.
El análisis estadístico, involucra muchos más aspectos que solo definir, calcular y representar
en gráficos los datos, implica conocer la naturaleza de los datos y de esa forma la naturaleza
de la información. Al enfrentar los problemas que dan origen al conocimiento estadístico, los
investigadores utilizaron la intuición, la inventiva y la experimentación, elementos
fundamentales de todo experimento, que en muchas ocaciones no son perceptibles en las
fórmulas presentadas por los libros de textos.
UNIDAD 1
ANÁLISIS DE
DATOS
UNIVARIADOS
L
El término Estadística deriva de la palabra en
latin “status” que significa Estado.
Los primeros usos de la estadística fue la
compilación de datos y elaboración de gráficas
para describir diversos aspectos de un estado o
país.
5
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
PROGRAMA DE LA ASIGNATURA ETEP01
UNIDAD 1
ANÁLISIS DE DATOS UNIVARIADOS
APRENDIZAJE ESPERADO
Analiza información proveniente de tablas de frecuencias y gráficas para describir un fenómeno.
CRITERIOS DE EVALUACIÓN
 Clasifica diferentes tipos de variables que contenga un conjunto de observaciones.
 Construye tablas de frecuencias y gráficas a partir de un conjunto de observaciones.
 Analiza tablas de frecuencias y gráficas para determinar el comportamiento de un conjunto de observaciones.
APRENDIZAJE ESPERADO
Sintetiza información de un conjunto de datos aplicando las medidas de resumen.
CRITERIOS DE EVALUACIÓN
 Calcula medidas de tendencia central y las relaciona para definir el centro de un conjunto de datos.
 Calcula medidas de dispersión, para describir la variabilidad de un conjunto de datos.
 Compara conjuntos de datos mediante el uso de las medidas de resumen.
APRENDIZAJE ESPERADO
Caracteriza un conjunto de datos utilizando las medidas de posición relativa.
CRITERIOS DE EVALUACIÓN
 Calcula medidas de posición relativa para describir un conjunto de datos.
 Representa gráficamente las medidas de posición mediante boxplot.
 Relaciona medidas de posición para caracterizar un conjunto de datos.
6
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Introducción
¿Qué significa aprender Estadística?
Habitualmente hablar de las estadísticas, trae a la mente gráfico y
uorcentuales que, en muchas ocaciones no tienen mucho sentido si son
descontextualizadas.
Pero en general, la Estadística son una colección de herramientas que
permiten realizar análisis y caracterización de conjunts de datos, que tal forma
sería imposible de entender.
La Estadística, entrega técnicas que permiten resumir la información que se
mantiene oculta en los datos, es decir, extraer la información que el conjunto
de datos entrega y no los datos por si solos.
El principal objetivo que está detrás de las técnicas estadísticas, es resumir
la información contenida en una colección de datos, de tal forma que que se
pueda transformar en información valiosa para la toma de decisiones.
Para lo anterior, existen variadas técnicas que facilitan
¿Por qué estudiar estadística?
La estadística es básica es la investigación científica, dada la necesidad de
manejar y tratar en ellas grandes catidades, progresivamente creciente, de
datos.
La rama de la estadística que trata sobre la descripción y análisis de un
conjuntos de datos, sin pretender extender o generalizar sus resultados y
conclusiones a poblaciones distintas o más amplias que aquella de donde
proviene la información analizada recibe el nombre de “Estadística
Descriptiva”
Cuando este análisis descriptivo se centra en una variable, recibe el nombre
de Analisis Univariado y si se estudian simultaneamente dos variables, se
denomina Análisis Bivariado.


 VARIABLES Y
TABLAS 
La ciencia de la
Estadística en sus
inicios también fue
llamada fue
aritmética política,
pero fue hasta el siglo
XIX cuando la
estadística adquirió el
significado de
recolectar y clasificar
datos, término que
fue introducido por el
militar británico sir
John Sinclair (1754-
1835).
7
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Definiciones:
Población: Es la colección de todos individuos, elementos u observaciones
que poseen al menos una caracterísca común.
 Muestra: Es una parte o subconjunto representativo de la población.
Al proceso de obtener la muestra se llama Muestreo.
 Parámetro: Es una medida de resumen que describe una característica
de toda la población. Por ejemplo media de la población = μ (se lee mu)
 Estadístico o estadígrafo: Es una medida de resumen que describe
una característica de la muestra. Por ejemplo media de la muestra =𝑥̅.
 Unidad de observación o muetreo: Es el elemento o individuo
sobre el cual se mide la característica de interés.
 Variable: Es una característica de la población que se va a investigar
y que puede tomar dieferentes valores.
1.1 Clasificación de variables
 Variables Cualitativas: Son variables cuyos valores son cualidades que
represetan la población. Cualitativa nominas: las categorías de la variables
no implican orden. Cualitativa ordinal: las categorías de la variables si
implican orden.
 Variables Cuantitativas: Surgen cuando se puede establecer cuánto o
qué cantidad se posee de una determinada característica. Cuantitativa
discreta: son aquellas que surgen por el procedimiento de conteo.
Cuantitativa continua: surgen cuando se mide alguna característica.
Cuanlitativas
Cuantitativas
Nominal
Ordinal
Discreta
Continua


 VARIABLES Y
TABLAS 
8
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 1:
En los siguientes casos identifique: Población, Variable y Clasifique la
variable:
a) La empresa XX se desea estudiar el número de horas trabajadas por
sus empleados.
b) En una fábrica se desea estudiar el número de hijos por cada
trabajador.
c) En la municipalidad de Santiago se estudia las marcas de automóviles
que tienen su patente obtenida en dicha Municipalidad.
d) En una Universidad se estudia las carreras que los alumnos siguen.
e) En un sindicato se desea estudiar el nivel de educación que tienen sus
afiliados.
Solución:
Letra Población Variable Clasificación
a
Todos los
trabajadores de la
empresa XX
Horas
trabajadas
Cuantitativa
continua
b
Todos los
trabajadores de la
fábrica
Número de
hijos
Cauntitativa
discreta
c
Todos los autos
con patente en la
municipalidad de
Santiago
Marca del
auto
Cualitativa
nominal
d
Todos los afiliados
al sindicato
Nivel de
educación
Cualitativa
ordinal


 VARIABLES Y
TABLAS 
9
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
1.2 Tablas de distribución de frecuencias.
La información se resume en un cuadro o tabla que detalla las categorías de
una variable con sus correspondientes frecuencias. Es sinónimo de
distribución de frecuencias.
Clases
𝑥𝑖
Frecuencia
Absoluta
(𝑛𝑖)
Frecuencia
relativa
(ℎ𝑖)
Frecuencia
Absoluta
Acumulada
Frecuencia
relativa
acumulada
𝑥1 𝑛1 ℎ1 𝑁1 𝐻1
… … … … …
𝑥𝑚 𝑛𝑚 ℎ𝑚 𝑁𝑚 1
Total 𝑁 1
𝑥𝑖 : marca de clase, se calcula promediando los límites del intervalo o clase.
𝑛𝑖: Se llama frecuencia absoluta, es el número de veces que aparece la categoría i-
ésima en el total de datos (𝑁).
ℎ𝑖 : Se llama frecuencia relativa, corresponde a la proporción que aparece la
categoría i-ésima en el total de datos (𝑁). Se calcula de la siguiente forma:
ℎ𝑖 =
𝑛𝑖
𝑁
𝑁𝑖: Se llama frecuencia absoluta acumulada “menor que”, se obtine sumando en
orden descendente la columna de frecuencia absoluta.
𝐻𝑖: Se llama frecuencia relativa acumula “menor que”, se obtiene sumando en
orden descendente la columna de frecuencia relativa.
Problema 2:
En la tabla de frecuencias que se da a continuación faltan algunos datos complétela.
Variable 𝑥𝑖 𝑁𝑖
20 – 24 0,10
24 – 28 0,25
- 32 11 0,55
32 - 0,85
- 40 1,00
Complete en cuadro.
i
n i
h i
H





 VARIABLES Y
TABLAS 
10
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Solución:
calcular la marca de clase del intervalo:
𝑥𝑖 =
𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑙í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟
2
Para obtener el total de datos, usar la frecuencias acumuladas (𝑁3 y 𝐻3)
𝐻3 =
𝑁3
𝑛
⇒ 0,55 =
11
𝑛
⇒ 𝑛 = 20
1.3 Medidas de Tendencia Central.
Esta medidas deben su nombre al hecho de que sus valores tienden a ocupar
posiciones centrales o intermedios entre el menor y mayor valor del conjunto
de datos, es decir entregan información sobre el centro de la distribución.
Los más usados:
 Media o Promedio. Es el punto de equilibrio de la distribución. Se
calcula sumando todas la observaciones de una serie de datos y luego
dividiendo el total entre el número de elementos involucrados.
 Mediana: es el valor medio de una secuencia ordenada de datos.
Esta medida de resumen no se ve afectada por ninguna observación
extrema.
 Moda: es aquel valor de la variable que presenta mayor frecuencia
absoluta, es decir, aquel que más veces se repite. Puede darse el caso de que
existan varios valores que presenten la máxima frecuencia absoluta,
entonces se tendrá una distribución bimodal, trimodal, etc.
Variable 𝑥𝑖 𝑁𝑖
20 – 24 22 2 0,10 2 0,10
24 – 28 26 3 0,15 5 0,25
28 – 36 30 6 0,30 11 0,55
32 – 36 34 6 0,30 17 0,85
36 – 40 38 3 0,15 20 1,00
i
n i
h i
H





 VARIABLES Y
TABLAS 
11
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 3:
Los empleados de la empresa ALFA son sometidos a un test de habilidades, que otorga de 0 a 10 puntos. Los
resultados obtenidos por un grupo de trabajadores de la empresa son los siguientes:
4 7 9 10 10 7 5 6 7 8 5 5 6 7 3
3 4 9 8 7 9 10 7 8 4 5 6 9 10 9
¿Cuál es el puntaje máximo que obtuvo el 50% de los empleados?
Solución:
Como primer paso, se deben ordenar los datos de menor a mayor.
3 3 4 4 4 5 5 5 5 6 6 6 7 7 7
7 7 7 8 8 8 9 9 9 9 9 10 10 10 10
Como la cantidad de observaciones es par, se debe utilizar la fórmula:
𝑴𝒆 =
𝑿
(
𝟑𝟎
𝟐
)
+𝑿
(
𝟑𝟎
𝟐
+𝟏)
𝟐
=
𝑿(𝟏𝟓)+𝑿(𝟏𝟔)
𝟐
=
𝟕+𝟕
𝟐
= 𝟕
12
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 4:
Los siguientes datos corresponden a los trabajadores que se ausentaron de
una fábrica en 55 días laborales.
Días xi Trabajadores (ni)
0 – 4 2 5
4 – 8 6 15
8 – 12 10 16
12 – 16 14 8
16 – 20 18 3
20 – 24 22 7
a) Identifique y clasifique la variable.
Solución:
Días de ausencia: Cuantitativa continua.
b) ¿Es el número días de ausencia promedio es mayor al número de
días de ausencia mediano?
Solución:
𝑋
̅ =
2 ∗ 6 + 6 ∗ 15 + 10 ∗ 16 + 14 ∗ 8 + 18 ∗ 3 + 22 ∗ 7
55
= 10,58 [𝑑í𝑎𝑠]
𝑀𝑒 = 8 + [27,5 − 21] ∗
4
16
= 9,625[𝑑í𝑎𝑠]
Con lo anterior, se puede decir que la afirmación es correcta.
c) ¿Cuál el el número de ausencias más frecuente?
Solución:
𝑀𝑜 = 8 + (
16 − 15
(16 − 15) + (16 − 8)
) ⋅ 4 = 8,44[𝑑í𝑎𝑠]
El número de ausencias más frecuente es de 8,44 días.


 ANALISIS DE
DATOS
UNIVARIADOS 
13
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 5:
La información de la tabla presenta la distribución del sueldo de un grupo
de Ingenieros Civiles industriales, en miles de pesos, con más de 3 años de
experiencia laboral y su calsificación según sexo.
Sueldo mensual[M$] xi Masculino Femenino
800 – 1100 950 1 3
1100 – 1400 1250 7 5
1400 – 1700 1550 10 6
1700 – 2000 1850 8 4
Total 26 18
a) Identifique y clasifique la o las variables.
Solución:
X: Sueldo mensual en miles de pesos. Cuantitativa continua.
Y: Sexo. Cualitativa nominal
b) ¿Es posible afirmar que el ingreso medio mensual es superior en los
varones?
𝑋
̅ =
950 ∗ 1 + 1250 ∗ 7 + 1550 ∗ 10 + 1850 ∗ 8
26
= 1538,46[𝑀$]
𝑌
̅ =
950 ∗ 3 + 1250 ∗ 5 + 1550 ∗ 6 + 1850 ∗ 4
18
= 1433,33[𝑀$]
El ingreso medio mensual de los varones es 1538,46 [M$], y el ingreso medio
mensual de las mujeres es 1433,33[M$], por lo tanto la afirmación es
verdadera.


 ANALISIS DE
DATOS
UNIVARIADOS
14
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
c) Indique cuál es el sueldo máximo del 50% de los ingenieros?
Para respoder esta pregunta se debe considerar la información sin separar por
sexo.
Sueldo mensual[M$] Ingenieros
800 – 1100 4
1100 – 1400 12
1400 – 1700 16
1700 – 2000 12
Total 44
Solución:
𝑀𝑒 = 1400 + (22 − 20) ⋅
300
16
= 1437,5[𝑀$]
El sueldo máximo del 50% de los ingenieros es de 1437,5 [M$].
1.3 Medidas de Localización
Corresponden a estadígrafos que dividen a los datos en porciones iguales y no
sólo a la mitad como lo hace la mediana. Estas medidas reciben el nombre de
Cuantiles. Los cuantiles más usados son: cuartiles, deciles y percentiles.
Como los percentiles dividen al conjunto en 100 partes iguales, para el claculo
de cualquier valor de cuantil usaremos sólo la fórmula de percentil.


 ANALISIS DE
DATOS
UNIVARIADOS 
15
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 6:
Usando la información del ejercicio 5, determine:
a) ¿Cuál es el ingreso máximo del 25% de los ingenieros varones?
Solución:
La expresión de percentil entrega el valor máximo para el porcentaje buscado,
por lo tanto el ingreso máximo del 25% es:
𝑃25 = 1100 + [6,5 − 1] ⋅
300
7
= 1335,71[𝑀$]
Por lo tanto el ingreso máximo del 25% de los ingenieros varones es de 1335,71
[M$]
b) ¿Cuál es el ingreso mínimo del 75% de los ingenieros varones que más ganan?
Solución:
Con apoyo de la resolución anterior. Si el ingreso máximo del 25% de los
ingenieros varones, entonces este valor equivale al ingreso mínimo del porcentaje
superior, que corresponde al 75%
c) ¿Qué porcentaje de ingenieros varones recibe ingresos entre $950.000 y
$1.200.000?
Solución:
950 = 800 + [
26 ∗ 𝑘1
100
− 0] ⋅
300
1
⇒ 𝑘1 = 1,92%
1200 = 1100 + [
26 ∗ 𝑘2
100
− 1] ⋅
300
7
⇒ 𝑘2 = 12,82%
𝑘2 − 𝑘1 = 12,82 − 1,92 = 10,9%
El 10.9% de los varones reciben ingresos entre $950.000 y $1.200.000.


 ANALISIS DE
DATOS
UNIVARIADOS 
25%
800 [M$] 2000 [M$]
16
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
1.4 Medidas de Variabilidad
Miden la dispersión de los datos de una muestra, es decir mide cuán
similares son los valores que conforman la distribución de datos.
Dos conjunto de datos pueden tener la misma medida de tendencia central,
pero ser muy diferentes, por ejemplo: se tienen dos conjunto de datos
(medidos en cm).
a. 9-10-11-12-13-14-15.
b. 6-8-10-12-14-16-18.
En ambas conjuntos el promedio es de 12 cm y la mediana de 12 cm. A
simple vista es posible darse cuenta que cada conjunto está formado por
distintos valores, razón que hace tan importante la entrega de una medida
de variabilidad al momento de describir un conjunto de datos.
Acontinuación se detallan las más utilizadas:
 Rango o recoerrido de la variable (R): Corresponde a la diferencia
entre el valor máximo y mínimo del conjunto de datos.
 Rango Intercuartílico (RI): Corresponde a la diferencia entre en Cuartil
3 y Cuartil 1, lo que equivale a la diferencia entre en percentil 75 y percentil
25, siendo interpretada como la dispersión del 50% central de la distribución
de valores.
 Varianza (𝜎2
): Corresponde a la media de de los cuadrados de las
desviaciones de los datos de una distribución respecto a su media.
 Desviación Estándar (𝜎): Es simplemente la raíz cuadrada de la
varianza, es muy conveniente usar esta medida de dispersión, ya que se
encuentra en la misma dimensión en que están los datos.
 Coeficiente de variación o coeficiente de variabilidad (C.V.): Medida
de dispersión adimensional, lo que la hace adecuada para comparar en
términos de variabilidad dos o más grupos de datos. Corresponde al número
de veces en que se encuentra contenida la desviación estándar sobre la
media.


 ANALISIS DE
DATOS
UNIVARIADOS 
17
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 7:
En la última encuesta de opinión general, EOG, se consultó sobre qué
puntuación le pondrían a las modificaciones que se desean realizar a la ley de
IVA a la compra de viviendas nuevas, obteniéndose los siguientes resultados:
Puntuación Frecuencia
0 – 20 40
20 – 40 35
40 – 60 15
60 – 80 5
80 – 100 5
Total 100
A partir de la información, calcule e interprete el Rango, Rango Intercuartílico,
Varianza, Desviación Estándar y Coeficiente de Variabilidad.
Solución:
 Rango:
𝑅 = 100 − 0 = 100 [𝑃𝑢𝑛𝑡𝑜𝑠]
La amplitud de los datos es de 100 puntos.
 Rango Intercuartílico:
𝑄3 = 𝑃75 = 20 + [75 − 40] ∗
20
35
= 40 [𝑝𝑢𝑛𝑡𝑜𝑠]
𝑄1 = 𝑃25 = 0 + [25 − 0] ∗
20
40
= 12,5[𝑝𝑢𝑛𝑡𝑜𝑠]
𝑅𝐼 = 𝑄3 − 𝑄1 = 40 − 12,5 = 27,5[𝑝𝑢𝑛𝑡𝑜𝑠]
Existe una diferencia de 27,5 puntos en el 50% central de la distribución.
 Varianza:
𝜎2
=
∑ 𝑥𝑖
2
∗ 𝑛𝑖
𝑁
− 𝜇2
𝜎2
=
102⋅40+302⋅35+502⋅15+702⋅5+902⋅5
100
− (30)2
= 480 [𝑝𝑢𝑛𝑡𝑜𝑠]2
La dispersión promedio de las puntuaciones en torno a la media de la
distribución es de 480 [puntos]2
.


 ANALISIS DE
DATOS
UNIVARIADOS 
18
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
 Desviación Estándar:
𝜎 = √480 = 21,91 [𝑝𝑢𝑛𝑡𝑜𝑠]
La dispersión promedio de las puntuaciones en torno a la media de la
distribución es de 21,91 [puntos].
 Coeficiente de Variabilidad:
𝐶𝑉 =
𝜎
𝑥̅
∗ 100 =
21,91
30
∗ 100 = 73%
La dispersión porcentual de las puntuaciones alcanza el 73%, esto indica que
existe una alta dispersión en los datos.
Problema 8:
Suponga que se quieren comparar la dispersión existente entre los sueldos de
los técnicos y profesionales de una empresa.
Sueldo
mensual
[M$]
Nº de técnicos (ni) nixi x2
i nix2
i
200 10 2000 40000 400000
250 10 2500 62500 625000
300 10 3000 90000 900000
Total 30 7500 1925000
Sueldo
mensual
[M$]
Nº de
profesionales
(ni)
nixi x2
i nix2
i
400 5 2000 160000 800000
500 10 5000 250000 2500000
600 5 3000 360000 1800000
Total 20 7500 5100000


 ANALISIS DE
DATOS
UNIVARIADOS 
19
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Estadístico Técnicos Profesionales
Recorrido 𝑅
= 300 − 200
= 100
𝑅 = 200
Rango Intercuartílico 𝑅𝐼
= 300 − 200
= 100
𝑅𝐼 = 150
Varianza 𝜎2
=
1925000
30
−
(250)2
=
1666,67
𝜎2
= 5000
Desviación estándar 𝜎 = 40,82 𝜎 = 70,71
Coeficiente de Variabilidad 𝐶𝑉
=
40,82
250
∗ 100
= 16,33%
𝐶𝑉
= 14,14%
Solución:
Notar que todas las medidas de dispersión absoluta son más altas en el
grupo de los profesionales, antes de concluir que estos sueldos
presentan mayor variabilidad hay que tener en cuenta que se están
comparardo dos grupos diferentes, donde los sueldos son siempre
mayores en los profesionales, por esta razón el coeficiente de
variabilidad es una medida de variabilidad perfecta, ya que tiene en
cuenta todos los valores de la variable y al no tener dimensión permite
comparar la dispersión entre grupos, entonces se puede concluir que el
grupo con mayor dispersión es el de los sueldos de los técnicos.
Problema 9:
Estado Civil de las personas que trabajan en “INACAP”. Realice una
representación gráfica de las frecuencias absolutas y relativas.
Estado Civil
Frecuencia
Absoluta
Frecuencia Relativa
Soltero 85 65,9%
Casado 36 27,9%
Divorciado 5 3,9%
Viudo 3 2,3%
Total 129 100%


 ANALISIS DE
DATOS
UNIVARIADOS 
20
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
a) ¿Cuál es el estado civil que presenta mayor cantidad de personas?
Solución:
Son las personas solteras, hay 85 y es equivalente al 65,9%
b) Realice una representación gráfica de la situación descrita por la tabla
de frecuencias.
Solución:
Una gráfica de barras de la frecuencia absoluta es:
También es posible representar gráficamente las frecuencias relativas, como
sigue:
Pensamiento crítico y conocimiento estadístico. ¿Cuál de las gráficas
anteriores es más útil? En comparación, es más útil en el sentido de
información la gráfica de las frecuencias absolutas.
0
20
40
60
80
100 85
36
5 3
Frecuencia absoluta
0%
10%
20%
30%
40%
50%
60%
70%
Frecuencia relativa


 ANALISIS DE
DATOS
UNIVARIADOS 
21
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 10:
Construcción de una tabla de frecuencias a partir de datos no
agrupados. Los siguientes datos corresponden, a los datos obtenidos en
una empresa en el turno vespertino, compuesto por trabajadores que
prestan servicios a la empresa. Los datos se presentan en horas trabajadas
en la semana.
14,0 8 18,4 16,6 20
15,6 18,4 17,6 26 12,2
17,6 19,4 19,8 21,6 24
15,6 15,8 15 12,2 20
10 22,4 9,4 13 17,4
16 16,8 12,6 18 10,5
18 17 19 16,6 15,5
11,2 21,8 19,6 12,8 18
a) Identifique y defina la población y la muestra.
Solución:
La población corresponde a todos los trabajadores de turno vespertino de
la empresa y la muestra corresponde a los 40 trabajadores que fueron
seleccionados.
b) Identifique la unidad y la variable.
Solución:
La unidad es un trabajador y la variable es el número de horas trabajadas en
el turno vespertino en una semana.
c) Construya una tabla de distribución de frecuencias.
Solución:
Rango=26,0-8,0=18,0
𝑘 = 1 + 3,3 ⋅ 𝑙𝑜𝑔 (40) = 6,28 𝑙𝑢𝑒𝑔𝑜 𝑘 = 6
C=18,0/6=3,0
𝐸 = 8,0 + 6 ⋅ 3,0 − 26,0 − 0,1 = −0,1 por lo tanto se debe corregir.
Entonces 𝐸 = 8,0 + 6 ⋅ 3,1 − 26,0 − 0,1 = 0,5
El límite inferior 1 es: I1=8,0-0,5/2=7,75 finalmente I1=7,8.


 ANALISIS DE
DATOS
UNIVARIADOS 
22
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
LI LS 𝑛𝑖 ℎ𝑖 (%) 𝑁𝑖 𝐻𝑖 (%) 𝑥𝑖
7,8 10,8 4 10,0 4 10,0 9,3
10,9 13,9 6 15,0 10 25,0 12,4
14,0 17,0 11 27,5 21 52,5 15,5
17,1 20,1 14 35,0 35 87,5 18,6
20,2 23,2 3 7,5 38 95,0 21,7
23,3 26,3 2 5,0 40 100,0 24,8
Conteste las siguientes preguntas en referencia a la información proporcionada
por la tabla de frecuencias.
d) ¿Cuántos intervalos de clases son?
Solución:
6 intervalos de clase.
e) ¿Cuál de las clases contiene el 15% de las observaciones?
Solución:
La clase 2, que contiene los valores de horas trabajadas desde 10,9 hasta 13,9.
f) ¿Cuál es la cantidad de horas más frecuente de trabajo?
Solución:
Existe un total de 14 observaciones en la clase 4 y valor que representa es 18,6
horas.
g) ¿Qué valor acumula el 87,5% de las horas trabajadas?
Solución:
20,1 horas trabajadas
h) ¿Qué proporción de las observaciones se encuentra por sobre 23,2
horas trabajadas?
Solución:
Sólo la última clase que contiene el 5% de las observaciones de la muestra.


 ANALISIS DE
DATOS
UNIVARIADOS 
23
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
i) ¿Qué porcentaje se observa entre 10,9 y 20,1 horas trabajadas?
Solución:
El 77,5%.
j) Determine el promedio de horas trabajadas en la clase 4.
Solución:
18,6 horas.
k) Mediante una gráfica adecuada, caracterice la forma de la distribución.
Solución:
Problema 11:
Construya el Box-plot para los datos del número de accidentes por año en una
intersección muy transitada en los últimos 20 años. Los valores ordenados son:
32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49
50 51
Solución: Para construir el Box-plot, se requiere los cinco números, que son
los siguientes:
Estadígrafo Valor
Mínimo (Xmin) 32
Primer cuartil (Q1) 41
Segundo cuartil (Q2) 43,5
Tercer cuartil (Q3) 46,5
Máximo (Xmax) 51


 ANALISIS DE
DATOS
UNIVARIADOS 
0
5
10
15
9,3 12,4 15,5 18,6 21,7 24,8
Frecuencia absoluta
24
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Así, el Box-plot (gráfico de caja) que definido por, no existen valores extremos
en la muestra:
Gráfico de Statdisk
Problemas Propuestos:
1. Consideremos la distribución de frecuencias de los 210 dispositivos en el
control de calidad, distribuidos como lo muestra la siguiente tabla:
Intervalo
Marcas de
clase
Frecuencia
Absoluta
Frecuencia
Absoluta
Acumulada
Frecuencia
Relativa
Frecuencia
Relativa
Acumulada
350 – 400
400 – 450
450 – 500
500 – 550
550 – 600
600 – 650
650 – 700
700 – 750
750 – 800
800 - 850
4
6
9
20
31
80
42
10
8
2
a) Completa la información de la tabla de frecuencias
b) Dibuja en un gráfico, el histograma y el polígono de frecuencias.
c) ¿Cuál es la cantidad de dispositivos entre 450-700?
d) ¿Qué % de estos dispositivos se encuentran entre 550 y 750?
e) ¿Qué % de estos dispositivos se encuentran acumulados hasta 650?
f) ¿Qué valor representa la categoría de 750-800?


 ANALISIS DE
DATOS
UNIVARIADOS 
25
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
2. La siguiente información corresponde a la población que puede sostener una conversación en
inglés, según grupo de edad (censo 2012).
Grupo de
edad (años)
Frecuencia
Absoluta
(ni)
Frecuencia
Relativa
(pi)
Frecuencia
Absoluta
Acumulada (Ni)
Frecuencia
Relativa
Acumulada (Pi)
Marca de Clase
(Xi)
0-14 119638
15-29 664257
30-44 437453
45-59 220559
60-90 143120
Total
a) ¿Cuál es el número de personas consideradas?
b) ¿A qué rango de edad pertenece la mayor cantidad de personas y cuál es su porcentaje?
c) Realiza una gráfica de barras de las frecuencias relativas.
d) Realiza una gráfica de las frecuencias absolutas acumuladas.
e) ¿Cuál es la edad promedio de personas que en mayor proporción pueden mantener una
conversación en inglés?
f) ¿Cuántas personas con 44 años o menos pueden mantener una conversación en inglés?
g) ¿Cuántas personas con más de 59 años pueden mantener una conversación en inglés? ¿Cuál es su
proporción?
3. Utilizando los datos del Variación mensual de ventas para una empresa de retail, con año base 2009,
0,09 0,20 0,42 0,62
0,11 0,21 0,43 0,66
0,12 0,25 0,43 0,69
0,13 0,26 0,44 0,80
0,14 0,28 0,47 0,81
0,14 0,30 0,51 0,83
0,15 0,36 0,52 0,86
0,15 0,36 0,52 0,86
0,16 0,36 0,54 0,99
0,19 0,36 0,55
a) Construye una tabla de frecuencias
b) Determina el porcentaje de observaciones de la tercera clase
c) ¿Cuál es la cantidad de datos contendidos hasta la cuarta categoría?
d) ¿Cuál es el promedio de la clase dos?
e) Defina el porcentaje de datos menores o iguales a una tasa de variación de 0,70.
26
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
4. Su firma está introduciendo un nuevo chip de computador del cual se promociona que realiza
cálculos estadísticos mucho más rápidamente que los que actualmente se encuentran en el mercado.
Se hacen veinte cálculos diferentes, produciendo los tiempos en segundos que se ven más adelante.
Aunque usted no puede tergiversar su producto, usted desea presentar los resultados de la manera
más favorable para su empresa. Determine la media, la mediana y la moda. Además, calcule la
desviación estándar y los valores comunes utilizando la regla empírica.
3,2 4,1 6,3 1,9 0,6
5,4 5,2 3,2 4,9 6,2
1,8 1,7 3,6 1,5 2,6
4,3 6,1 2,4 2,2 3,3
5. Una empresa grande de equipos deportivos está probando el efecto de dos planes publicitarios sobre
las ventas de los últimos 4 meses. Dadas las ventas que se ven aquí, ¿cuál programa de publicidad
parece producir el crecimiento promedio más alto en ventas mensuales?
Mes Plan 1 Plan 2
Enero 1.657.000 4.735.000
Febrero 1.998.000 5.012.000
Marzo 2.267.000 5.479.000
Abril 3.432.000 5.589.000
6. Pensamiento crítico y medidas de tendencia central. Para cada uno de los siguientes ejercicios
podemos calcular medidas de tendencia central como la media y la mediana. Identifique una razón
importante por la que, en estos casos, la media y la mediana no son estadísticos que puedan servir de
manera precisa y efectiva como medidas de tendencia central.
 Códigos postales: 12601; 90210; 02116; 76177; 19102
 Clasificaciones de los niveles de estrés de distintos empleos: 1; 2; 3; 7; 9
 Los sujetos encuestados se codifican de la siguiente manera según la preferencia de club: 1 (U. de
Chile), 2 (U. Católica), 3 (Colo-colo), 4 (Palestino) o 5 (U. Española).
7. Exactitud del pronóstico del clima. En un análisis de la exactitud del pronóstico del clima se
comparan las temperaturas máximas reales con las temperaturas máximas pronosticadas un día
anterior y con las temperaturas máximas pronosticadas cinco días antes. Más abajo se señalan los
errores entre las temperaturas pronosticadas y las temperaturas máximas reales para días consecutivos
en Santiago. ¿La desviación estándar sugiere que las temperaturas pronosticadas un día antes son más
exactas que las pronosticadas cinco días antes, como se esperaría?
(real) — (pronosticada un día antes) 2 2 0 0 -3 -3 1 -2 8 1 0 -1 0 1
(real) — (pronosticada cinco días antes) 0 -3 2 5 -6 -9 4 -1 6 -2 -2 -1 6 -4
27
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
8. Los datos financieros con frecuencia están contenidos en un gráfico de máximos - mínimos y al
cierre. Como su nombre lo indica, muestra el valor más alto, el valor más bajo y el valor al cierre de
los instrumentos financieros como por ejemplo las acciones. Los datos tomados de The Wall Street
Journal para el índice Dow Jones respecto a 15 acciones durante un período de cinco días con base
en los siguientes datos, compare los valores máximos mínimos y de cierre utilizando elementos
estadísticos de tendencia central y variabilidad, además de la regla empírica.
Día Máximos Mínimos Cierre
1 181,07 178,17 178,88
2 180,65 178,28 179,11
3 180,24 178,17 179,35
4 182,79 179,82 181,37
5 182,14 179,53 181,31
9. Para ilustrar el cálculo de percentiles, se asume que se tienen observaciones para el número de
acciones correspondientes a 50 acciones transadas en la Bolsa de Valores de Santiago, como se
muestra en la tabla. Se desea calcular los cuartiles del conjunto de datos.
3 10 19 27 34 38 48 56 67 74
4 12 20 29 34 39 48 59 67 74
7 14 21 31 36 43 52 62 69 76
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80
10. La siguiente tabla muestra la distribución de frecuencia de los sueldos (en miles de pesos) que reciben
150 empleados en una empresa.
Clases ni
120 – 160 20
160 – 200 30
200 – 240 50
240 – 280 30
280 – 320 20
Calcule el promedio, la mediana y la moda de los sueldos de los trabajadores de esta empresa.
28
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
n todo proceso de análisis, las variables cumplen un papel fundamental en el
momento de realizar un análisis, puesto que la cantidad de variables en análisis
condiciona, de alguna forma, las herramientas estadísticas a utilizar, un caso
particular es el Análisis Bivariado, esto ocurre cuando dos variables de interés son observadas
conjuntamente para el mismo grupo de elementos en estudio.
En general, el análisis bivariado no difiere significativamente al análisis univariado, la
diferencias fundamentales son en la cantidad de información contenida en los datos.
UNIDAD 2
ANÁLISIS DE DATOS BIVARIADOS
E
29
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
PROGRAMA DE LA ASIGNATURA ETEP01
UNIDAD 2
ANÁLISIS DE DATOS BIVARIADOS
APRENDIZAJE ESPERADO
Utiliza tablas bivariadas para describir la distribución de un conjunto de observaciones.
CRITERIOS DE EVALUACIÓN
 Realiza tablas de doble entrada utilizando distintos tipos de variables para su análisis.
 Calcula distribuciones de frecuencias marginales y condicionales para describir las variables.
 Aplica análisis conjunto de las variables para caracterizar su comportamiento simultáneo.
APRENDIZAJE ESPERADO
Evalúa el grado de asociación entre dos variables mediante el coeficiente y el análisis gráfico.
CRITERIOS DE EVALUACIÓN
 Construye graficas de dispersión para presentar la relación entre variables.
 Estima el grado de asociación entre dos variables en base a gráfico de dispersión.
 Determina e interpreta de coeficiente de correlación lineal para estimar el grado de asociación entre variables.
APRENDIZAJE ESPERADO
Establece el comportamiento entre dos variables por medio de un modelo estadístico de regresión.
CRITERIOS DE EVALUACIÓN
 Determina componentes del modelo de regresión mediante el método de mínimos cuadrados.
 Interpreta los coeficientes de regresión y la variación explicada por el modelo.
 Analiza predicciones y residuos en un análisis posterior a los datos.
30
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Introducción
En muchas ocasiones el interés del investigador es estudiar
simultaneamente dos caráterísticas o variables medidas en cada individuo o
elemento. Por ejemplo medir estatura y peso en cada trabajador de una
empresa. Expresando la variable estatura con la letra x y el peso con la letra
y, por lo tanto se tendrán tantos pares de datos (x,y) como trabajadores
tenga la empresa. En esta unidad se estudian pares de variables de tipo
cuantitativas.
Tablas Estadísticas Bidimensionales: tablas de doble entrada. La
primera columna detalla frecuentemente la variable x y la primera fila detalla
la variable y.
Estructura de una Tabla Bidimensional con Frecuencias Absolutas:
XY yi … yl
∑ 𝑛𝑖𝑗 = 𝑛𝑖.
𝑙
𝑗=1
x1 n11 … n1l n.1
x2 n21 … n2l n.2
… …
xk nk1 … nkl n.k
= ∑ 𝑛𝑖𝑗 = 𝑛.𝑗
𝑘
𝑖=1
n.1 … n.l
∑ ∑ 𝑛𝑖𝑗 = 𝑛
𝑙
𝑗=1
𝑘
𝑖=1
Para representar las frecuencias absoluta acumulada, frecuencia relativa y
relativa acumuladas se debe construir una tabla por separado por cada una
de ellas.
Distribuciones marginales: Corresponde a la representación de cada
variable en tablas unidimensionales y se obtiene con la suma de las filas o
columnas para las respectivas variables.


 ANALISIS DE
DATOS
UNIVARIADOS 
31
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Otro aspecto interesante del análisis bivariado, es que es posible determinar
el tipo y nivel de relación entre las variables, esto se puede realizar al
considerar una relación lineal entre las variables en estudio.
Definiciones:
 Coeficiente de Correlación Lineal de Pearson.
𝑟𝑋𝑌 =
𝑆𝑋𝑌
√𝑆𝑋𝑋 ⋅ 𝑆𝑌𝑌
𝑆𝑋𝑌 = ∑ 𝑥𝑖𝑦𝑖
𝑛
𝑖=1
− 𝑛 ⋅ 𝑋
̅ ⋅ 𝑌
̅
𝑆𝑋𝑋 = ∑ 𝑥𝑖
2
𝑛
𝑖=1
− 𝑛 ⋅ 𝑋
̅2
𝑆𝑌𝑌 = ∑ 𝑦𝑖
2
𝑛
𝑖=1
− 𝑛 ⋅ 𝑌
̅2
 El modelo de regresión lineal estimado es: 𝑦
̂ = 𝛽
̂0 + 𝛽
̂1 ⋅ 𝑥.
𝛽
̂0 = 𝑌
̅ − 𝛽
̂1 ⋅ 𝑋
̅
𝛽
̂1 =
𝑆𝑋𝑌
𝑆𝑋𝑋
 El coeficiente de correlación lineal cumple que −1 ≤ 𝑟𝑋𝑌 ≤ 1.
 También se define el coeficiente de determinación 𝑅2
= (𝑟𝑋𝑌)2
.


 ANALISIS DE
DATOS
UNIVARIADOS 
32
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Problema 1:
Un examen de ingreso a la una universidad está compuesto de dos partes. El
puntaje obtenido por un grupo de estudiantes se detalla en la tabla adjunta. Sea
X el puntaje obtenido en la primera parte e Y el puntaje obtenido en la segunda
parte.
Y
0 5 10 15
X 0 2 6 2 10
5 4 15 20 10
10 1 15 14 1
a)Determine las distribuciones marginales de X e Y.
Solución:
b) ¿En qué parte del examen los estudiantes obtuvieron mayor puntaje
medio?
𝑋
̅ =
0 ⋅ 20 + 5 ⋅ 49 + 10 ⋅ 31
100
= 5,55[𝑝𝑢𝑛𝑡𝑜𝑠]
𝑌
̅ =
0 ⋅ 7 + 5 ⋅ 36 + 10 ⋅ 36 + 15 ⋅ 21
100
= 8,55[𝑝𝑢𝑛𝑡𝑜𝑠]
La parte Y obtuvo mayor puntaje medio.
c)Para aquellos estudiantes que obtuvieron 5 puntos en la parte X, ¿cuál es la
media en la parte Y?
Solución:
Puntaje (𝑌|𝑥 = 5) Frecuencia
0 4
5 15
10 20
15 10
Total 49
𝑌
̅𝑥=5 =
0 ∗ 4 + 5 ∗ 15 + 10 ∗ 20 + 15 ∗ 10
49
= 8,67 [𝑝𝑢𝑛𝑡𝑜𝑠]
El puntaje medio en la parte Y para aquellos estudiantes que obtuvieron en la
parte X, 5 puntos fue de 8,67.
Puntaje obtenido
en la parte X
Nº de
estudiantes
0 7
5 36
10 36
15 21
Total 100
Puntaje obtenido
en la parte X
Nº de
estudiantes
0 20
5 49
10 31
Total 100


 ANALISIS DE
DATOS
UNIVARIADOS 
33
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Problema 2:
¿Existirá relación entre el estado nutricional y el rendimiento académico de
estudiantes de enseñanza básica? Se midió el estado nutricional de 1000 niños
de enseñanza básica, el que fue clasificado como "malo", "regular" "bueno". El
rendimiento académico fue clasificado como “bajo el promedio” “promedio” o
“sobre el promedio”.
Estado Nutricional
Malo Regular Bueno
Total
Rendimiento
Académico
Bajo
130 95 30 255
Promedio
120 450 35 605
Sobre
30 40 70 140
Total
280 585 135 1000
a)¿Cuál es la cantidad de los niños de enseñanza básica tienen un rendimiento
académico promedio?
Solución:
Son 605 niños en la muestra
b) ¿Qué cantidad de los niños de enseñanza básica tienen un estado
nutricional regular?
Solución:
Son 585 niños en la muestra
c)¿Qué cantidad de los niños de enseñanza básica tienen un rendimiento
académico promedio y un estado nutricional bueno?
Solución:
Son 35 niños en la muestra


 ANALISIS DE
DATOS
UNIVARIADOS 


34
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
d) Calcule el porcentaje de los niños de enseñanza básica tienen un
rendimiento académico sobre el promedio
Solución:
Son 140 niños en la muestra de 1.000, entonces el porcentaje es:
140
1000
= 0,14 =
14%
e) Determine el porcentaje de los niños de enseñanza básica tienen un
estado nutricional malo?
Solución:
Son 30 niños en la muestra de 1.000, entonces el porcentaje es:
30
1000
= 0,03 =
3%
f)¿Qué porcentaje de los niños de enseñanza básica que tienen un estado
nutricional bueno están sobre el promedio en su rendimiento académico?
Solución:
Son 70 niños de 135 que tienen un estado nutricional bueno, entonces el
porcentaje es:
70
135
= 0,519 = 51,9%
g) Obtenga la distribución marginal del Estado Nutricional .
Solución:
Estado Nutricional
Malo Regular Bueno TOTAL
Frecuencia 280 585 135 1000
Frecuencia relativa 28% 58,5% 13,5% 100%
h) Calcule la distribución marginal del Rendimiento Académico.
Solución:
Rendimiento Académico
Bajo Promedio Sobre TOTAL
Frecuencia 255 605 140 1000
Frecuencia relativa 25,5% 60,5% 14% 100%


 ANALISIS DE
DATOS
UNIVARIADOS 
35
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
i) Obtenga la distribución condicional del rendimiento académico dado el estado nutricional, es
decir que consideramos al rendimiento académico como respuesta al estado nutricional.
Solución:
Estado Nutricional
Malo Regular Bueno
Rendimiento
Académico
Bajo
130/280 95/585 30/135
Promedio
120/280 450/585 35/135
Sobre
30/280 40/585 70/135
Total
280/280 585/585 135
Luego:
Estado Nutricional
Malo Regular Bueno
Rendimiento
Académico
Bajo
46,4% 16,2% 22,2%
Promedio
42,9% 76,9% 25,9%
Sobre
10,7% 6,8% 51,9%
Total
100% 100% 100%
Problema 3:
En una empresa donde trabajan 54 personas, se ordenó en una tabla de doble entrada, la información referida
al ingreso mensual y al tiempo de servicio en la empresa, Las variables definidas como sigue: 𝑋 =
𝑖𝑛𝑔𝑟𝑒𝑠𝑜 𝑚𝑒𝑛𝑠𝑢𝑎𝑙 (𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝑝𝑒𝑠𝑜𝑠) e 𝑌 = 𝑡𝑖𝑒𝑚𝑝𝑜 𝑑𝑒 𝑠𝑒𝑟𝑣𝑖𝑐𝑖𝑜 𝑒𝑛 𝑙𝑎 𝑒𝑚𝑝𝑟𝑒𝑠𝑎 (𝑎ñ𝑜𝑠)
Tabla: ingreso y tiempo de servicio
Tiempo de Servicio
0-4 4-8 8-12
Ingreso
Mensual
300-340
6 4 2
340-480
3 6 4
480-620 2 8 6
620-960
1 2 10
36
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
a) ¿Cuál es la cantidad de personas que llevan 4-8 años en la empresa y que tienen un ingreso mensual
de 480-620?
Solución:
Son 8 personas
b) ¿Cuál es el porcentaje de personas que tienen un tiempo de servicio entre 0-4 años y su ingreso
mensual está entre 620-960? ¿Qué porcentaje representa de los empleados?
Solución:
Es 1 persona de 54 personas empleadas, entonces el porcentaje es:
1
54
= 0,0185 = 1,85%
c) Obtenga la Media marginal del Ingreso Mensual.
Solución:
Para Obtener la media marginal de la variable Ingreso Mensual, es necesario conocer la distribución
marginal, luego esta es:
Estado Nutricional
300-340 340-480 480-620 620-960 TOTAL
Marca de Clase 320 410 550 790
Frecuencia 12 13 16 13 54
En base a la información proporcionada por la distribución marginal, se calcula la media marginal,
como sigue:
𝑀𝑒𝑑𝑖𝑎 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 = 𝑥̅ =
12∗320+⋯+13∗790
54
= 523 (Miles de pesos)
Entonces, el ingreso promedio es de $523.000.- para el conjunto de datos.
Observación: Así también, se puede calcular la media marginal de la variable tiempo de servicio,
replicando el procedimiento anterior.
d) Calcule la Varianza marginal de la variable Ingreso Mensual:
Solución: La varianza cuantifica la variabilidad de un conjunto de datos, su obtención se basa en la
información proporcionada por los datos de la frecuencia marginal.
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 = 𝑆2
=
12∗(320−523)2+⋯+13∗(790−523)2
54−1
= 30.168 (Miles de pesos)2
37
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Debido a que la unidad de los datos está al cuadrado no es posible interpretar de manera directa con el
promedio, luego, la desviación estándar marginal de los ingresos mensuales es:
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 = 𝑆 = √30.168 = 173,689 ≈ 174 (Miles de pesos)
e) ¿Cuál es la variación conjunta de las variables?
Solución: Para definir la variación conjunta, se obtiene la covarianza (𝐶𝑂𝑉(𝑥, 𝑦))
Tiempo de Servicio
Marcas de Clase 2 6 10
Ingreso
Mensual
320
6 4 2
410
3 6 4
550 2 8 6
790
1 2 10
𝐶𝑂𝑉(𝑥, 𝑦) =
320 ∗ 2 ∗ 6 + ⋯ + 790 ∗ 10 ∗ 10
54
− 523,0 ∗ 6,7 = 237,8
Esto es la variación conjunta de las variables Ingreso Mensual y Tiempo de servicio. Podemos mencionar
que las variables 𝑥 e 𝑦 tiende a moverse en la misma dirección, es decir existe una relación positiva.
Problema 4:
Un docente de la asignatura de estadística desea relacionar los resultados obtenidos en la prueba 1 y los
resultados alcanzados en el examen, para lo cual cuenta con la siguiente información de sus estudiantes:
Su pregunta es ¿Existe correlación entre los resultados de la prueba 1 y el examen?
Solución:
El primer indicador es una referencia gráfica, a Continuación se presenta el Gráfico de Dispersión de Notas
en la Prueba 1 (X) versus Notas el Examen (Y) del curso de 25 alumnos.
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
P1 1,7 3,8 5,1 5,6 5,0 5,7 2,1 3,7 3,8 4,1 3,4 4,4 6,8 5,1 4,3 6,2 5,9 5,4 4,1 6,2 5,2 4,6 4,9 5,9 5,5
Ex 3,5 3,2 3,5 5,2 4,9 3,7 3,6 4,5 4,0 3,6 4,4 3,3 5,5 3,9 4,6 5,7 4,3 4,1 5,0 3,8 4,4 4,0 4,5 3,4 4,5
38
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
La gráfica presenta una correlación positiva (ascendente) leve entre las notas obtenidas en la prueba 1 y el
examen, por otra parte para determinar el grado de asociación entre dos variables se utiliza el coeficiente de
correlación de Pearson, denotado por “r”, en este caso su valor es:
Coeficiente de correlación 𝑟 = 0,407
El cual es consistente a la información gráfica, lo que señala finalmente que existe una correlación positiva y
leve entre ambas variables analizadas.
Problema 5:
Las estaturas y pesos de los 10 jugadores de baloncesto de la Universidad Tecnológica De Chile, Inacap son:
Estatura (x) 186 189 190 192 193 193 198 201 203 205
Pesos (y) 85 85 86 90 87 91 93 103 100 101
a) ¿Existe una correlación entre las estaturas y el peso?
Solución:
La gráfica de dispersión (scatterplot), entre la estatura y el peso es la siguiente:
39
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
La gráfica presenta una correlación positiva (ascendente) fuerte entre la estatura y el peso, el coeficiente de
correlación de Pearson, 𝑟 = 0,944, es cercano a 1, lo que es considerado como alto o fuerte.
b) La regresión lineal e identifique las variables (predictiva y respuesta)
Solución:
El modelo de regresión lineal para las variables: la estatura en centímetros (𝑥), que corresponde a la variable
predictiva o independiente y el peso en kilogramos (𝑦), que es la variable respuesta o dependiente, es:
𝑦 = 𝑎 + 𝑏 ∗ 𝑥
Donde:
𝑎 = −107,139
𝑏 = 1,022
Luego el modelo es:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎
c) Calcule el peso estimado de un jugador que mide 208 cm.
Solución:
Para estimar el peso de un jugador que mide 208 cm,
Se tiene que 𝑥 = 208, entonces:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 208
𝑃𝑒𝑠𝑜 = 105,4
El peso estimado es 105,4 Kg.
d) La estatura estimada de un jugador que pesa 100 kg.
Solución:
Para estimar la estatura de un jugador que pesa 100 kg.
Se tiene que 𝑦 = 100, entonces:
40
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
100 = −107,139 + 1,022 ∗ 𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎
Despejando, el resultado es:
𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎 = 202,7
La estatura estimada es 202,7 cm.
e) El peso estimado de un jugador que mide 198 cm. ¿cuál es el residuo de la estimación?
Solución:
Para estimar el peso de un jugador que mide 198 cm,
Se tiene que 𝑥 = 198, entonces:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 198
𝑃𝑒𝑠𝑜 = 95,2
El peso estimado es 97,4 Kg.
La estimación del residuo o error: 𝑒 = 93 − 95,2 = −2,2
Esto significa que se estima un error de 2,2 kilogramos de sobrestimación.
f) El peso estimado de un jugador que mide 201 cm. ¿cuál es el residuo de la estimación?
Solución:
Para estimar el peso de un jugador que mide 201 cm,
Se tiene que 𝑥 = 201, entonces:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 201
𝑃𝑒𝑠𝑜 = 98,3
El peso estimado es 100,5 Kg.
La estimación del residuo o error: 𝑒 = 103 − 98,3 = 4,7
Esto significa que se estima un error de 4,7 kilogramos de subestimación.
Observación: las preguntas anteriores relejan los tipos de errores que se pueden estimar.
g) Estime el peso de un jugador de una estatura “particular” para la talla de los jugadores, que mide 155
cm. ¿cuál es el residuo de la estimación?
Solución:
Para estimar el peso de un jugador que mide 155 cm,
Se tiene que 𝑥 = 155, entonces:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 155
𝑃𝑒𝑠𝑜 = 51,3
El peso estimado es 51,3 Kg.
La estimación del residuo o error: en esta situación no es posible afirmar que sea una buena estimación,
debido a que el valor de la variable 𝑥, se encuentra fuera del ámbito de los valores obtenidos en la muestra.
41
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
h) Desarrollemos el análisis residual de nuestro modelo de regresión. Los datos considerados son
los siguientes:
Solución:
Estatura (𝑥) 186 189 190 192 193 193 198 201 203 205
Pesos (𝑦) 85 85 86 90 87 91 93 103 100 101
Estimado (𝑦
̂) 83,0 86,0 87,0 89,1 90,1 90,1 95,2 98,3 100,3 102,4
Residuo (𝑒) 2,0 -1,0 -1,0 0,9 -3,1 0,9 -2,2 4,7 -0,3 -1,4
En base a los datos de los errores es posible realizar su representación gráfica:
Esta gráfica presenta una distribución uniforme de los errores o residuos, esto es un indicador de que el
modelo es adecuado.
i) Determinación de la variabilidad de los residuos, es error estándar de estimación, denotado 𝑆𝑒.
Solución:
Donde: 𝑆𝑒 = √
2,02+⋯+(−1,4)2
=10−2
= √
5,776
8
= 2,4 (kilogramos)
Este valor señala que el error estándar de estimación del modelo es de 2,4 kilogramos.
-4,0
-2,0
0,0
2,0
4,0
6,0
185 190 195 200 205 210
Residuos
Residuos
42
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Problemas Propuestos
1. Un grupo de investigadores, al estudiar la relación entre el tipo acción y la severidad de la
variabilidad, reunió los datos de 1500 acciones, los cuales se presentan en la tabla de
contingencia adjunta.
Tipo de Acción
A B C D
Variabilidad
Baja
543 211 90 476
Moderada 44 22 8 21
Severa
28 9 7 31
a) Calcule las distribuciones marginales. Interprete.
b) ¿Cuál es el porcentaje de acciones con variabilidad baja del tipo A?
c) ¿Cuál es el total de acciones que tienen una variabilidad severa, y su proporción de la muestra?
d) ¿Cuál de las acciones es la más estable?
e) Realice una representación gráfica de información proporcionada por la tabla
2. Una compañía aérea desea estudiar la relación entre el número de vuelos y la edad de sus
pasajeros, consultó a sus pasajeros y recabó información resumida en la siguiente tabla.
Número de vuelos por año
0-1 2-4 5-7
Edad
10-25
4 19 15
25-40 4 25 9
40-65
8 16 6
65-80
6 23 11
a) Determine las distribuciones marginales para las variables.
b) ¿Qué porcentaje de las personas entre 40 y 65 años, toma entre 2-4 vuelos?
c) ¿Cuál es el promedio de la variable edad? Y ¿Cuál es su variabilidad?
d) ¿Qué valor tiene la media de los vuelos por años?
e) Obtenga la Covarianza.
43
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
3. Interprete cada uno de los siguientes coeficientes de correlación y use gráficos de
dispersión para representar como se vería cada una de las relaciones entre dos variables (x, y)
cualesquiera:
a) r = -1,0 b) r = 0,05 c) r = 0,85 d) r = -0,99 e) r = -0,03
4. Si el coeficiente de correlación para los datos de la tabla es 0,97, responda a las preguntas
siguientes, primero sin realizar ningún cálculo y después, comprobar las respuestas haciendo
los cálculos necesarios con su calculadora.
X 2 3 4 5 6
Y 5 7 8 13 14
Revise los gráficos de dispersión correspondientes y responda cómo cambiaría este
coeficiente si:
a) Sumamos 3 a la variable X (cada valor)
b) Sumamos 3 en ambas variables (cada valor)
c) Multiplicamos la variable X por 2 (cada valor)
d) Intercambiamos todos los valores de X por los de Y
e) Cambiamos el último valor de X por el de Y
f) Sumamos 10 a ambas variables pero sólo en el primer punto observado
5. Cada una de las frases siguientes contiene un error, explique en cada caso qué es lo que está
mal.
a) “Existe una alta correlación (r=0,32) entre el sexo de los trabajadores en Santiago y su salario”
b) “Se encontró una alta correlación (r=1,09) entre las evaluaciones de los estudiantes a los profesores
y los salarios de los académicos”
c) “La correlación entre el tamaño familiar y los metros cuadrados del hogar es r=0,65 metros
cuadrados”
6. La correlación lineal de X con Y es r = 0,60; la correlación de X con W es de r = -0,80. ¿Con
cuál de las variables Y o W, es mayor el grado de asociación lineal?
7. En un curso de introducción a la estadística, un profesor hace dos exámenes. El profesor
quiere determinar si los puntajes de los estudiantes en el segundo examen están
correlacionados con los puntajes del primero. Para facilitar los cálculos, se elige una muestra
de ocho estudiantes. Sus calificaciones aparecen en la siguiente tabla.
Estudiante 1 2 3 4 5 6 7 8
Examen 1 60 75 70 72 54 83 80 65
Examen 2 60 100 80 68 73 97 85 90
44
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
a) Construya una gráfica de dispersión para estos datos, utilizando el puntaje del primer examen
como la variable X. ¿Parece lineal la relación?
b) Suponga que existe una relación lineal entre las calificaciones de los dos exámenes, calcule el valor
r de Pearson.
c) ¿Cuál es la variable explicativa y la variable respuesta?
d) Construya un modelo de regresión lineal simple
e) ¿Cuál es el puntaje estimado para el examen 2, si un estudiante logró 83 puntos en el examen 1?
f) Obtenga el error (residuo) de la estimación de la pregunta anterior. ¿Qué tipo de error se produce?
8. A partir de los siguientes datos referentes a horas trabajadas en un taller y unidades
producidas, determina:
a) Grafica los datos, califique el gráfico según sus parámetros e infiera los resultados posibles del modelo
y la correlación,
b) La recta de regresión lineal de la producción sobre las horas.
c) El coeficiente de correlación lineal e interpreta la respuesta.
d) ¿Cuál es la proporción de variación de los resultados que puede explicarse por el modelo?
e) Obtenga el error estándar de estimación del modelo e interprete su valor.
Horas 80 79 83 84 78 60 82 85 79 84 80 62
Producción 300 302 315 330 300 250 300 340 315 330 310 240
9.Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país a
partir de la relación de éstas y la renta nacional. Para investigar la relación cuenta con los
siguientes datos:
X 189 190 208 227 239 252 257 274 293 308 316
Y 402 404 412 425 429 436 440 447 458 469 469
X representa la renta nacional en miles de millones de pesos e Y representa las ventas las ventas de
la compañía en miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive):
a) La recta de regresión lineal, ¿Cuál es la variable explicativa y la variable respuesta?
b) El coeficiente de correlación lineal e interpretación y el coeficiente de determinación.
c) Si en 2001 la renta nacional del país fue de 325 miles de millones de pesos. ¿Cuál será la predicción
(extrapolación) para las ventas de la compañía en este año? ¿Es confiable dicho valor? ¿cuál es su
residuo?
d) Obtén los errores producidos en las estimaciones, para cada una de las observaciones (datos).
e) ¿El modelo calculado es representativo de los datos?
45
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
ñ
10. Remítase a los datos de la siguiente tabla y analice los valores extremos, en base a las
preguntas siguientes. (Efectos de un valor extremo)
x 1 1 1 2 2 2 3 3 3 10
y 1 2 3 1 2 3 1 2 3 10
a) Examine el patrón de los 10 puntos y determine de forma subjetiva sí parece existir una correlación
entre 𝑥 y 𝑦.
b) Después de identificar los 10 pares de coordenadas correspondientes a los 10 puntos, calcule el valor
del coeficiente de correlación r y determine si existe una correlación lineal.
c) Ahora elimine el punto con las coordenadas (10, 10) y repita los incisos a) y b). ¿Qué concluye cerca
del posible efecto de un solo par de valores?
11. Considere los siguientes conjuntos de datos. Desarrolle los siguientes puntos para cada uno
de los casos:
a) Construya una gráfica de dispersión
b) Obtenga e interprete el coeficiente de correlación lineal
c) Calcule el modelo de regresión
d) Obtenga los errores y realice una gráfica de éstos.
e) Calcule el error estándar de estimación
f) Interprete de forma conjunta ambas graficas realizadas
Caso 1
X 0 1 2 3 4 5 7 8 9 10
Y 1 4 8 18 19 24 36 43 42 47
Caso 2
X 0 1 2 3 4 5 7 8 9 10
Y 1 0 2 5 10 20 15 10 7 3
Caso 3
X 0 1 2 3 4 5 7 8 9 10
Y 0 6 9 15 10 35 15 60 75 20
46
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
a probabilidad, puede ser uno de los tópicos más interesantes para la caracterización
de un conjunto de datos, puesto que permite medir la incerteza que se tiene respecto
a un fenómeno de interés.
UNIDAD 3
DISTRIBUCIÓN DE PROBABILIDAD
NORMAL
L
47
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
PROGRAMA DE LA ASIGNATURA ETEP01
UNIDAD 3
DISTRIBUCIONES DE PROBABILIDAD
APRENDIZAJE ESPERADO
Resuelve problemas aplicando los principios de probabilidades en problemas de aplicación
CRITERIOS DE EVALUACIÓN
 Utiliza propiedades para determinación de probabilidades en problemas de aplicación.
 Construye la distribución de probabilidades para una variable aleatoria.
APRENDIZAJE ESPERADO
Describe el comportamiento de una variable aleatoria con distribución normal estándar.
CRITERIOS DE EVALUACIÓN
 Reconoce los parámetros de la distribución normal estándar.
 Calcula probabilidades de una distribución normal estándar.
 Obtiene e interpreta percentiles de una distribución normal estándar.
APRENDIZAJE ESPERADO
Aplica la distribución normal a resolución de problemas de la especialidad.
CRITERIOS DE EVALUACIÓN
 Estandariza una variable aleatoria normal para su aplicación a problemas.
 Determina probabilidades y percentiles de una variable aleatoria mediante el uso de la distribución normal
estandarizada.
 Resuelve problemas de la especialidad a través del uso de la distribución normal.
48
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Introducción
El concepto de probabilidad, aunque tiene suele ser utilizado con bastante
frecuencia en distintas situaciones, no siempre es utilizado de forma
adecuada. La medida de probabilidad permite medir el nivel de conocimiento
o de incertidumbre que se tiene respecto a un fenómeno de interés, es decir,
permite cuantificar qué tan seguros estamos que un determinado evento o
fenómeno puede ocurrir (respectivamente no ocurrir).


 PROBABILIDAD 
Definiciones:
 Ω: Espacio muestral, conjunto de todos los posibles resultados
de un experimento.
 𝐴 ⊆ Ω: Evento o fenómeno en Ω.
 #Ω: cardinalidad de Ω,cantidad de elementos del conjunto.
 𝑃(𝐴): Probabilidad de que ocurra el evento A.
𝑃(𝐴) =
⋕ A
⋕ Ω
=
𝐶𝑎𝑠𝑜𝑠 𝑎 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐴
𝑐𝑎𝑠𝑜𝑠 𝑇𝑜𝑡𝑎𝑙𝑒𝑠 𝑑𝑒 Ω
=
𝐶𝐹
𝐶𝑇
 𝐶𝑘
𝑛
: Cantidad de formas de seleccionar 𝑘 elementos sin
devolución desde un total de 𝑛, sin importar el orden en el cual
son seleccionados.
𝐶𝑘
𝑛
= (
𝑛
𝑘
) =
𝑛!
(𝑛 − 𝑘)! 𝑘!
 𝑃𝑘
𝑛
: Cantidad de formas de seleccionar 𝑘 elementos sin
devolución desde un total de 𝑛, cuando importar el orden en el
cual son seleccionados.
𝑃𝑘
𝑛
= (
𝑛
𝑘
) 𝑘! =
𝑛!
(𝑛 − 𝑘)!
49
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Además todas las propiedades de conjuntos son válidads en probabilidades.


 PROBABILIDAD 
Axiomas:
 P(Ω) = 1
 P(Ω𝑐) = P(ϕ) = 0
 Sea un evento 𝐴 ⊆ Ω, entonces
0 ≤ 𝑃(𝐴) ≤ 1
 Si 𝐴 ⊆ Ω, entonces 𝐴𝑐
⊆ Ω, así
𝑃(𝐴𝑐) = 1 − 𝑃(𝐴)
 Sean 𝐴, 𝐵 ⊆ Ω, entonces:
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
Definiciones:
 Dos eventos 𝐴 y 𝐵 se dicen independientes estocásticamente si
la ocurrencia de uno de ellos no afecta ni altera la ocurrencia del
otro, y viceversa.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)
 Dos eventos 𝐴 y 𝐵 se dicen excluyentes si la ocurrencia de uno
de ellos impide la ocurrencia del otro, y viceversa.
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵), 𝑃(𝐴 ∩ 𝐵) = 0
 Dos eventos 𝐴 y 𝐵 se dicen dependientes si la ocurrencia de uno
de ellos entrega información sobre la ocurrencia del otro, y
viceversa.
𝑃(𝐴|𝐵) =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
, 𝑠𝑖 𝑃(𝐵) > 0
50
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Teoremas:


 PROBABILIDAD  Teorema de la Multiplicación:
𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑒𝑛 Ω, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠:
𝑃 (⋂ 𝐴𝑖
𝑛
𝑖=1
) = {
∏ 𝑃(𝐴𝑖)
𝑛
𝑖=1
𝑠𝑖 𝑙𝑜𝑠 𝐴𝑖
′
𝑠𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠.
𝑃(𝐴1) ⋅ 𝑃(𝐴2|𝐴1) ⋅ 𝑃(𝐴3|𝐴1 ∩ 𝐴2) ⋯ 𝑃(𝐴𝑛| ⋂ 𝐴𝑖
𝑛−1
𝑖=1 )
Teorema de Probabilidades Totales:
𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 una partición disjunta y exhaustiva de Ω, y sea 𝐵 otro
evento en Ω, entonces:
𝑃(𝐵) = ∑ 𝑃(𝐵|𝐴𝑖) ⋅ 𝑃(𝐴𝑖)
𝑛
𝑖=1
Teorema de Bayes:
𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 una partición disjunta y exhaustiva de Ω, entonces para
cualquier otro evento 𝐵 en Ω, se tiene que:
𝑃(𝐴𝑖|𝐵) =
𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)
∑ 𝑃(𝐵|𝐴𝑗) ⋅ 𝑃(𝐴𝑗)
𝑛
𝑗=1
, ∀ 𝑖 = 1, … , 𝑛.
51
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problema 1:
Se lanza una vez un dado cúbico con sus caras enumeradas del 1 al 6 y se
observa la cara superior.
a) Determine el espacio muestral del experimento.
Solución:
Ω = {1,2,3,4,5,6}
b) Determine la probabilidad de que salga el 5.
Solución:
Sea el evento A = el dado muestra el número 5.
P(A) =
#A
#Ω
=
1
6
c) Determine la probabilidad que salga un número par.
Solución:
Sea el evento B = el dado muestra un número par.
P(𝐵) =
CF(B)
𝐶𝑇(Ω)
=
3
6
=
1
2
d) Determine la probabilidad que salga un número mayor a 4.
Solución:
Sea el evento C = el dado muestra un número mayor a 4.
P(𝐶) =
CF(𝐶)
𝐶𝑇(Ω)
=
2
6
=
1
3


 PROBABILIDAD 
52
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problema 2:
Se tiene una moneda desbalanceada, con probabilidad de cara
1
3
y dos urnas,
la urna A tiene 5 fichas blancas y 3 negras, la urna B tiene 3 fichas blancas y
5 negras. El experimento consiste en lanzar una vez la moneda al aire, si sale
cara se selecciona una ficha al azar desde la urna A, en cambio si sale sello se
selecciona al azar una ficha desde la urna B.
a) Determine el espacio muestral del experimento.
Solución:
𝑆𝑒𝑎𝑛 𝑙𝑜𝑠 𝑒𝑣𝑒𝑛𝑡𝑜𝑠:
𝐶: 𝑙𝑎 𝑚𝑜𝑛𝑒𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑐𝑎𝑟𝑎
𝑆: 𝑙𝑎 𝑚𝑜𝑛𝑒𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑠𝑒𝑙𝑙𝑜
𝐵: la ficha extraída es blanca
𝑁: la ficha extraída es negra
Ω = {(𝐶, 𝐵), (𝐶, 𝑁), (𝑆, 𝐵), (𝑆, 𝑁)}
b) Determine la probabilidad de que la ficha extraída sea blanca.
Solución:
P(B) =
1
3
⋅
5
8
+
2
3
⋅
3
8
=
11
24
c) Si la ficha extarída es de color negro, ¿Cuál es la probabilidad que la
moneda haya mostrado sello?
Solución:
P(𝑆|𝑁) =
P(N|S)P(S)
𝑃(𝑁)
=
3
8
⋅
2
3
1
3
⋅
3
8
+
2
3
⋅
5
8
=
6
24
13
24
=
6
13


 PROBABILIDAD 
C
S
B
N
B
N
Una forma de representar el
experimento, es mediante un
árbol de probabilidades, en el
cual se representan
secuencialmente los eventos
y sus respectivas
probabilidades de ocurrencia.
53
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problemas Propuestos
1. Demostrar que si dos eventos 𝐴 y 𝐵 son independientes, entonces 𝐴𝑐
y 𝐵𝑐
son independientes.
2. Una urna contiene cinco dados con sus caras de color blanco o rojo.
El dado número 𝑖 (𝑖 = 1, … ,5) tiene 𝑖 de sus caras blancas y el resto rojas.
Se selecciona al azar un dado de la urna, se lanza y sale cara roja. ¿Cuál es la
probabilidad de que el dado seleccionado sea el 𝑖?
3. Una caja contiene 5 fichas blancas y 10 negras. Se lanza un dado y
luego se extraen (sin reposición) de la caja tantas fichas como puntos se
obtienen en el dado,
a) ¿Cuál es la probabilidad de que exactamente dos de las fichas extraídas
sean blancas?
b) ¿Cuál es la probabilidad de que el dado muestre 3 si todas las fichas
extraídas fueron blancas?
4. Una mano de póker consiste en cinco cartas seleccionadas sin
reemplazo de una baraja de 52 (sin comodines). Determine la probabilidad
de obtener las siguientes combinaciones:
a) Escalera de color: las cinco cartas consecutivas y del mismo palo.
b) Escalera de color real: escalera de color con el As como carta mayor,
detrás de la K.
c) Póker: cuatro cartas con la misma numeración.
d) Póker de ases.
e) Full: tres cartas con una numeración y las otras dos con otra.
f) Escalera: las cinco cartas consecutivas (el As puede ir al comienzo o al
final).
g) Color: las cinco cartas del mismo palo.
h) Dobles parejas.
i) Trío.
j) Pareja.


 PROBABILIDAD 
54
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
5. Un banco ha comprobado que la probabilidad de que un cliente con
fondos extienda un cheque con fecha equivocada es de 0,001. En cambio, todo
cliente sin fondos pone una fecha errónea en sus cheques. El 90% de los
clientes del banco tienen fondos. Se recibe hoy en caja un cheque con fecha
equivocada. ¿Qué probabilidad hay de que sea de un cliente sin fondos?
6. Obtener la probabilidad 𝑝 de que al lanzar n veces dos dados se
obtenga al menos un 6 doble. ¿Cuántas partidas habrá que jugar para que
tengamos 𝑝 = 1/2 de obtener un 6 doble?
7. Problema de Galton. Se lanzan tres monedas al aire, ¿cuál es la
probabilidad de que las tres sean caras o las tres cruces?
8. Una caja contiene ocho bolas rojas, tres blancas y nueve azules. Si se
sacan tres bolas al azar, determinar la probabilidad de que:
a) las tres sean rojas;
b) las tres sean blancas;
c) dos sean rojas y una blanca;
d) al menos una sea blanca;
e) sean una de cada color;
f) salgan en el orden roja, blanca, azul.


 PROBABILIDAD 
55
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Introducción
En variados problemas, es posible definir una variable que represente el
fenómeno de interés, ya sea que cuente la cantidad de caras al lanzar una
moneda diez veces o que cuente la cantidad de automóviles que pasan por
pórtico en una carretera.


 VARIABLE
ALEATORIA
DISCRETA 
Definición:
Se dice que una variable aleatoria (v.a.) 𝑋 es discreta, si el conjunto de
posibles resultados 𝐵 ∈ Ω (soporte), es un conjunto finito o infinito
numerable, de tal forma que existe una función que asocia un número
real con cada elemento del soporte.
Definiciones:
 Se denomina función de probabilidad o función de
distribución de probabilidad de la variable aleatoria 𝑿, al
conjunto de pares ordenados (𝑥, 𝑓(𝑥)) si se cumple:
1. 𝑓(𝑥) ≥ 0 ∀ 𝑥 ∈ 𝐵.
2. ∑ 𝑓(𝑥)
𝑥∈𝐵 = 1.
3. 𝑃(𝑋 = 𝑥) = 𝑓(𝑥).
 Se denomina función de distribución acumulada 𝑭(𝒙) de la
variable aleatoria 𝑿:
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑓(𝑡)
𝑡≤𝑥
∀ 𝑥 ∈ 𝐵.
56
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problema 1:
Se lanzar una moneda equilibrada tres veces y se observa la cantidad de caras
que muestre la moneda.
a) Construya la función de distribución de probabilidad para el número
de caras.
Solución:
Sea 𝑋 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑎𝑠, entonces los valores posibles de la variable
aleatoria son: 𝑋 = 0, 1, 2, 3 luego la distribución de probabilidad queda
definida como:
X: número de caras Espacio Muestral Probabilidad
0 (S,S,S) 1
8
1 (C,S,S); (S,C,S); (S,S,C) 3
8
2 (C,C,S); (C,S,C); (C,C,S) 3
8
3 (C,C,C) 1
8
Total 1


 VARIABLE
ALEATORIA
DISCRETA 
Definiciones:
 Se define el Valor Esperado de la variable aleatoria 𝑋, como:
𝐸(𝑋) = ∑ 𝑥 ⋅ 𝑓(𝑥)
𝑥∈𝐵
.
 Se define el Momento de orden 𝒌 de la variable aleatoria 𝑋,
como:
𝐸(𝑋𝑘) = ∑ 𝑥𝑘
⋅ 𝑓(𝑥)
𝑥∈𝐵
.
 Se define la Varianza de la variable aleatoria 𝑋, como:
𝑉𝑎𝑟(𝑋) = 𝐸((𝑋 − 𝐸(𝑋) )2) = 𝐸(𝑋2) − 𝐸(𝑋)2
.
57
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
b) Obtener la media de la distribución.
Solución:
𝐸(𝑋) = μ = 0 (
1
8
) + 1 (
3
8
) + 2 (
3
8
) + 3 (
1
8
) = 1,5
El resultado de la media o valor esperado es 1,5 caras, para el experimento
aleatorio de lanzar tres veces una moneda.
c) Calcular e interpretar la varianza y desviación estándar.
Solución:
𝑉𝑎𝑟(𝑋) = 𝜎2
= [02
(
1
8
) + 12
(
3
8
) + 22
(
3
8
) + 32
(
1
8
)] − 1,52
= 0,75
Luego, la desviación estándar es:
𝐷. 𝐸. (𝑋) = 𝜎 = √𝑉𝑎𝑟(𝑋) = √0,75 = 0,87
El valor de la desviación estándar es de 0,87 caras, lo cual nos indica que tan
desviados están los valores alrededor de la media.
d) Representar gráficamente la distribución.
Solución:
0,00
0,10
0,20
0,30
0,40
0 1 2 3
Distribución de probabilidad


 VARIABLE
ALEATORIA
DISCRETA 
58
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problema 2:
Se realizó un estudio para caracterizar el comportamiento de la cantidad de
hijos por familia. La tabla siguiente, resume los resultados del estudio:
Con la información de la tabla anterior,
a) Determine el valor de la constante k para que la función sea una
función de probabilidad.
Solución:
∑ 𝑃(𝑋 = 𝑥) = 1
4
𝑥=0
⟺ 0,10 + 𝑘 + 0,20 + 0,15 + 0,05 = 1
𝑘 = 1 − (0,10 + 0,20 + 0,15 + 0,05) = 0,50
b) ¿Cuál es la probabilidad que una familia tenga al menos 2 hijos?
Solución:
𝑃(𝑋 ≥ 2) = 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3) + 𝑃(𝑋 = 4)
= 0,20 + 0,15 + 0,05 = 0,4
El 40% de las familias tienen al menos 2 hijos.
c) Determine la cantidad de hijos esperado por familia.
Solución:
𝐸(𝑋) = 0 ⋅ 0,10 + 1 ⋅ 0,50 + 2 ⋅ 0,20 + 3 ⋅ 0,15 + 4 ⋅ 0,05 =1,55
La cantidad esperada de hijos por familia es de 1,55 ≈ 2.
d) Determine la desviación estándar de la cantidad de hijos por familia.
Solución:
𝐸(𝑋2) = 02
⋅ 0,10 + 12
⋅ 0,50 + 22
⋅ 0,20 + 32
⋅ 0,15 + 42
⋅ 0,05 = 3,45
𝑉𝑎𝑟(𝑋) = 3,45 − 1,552
= 1,0475 ⟹ 𝜎 = √1,0475 = 1,02
La desviaciónestándar del número de hijos por familia es de 1,02.
X 0 1 2 3 4
𝑃(𝑋 = 𝑥) 0,10 k 0,20 0,15 0,05


 VARIABLE
ALEATORIA
DISCRETA 
59
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problemas Propuestos
1. Estudiemos el modelo para el número de cuadernos en las mochilas
de estudiantes. Sea X una variable aleatoria que representa el número de
cuadernos que llevan los estudiantes de esta Universidad:
X 0 1 2 3
𝑃(𝑋 = 𝑥) 0,5 0,2 0,2 0,1
a) Describir la forma de la distribución, de manera gráfica.
b) ¿Qué proporción de estudiantes llevan 3 o menos libros?
c) ¿Qué proporción de estudiantes llevan más de 2 libros?
d) ¿Qué proporción de estudiantes llevan entre 2,1 y 2,8 libros?
e) ¿Qué proporción de estudiantes llevan entre 1 y 2 libros (inclusive)?
2. En un estudio de reconocimiento de la marca Sony se entrevistaron
grupos de cuatro consumidores. Si X es el número de personas en el grupo
que reconocen la marca Sony entonces x puede ser 0, 1, 2, 3 o 4, y las
probabilidades correspondientes son 0,0016; 0,0250; 0,1746; 0,3892 y
0,4096. ¿Será infrecuente seleccionar al azar a cuatro consumidores y
descubrir que ninguno de ellos reconoce la marca Sony? ¿Cuál es la cantidad
esperada de personas que reconocen la marca?
3. Determine si 𝑃(𝑋 = 𝑥) =
𝑥
10
con X= 1, 2, 3, 4 es una función de
probabilidad. Verifique las propiedades que debe cumplir. Uno de los
requisitos de una distribución de probabilidad es que la suma de las
probabilidades debe ser 1 (se permite una pequeña cantidad de variación por
errores de redondeo). ¿Cuál es la justificación de este requisito?
4. Un trabador asigna un beneficio de carácter vitalicio a cinco personas.
Según las tablas actuales, la probabilidad de que una persona en estas
condiciones viva 30 años o más es 2/3. Hállese la probabilidad de que,
transcurridos 30 años, vivan:
a) Las cinco personas.
b) Al menos tres personas.
c) Exactamente dos personas.
d) Menos de dos personas.


 VARIABLE
ALEATORIA
DISCRETA 
60
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
5. En el informe del Mapa Socioeconómico de Chile elaborado por
Adimark aparece la distribución de número de bienes en el hogar (Ducha +
TV color + Refrigerador + Lavadora + Calefont + Microondas + TV Cable
o Satelital + PC + Internet + Vehículo)
X 𝑃(𝑋 = 𝑥)
0 0,038
1 0,057
2 0,056
3 0,091
4 0,152
5 0,189
6 0,150
7 0,103
8 0,072
9 0,051
10 0,042
a) ¿Cuál es la probabilidad de encontrar un hogar con menos de 4 bienes?
b) ¿Cuál es la probabilidad de encontrar un hogar con más de 7 bienes?
c) ¿Cuál es la probabilidad de encontrar un hogar con 5 o más y menos
de 9?
d) Calcule el valor esperado de la variable aleatoria de interés, interprete
el resultado.
e) Determine la desviación estándar.
f) Represente gráficamente la distribución.
6. En la tabla distribución de probabilidades que se presenta a
continuación, se detalla número de artículos con fallas, en un embarque de
10.000 unidades de ese producto electrónico importado desde China y la
probabilidad respectiva.
N° de artículos con falla Probabilidad
3 0,111
4 0,278
5 0,222
6 0,167
7 0,139
8 0,083
Determine el intervalo de los ingresos esperados (𝜇 ± 𝜎).


 VARIABLE
ALEATORIA
DISCRETA 
61
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
7. En un sector de la ciudad de Santiago, se han otorgado subsidios de
agua con anterioridad alcanzando a un 25% de la población, si se extrae una
muestra aleatoria de 10 familias.
a) ¿Cuál es la probabilidad de que exactamente en tres familias hayan
recibido el subsidio?
b) ¿Cuál es la probabilidad de que por lo menos una familia haya recibido
el subsidio?
8. El IPEC de abril muestra que se mantiene el buen ánimo de los
consumidores. Este resultado, además, se ubica como uno de los niveles
más altos de los últimos 16 años, señala que el 59,4%, de los chilenos
considera que nuestro país presenta actualmente una situación económica
buena. Determine la probabilidad de en una muestra de 30 personas entre
13 y 15, consideren una “buena situación económica” nacional.
9. Al analizar los impactos de las bombas V-1 en la Segunda Guerra
Mundial, el sur de Londres se subdividió en 576 regiones, cada una con área
de 0,25 km2
. En total, 535 bombas impactaron el área combinada de 576
regiones. Si se selecciona al azar una región, calcule la probabilidad de que
haya sido impactada en dos ocasiones o menos.
10. El número promedio de goles de un equipo de fútbol de Inacap
durante el primer tiempo de un partido de futbol es 1,67. Calcule la
probabilidad de que pasen 2 goles en ese tiempo.
11. Un asistente comercial atiende en promedio a 5 personas por hora.
¿Cuál es la probabilidad de que en una determinada hora atienda a más de 7
personas? Además, calcule la desviación estándar.
12. Una compañía “asegura” la vida de 5000 personas mayores de 50 años.
La probabilidad de que una persona de 50 años muera en un determinado
año es de 0,001. ¿Cuál es la probabilidad de que la compañía pague 4
indemnizaciones en un determinado año?


 VARIABLE
ALEATORIA
DISCRETA 
62
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Introducción
Dentro de las variables aleatorias, también se pueden distinguir las variables
aleatorias continuas, de las cuales las más utilizadas para describir el
comportamiento de distintos fenómenos y procesos de producción, en
especial en control de calidad es el llamado modelo Normal.
La distribución Normal, es un modelo que permite represntar el
comportamiento de una variable aleatoria continua. Su función de
distribución de probabilidad es:
𝑓(𝑥) =
1
√2 ⋅ 𝜋 ⋅ 𝜎2
⋅ 𝑒
−
1
2⋅𝜎2(𝑥−𝜇)2
, 𝑠𝑖 − ∞ < 𝑥 < ∞
Anotaremos, 𝑋 ∼ 𝑁(𝜇, 𝜎2). La expresión anterior, indica que la variable 𝑋
tiene una distribución Normal de media 𝜇 y varianza 𝜎2
.
Al construir el gráfico de la distribución Normal, se obtiene una forma muy
característica de esta distribución, forma por la cual recibe el nombre de
Campana de Gauss.
Aunque la distribución normal es muy útil para representar distintos
problemas sobre todo en control de calidad, el cálculo de las probabilidades
asociadas a una variable aleatoria normal, corresponderá al área bajo la
curva, cuya determinación implica técnicas complejas de Cálculo Integral.
Pero, toda variable normal puede ser transformada, mediante el siguiente
cambio de variable:
𝑍 =
𝑋 − 𝜇
𝜎
∼ 𝑁(0,1)
La expresión 𝑍 ∼ 𝑁(0,1) indica que la variable aleatoria es normal con
media 0 y varianza 1, y se llama Distribución Normal Estándar.


 DISTRIBUCIÓN
NORMAL 
63
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Los valores de la distribución normal estándar se encuentran tabulados, y
esta transformación se denomina estandarización.
Problema 1:
Sea una variable aleatoria con distribución Normal Estándar 𝑧 ∼ 𝑁(0,1).
a) Calcular el área que se encuentra a la izquierda de 𝑍 = 1,22
Solución:
La representación gráfica del problema, se muestra en la figura siguiente:
Utilizando la tabla de la distribución normal estándar acumulada, se obtiene
que 𝑃(𝑍 ≤ 1,22) = 0,8888.
b) Calcular el área que se encuentra a la derecha de 𝑍 = 1,22
(complemento).
Solución:
La representación gráfica del problema, se muestra en la figura siguiente:
𝑃(𝑍 > 1,22) = 1 − 𝑃(𝑍 ≤ 1,22) = 1 − 0,8888 = 0,1112


 DISTRIBUCIÓN
NORMAL 
64
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
c) Encuentre el área (probabilidad) de la distribución Normal
estándar 𝑍 ∼ 𝑁(0,1) que se encuentra entre 𝑍 = 0 y 𝑍 = 1,22.
Solución:
La representación gráfica del problema, se muestra en la figura siguiente:
𝑃(0 ≤ 𝑍 ≤ 1,22) = P(Z ≤ 1,22) − P(Z ≤ 0)
= 0,8888 − 0,5000 = 0,3888
d) Encuentre el área (probabilidad) de la distribución Normal estándar
𝑍 ∼ 𝑁(0,1) que se encuentra entre 𝑍 = −2,07 y 𝑍 = 1,96.
Solución:
La representación gráfica del problema, se muestra en la figura siguiente:
𝑃(−2,07 ≤ 𝑍 ≤ 1,96) = P(Z ≤ 1,96) − P(Z ≤ −2,07)
= 0,975 − 0,0192 = 0,9558


 DISTRIBUCIÓN
NORMAL 
65
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problema 2:
De acuerdo a los resultados de la Encuesta Suplementaria de Ingresos 2010-
2011 dada a conocer por el Instituto Nacional de Estadísticas (INE), el
ingreso medio mensual per cápita de los ocupados es de $ 360.300 con una
variación típica $ 55.200.
a) ¿Cuál es la probabilidad de seleccionar una persona al azar y que su
ingreso se encuentre entre $300.00 y $450.000 pesos?
Solución:
𝑃(300.000 ≤ 𝑋 ≤ 450.000)
Estandarizando:
= 𝑃 (
300.000 − 360.300
55.200
≤ 𝑍 ≤
450.000 − 360.300
55.200
)
= 𝑃(−1,09 ≤ 𝑍 ≤ 1,63) = 𝑃(𝑍 ≤ 1,63) − 𝑃(𝑍 ≤ −1,09)
= Φ(1,63) − Φ(−1,09) = 0,9484 − 0,1379 = 0,8105
Finalmente: 𝑃(300.000 ≤ 𝑋 ≤ 450.000) = 0,8105.
El 81,05% de la población recibe un ingreso mensual entre $300.00 y
$450.000 pesos.
b) ¿Cuál es la probabilidad de seleccionar una persona al azar y que su
ingreso sea de al menos $490.000?
Solución:
𝑃(𝑋 ≥ 490.000) = 1 − 𝑃(𝑋 ≤ 490.000)
= 1 − 𝑃 (𝑍 ≤
490.000 − 360.300
55.200
) = 1 − 𝑃(𝑍 ≤ 2,35)
= 1 − Φ(2,35) = 1 − 0,9906 = 0,0094
El 0,94% de la población recibe un ingreso mensual de al menos $490.000.
c) Determine el monto mínimo del ingreso que percibe el 20% superior
de los sueldos (cuarto quintil).
Solución:
𝑃(𝑋 ≥ 𝑥) = 0,20
Utilizando la estandarización y calculando el percentil 80, se tiene que:


 DISTRIBUCIÓN
NORMAL 


 DISTRIBUCIÓN
NORMAL 
66
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
𝑃 (𝑍 ≤
x − 360.300
55.200
) = 1 − 0,20 = 0,80
𝑥 − 360.300
55.200
= 𝑍0,80
𝑥 = 0,84 ⋅ 55.200 + 360.300
𝑥 = 406.668
El 20% se los sueldos superiores, son de al menos $406.668.
Problemas propuestos:
1. La pirámide poblacional de nuestro país presenta un promedio
poblacional de 𝜇 = 34,4 años y una desviación estándar de 𝜎 = 21,5, si
consideramos que nuestro país presenta un distribución Normal en la edad
¿Cuáles sería los valores para los cuartiles?
2. Calcular las probabilidades de la variable aleatoria Z, con una
distribución normal Z ~ N(0,1).
a) P(Z≤1,75)
b) P(Z>1,75)
c) P(Z≤0)
d) P(Z≥2,57)
e) P(1,89≤Z≤2,07)
f) P(-1,96≤Z≤-0,52)
3. Si X es una variable aleatoria distribuida normalmente con media 80 y
desviación estándar 10, calcular las siguientes probabilidades
a) P(X≤100)
b) P(X>80)
c) P(67≤X≤103)
d) P(82<X<92)
e) P(X>120)
f) P(X≤58)
4. Los administrativos de la municipalidad de Rioseco ganan en
promedio un sueldo líquido de $650.000 mensuales, con una desviación
estándar de $100.000, que se distribuye de forma Normal. Calcular la
probabilidad de que un empleado elegido aleatoriamente gane:
a) Un sueldo mayor a $850.000


 DISTRIBUCIÓN
NORMAL 
67
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
b) Un sueldo menor a $750.000
c) Un sueldo superior a $450.000
d) Un sueldo entre $550.000 y $950.000
e) Un sueldo inferior a $650.000
f) P(X>680.000)
g) P(X≤596.000)
h) P(567.000≤X≤803.000)
i) P(650.000<X<712.000)
j) ¿Cuál es el monto de sueldo que concentra el primer quintil?
k) ¿Cuál es el monto de sueldo que concentra el 10% de suelos más altos?
l) ¿Cuáles son los valores que concentran el 50% en torno a la media?
5. En una ciudad se estima que la temperatura máxima en el mes de abril
sigue una distribución normal, con media 23° y desviación típica 5°.Calcular
el número de días del mes en los que se espera alcanzar máximas entre 21°
y 27°. (Considere un mes=30 días).
6. La media de los pesos de 500 estudiantes de primero a cuarto medio
es 70 kilogramos y la desviación típica 5,5 kilógramos. Suponiendo que los
pesos se distribuyen normalmente. Construir la siguiente clasificación y
determinar el número de estudiantes que pertenecen a cada uno de las
categorías para determinar el gasto en un plan de salud:
a) Bajo peso: menos de 61,2 kilogramos
b) Peso normal: entre 61,2 y 77,2 kilogramos
c) Sobre peso: más de 77,2 kilogramos
7. El plan de salud que desea desarrollar una institución de ayuda tiene
los siguientes costos, debe invertir $50.000 por cada estudiante en categoría
bajo peso para su recuperación y $ 90.000 por cada estudiante con sobre
peso. El departamento de asistencia social cuenta con $5.000.000 de
presupuesto destinado a este colegio. ¿Es suficiente el monto para activar el
plan?
8. Se supone que los resultados de un examen siguen una distribución
normal con media 78 y varianza 36. Se pide:
a) ¿Cuál es la probabilidad de que una persona que se presenta el examen
obtenga una calificación superior a 72?
b) Si se sabe que con 64 puntos un estudiante obtiene nota de
aprobación. Calcule la proporción de estudiantes que tienen puntuaciones
que exceden por lo menos en cinco puntos de la puntuación que marca la
frontera entre aprobado y no aprobado.


 DISTRIBUCIÓN
NORMAL 
68
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
9. Los puntajes de una prueba de concentración tienen una
puntuación que sigue una distribución normal, con media 100 y desviación
típica 15. Determinar el porcentaje de población que obtendría un puntaje
entre 95 y 110.
10. Se supone que el nivel de colesterol de los enfermos de un hospital
sigue una distribución normal con una media de 179,1 mg/dL y una
desviación estándar de 28,2 mg/dL.
a) Calcule el porcentaje de enfermos con un nivel de colesterol inferior
a 169 mg/dL.
b) ¿Cuál será el valor del nivel de colesterol a partir del cual se encuentra
el 10% de los enfermos del hospital con los niveles más altos?
11. El tiempo que demoran los nadadores de 100 metros estilo libre sigue
una normal con media 55 segundos y desviación estándar de 5 segundos.
a) Los organizadores de un campeonato deciden dar certificados a todos
los nadadores que terminen antes de 49 segundos. Si hay 50 nadadores en
los 100 metros mariposa, ¿cuántos certificados se necesitarán?
b) ¿Con qué tiempo debe terminar un nadador para estar entre el 2% más
rápido de la distribución de tiempos?


 DISTRIBUCIÓN
NORMAL 
69

More Related Content

What's hot

Ejercicios de análisis de regresión múltiple
Ejercicios de análisis de regresión múltipleEjercicios de análisis de regresión múltiple
Ejercicios de análisis de regresión múltiple
Alberth ibañez Fauched
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariante
jpgv84
 
Lineas de Transmision - Rodolfo Neri Vela
Lineas de Transmision - Rodolfo Neri VelaLineas de Transmision - Rodolfo Neri Vela
Lineas de Transmision - Rodolfo Neri Vela
liberaunlibroupeg
 
Gamma presentacion
Gamma presentacionGamma presentacion
Gamma presentacion
Kerll Eve
 
Método modi
Método modiMétodo modi
Método modi
Majos Conejita
 
Analisis de Redes - Investigacion de Operaciones
Analisis de Redes - Investigacion de OperacionesAnalisis de Redes - Investigacion de Operaciones
Analisis de Redes - Investigacion de Operaciones
Sergio Hernández Ortega
 
SPSS INTRODUCCIÓN
SPSS INTRODUCCIÓNSPSS INTRODUCCIÓN
SPSS INTRODUCCIÓN
Zarlenin docente
 
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
guest8a3c19
 
Distribucion de Frecuecia
Distribucion de FrecueciaDistribucion de Frecuecia
Distribucion de Frecuecia
franciscoe71
 
Método de Mínimos Cuadrados
Método de Mínimos CuadradosMétodo de Mínimos Cuadrados
Método de Mínimos Cuadrados
Arturo Sanchez Padilla
 
Analisis de valor anual
Analisis de valor anualAnalisis de valor anual
Analisis de valor anual
Javier Aguilar Cruz
 
Estadistica
EstadisticaEstadistica
Medidas de dispersion......
Medidas de dispersion......Medidas de dispersion......
Medidas de dispersion......
holaqhaces123
 
6. distribucion de frecuencias
6.  distribucion de frecuencias 6.  distribucion de frecuencias
6. distribucion de frecuencias
Universidad Autónoma de Tamaulipas
 
Construcccion de un histograma y su utilidad. Presentación diseñada por el MT...
Construcccion de un histograma y su utilidad. Presentación diseñada por el MT...Construcccion de un histograma y su utilidad. Presentación diseñada por el MT...
Construcccion de un histograma y su utilidad. Presentación diseñada por el MT...
JAVIER SOLIS NOYOLA
 
6. gradiente aritmético
6. gradiente aritmético6. gradiente aritmético
6. gradiente aritmético
tatyanasaltos
 
Resumen programacion lineal
Resumen programacion linealResumen programacion lineal
Resumen programacion lineal
Silvia Michay
 
Modulacion AM
Modulacion AMModulacion AM
Modulacion AM
Alberto Jimenez
 
Distribución de frecuencias y representaciones graficas
Distribución de frecuencias y representaciones graficasDistribución de frecuencias y representaciones graficas
Distribución de frecuencias y representaciones graficas
innovalabcun
 
Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricas
Alez Escandón
 

What's hot (20)

Ejercicios de análisis de regresión múltiple
Ejercicios de análisis de regresión múltipleEjercicios de análisis de regresión múltiple
Ejercicios de análisis de regresión múltiple
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariante
 
Lineas de Transmision - Rodolfo Neri Vela
Lineas de Transmision - Rodolfo Neri VelaLineas de Transmision - Rodolfo Neri Vela
Lineas de Transmision - Rodolfo Neri Vela
 
Gamma presentacion
Gamma presentacionGamma presentacion
Gamma presentacion
 
Método modi
Método modiMétodo modi
Método modi
 
Analisis de Redes - Investigacion de Operaciones
Analisis de Redes - Investigacion de OperacionesAnalisis de Redes - Investigacion de Operaciones
Analisis de Redes - Investigacion de Operaciones
 
SPSS INTRODUCCIÓN
SPSS INTRODUCCIÓNSPSS INTRODUCCIÓN
SPSS INTRODUCCIÓN
 
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
 
Distribucion de Frecuecia
Distribucion de FrecueciaDistribucion de Frecuecia
Distribucion de Frecuecia
 
Método de Mínimos Cuadrados
Método de Mínimos CuadradosMétodo de Mínimos Cuadrados
Método de Mínimos Cuadrados
 
Analisis de valor anual
Analisis de valor anualAnalisis de valor anual
Analisis de valor anual
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Medidas de dispersion......
Medidas de dispersion......Medidas de dispersion......
Medidas de dispersion......
 
6. distribucion de frecuencias
6.  distribucion de frecuencias 6.  distribucion de frecuencias
6. distribucion de frecuencias
 
Construcccion de un histograma y su utilidad. Presentación diseñada por el MT...
Construcccion de un histograma y su utilidad. Presentación diseñada por el MT...Construcccion de un histograma y su utilidad. Presentación diseñada por el MT...
Construcccion de un histograma y su utilidad. Presentación diseñada por el MT...
 
6. gradiente aritmético
6. gradiente aritmético6. gradiente aritmético
6. gradiente aritmético
 
Resumen programacion lineal
Resumen programacion linealResumen programacion lineal
Resumen programacion lineal
 
Modulacion AM
Modulacion AMModulacion AM
Modulacion AM
 
Distribución de frecuencias y representaciones graficas
Distribución de frecuencias y representaciones graficasDistribución de frecuencias y representaciones graficas
Distribución de frecuencias y representaciones graficas
 
Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricas
 

Similar to Texto estudiante etad01

Thiyagu statistics
Thiyagu   statisticsThiyagu   statistics
Thiyagu statistics
Thiyagu K
 
Estadística investigación _grupo1_ Zitácuaro
Estadística investigación _grupo1_ ZitácuaroEstadística investigación _grupo1_ Zitácuaro
Estadística investigación _grupo1_ Zitácuaro
YasminSotoEsquivel
 
Introduction to Business Statistics
Introduction to Business StatisticsIntroduction to Business Statistics
Introduction to Business Statistics
SOMASUNDARAM T
 
Nociones basicas de la estadistica
Nociones basicas de la estadisticaNociones basicas de la estadistica
Nociones basicas de la estadistica
EdgarBarraganPalomin
 
Meaning and Importance of Statistics
Meaning and Importance of StatisticsMeaning and Importance of Statistics
Meaning and Importance of Statistics
Flipped Channel
 
chapter 1.pptx
chapter 1.pptxchapter 1.pptx
chapter 1.pptx
ObsaHassanMohamed
 
Statistics Assignments 090427
Statistics Assignments 090427Statistics Assignments 090427
Statistics Assignments 090427
amykua
 
Introducción al análisis de datos
Introducción al análisis de datosIntroducción al análisis de datos
Introducción al análisis de datos
hibari08
 
Stastistics in Physical Education - SMK.pptx
Stastistics in Physical Education - SMK.pptxStastistics in Physical Education - SMK.pptx
Stastistics in Physical Education - SMK.pptx
shatrunjaykote
 
BBA 2ND SEM STATISTIC.pdf
BBA 2ND SEM STATISTIC.pdfBBA 2ND SEM STATISTIC.pdf
BBA 2ND SEM STATISTIC.pdf
Ram Krishna
 
INTRO to STATISTICAL THEORY.pdf
INTRO to STATISTICAL THEORY.pdfINTRO to STATISTICAL THEORY.pdf
INTRO to STATISTICAL THEORY.pdf
mt6280255
 
Unit III - Statistical Process Control (SPC)
Unit III - Statistical Process Control (SPC)Unit III - Statistical Process Control (SPC)
Unit III - Statistical Process Control (SPC)
Dr.Raja R
 
Bahir dar institute of technology.pdf
Bahir dar institute of technology.pdfBahir dar institute of technology.pdf
Bahir dar institute of technology.pdf
Hailsh
 
Meaning and uses of statistics
Meaning and uses of statisticsMeaning and uses of statistics
Meaning and uses of statistics
RekhaChoudhary24
 
Estadistica i unidad 1 tablas de frecuencia
Estadistica i   unidad 1 tablas de frecuencia Estadistica i   unidad 1 tablas de frecuencia
Estadistica i unidad 1 tablas de frecuencia
Jorge Mario Petro M petro mosquera
 
Bas 103
Bas 103Bas 103
statistics PGDM.pptx
statistics PGDM.pptxstatistics PGDM.pptx
statistics PGDM.pptx
ShirishaShiri4
 
Unit 1 Introduction to Statistics with history (1).pptx
Unit 1 Introduction to Statistics with history (1).pptxUnit 1 Introduction to Statistics with history (1).pptx
Unit 1 Introduction to Statistics with history (1).pptx
DrSJayashree
 
Statistics Module 2 & 3
Statistics Module 2 & 3Statistics Module 2 & 3
Statistics Module 2 & 3
precyrose
 
Chapter 1: Statistics
Chapter 1: StatisticsChapter 1: Statistics
Chapter 1: Statistics
Andrilyn Alcantara
 

Similar to Texto estudiante etad01 (20)

Thiyagu statistics
Thiyagu   statisticsThiyagu   statistics
Thiyagu statistics
 
Estadística investigación _grupo1_ Zitácuaro
Estadística investigación _grupo1_ ZitácuaroEstadística investigación _grupo1_ Zitácuaro
Estadística investigación _grupo1_ Zitácuaro
 
Introduction to Business Statistics
Introduction to Business StatisticsIntroduction to Business Statistics
Introduction to Business Statistics
 
Nociones basicas de la estadistica
Nociones basicas de la estadisticaNociones basicas de la estadistica
Nociones basicas de la estadistica
 
Meaning and Importance of Statistics
Meaning and Importance of StatisticsMeaning and Importance of Statistics
Meaning and Importance of Statistics
 
chapter 1.pptx
chapter 1.pptxchapter 1.pptx
chapter 1.pptx
 
Statistics Assignments 090427
Statistics Assignments 090427Statistics Assignments 090427
Statistics Assignments 090427
 
Introducción al análisis de datos
Introducción al análisis de datosIntroducción al análisis de datos
Introducción al análisis de datos
 
Stastistics in Physical Education - SMK.pptx
Stastistics in Physical Education - SMK.pptxStastistics in Physical Education - SMK.pptx
Stastistics in Physical Education - SMK.pptx
 
BBA 2ND SEM STATISTIC.pdf
BBA 2ND SEM STATISTIC.pdfBBA 2ND SEM STATISTIC.pdf
BBA 2ND SEM STATISTIC.pdf
 
INTRO to STATISTICAL THEORY.pdf
INTRO to STATISTICAL THEORY.pdfINTRO to STATISTICAL THEORY.pdf
INTRO to STATISTICAL THEORY.pdf
 
Unit III - Statistical Process Control (SPC)
Unit III - Statistical Process Control (SPC)Unit III - Statistical Process Control (SPC)
Unit III - Statistical Process Control (SPC)
 
Bahir dar institute of technology.pdf
Bahir dar institute of technology.pdfBahir dar institute of technology.pdf
Bahir dar institute of technology.pdf
 
Meaning and uses of statistics
Meaning and uses of statisticsMeaning and uses of statistics
Meaning and uses of statistics
 
Estadistica i unidad 1 tablas de frecuencia
Estadistica i   unidad 1 tablas de frecuencia Estadistica i   unidad 1 tablas de frecuencia
Estadistica i unidad 1 tablas de frecuencia
 
Bas 103
Bas 103Bas 103
Bas 103
 
statistics PGDM.pptx
statistics PGDM.pptxstatistics PGDM.pptx
statistics PGDM.pptx
 
Unit 1 Introduction to Statistics with history (1).pptx
Unit 1 Introduction to Statistics with history (1).pptxUnit 1 Introduction to Statistics with history (1).pptx
Unit 1 Introduction to Statistics with history (1).pptx
 
Statistics Module 2 & 3
Statistics Module 2 & 3Statistics Module 2 & 3
Statistics Module 2 & 3
 
Chapter 1: Statistics
Chapter 1: StatisticsChapter 1: Statistics
Chapter 1: Statistics
 

Recently uploaded

New techniques for characterising damage in rock slopes.pdf
New techniques for characterising damage in rock slopes.pdfNew techniques for characterising damage in rock slopes.pdf
New techniques for characterising damage in rock slopes.pdf
wisnuprabawa3
 
The Python for beginners. This is an advance computer language.
The Python for beginners. This is an advance computer language.The Python for beginners. This is an advance computer language.
The Python for beginners. This is an advance computer language.
sachin chaurasia
 
Engineering Drawings Lecture Detail Drawings 2014.pdf
Engineering Drawings Lecture Detail Drawings 2014.pdfEngineering Drawings Lecture Detail Drawings 2014.pdf
Engineering Drawings Lecture Detail Drawings 2014.pdf
abbyasa1014
 
International Conference on NLP, Artificial Intelligence, Machine Learning an...
International Conference on NLP, Artificial Intelligence, Machine Learning an...International Conference on NLP, Artificial Intelligence, Machine Learning an...
International Conference on NLP, Artificial Intelligence, Machine Learning an...
gerogepatton
 
Properties Railway Sleepers and Test.pptx
Properties Railway Sleepers and Test.pptxProperties Railway Sleepers and Test.pptx
Properties Railway Sleepers and Test.pptx
MDSABBIROJJAMANPAYEL
 
Optimizing Gradle Builds - Gradle DPE Tour Berlin 2024
Optimizing Gradle Builds - Gradle DPE Tour Berlin 2024Optimizing Gradle Builds - Gradle DPE Tour Berlin 2024
Optimizing Gradle Builds - Gradle DPE Tour Berlin 2024
Sinan KOZAK
 
Understanding Inductive Bias in Machine Learning
Understanding Inductive Bias in Machine LearningUnderstanding Inductive Bias in Machine Learning
Understanding Inductive Bias in Machine Learning
SUTEJAS
 
Redefining brain tumor segmentation: a cutting-edge convolutional neural netw...
Redefining brain tumor segmentation: a cutting-edge convolutional neural netw...Redefining brain tumor segmentation: a cutting-edge convolutional neural netw...
Redefining brain tumor segmentation: a cutting-edge convolutional neural netw...
IJECEIAES
 
22CYT12-Unit-V-E Waste and its Management.ppt
22CYT12-Unit-V-E Waste and its Management.ppt22CYT12-Unit-V-E Waste and its Management.ppt
22CYT12-Unit-V-E Waste and its Management.ppt
KrishnaveniKrishnara1
 
IEEE Aerospace and Electronic Systems Society as a Graduate Student Member
IEEE Aerospace and Electronic Systems Society as a Graduate Student MemberIEEE Aerospace and Electronic Systems Society as a Graduate Student Member
IEEE Aerospace and Electronic Systems Society as a Graduate Student Member
VICTOR MAESTRE RAMIREZ
 
Modelagem de um CSTR com reação endotermica.pdf
Modelagem de um CSTR com reação endotermica.pdfModelagem de um CSTR com reação endotermica.pdf
Modelagem de um CSTR com reação endotermica.pdf
camseq
 
Eric Nizeyimana's document 2006 from gicumbi to ttc nyamata handball play
Eric Nizeyimana's document 2006 from gicumbi to ttc nyamata handball playEric Nizeyimana's document 2006 from gicumbi to ttc nyamata handball play
Eric Nizeyimana's document 2006 from gicumbi to ttc nyamata handball play
enizeyimana36
 
ACEP Magazine edition 4th launched on 05.06.2024
ACEP Magazine edition 4th launched on 05.06.2024ACEP Magazine edition 4th launched on 05.06.2024
ACEP Magazine edition 4th launched on 05.06.2024
Rahul
 
Harnessing WebAssembly for Real-time Stateless Streaming Pipelines
Harnessing WebAssembly for Real-time Stateless Streaming PipelinesHarnessing WebAssembly for Real-time Stateless Streaming Pipelines
Harnessing WebAssembly for Real-time Stateless Streaming Pipelines
Christina Lin
 
TIME DIVISION MULTIPLEXING TECHNIQUE FOR COMMUNICATION SYSTEM
TIME DIVISION MULTIPLEXING TECHNIQUE FOR COMMUNICATION SYSTEMTIME DIVISION MULTIPLEXING TECHNIQUE FOR COMMUNICATION SYSTEM
TIME DIVISION MULTIPLEXING TECHNIQUE FOR COMMUNICATION SYSTEM
HODECEDSIET
 
ISPM 15 Heat Treated Wood Stamps and why your shipping must have one
ISPM 15 Heat Treated Wood Stamps and why your shipping must have oneISPM 15 Heat Treated Wood Stamps and why your shipping must have one
ISPM 15 Heat Treated Wood Stamps and why your shipping must have one
Las Vegas Warehouse
 
Casting-Defect-inSlab continuous casting.pdf
Casting-Defect-inSlab continuous casting.pdfCasting-Defect-inSlab continuous casting.pdf
Casting-Defect-inSlab continuous casting.pdf
zubairahmad848137
 
Question paper of renewable energy sources
Question paper of renewable energy sourcesQuestion paper of renewable energy sources
Question paper of renewable energy sources
mahammadsalmanmech
 
BPV-GUI-01-Guide-for-ASME-Review-Teams-(General)-10-10-2023.pdf
BPV-GUI-01-Guide-for-ASME-Review-Teams-(General)-10-10-2023.pdfBPV-GUI-01-Guide-for-ASME-Review-Teams-(General)-10-10-2023.pdf
BPV-GUI-01-Guide-for-ASME-Review-Teams-(General)-10-10-2023.pdf
MIGUELANGEL966976
 
CSM Cloud Service Management Presentarion
CSM Cloud Service Management PresentarionCSM Cloud Service Management Presentarion
CSM Cloud Service Management Presentarion
rpskprasana
 

Recently uploaded (20)

New techniques for characterising damage in rock slopes.pdf
New techniques for characterising damage in rock slopes.pdfNew techniques for characterising damage in rock slopes.pdf
New techniques for characterising damage in rock slopes.pdf
 
The Python for beginners. This is an advance computer language.
The Python for beginners. This is an advance computer language.The Python for beginners. This is an advance computer language.
The Python for beginners. This is an advance computer language.
 
Engineering Drawings Lecture Detail Drawings 2014.pdf
Engineering Drawings Lecture Detail Drawings 2014.pdfEngineering Drawings Lecture Detail Drawings 2014.pdf
Engineering Drawings Lecture Detail Drawings 2014.pdf
 
International Conference on NLP, Artificial Intelligence, Machine Learning an...
International Conference on NLP, Artificial Intelligence, Machine Learning an...International Conference on NLP, Artificial Intelligence, Machine Learning an...
International Conference on NLP, Artificial Intelligence, Machine Learning an...
 
Properties Railway Sleepers and Test.pptx
Properties Railway Sleepers and Test.pptxProperties Railway Sleepers and Test.pptx
Properties Railway Sleepers and Test.pptx
 
Optimizing Gradle Builds - Gradle DPE Tour Berlin 2024
Optimizing Gradle Builds - Gradle DPE Tour Berlin 2024Optimizing Gradle Builds - Gradle DPE Tour Berlin 2024
Optimizing Gradle Builds - Gradle DPE Tour Berlin 2024
 
Understanding Inductive Bias in Machine Learning
Understanding Inductive Bias in Machine LearningUnderstanding Inductive Bias in Machine Learning
Understanding Inductive Bias in Machine Learning
 
Redefining brain tumor segmentation: a cutting-edge convolutional neural netw...
Redefining brain tumor segmentation: a cutting-edge convolutional neural netw...Redefining brain tumor segmentation: a cutting-edge convolutional neural netw...
Redefining brain tumor segmentation: a cutting-edge convolutional neural netw...
 
22CYT12-Unit-V-E Waste and its Management.ppt
22CYT12-Unit-V-E Waste and its Management.ppt22CYT12-Unit-V-E Waste and its Management.ppt
22CYT12-Unit-V-E Waste and its Management.ppt
 
IEEE Aerospace and Electronic Systems Society as a Graduate Student Member
IEEE Aerospace and Electronic Systems Society as a Graduate Student MemberIEEE Aerospace and Electronic Systems Society as a Graduate Student Member
IEEE Aerospace and Electronic Systems Society as a Graduate Student Member
 
Modelagem de um CSTR com reação endotermica.pdf
Modelagem de um CSTR com reação endotermica.pdfModelagem de um CSTR com reação endotermica.pdf
Modelagem de um CSTR com reação endotermica.pdf
 
Eric Nizeyimana's document 2006 from gicumbi to ttc nyamata handball play
Eric Nizeyimana's document 2006 from gicumbi to ttc nyamata handball playEric Nizeyimana's document 2006 from gicumbi to ttc nyamata handball play
Eric Nizeyimana's document 2006 from gicumbi to ttc nyamata handball play
 
ACEP Magazine edition 4th launched on 05.06.2024
ACEP Magazine edition 4th launched on 05.06.2024ACEP Magazine edition 4th launched on 05.06.2024
ACEP Magazine edition 4th launched on 05.06.2024
 
Harnessing WebAssembly for Real-time Stateless Streaming Pipelines
Harnessing WebAssembly for Real-time Stateless Streaming PipelinesHarnessing WebAssembly for Real-time Stateless Streaming Pipelines
Harnessing WebAssembly for Real-time Stateless Streaming Pipelines
 
TIME DIVISION MULTIPLEXING TECHNIQUE FOR COMMUNICATION SYSTEM
TIME DIVISION MULTIPLEXING TECHNIQUE FOR COMMUNICATION SYSTEMTIME DIVISION MULTIPLEXING TECHNIQUE FOR COMMUNICATION SYSTEM
TIME DIVISION MULTIPLEXING TECHNIQUE FOR COMMUNICATION SYSTEM
 
ISPM 15 Heat Treated Wood Stamps and why your shipping must have one
ISPM 15 Heat Treated Wood Stamps and why your shipping must have oneISPM 15 Heat Treated Wood Stamps and why your shipping must have one
ISPM 15 Heat Treated Wood Stamps and why your shipping must have one
 
Casting-Defect-inSlab continuous casting.pdf
Casting-Defect-inSlab continuous casting.pdfCasting-Defect-inSlab continuous casting.pdf
Casting-Defect-inSlab continuous casting.pdf
 
Question paper of renewable energy sources
Question paper of renewable energy sourcesQuestion paper of renewable energy sources
Question paper of renewable energy sources
 
BPV-GUI-01-Guide-for-ASME-Review-Teams-(General)-10-10-2023.pdf
BPV-GUI-01-Guide-for-ASME-Review-Teams-(General)-10-10-2023.pdfBPV-GUI-01-Guide-for-ASME-Review-Teams-(General)-10-10-2023.pdf
BPV-GUI-01-Guide-for-ASME-Review-Teams-(General)-10-10-2023.pdf
 
CSM Cloud Service Management Presentarion
CSM Cloud Service Management PresentarionCSM Cloud Service Management Presentarion
CSM Cloud Service Management Presentarion
 

Texto estudiante etad01

  • 1. APUNTES DE ANÁLISIS ESTADÍSTICO DE DATOS ETAD01 INACAP Ciencias Básicas Vicerrectoría de Académica de Pregrado 2015
  • 2. 2 ÍNDICE UNIDAD 1 ....................................................................................................................................................................4 ANÁLISIS DE DATOS UNIVARIADOS..............................................................................................................4 UNIDAD 2 ..................................................................................................................................................................28 ANÁLISIS DE DATOS BIVARIADOS................................................................................................................28 UNIDAD 3 ..................................................................................................................................................................46 DISTRIBUCIÓN DE PROBABILIDAD NORMAL.........................................................................................46
  • 3. 3  PRESENTACIÓN Estimado Alumno y Alumna, te damos la más cordial bienvenida a Estadística y Probabilidad, asignatura lectiva del área formativa de Disciplinas Básicas, del área del conocimiento de Ciencias Básicas. Estadística y Probabilidad tiene el propósito de entregar la herramientas elementales para la caracterización de un conjunto de datos uni y bivariado, como también comprender el concepto de probabilidades y realizar inferencia bajo incertidumbre, mediante estrategias de clase expositiva, solución de ejercicios y problemas; además de, contribuir en la formación técnica de los alumnos, mediante el desarrollo de destrezas que mejoren su desempeño profesional. La asignatura se realizará, a partir de experiencias de aprendizajes que involucren metodologías principalmente deductivas, donde tu rol es activo y participativo, y el del docente un mediador. El presente texto, que INACAP pone a tu disposición, tiene los contenidos que sirven de base y apoyo a tus clases, y puede ser utilizado como material de consulta permanente. Confía en tus capacidades, te deseamos mucho éxito.
  • 4. 4 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS a necesidad de caracterizar y extraer información desde conjunto de datos, a generado el desarrollo de técnicas de clasificación y de resumen de conjuntos de datos, lo que a la larga se a traducido en la Estadística. El análisis estadístico tiene por objetivo encontrar propiedades, rasgos y relaciones estadísticas de todo tipo respecto a las variables investigadas, las cuales se derivan de tablas en las que se agrupan y clasifican los datos estadísticos en una investigación. El nálisis descriptivo univariado trabaja con datos de una sola variable o distribución de frecuencias y pretende determinar sus propiedades estadísticas. Este análisis proporciona medidas representatvas de la distribución, estadísticos de dispersión, medidas de asimetría, etc. El análisis estadístico, involucra muchos más aspectos que solo definir, calcular y representar en gráficos los datos, implica conocer la naturaleza de los datos y de esa forma la naturaleza de la información. Al enfrentar los problemas que dan origen al conocimiento estadístico, los investigadores utilizaron la intuición, la inventiva y la experimentación, elementos fundamentales de todo experimento, que en muchas ocaciones no son perceptibles en las fórmulas presentadas por los libros de textos. UNIDAD 1 ANÁLISIS DE DATOS UNIVARIADOS L El término Estadística deriva de la palabra en latin “status” que significa Estado. Los primeros usos de la estadística fue la compilación de datos y elaboración de gráficas para describir diversos aspectos de un estado o país.
  • 5. 5 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS PROGRAMA DE LA ASIGNATURA ETEP01 UNIDAD 1 ANÁLISIS DE DATOS UNIVARIADOS APRENDIZAJE ESPERADO Analiza información proveniente de tablas de frecuencias y gráficas para describir un fenómeno. CRITERIOS DE EVALUACIÓN  Clasifica diferentes tipos de variables que contenga un conjunto de observaciones.  Construye tablas de frecuencias y gráficas a partir de un conjunto de observaciones.  Analiza tablas de frecuencias y gráficas para determinar el comportamiento de un conjunto de observaciones. APRENDIZAJE ESPERADO Sintetiza información de un conjunto de datos aplicando las medidas de resumen. CRITERIOS DE EVALUACIÓN  Calcula medidas de tendencia central y las relaciona para definir el centro de un conjunto de datos.  Calcula medidas de dispersión, para describir la variabilidad de un conjunto de datos.  Compara conjuntos de datos mediante el uso de las medidas de resumen. APRENDIZAJE ESPERADO Caracteriza un conjunto de datos utilizando las medidas de posición relativa. CRITERIOS DE EVALUACIÓN  Calcula medidas de posición relativa para describir un conjunto de datos.  Representa gráficamente las medidas de posición mediante boxplot.  Relaciona medidas de posición para caracterizar un conjunto de datos.
  • 6. 6 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Introducción ¿Qué significa aprender Estadística? Habitualmente hablar de las estadísticas, trae a la mente gráfico y uorcentuales que, en muchas ocaciones no tienen mucho sentido si son descontextualizadas. Pero en general, la Estadística son una colección de herramientas que permiten realizar análisis y caracterización de conjunts de datos, que tal forma sería imposible de entender. La Estadística, entrega técnicas que permiten resumir la información que se mantiene oculta en los datos, es decir, extraer la información que el conjunto de datos entrega y no los datos por si solos. El principal objetivo que está detrás de las técnicas estadísticas, es resumir la información contenida en una colección de datos, de tal forma que que se pueda transformar en información valiosa para la toma de decisiones. Para lo anterior, existen variadas técnicas que facilitan ¿Por qué estudiar estadística? La estadística es básica es la investigación científica, dada la necesidad de manejar y tratar en ellas grandes catidades, progresivamente creciente, de datos. La rama de la estadística que trata sobre la descripción y análisis de un conjuntos de datos, sin pretender extender o generalizar sus resultados y conclusiones a poblaciones distintas o más amplias que aquella de donde proviene la información analizada recibe el nombre de “Estadística Descriptiva” Cuando este análisis descriptivo se centra en una variable, recibe el nombre de Analisis Univariado y si se estudian simultaneamente dos variables, se denomina Análisis Bivariado.    VARIABLES Y TABLAS  La ciencia de la Estadística en sus inicios también fue llamada fue aritmética política, pero fue hasta el siglo XIX cuando la estadística adquirió el significado de recolectar y clasificar datos, término que fue introducido por el militar británico sir John Sinclair (1754- 1835).
  • 7. 7 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Definiciones: Población: Es la colección de todos individuos, elementos u observaciones que poseen al menos una caracterísca común.  Muestra: Es una parte o subconjunto representativo de la población. Al proceso de obtener la muestra se llama Muestreo.  Parámetro: Es una medida de resumen que describe una característica de toda la población. Por ejemplo media de la población = μ (se lee mu)  Estadístico o estadígrafo: Es una medida de resumen que describe una característica de la muestra. Por ejemplo media de la muestra =𝑥̅.  Unidad de observación o muetreo: Es el elemento o individuo sobre el cual se mide la característica de interés.  Variable: Es una característica de la población que se va a investigar y que puede tomar dieferentes valores. 1.1 Clasificación de variables  Variables Cualitativas: Son variables cuyos valores son cualidades que represetan la población. Cualitativa nominas: las categorías de la variables no implican orden. Cualitativa ordinal: las categorías de la variables si implican orden.  Variables Cuantitativas: Surgen cuando se puede establecer cuánto o qué cantidad se posee de una determinada característica. Cuantitativa discreta: son aquellas que surgen por el procedimiento de conteo. Cuantitativa continua: surgen cuando se mide alguna característica. Cuanlitativas Cuantitativas Nominal Ordinal Discreta Continua    VARIABLES Y TABLAS 
  • 8. 8 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Problema 1: En los siguientes casos identifique: Población, Variable y Clasifique la variable: a) La empresa XX se desea estudiar el número de horas trabajadas por sus empleados. b) En una fábrica se desea estudiar el número de hijos por cada trabajador. c) En la municipalidad de Santiago se estudia las marcas de automóviles que tienen su patente obtenida en dicha Municipalidad. d) En una Universidad se estudia las carreras que los alumnos siguen. e) En un sindicato se desea estudiar el nivel de educación que tienen sus afiliados. Solución: Letra Población Variable Clasificación a Todos los trabajadores de la empresa XX Horas trabajadas Cuantitativa continua b Todos los trabajadores de la fábrica Número de hijos Cauntitativa discreta c Todos los autos con patente en la municipalidad de Santiago Marca del auto Cualitativa nominal d Todos los afiliados al sindicato Nivel de educación Cualitativa ordinal    VARIABLES Y TABLAS 
  • 9. 9 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 1.2 Tablas de distribución de frecuencias. La información se resume en un cuadro o tabla que detalla las categorías de una variable con sus correspondientes frecuencias. Es sinónimo de distribución de frecuencias. Clases 𝑥𝑖 Frecuencia Absoluta (𝑛𝑖) Frecuencia relativa (ℎ𝑖) Frecuencia Absoluta Acumulada Frecuencia relativa acumulada 𝑥1 𝑛1 ℎ1 𝑁1 𝐻1 … … … … … 𝑥𝑚 𝑛𝑚 ℎ𝑚 𝑁𝑚 1 Total 𝑁 1 𝑥𝑖 : marca de clase, se calcula promediando los límites del intervalo o clase. 𝑛𝑖: Se llama frecuencia absoluta, es el número de veces que aparece la categoría i- ésima en el total de datos (𝑁). ℎ𝑖 : Se llama frecuencia relativa, corresponde a la proporción que aparece la categoría i-ésima en el total de datos (𝑁). Se calcula de la siguiente forma: ℎ𝑖 = 𝑛𝑖 𝑁 𝑁𝑖: Se llama frecuencia absoluta acumulada “menor que”, se obtine sumando en orden descendente la columna de frecuencia absoluta. 𝐻𝑖: Se llama frecuencia relativa acumula “menor que”, se obtiene sumando en orden descendente la columna de frecuencia relativa. Problema 2: En la tabla de frecuencias que se da a continuación faltan algunos datos complétela. Variable 𝑥𝑖 𝑁𝑖 20 – 24 0,10 24 – 28 0,25 - 32 11 0,55 32 - 0,85 - 40 1,00 Complete en cuadro. i n i h i H       VARIABLES Y TABLAS 
  • 10. 10 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Solución: calcular la marca de clase del intervalo: 𝑥𝑖 = 𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑙í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 2 Para obtener el total de datos, usar la frecuencias acumuladas (𝑁3 y 𝐻3) 𝐻3 = 𝑁3 𝑛 ⇒ 0,55 = 11 𝑛 ⇒ 𝑛 = 20 1.3 Medidas de Tendencia Central. Esta medidas deben su nombre al hecho de que sus valores tienden a ocupar posiciones centrales o intermedios entre el menor y mayor valor del conjunto de datos, es decir entregan información sobre el centro de la distribución. Los más usados:  Media o Promedio. Es el punto de equilibrio de la distribución. Se calcula sumando todas la observaciones de una serie de datos y luego dividiendo el total entre el número de elementos involucrados.  Mediana: es el valor medio de una secuencia ordenada de datos. Esta medida de resumen no se ve afectada por ninguna observación extrema.  Moda: es aquel valor de la variable que presenta mayor frecuencia absoluta, es decir, aquel que más veces se repite. Puede darse el caso de que existan varios valores que presenten la máxima frecuencia absoluta, entonces se tendrá una distribución bimodal, trimodal, etc. Variable 𝑥𝑖 𝑁𝑖 20 – 24 22 2 0,10 2 0,10 24 – 28 26 3 0,15 5 0,25 28 – 36 30 6 0,30 11 0,55 32 – 36 34 6 0,30 17 0,85 36 – 40 38 3 0,15 20 1,00 i n i h i H       VARIABLES Y TABLAS 
  • 11. 11 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Problema 3: Los empleados de la empresa ALFA son sometidos a un test de habilidades, que otorga de 0 a 10 puntos. Los resultados obtenidos por un grupo de trabajadores de la empresa son los siguientes: 4 7 9 10 10 7 5 6 7 8 5 5 6 7 3 3 4 9 8 7 9 10 7 8 4 5 6 9 10 9 ¿Cuál es el puntaje máximo que obtuvo el 50% de los empleados? Solución: Como primer paso, se deben ordenar los datos de menor a mayor. 3 3 4 4 4 5 5 5 5 6 6 6 7 7 7 7 7 7 8 8 8 9 9 9 9 9 10 10 10 10 Como la cantidad de observaciones es par, se debe utilizar la fórmula: 𝑴𝒆 = 𝑿 ( 𝟑𝟎 𝟐 ) +𝑿 ( 𝟑𝟎 𝟐 +𝟏) 𝟐 = 𝑿(𝟏𝟓)+𝑿(𝟏𝟔) 𝟐 = 𝟕+𝟕 𝟐 = 𝟕
  • 12. 12 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Problema 4: Los siguientes datos corresponden a los trabajadores que se ausentaron de una fábrica en 55 días laborales. Días xi Trabajadores (ni) 0 – 4 2 5 4 – 8 6 15 8 – 12 10 16 12 – 16 14 8 16 – 20 18 3 20 – 24 22 7 a) Identifique y clasifique la variable. Solución: Días de ausencia: Cuantitativa continua. b) ¿Es el número días de ausencia promedio es mayor al número de días de ausencia mediano? Solución: 𝑋 ̅ = 2 ∗ 6 + 6 ∗ 15 + 10 ∗ 16 + 14 ∗ 8 + 18 ∗ 3 + 22 ∗ 7 55 = 10,58 [𝑑í𝑎𝑠] 𝑀𝑒 = 8 + [27,5 − 21] ∗ 4 16 = 9,625[𝑑í𝑎𝑠] Con lo anterior, se puede decir que la afirmación es correcta. c) ¿Cuál el el número de ausencias más frecuente? Solución: 𝑀𝑜 = 8 + ( 16 − 15 (16 − 15) + (16 − 8) ) ⋅ 4 = 8,44[𝑑í𝑎𝑠] El número de ausencias más frecuente es de 8,44 días.    ANALISIS DE DATOS UNIVARIADOS 
  • 13. 13 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Problema 5: La información de la tabla presenta la distribución del sueldo de un grupo de Ingenieros Civiles industriales, en miles de pesos, con más de 3 años de experiencia laboral y su calsificación según sexo. Sueldo mensual[M$] xi Masculino Femenino 800 – 1100 950 1 3 1100 – 1400 1250 7 5 1400 – 1700 1550 10 6 1700 – 2000 1850 8 4 Total 26 18 a) Identifique y clasifique la o las variables. Solución: X: Sueldo mensual en miles de pesos. Cuantitativa continua. Y: Sexo. Cualitativa nominal b) ¿Es posible afirmar que el ingreso medio mensual es superior en los varones? 𝑋 ̅ = 950 ∗ 1 + 1250 ∗ 7 + 1550 ∗ 10 + 1850 ∗ 8 26 = 1538,46[𝑀$] 𝑌 ̅ = 950 ∗ 3 + 1250 ∗ 5 + 1550 ∗ 6 + 1850 ∗ 4 18 = 1433,33[𝑀$] El ingreso medio mensual de los varones es 1538,46 [M$], y el ingreso medio mensual de las mujeres es 1433,33[M$], por lo tanto la afirmación es verdadera.    ANALISIS DE DATOS UNIVARIADOS
  • 14. 14 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS c) Indique cuál es el sueldo máximo del 50% de los ingenieros? Para respoder esta pregunta se debe considerar la información sin separar por sexo. Sueldo mensual[M$] Ingenieros 800 – 1100 4 1100 – 1400 12 1400 – 1700 16 1700 – 2000 12 Total 44 Solución: 𝑀𝑒 = 1400 + (22 − 20) ⋅ 300 16 = 1437,5[𝑀$] El sueldo máximo del 50% de los ingenieros es de 1437,5 [M$]. 1.3 Medidas de Localización Corresponden a estadígrafos que dividen a los datos en porciones iguales y no sólo a la mitad como lo hace la mediana. Estas medidas reciben el nombre de Cuantiles. Los cuantiles más usados son: cuartiles, deciles y percentiles. Como los percentiles dividen al conjunto en 100 partes iguales, para el claculo de cualquier valor de cuantil usaremos sólo la fórmula de percentil.    ANALISIS DE DATOS UNIVARIADOS 
  • 15. 15 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Problema 6: Usando la información del ejercicio 5, determine: a) ¿Cuál es el ingreso máximo del 25% de los ingenieros varones? Solución: La expresión de percentil entrega el valor máximo para el porcentaje buscado, por lo tanto el ingreso máximo del 25% es: 𝑃25 = 1100 + [6,5 − 1] ⋅ 300 7 = 1335,71[𝑀$] Por lo tanto el ingreso máximo del 25% de los ingenieros varones es de 1335,71 [M$] b) ¿Cuál es el ingreso mínimo del 75% de los ingenieros varones que más ganan? Solución: Con apoyo de la resolución anterior. Si el ingreso máximo del 25% de los ingenieros varones, entonces este valor equivale al ingreso mínimo del porcentaje superior, que corresponde al 75% c) ¿Qué porcentaje de ingenieros varones recibe ingresos entre $950.000 y $1.200.000? Solución: 950 = 800 + [ 26 ∗ 𝑘1 100 − 0] ⋅ 300 1 ⇒ 𝑘1 = 1,92% 1200 = 1100 + [ 26 ∗ 𝑘2 100 − 1] ⋅ 300 7 ⇒ 𝑘2 = 12,82% 𝑘2 − 𝑘1 = 12,82 − 1,92 = 10,9% El 10.9% de los varones reciben ingresos entre $950.000 y $1.200.000.    ANALISIS DE DATOS UNIVARIADOS  25% 800 [M$] 2000 [M$]
  • 16. 16 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 1.4 Medidas de Variabilidad Miden la dispersión de los datos de una muestra, es decir mide cuán similares son los valores que conforman la distribución de datos. Dos conjunto de datos pueden tener la misma medida de tendencia central, pero ser muy diferentes, por ejemplo: se tienen dos conjunto de datos (medidos en cm). a. 9-10-11-12-13-14-15. b. 6-8-10-12-14-16-18. En ambas conjuntos el promedio es de 12 cm y la mediana de 12 cm. A simple vista es posible darse cuenta que cada conjunto está formado por distintos valores, razón que hace tan importante la entrega de una medida de variabilidad al momento de describir un conjunto de datos. Acontinuación se detallan las más utilizadas:  Rango o recoerrido de la variable (R): Corresponde a la diferencia entre el valor máximo y mínimo del conjunto de datos.  Rango Intercuartílico (RI): Corresponde a la diferencia entre en Cuartil 3 y Cuartil 1, lo que equivale a la diferencia entre en percentil 75 y percentil 25, siendo interpretada como la dispersión del 50% central de la distribución de valores.  Varianza (𝜎2 ): Corresponde a la media de de los cuadrados de las desviaciones de los datos de una distribución respecto a su media.  Desviación Estándar (𝜎): Es simplemente la raíz cuadrada de la varianza, es muy conveniente usar esta medida de dispersión, ya que se encuentra en la misma dimensión en que están los datos.  Coeficiente de variación o coeficiente de variabilidad (C.V.): Medida de dispersión adimensional, lo que la hace adecuada para comparar en términos de variabilidad dos o más grupos de datos. Corresponde al número de veces en que se encuentra contenida la desviación estándar sobre la media.    ANALISIS DE DATOS UNIVARIADOS 
  • 17. 17 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Problema 7: En la última encuesta de opinión general, EOG, se consultó sobre qué puntuación le pondrían a las modificaciones que se desean realizar a la ley de IVA a la compra de viviendas nuevas, obteniéndose los siguientes resultados: Puntuación Frecuencia 0 – 20 40 20 – 40 35 40 – 60 15 60 – 80 5 80 – 100 5 Total 100 A partir de la información, calcule e interprete el Rango, Rango Intercuartílico, Varianza, Desviación Estándar y Coeficiente de Variabilidad. Solución:  Rango: 𝑅 = 100 − 0 = 100 [𝑃𝑢𝑛𝑡𝑜𝑠] La amplitud de los datos es de 100 puntos.  Rango Intercuartílico: 𝑄3 = 𝑃75 = 20 + [75 − 40] ∗ 20 35 = 40 [𝑝𝑢𝑛𝑡𝑜𝑠] 𝑄1 = 𝑃25 = 0 + [25 − 0] ∗ 20 40 = 12,5[𝑝𝑢𝑛𝑡𝑜𝑠] 𝑅𝐼 = 𝑄3 − 𝑄1 = 40 − 12,5 = 27,5[𝑝𝑢𝑛𝑡𝑜𝑠] Existe una diferencia de 27,5 puntos en el 50% central de la distribución.  Varianza: 𝜎2 = ∑ 𝑥𝑖 2 ∗ 𝑛𝑖 𝑁 − 𝜇2 𝜎2 = 102⋅40+302⋅35+502⋅15+702⋅5+902⋅5 100 − (30)2 = 480 [𝑝𝑢𝑛𝑡𝑜𝑠]2 La dispersión promedio de las puntuaciones en torno a la media de la distribución es de 480 [puntos]2 .    ANALISIS DE DATOS UNIVARIADOS 
  • 18. 18 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS  Desviación Estándar: 𝜎 = √480 = 21,91 [𝑝𝑢𝑛𝑡𝑜𝑠] La dispersión promedio de las puntuaciones en torno a la media de la distribución es de 21,91 [puntos].  Coeficiente de Variabilidad: 𝐶𝑉 = 𝜎 𝑥̅ ∗ 100 = 21,91 30 ∗ 100 = 73% La dispersión porcentual de las puntuaciones alcanza el 73%, esto indica que existe una alta dispersión en los datos. Problema 8: Suponga que se quieren comparar la dispersión existente entre los sueldos de los técnicos y profesionales de una empresa. Sueldo mensual [M$] Nº de técnicos (ni) nixi x2 i nix2 i 200 10 2000 40000 400000 250 10 2500 62500 625000 300 10 3000 90000 900000 Total 30 7500 1925000 Sueldo mensual [M$] Nº de profesionales (ni) nixi x2 i nix2 i 400 5 2000 160000 800000 500 10 5000 250000 2500000 600 5 3000 360000 1800000 Total 20 7500 5100000    ANALISIS DE DATOS UNIVARIADOS 
  • 19. 19 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Estadístico Técnicos Profesionales Recorrido 𝑅 = 300 − 200 = 100 𝑅 = 200 Rango Intercuartílico 𝑅𝐼 = 300 − 200 = 100 𝑅𝐼 = 150 Varianza 𝜎2 = 1925000 30 − (250)2 = 1666,67 𝜎2 = 5000 Desviación estándar 𝜎 = 40,82 𝜎 = 70,71 Coeficiente de Variabilidad 𝐶𝑉 = 40,82 250 ∗ 100 = 16,33% 𝐶𝑉 = 14,14% Solución: Notar que todas las medidas de dispersión absoluta son más altas en el grupo de los profesionales, antes de concluir que estos sueldos presentan mayor variabilidad hay que tener en cuenta que se están comparardo dos grupos diferentes, donde los sueldos son siempre mayores en los profesionales, por esta razón el coeficiente de variabilidad es una medida de variabilidad perfecta, ya que tiene en cuenta todos los valores de la variable y al no tener dimensión permite comparar la dispersión entre grupos, entonces se puede concluir que el grupo con mayor dispersión es el de los sueldos de los técnicos. Problema 9: Estado Civil de las personas que trabajan en “INACAP”. Realice una representación gráfica de las frecuencias absolutas y relativas. Estado Civil Frecuencia Absoluta Frecuencia Relativa Soltero 85 65,9% Casado 36 27,9% Divorciado 5 3,9% Viudo 3 2,3% Total 129 100%    ANALISIS DE DATOS UNIVARIADOS 
  • 20. 20 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS a) ¿Cuál es el estado civil que presenta mayor cantidad de personas? Solución: Son las personas solteras, hay 85 y es equivalente al 65,9% b) Realice una representación gráfica de la situación descrita por la tabla de frecuencias. Solución: Una gráfica de barras de la frecuencia absoluta es: También es posible representar gráficamente las frecuencias relativas, como sigue: Pensamiento crítico y conocimiento estadístico. ¿Cuál de las gráficas anteriores es más útil? En comparación, es más útil en el sentido de información la gráfica de las frecuencias absolutas. 0 20 40 60 80 100 85 36 5 3 Frecuencia absoluta 0% 10% 20% 30% 40% 50% 60% 70% Frecuencia relativa    ANALISIS DE DATOS UNIVARIADOS 
  • 21. 21 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Problema 10: Construcción de una tabla de frecuencias a partir de datos no agrupados. Los siguientes datos corresponden, a los datos obtenidos en una empresa en el turno vespertino, compuesto por trabajadores que prestan servicios a la empresa. Los datos se presentan en horas trabajadas en la semana. 14,0 8 18,4 16,6 20 15,6 18,4 17,6 26 12,2 17,6 19,4 19,8 21,6 24 15,6 15,8 15 12,2 20 10 22,4 9,4 13 17,4 16 16,8 12,6 18 10,5 18 17 19 16,6 15,5 11,2 21,8 19,6 12,8 18 a) Identifique y defina la población y la muestra. Solución: La población corresponde a todos los trabajadores de turno vespertino de la empresa y la muestra corresponde a los 40 trabajadores que fueron seleccionados. b) Identifique la unidad y la variable. Solución: La unidad es un trabajador y la variable es el número de horas trabajadas en el turno vespertino en una semana. c) Construya una tabla de distribución de frecuencias. Solución: Rango=26,0-8,0=18,0 𝑘 = 1 + 3,3 ⋅ 𝑙𝑜𝑔 (40) = 6,28 𝑙𝑢𝑒𝑔𝑜 𝑘 = 6 C=18,0/6=3,0 𝐸 = 8,0 + 6 ⋅ 3,0 − 26,0 − 0,1 = −0,1 por lo tanto se debe corregir. Entonces 𝐸 = 8,0 + 6 ⋅ 3,1 − 26,0 − 0,1 = 0,5 El límite inferior 1 es: I1=8,0-0,5/2=7,75 finalmente I1=7,8.    ANALISIS DE DATOS UNIVARIADOS 
  • 22. 22 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS LI LS 𝑛𝑖 ℎ𝑖 (%) 𝑁𝑖 𝐻𝑖 (%) 𝑥𝑖 7,8 10,8 4 10,0 4 10,0 9,3 10,9 13,9 6 15,0 10 25,0 12,4 14,0 17,0 11 27,5 21 52,5 15,5 17,1 20,1 14 35,0 35 87,5 18,6 20,2 23,2 3 7,5 38 95,0 21,7 23,3 26,3 2 5,0 40 100,0 24,8 Conteste las siguientes preguntas en referencia a la información proporcionada por la tabla de frecuencias. d) ¿Cuántos intervalos de clases son? Solución: 6 intervalos de clase. e) ¿Cuál de las clases contiene el 15% de las observaciones? Solución: La clase 2, que contiene los valores de horas trabajadas desde 10,9 hasta 13,9. f) ¿Cuál es la cantidad de horas más frecuente de trabajo? Solución: Existe un total de 14 observaciones en la clase 4 y valor que representa es 18,6 horas. g) ¿Qué valor acumula el 87,5% de las horas trabajadas? Solución: 20,1 horas trabajadas h) ¿Qué proporción de las observaciones se encuentra por sobre 23,2 horas trabajadas? Solución: Sólo la última clase que contiene el 5% de las observaciones de la muestra.    ANALISIS DE DATOS UNIVARIADOS 
  • 23. 23 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS i) ¿Qué porcentaje se observa entre 10,9 y 20,1 horas trabajadas? Solución: El 77,5%. j) Determine el promedio de horas trabajadas en la clase 4. Solución: 18,6 horas. k) Mediante una gráfica adecuada, caracterice la forma de la distribución. Solución: Problema 11: Construya el Box-plot para los datos del número de accidentes por año en una intersección muy transitada en los últimos 20 años. Los valores ordenados son: 32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51 Solución: Para construir el Box-plot, se requiere los cinco números, que son los siguientes: Estadígrafo Valor Mínimo (Xmin) 32 Primer cuartil (Q1) 41 Segundo cuartil (Q2) 43,5 Tercer cuartil (Q3) 46,5 Máximo (Xmax) 51    ANALISIS DE DATOS UNIVARIADOS  0 5 10 15 9,3 12,4 15,5 18,6 21,7 24,8 Frecuencia absoluta
  • 24. 24 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS Así, el Box-plot (gráfico de caja) que definido por, no existen valores extremos en la muestra: Gráfico de Statdisk Problemas Propuestos: 1. Consideremos la distribución de frecuencias de los 210 dispositivos en el control de calidad, distribuidos como lo muestra la siguiente tabla: Intervalo Marcas de clase Frecuencia Absoluta Frecuencia Absoluta Acumulada Frecuencia Relativa Frecuencia Relativa Acumulada 350 – 400 400 – 450 450 – 500 500 – 550 550 – 600 600 – 650 650 – 700 700 – 750 750 – 800 800 - 850 4 6 9 20 31 80 42 10 8 2 a) Completa la información de la tabla de frecuencias b) Dibuja en un gráfico, el histograma y el polígono de frecuencias. c) ¿Cuál es la cantidad de dispositivos entre 450-700? d) ¿Qué % de estos dispositivos se encuentran entre 550 y 750? e) ¿Qué % de estos dispositivos se encuentran acumulados hasta 650? f) ¿Qué valor representa la categoría de 750-800?    ANALISIS DE DATOS UNIVARIADOS 
  • 25. 25 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 2. La siguiente información corresponde a la población que puede sostener una conversación en inglés, según grupo de edad (censo 2012). Grupo de edad (años) Frecuencia Absoluta (ni) Frecuencia Relativa (pi) Frecuencia Absoluta Acumulada (Ni) Frecuencia Relativa Acumulada (Pi) Marca de Clase (Xi) 0-14 119638 15-29 664257 30-44 437453 45-59 220559 60-90 143120 Total a) ¿Cuál es el número de personas consideradas? b) ¿A qué rango de edad pertenece la mayor cantidad de personas y cuál es su porcentaje? c) Realiza una gráfica de barras de las frecuencias relativas. d) Realiza una gráfica de las frecuencias absolutas acumuladas. e) ¿Cuál es la edad promedio de personas que en mayor proporción pueden mantener una conversación en inglés? f) ¿Cuántas personas con 44 años o menos pueden mantener una conversación en inglés? g) ¿Cuántas personas con más de 59 años pueden mantener una conversación en inglés? ¿Cuál es su proporción? 3. Utilizando los datos del Variación mensual de ventas para una empresa de retail, con año base 2009, 0,09 0,20 0,42 0,62 0,11 0,21 0,43 0,66 0,12 0,25 0,43 0,69 0,13 0,26 0,44 0,80 0,14 0,28 0,47 0,81 0,14 0,30 0,51 0,83 0,15 0,36 0,52 0,86 0,15 0,36 0,52 0,86 0,16 0,36 0,54 0,99 0,19 0,36 0,55 a) Construye una tabla de frecuencias b) Determina el porcentaje de observaciones de la tercera clase c) ¿Cuál es la cantidad de datos contendidos hasta la cuarta categoría? d) ¿Cuál es el promedio de la clase dos? e) Defina el porcentaje de datos menores o iguales a una tasa de variación de 0,70.
  • 26. 26 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 4. Su firma está introduciendo un nuevo chip de computador del cual se promociona que realiza cálculos estadísticos mucho más rápidamente que los que actualmente se encuentran en el mercado. Se hacen veinte cálculos diferentes, produciendo los tiempos en segundos que se ven más adelante. Aunque usted no puede tergiversar su producto, usted desea presentar los resultados de la manera más favorable para su empresa. Determine la media, la mediana y la moda. Además, calcule la desviación estándar y los valores comunes utilizando la regla empírica. 3,2 4,1 6,3 1,9 0,6 5,4 5,2 3,2 4,9 6,2 1,8 1,7 3,6 1,5 2,6 4,3 6,1 2,4 2,2 3,3 5. Una empresa grande de equipos deportivos está probando el efecto de dos planes publicitarios sobre las ventas de los últimos 4 meses. Dadas las ventas que se ven aquí, ¿cuál programa de publicidad parece producir el crecimiento promedio más alto en ventas mensuales? Mes Plan 1 Plan 2 Enero 1.657.000 4.735.000 Febrero 1.998.000 5.012.000 Marzo 2.267.000 5.479.000 Abril 3.432.000 5.589.000 6. Pensamiento crítico y medidas de tendencia central. Para cada uno de los siguientes ejercicios podemos calcular medidas de tendencia central como la media y la mediana. Identifique una razón importante por la que, en estos casos, la media y la mediana no son estadísticos que puedan servir de manera precisa y efectiva como medidas de tendencia central.  Códigos postales: 12601; 90210; 02116; 76177; 19102  Clasificaciones de los niveles de estrés de distintos empleos: 1; 2; 3; 7; 9  Los sujetos encuestados se codifican de la siguiente manera según la preferencia de club: 1 (U. de Chile), 2 (U. Católica), 3 (Colo-colo), 4 (Palestino) o 5 (U. Española). 7. Exactitud del pronóstico del clima. En un análisis de la exactitud del pronóstico del clima se comparan las temperaturas máximas reales con las temperaturas máximas pronosticadas un día anterior y con las temperaturas máximas pronosticadas cinco días antes. Más abajo se señalan los errores entre las temperaturas pronosticadas y las temperaturas máximas reales para días consecutivos en Santiago. ¿La desviación estándar sugiere que las temperaturas pronosticadas un día antes son más exactas que las pronosticadas cinco días antes, como se esperaría? (real) — (pronosticada un día antes) 2 2 0 0 -3 -3 1 -2 8 1 0 -1 0 1 (real) — (pronosticada cinco días antes) 0 -3 2 5 -6 -9 4 -1 6 -2 -2 -1 6 -4
  • 27. 27 UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 8. Los datos financieros con frecuencia están contenidos en un gráfico de máximos - mínimos y al cierre. Como su nombre lo indica, muestra el valor más alto, el valor más bajo y el valor al cierre de los instrumentos financieros como por ejemplo las acciones. Los datos tomados de The Wall Street Journal para el índice Dow Jones respecto a 15 acciones durante un período de cinco días con base en los siguientes datos, compare los valores máximos mínimos y de cierre utilizando elementos estadísticos de tendencia central y variabilidad, además de la regla empírica. Día Máximos Mínimos Cierre 1 181,07 178,17 178,88 2 180,65 178,28 179,11 3 180,24 178,17 179,35 4 182,79 179,82 181,37 5 182,14 179,53 181,31 9. Para ilustrar el cálculo de percentiles, se asume que se tienen observaciones para el número de acciones correspondientes a 50 acciones transadas en la Bolsa de Valores de Santiago, como se muestra en la tabla. Se desea calcular los cuartiles del conjunto de datos. 3 10 19 27 34 38 48 56 67 74 4 12 20 29 34 39 48 59 67 74 7 14 21 31 36 43 52 62 69 76 9 15 25 31 37 45 53 63 72 79 10 17 27 34 38 47 56 64 73 80 10. La siguiente tabla muestra la distribución de frecuencia de los sueldos (en miles de pesos) que reciben 150 empleados en una empresa. Clases ni 120 – 160 20 160 – 200 30 200 – 240 50 240 – 280 30 280 – 320 20 Calcule el promedio, la mediana y la moda de los sueldos de los trabajadores de esta empresa.
  • 28. 28 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS n todo proceso de análisis, las variables cumplen un papel fundamental en el momento de realizar un análisis, puesto que la cantidad de variables en análisis condiciona, de alguna forma, las herramientas estadísticas a utilizar, un caso particular es el Análisis Bivariado, esto ocurre cuando dos variables de interés son observadas conjuntamente para el mismo grupo de elementos en estudio. En general, el análisis bivariado no difiere significativamente al análisis univariado, la diferencias fundamentales son en la cantidad de información contenida en los datos. UNIDAD 2 ANÁLISIS DE DATOS BIVARIADOS E
  • 29. 29 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS PROGRAMA DE LA ASIGNATURA ETEP01 UNIDAD 2 ANÁLISIS DE DATOS BIVARIADOS APRENDIZAJE ESPERADO Utiliza tablas bivariadas para describir la distribución de un conjunto de observaciones. CRITERIOS DE EVALUACIÓN  Realiza tablas de doble entrada utilizando distintos tipos de variables para su análisis.  Calcula distribuciones de frecuencias marginales y condicionales para describir las variables.  Aplica análisis conjunto de las variables para caracterizar su comportamiento simultáneo. APRENDIZAJE ESPERADO Evalúa el grado de asociación entre dos variables mediante el coeficiente y el análisis gráfico. CRITERIOS DE EVALUACIÓN  Construye graficas de dispersión para presentar la relación entre variables.  Estima el grado de asociación entre dos variables en base a gráfico de dispersión.  Determina e interpreta de coeficiente de correlación lineal para estimar el grado de asociación entre variables. APRENDIZAJE ESPERADO Establece el comportamiento entre dos variables por medio de un modelo estadístico de regresión. CRITERIOS DE EVALUACIÓN  Determina componentes del modelo de regresión mediante el método de mínimos cuadrados.  Interpreta los coeficientes de regresión y la variación explicada por el modelo.  Analiza predicciones y residuos en un análisis posterior a los datos.
  • 30. 30 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS Introducción En muchas ocasiones el interés del investigador es estudiar simultaneamente dos caráterísticas o variables medidas en cada individuo o elemento. Por ejemplo medir estatura y peso en cada trabajador de una empresa. Expresando la variable estatura con la letra x y el peso con la letra y, por lo tanto se tendrán tantos pares de datos (x,y) como trabajadores tenga la empresa. En esta unidad se estudian pares de variables de tipo cuantitativas. Tablas Estadísticas Bidimensionales: tablas de doble entrada. La primera columna detalla frecuentemente la variable x y la primera fila detalla la variable y. Estructura de una Tabla Bidimensional con Frecuencias Absolutas: XY yi … yl ∑ 𝑛𝑖𝑗 = 𝑛𝑖. 𝑙 𝑗=1 x1 n11 … n1l n.1 x2 n21 … n2l n.2 … … xk nk1 … nkl n.k = ∑ 𝑛𝑖𝑗 = 𝑛.𝑗 𝑘 𝑖=1 n.1 … n.l ∑ ∑ 𝑛𝑖𝑗 = 𝑛 𝑙 𝑗=1 𝑘 𝑖=1 Para representar las frecuencias absoluta acumulada, frecuencia relativa y relativa acumuladas se debe construir una tabla por separado por cada una de ellas. Distribuciones marginales: Corresponde a la representación de cada variable en tablas unidimensionales y se obtiene con la suma de las filas o columnas para las respectivas variables.    ANALISIS DE DATOS UNIVARIADOS 
  • 31. 31 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS Otro aspecto interesante del análisis bivariado, es que es posible determinar el tipo y nivel de relación entre las variables, esto se puede realizar al considerar una relación lineal entre las variables en estudio. Definiciones:  Coeficiente de Correlación Lineal de Pearson. 𝑟𝑋𝑌 = 𝑆𝑋𝑌 √𝑆𝑋𝑋 ⋅ 𝑆𝑌𝑌 𝑆𝑋𝑌 = ∑ 𝑥𝑖𝑦𝑖 𝑛 𝑖=1 − 𝑛 ⋅ 𝑋 ̅ ⋅ 𝑌 ̅ 𝑆𝑋𝑋 = ∑ 𝑥𝑖 2 𝑛 𝑖=1 − 𝑛 ⋅ 𝑋 ̅2 𝑆𝑌𝑌 = ∑ 𝑦𝑖 2 𝑛 𝑖=1 − 𝑛 ⋅ 𝑌 ̅2  El modelo de regresión lineal estimado es: 𝑦 ̂ = 𝛽 ̂0 + 𝛽 ̂1 ⋅ 𝑥. 𝛽 ̂0 = 𝑌 ̅ − 𝛽 ̂1 ⋅ 𝑋 ̅ 𝛽 ̂1 = 𝑆𝑋𝑌 𝑆𝑋𝑋  El coeficiente de correlación lineal cumple que −1 ≤ 𝑟𝑋𝑌 ≤ 1.  También se define el coeficiente de determinación 𝑅2 = (𝑟𝑋𝑌)2 .    ANALISIS DE DATOS UNIVARIADOS 
  • 32. 32 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS Problema 1: Un examen de ingreso a la una universidad está compuesto de dos partes. El puntaje obtenido por un grupo de estudiantes se detalla en la tabla adjunta. Sea X el puntaje obtenido en la primera parte e Y el puntaje obtenido en la segunda parte. Y 0 5 10 15 X 0 2 6 2 10 5 4 15 20 10 10 1 15 14 1 a)Determine las distribuciones marginales de X e Y. Solución: b) ¿En qué parte del examen los estudiantes obtuvieron mayor puntaje medio? 𝑋 ̅ = 0 ⋅ 20 + 5 ⋅ 49 + 10 ⋅ 31 100 = 5,55[𝑝𝑢𝑛𝑡𝑜𝑠] 𝑌 ̅ = 0 ⋅ 7 + 5 ⋅ 36 + 10 ⋅ 36 + 15 ⋅ 21 100 = 8,55[𝑝𝑢𝑛𝑡𝑜𝑠] La parte Y obtuvo mayor puntaje medio. c)Para aquellos estudiantes que obtuvieron 5 puntos en la parte X, ¿cuál es la media en la parte Y? Solución: Puntaje (𝑌|𝑥 = 5) Frecuencia 0 4 5 15 10 20 15 10 Total 49 𝑌 ̅𝑥=5 = 0 ∗ 4 + 5 ∗ 15 + 10 ∗ 20 + 15 ∗ 10 49 = 8,67 [𝑝𝑢𝑛𝑡𝑜𝑠] El puntaje medio en la parte Y para aquellos estudiantes que obtuvieron en la parte X, 5 puntos fue de 8,67. Puntaje obtenido en la parte X Nº de estudiantes 0 7 5 36 10 36 15 21 Total 100 Puntaje obtenido en la parte X Nº de estudiantes 0 20 5 49 10 31 Total 100    ANALISIS DE DATOS UNIVARIADOS 
  • 33. 33 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS Problema 2: ¿Existirá relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica? Se midió el estado nutricional de 1000 niños de enseñanza básica, el que fue clasificado como "malo", "regular" "bueno". El rendimiento académico fue clasificado como “bajo el promedio” “promedio” o “sobre el promedio”. Estado Nutricional Malo Regular Bueno Total Rendimiento Académico Bajo 130 95 30 255 Promedio 120 450 35 605 Sobre 30 40 70 140 Total 280 585 135 1000 a)¿Cuál es la cantidad de los niños de enseñanza básica tienen un rendimiento académico promedio? Solución: Son 605 niños en la muestra b) ¿Qué cantidad de los niños de enseñanza básica tienen un estado nutricional regular? Solución: Son 585 niños en la muestra c)¿Qué cantidad de los niños de enseñanza básica tienen un rendimiento académico promedio y un estado nutricional bueno? Solución: Son 35 niños en la muestra    ANALISIS DE DATOS UNIVARIADOS   
  • 34. 34 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS d) Calcule el porcentaje de los niños de enseñanza básica tienen un rendimiento académico sobre el promedio Solución: Son 140 niños en la muestra de 1.000, entonces el porcentaje es: 140 1000 = 0,14 = 14% e) Determine el porcentaje de los niños de enseñanza básica tienen un estado nutricional malo? Solución: Son 30 niños en la muestra de 1.000, entonces el porcentaje es: 30 1000 = 0,03 = 3% f)¿Qué porcentaje de los niños de enseñanza básica que tienen un estado nutricional bueno están sobre el promedio en su rendimiento académico? Solución: Son 70 niños de 135 que tienen un estado nutricional bueno, entonces el porcentaje es: 70 135 = 0,519 = 51,9% g) Obtenga la distribución marginal del Estado Nutricional . Solución: Estado Nutricional Malo Regular Bueno TOTAL Frecuencia 280 585 135 1000 Frecuencia relativa 28% 58,5% 13,5% 100% h) Calcule la distribución marginal del Rendimiento Académico. Solución: Rendimiento Académico Bajo Promedio Sobre TOTAL Frecuencia 255 605 140 1000 Frecuencia relativa 25,5% 60,5% 14% 100%    ANALISIS DE DATOS UNIVARIADOS 
  • 35. 35 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS i) Obtenga la distribución condicional del rendimiento académico dado el estado nutricional, es decir que consideramos al rendimiento académico como respuesta al estado nutricional. Solución: Estado Nutricional Malo Regular Bueno Rendimiento Académico Bajo 130/280 95/585 30/135 Promedio 120/280 450/585 35/135 Sobre 30/280 40/585 70/135 Total 280/280 585/585 135 Luego: Estado Nutricional Malo Regular Bueno Rendimiento Académico Bajo 46,4% 16,2% 22,2% Promedio 42,9% 76,9% 25,9% Sobre 10,7% 6,8% 51,9% Total 100% 100% 100% Problema 3: En una empresa donde trabajan 54 personas, se ordenó en una tabla de doble entrada, la información referida al ingreso mensual y al tiempo de servicio en la empresa, Las variables definidas como sigue: 𝑋 = 𝑖𝑛𝑔𝑟𝑒𝑠𝑜 𝑚𝑒𝑛𝑠𝑢𝑎𝑙 (𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝑝𝑒𝑠𝑜𝑠) e 𝑌 = 𝑡𝑖𝑒𝑚𝑝𝑜 𝑑𝑒 𝑠𝑒𝑟𝑣𝑖𝑐𝑖𝑜 𝑒𝑛 𝑙𝑎 𝑒𝑚𝑝𝑟𝑒𝑠𝑎 (𝑎ñ𝑜𝑠) Tabla: ingreso y tiempo de servicio Tiempo de Servicio 0-4 4-8 8-12 Ingreso Mensual 300-340 6 4 2 340-480 3 6 4 480-620 2 8 6 620-960 1 2 10
  • 36. 36 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS a) ¿Cuál es la cantidad de personas que llevan 4-8 años en la empresa y que tienen un ingreso mensual de 480-620? Solución: Son 8 personas b) ¿Cuál es el porcentaje de personas que tienen un tiempo de servicio entre 0-4 años y su ingreso mensual está entre 620-960? ¿Qué porcentaje representa de los empleados? Solución: Es 1 persona de 54 personas empleadas, entonces el porcentaje es: 1 54 = 0,0185 = 1,85% c) Obtenga la Media marginal del Ingreso Mensual. Solución: Para Obtener la media marginal de la variable Ingreso Mensual, es necesario conocer la distribución marginal, luego esta es: Estado Nutricional 300-340 340-480 480-620 620-960 TOTAL Marca de Clase 320 410 550 790 Frecuencia 12 13 16 13 54 En base a la información proporcionada por la distribución marginal, se calcula la media marginal, como sigue: 𝑀𝑒𝑑𝑖𝑎 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 = 𝑥̅ = 12∗320+⋯+13∗790 54 = 523 (Miles de pesos) Entonces, el ingreso promedio es de $523.000.- para el conjunto de datos. Observación: Así también, se puede calcular la media marginal de la variable tiempo de servicio, replicando el procedimiento anterior. d) Calcule la Varianza marginal de la variable Ingreso Mensual: Solución: La varianza cuantifica la variabilidad de un conjunto de datos, su obtención se basa en la información proporcionada por los datos de la frecuencia marginal. 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 = 𝑆2 = 12∗(320−523)2+⋯+13∗(790−523)2 54−1 = 30.168 (Miles de pesos)2
  • 37. 37 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS Debido a que la unidad de los datos está al cuadrado no es posible interpretar de manera directa con el promedio, luego, la desviación estándar marginal de los ingresos mensuales es: 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 = 𝑆 = √30.168 = 173,689 ≈ 174 (Miles de pesos) e) ¿Cuál es la variación conjunta de las variables? Solución: Para definir la variación conjunta, se obtiene la covarianza (𝐶𝑂𝑉(𝑥, 𝑦)) Tiempo de Servicio Marcas de Clase 2 6 10 Ingreso Mensual 320 6 4 2 410 3 6 4 550 2 8 6 790 1 2 10 𝐶𝑂𝑉(𝑥, 𝑦) = 320 ∗ 2 ∗ 6 + ⋯ + 790 ∗ 10 ∗ 10 54 − 523,0 ∗ 6,7 = 237,8 Esto es la variación conjunta de las variables Ingreso Mensual y Tiempo de servicio. Podemos mencionar que las variables 𝑥 e 𝑦 tiende a moverse en la misma dirección, es decir existe una relación positiva. Problema 4: Un docente de la asignatura de estadística desea relacionar los resultados obtenidos en la prueba 1 y los resultados alcanzados en el examen, para lo cual cuenta con la siguiente información de sus estudiantes: Su pregunta es ¿Existe correlación entre los resultados de la prueba 1 y el examen? Solución: El primer indicador es una referencia gráfica, a Continuación se presenta el Gráfico de Dispersión de Notas en la Prueba 1 (X) versus Notas el Examen (Y) del curso de 25 alumnos. ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 P1 1,7 3,8 5,1 5,6 5,0 5,7 2,1 3,7 3,8 4,1 3,4 4,4 6,8 5,1 4,3 6,2 5,9 5,4 4,1 6,2 5,2 4,6 4,9 5,9 5,5 Ex 3,5 3,2 3,5 5,2 4,9 3,7 3,6 4,5 4,0 3,6 4,4 3,3 5,5 3,9 4,6 5,7 4,3 4,1 5,0 3,8 4,4 4,0 4,5 3,4 4,5
  • 38. 38 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS La gráfica presenta una correlación positiva (ascendente) leve entre las notas obtenidas en la prueba 1 y el examen, por otra parte para determinar el grado de asociación entre dos variables se utiliza el coeficiente de correlación de Pearson, denotado por “r”, en este caso su valor es: Coeficiente de correlación 𝑟 = 0,407 El cual es consistente a la información gráfica, lo que señala finalmente que existe una correlación positiva y leve entre ambas variables analizadas. Problema 5: Las estaturas y pesos de los 10 jugadores de baloncesto de la Universidad Tecnológica De Chile, Inacap son: Estatura (x) 186 189 190 192 193 193 198 201 203 205 Pesos (y) 85 85 86 90 87 91 93 103 100 101 a) ¿Existe una correlación entre las estaturas y el peso? Solución: La gráfica de dispersión (scatterplot), entre la estatura y el peso es la siguiente:
  • 39. 39 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS La gráfica presenta una correlación positiva (ascendente) fuerte entre la estatura y el peso, el coeficiente de correlación de Pearson, 𝑟 = 0,944, es cercano a 1, lo que es considerado como alto o fuerte. b) La regresión lineal e identifique las variables (predictiva y respuesta) Solución: El modelo de regresión lineal para las variables: la estatura en centímetros (𝑥), que corresponde a la variable predictiva o independiente y el peso en kilogramos (𝑦), que es la variable respuesta o dependiente, es: 𝑦 = 𝑎 + 𝑏 ∗ 𝑥 Donde: 𝑎 = −107,139 𝑏 = 1,022 Luego el modelo es: 𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎 c) Calcule el peso estimado de un jugador que mide 208 cm. Solución: Para estimar el peso de un jugador que mide 208 cm, Se tiene que 𝑥 = 208, entonces: 𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 208 𝑃𝑒𝑠𝑜 = 105,4 El peso estimado es 105,4 Kg. d) La estatura estimada de un jugador que pesa 100 kg. Solución: Para estimar la estatura de un jugador que pesa 100 kg. Se tiene que 𝑦 = 100, entonces:
  • 40. 40 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 100 = −107,139 + 1,022 ∗ 𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎 Despejando, el resultado es: 𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎 = 202,7 La estatura estimada es 202,7 cm. e) El peso estimado de un jugador que mide 198 cm. ¿cuál es el residuo de la estimación? Solución: Para estimar el peso de un jugador que mide 198 cm, Se tiene que 𝑥 = 198, entonces: 𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 198 𝑃𝑒𝑠𝑜 = 95,2 El peso estimado es 97,4 Kg. La estimación del residuo o error: 𝑒 = 93 − 95,2 = −2,2 Esto significa que se estima un error de 2,2 kilogramos de sobrestimación. f) El peso estimado de un jugador que mide 201 cm. ¿cuál es el residuo de la estimación? Solución: Para estimar el peso de un jugador que mide 201 cm, Se tiene que 𝑥 = 201, entonces: 𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 201 𝑃𝑒𝑠𝑜 = 98,3 El peso estimado es 100,5 Kg. La estimación del residuo o error: 𝑒 = 103 − 98,3 = 4,7 Esto significa que se estima un error de 4,7 kilogramos de subestimación. Observación: las preguntas anteriores relejan los tipos de errores que se pueden estimar. g) Estime el peso de un jugador de una estatura “particular” para la talla de los jugadores, que mide 155 cm. ¿cuál es el residuo de la estimación? Solución: Para estimar el peso de un jugador que mide 155 cm, Se tiene que 𝑥 = 155, entonces: 𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 155 𝑃𝑒𝑠𝑜 = 51,3 El peso estimado es 51,3 Kg. La estimación del residuo o error: en esta situación no es posible afirmar que sea una buena estimación, debido a que el valor de la variable 𝑥, se encuentra fuera del ámbito de los valores obtenidos en la muestra.
  • 41. 41 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS h) Desarrollemos el análisis residual de nuestro modelo de regresión. Los datos considerados son los siguientes: Solución: Estatura (𝑥) 186 189 190 192 193 193 198 201 203 205 Pesos (𝑦) 85 85 86 90 87 91 93 103 100 101 Estimado (𝑦 ̂) 83,0 86,0 87,0 89,1 90,1 90,1 95,2 98,3 100,3 102,4 Residuo (𝑒) 2,0 -1,0 -1,0 0,9 -3,1 0,9 -2,2 4,7 -0,3 -1,4 En base a los datos de los errores es posible realizar su representación gráfica: Esta gráfica presenta una distribución uniforme de los errores o residuos, esto es un indicador de que el modelo es adecuado. i) Determinación de la variabilidad de los residuos, es error estándar de estimación, denotado 𝑆𝑒. Solución: Donde: 𝑆𝑒 = √ 2,02+⋯+(−1,4)2 =10−2 = √ 5,776 8 = 2,4 (kilogramos) Este valor señala que el error estándar de estimación del modelo es de 2,4 kilogramos. -4,0 -2,0 0,0 2,0 4,0 6,0 185 190 195 200 205 210 Residuos Residuos
  • 42. 42 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS Problemas Propuestos 1. Un grupo de investigadores, al estudiar la relación entre el tipo acción y la severidad de la variabilidad, reunió los datos de 1500 acciones, los cuales se presentan en la tabla de contingencia adjunta. Tipo de Acción A B C D Variabilidad Baja 543 211 90 476 Moderada 44 22 8 21 Severa 28 9 7 31 a) Calcule las distribuciones marginales. Interprete. b) ¿Cuál es el porcentaje de acciones con variabilidad baja del tipo A? c) ¿Cuál es el total de acciones que tienen una variabilidad severa, y su proporción de la muestra? d) ¿Cuál de las acciones es la más estable? e) Realice una representación gráfica de información proporcionada por la tabla 2. Una compañía aérea desea estudiar la relación entre el número de vuelos y la edad de sus pasajeros, consultó a sus pasajeros y recabó información resumida en la siguiente tabla. Número de vuelos por año 0-1 2-4 5-7 Edad 10-25 4 19 15 25-40 4 25 9 40-65 8 16 6 65-80 6 23 11 a) Determine las distribuciones marginales para las variables. b) ¿Qué porcentaje de las personas entre 40 y 65 años, toma entre 2-4 vuelos? c) ¿Cuál es el promedio de la variable edad? Y ¿Cuál es su variabilidad? d) ¿Qué valor tiene la media de los vuelos por años? e) Obtenga la Covarianza.
  • 43. 43 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 3. Interprete cada uno de los siguientes coeficientes de correlación y use gráficos de dispersión para representar como se vería cada una de las relaciones entre dos variables (x, y) cualesquiera: a) r = -1,0 b) r = 0,05 c) r = 0,85 d) r = -0,99 e) r = -0,03 4. Si el coeficiente de correlación para los datos de la tabla es 0,97, responda a las preguntas siguientes, primero sin realizar ningún cálculo y después, comprobar las respuestas haciendo los cálculos necesarios con su calculadora. X 2 3 4 5 6 Y 5 7 8 13 14 Revise los gráficos de dispersión correspondientes y responda cómo cambiaría este coeficiente si: a) Sumamos 3 a la variable X (cada valor) b) Sumamos 3 en ambas variables (cada valor) c) Multiplicamos la variable X por 2 (cada valor) d) Intercambiamos todos los valores de X por los de Y e) Cambiamos el último valor de X por el de Y f) Sumamos 10 a ambas variables pero sólo en el primer punto observado 5. Cada una de las frases siguientes contiene un error, explique en cada caso qué es lo que está mal. a) “Existe una alta correlación (r=0,32) entre el sexo de los trabajadores en Santiago y su salario” b) “Se encontró una alta correlación (r=1,09) entre las evaluaciones de los estudiantes a los profesores y los salarios de los académicos” c) “La correlación entre el tamaño familiar y los metros cuadrados del hogar es r=0,65 metros cuadrados” 6. La correlación lineal de X con Y es r = 0,60; la correlación de X con W es de r = -0,80. ¿Con cuál de las variables Y o W, es mayor el grado de asociación lineal? 7. En un curso de introducción a la estadística, un profesor hace dos exámenes. El profesor quiere determinar si los puntajes de los estudiantes en el segundo examen están correlacionados con los puntajes del primero. Para facilitar los cálculos, se elige una muestra de ocho estudiantes. Sus calificaciones aparecen en la siguiente tabla. Estudiante 1 2 3 4 5 6 7 8 Examen 1 60 75 70 72 54 83 80 65 Examen 2 60 100 80 68 73 97 85 90
  • 44. 44 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS a) Construya una gráfica de dispersión para estos datos, utilizando el puntaje del primer examen como la variable X. ¿Parece lineal la relación? b) Suponga que existe una relación lineal entre las calificaciones de los dos exámenes, calcule el valor r de Pearson. c) ¿Cuál es la variable explicativa y la variable respuesta? d) Construya un modelo de regresión lineal simple e) ¿Cuál es el puntaje estimado para el examen 2, si un estudiante logró 83 puntos en el examen 1? f) Obtenga el error (residuo) de la estimación de la pregunta anterior. ¿Qué tipo de error se produce? 8. A partir de los siguientes datos referentes a horas trabajadas en un taller y unidades producidas, determina: a) Grafica los datos, califique el gráfico según sus parámetros e infiera los resultados posibles del modelo y la correlación, b) La recta de regresión lineal de la producción sobre las horas. c) El coeficiente de correlación lineal e interpreta la respuesta. d) ¿Cuál es la proporción de variación de los resultados que puede explicarse por el modelo? e) Obtenga el error estándar de estimación del modelo e interprete su valor. Horas 80 79 83 84 78 60 82 85 79 84 80 62 Producción 300 302 315 330 300 250 300 340 315 330 310 240 9.Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país a partir de la relación de éstas y la renta nacional. Para investigar la relación cuenta con los siguientes datos: X 189 190 208 227 239 252 257 274 293 308 316 Y 402 404 412 425 429 436 440 447 458 469 469 X representa la renta nacional en miles de millones de pesos e Y representa las ventas las ventas de la compañía en miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive): a) La recta de regresión lineal, ¿Cuál es la variable explicativa y la variable respuesta? b) El coeficiente de correlación lineal e interpretación y el coeficiente de determinación. c) Si en 2001 la renta nacional del país fue de 325 miles de millones de pesos. ¿Cuál será la predicción (extrapolación) para las ventas de la compañía en este año? ¿Es confiable dicho valor? ¿cuál es su residuo? d) Obtén los errores producidos en las estimaciones, para cada una de las observaciones (datos). e) ¿El modelo calculado es representativo de los datos?
  • 45. 45 UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS ñ 10. Remítase a los datos de la siguiente tabla y analice los valores extremos, en base a las preguntas siguientes. (Efectos de un valor extremo) x 1 1 1 2 2 2 3 3 3 10 y 1 2 3 1 2 3 1 2 3 10 a) Examine el patrón de los 10 puntos y determine de forma subjetiva sí parece existir una correlación entre 𝑥 y 𝑦. b) Después de identificar los 10 pares de coordenadas correspondientes a los 10 puntos, calcule el valor del coeficiente de correlación r y determine si existe una correlación lineal. c) Ahora elimine el punto con las coordenadas (10, 10) y repita los incisos a) y b). ¿Qué concluye cerca del posible efecto de un solo par de valores? 11. Considere los siguientes conjuntos de datos. Desarrolle los siguientes puntos para cada uno de los casos: a) Construya una gráfica de dispersión b) Obtenga e interprete el coeficiente de correlación lineal c) Calcule el modelo de regresión d) Obtenga los errores y realice una gráfica de éstos. e) Calcule el error estándar de estimación f) Interprete de forma conjunta ambas graficas realizadas Caso 1 X 0 1 2 3 4 5 7 8 9 10 Y 1 4 8 18 19 24 36 43 42 47 Caso 2 X 0 1 2 3 4 5 7 8 9 10 Y 1 0 2 5 10 20 15 10 7 3 Caso 3 X 0 1 2 3 4 5 7 8 9 10 Y 0 6 9 15 10 35 15 60 75 20
  • 46. 46 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD a probabilidad, puede ser uno de los tópicos más interesantes para la caracterización de un conjunto de datos, puesto que permite medir la incerteza que se tiene respecto a un fenómeno de interés. UNIDAD 3 DISTRIBUCIÓN DE PROBABILIDAD NORMAL L
  • 47. 47 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD PROGRAMA DE LA ASIGNATURA ETEP01 UNIDAD 3 DISTRIBUCIONES DE PROBABILIDAD APRENDIZAJE ESPERADO Resuelve problemas aplicando los principios de probabilidades en problemas de aplicación CRITERIOS DE EVALUACIÓN  Utiliza propiedades para determinación de probabilidades en problemas de aplicación.  Construye la distribución de probabilidades para una variable aleatoria. APRENDIZAJE ESPERADO Describe el comportamiento de una variable aleatoria con distribución normal estándar. CRITERIOS DE EVALUACIÓN  Reconoce los parámetros de la distribución normal estándar.  Calcula probabilidades de una distribución normal estándar.  Obtiene e interpreta percentiles de una distribución normal estándar. APRENDIZAJE ESPERADO Aplica la distribución normal a resolución de problemas de la especialidad. CRITERIOS DE EVALUACIÓN  Estandariza una variable aleatoria normal para su aplicación a problemas.  Determina probabilidades y percentiles de una variable aleatoria mediante el uso de la distribución normal estandarizada.  Resuelve problemas de la especialidad a través del uso de la distribución normal.
  • 48. 48 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Introducción El concepto de probabilidad, aunque tiene suele ser utilizado con bastante frecuencia en distintas situaciones, no siempre es utilizado de forma adecuada. La medida de probabilidad permite medir el nivel de conocimiento o de incertidumbre que se tiene respecto a un fenómeno de interés, es decir, permite cuantificar qué tan seguros estamos que un determinado evento o fenómeno puede ocurrir (respectivamente no ocurrir).    PROBABILIDAD  Definiciones:  Ω: Espacio muestral, conjunto de todos los posibles resultados de un experimento.  𝐴 ⊆ Ω: Evento o fenómeno en Ω.  #Ω: cardinalidad de Ω,cantidad de elementos del conjunto.  𝑃(𝐴): Probabilidad de que ocurra el evento A. 𝑃(𝐴) = ⋕ A ⋕ Ω = 𝐶𝑎𝑠𝑜𝑠 𝑎 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐴 𝑐𝑎𝑠𝑜𝑠 𝑇𝑜𝑡𝑎𝑙𝑒𝑠 𝑑𝑒 Ω = 𝐶𝐹 𝐶𝑇  𝐶𝑘 𝑛 : Cantidad de formas de seleccionar 𝑘 elementos sin devolución desde un total de 𝑛, sin importar el orden en el cual son seleccionados. 𝐶𝑘 𝑛 = ( 𝑛 𝑘 ) = 𝑛! (𝑛 − 𝑘)! 𝑘!  𝑃𝑘 𝑛 : Cantidad de formas de seleccionar 𝑘 elementos sin devolución desde un total de 𝑛, cuando importar el orden en el cual son seleccionados. 𝑃𝑘 𝑛 = ( 𝑛 𝑘 ) 𝑘! = 𝑛! (𝑛 − 𝑘)!
  • 49. 49 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Además todas las propiedades de conjuntos son válidads en probabilidades.    PROBABILIDAD  Axiomas:  P(Ω) = 1  P(Ω𝑐) = P(ϕ) = 0  Sea un evento 𝐴 ⊆ Ω, entonces 0 ≤ 𝑃(𝐴) ≤ 1  Si 𝐴 ⊆ Ω, entonces 𝐴𝑐 ⊆ Ω, así 𝑃(𝐴𝑐) = 1 − 𝑃(𝐴)  Sean 𝐴, 𝐵 ⊆ Ω, entonces: 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) Definiciones:  Dos eventos 𝐴 y 𝐵 se dicen independientes estocásticamente si la ocurrencia de uno de ellos no afecta ni altera la ocurrencia del otro, y viceversa. 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)  Dos eventos 𝐴 y 𝐵 se dicen excluyentes si la ocurrencia de uno de ellos impide la ocurrencia del otro, y viceversa. 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵), 𝑃(𝐴 ∩ 𝐵) = 0  Dos eventos 𝐴 y 𝐵 se dicen dependientes si la ocurrencia de uno de ellos entrega información sobre la ocurrencia del otro, y viceversa. 𝑃(𝐴|𝐵) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) , 𝑠𝑖 𝑃(𝐵) > 0
  • 50. 50 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Teoremas:    PROBABILIDAD  Teorema de la Multiplicación: 𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑒𝑛 Ω, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃 (⋂ 𝐴𝑖 𝑛 𝑖=1 ) = { ∏ 𝑃(𝐴𝑖) 𝑛 𝑖=1 𝑠𝑖 𝑙𝑜𝑠 𝐴𝑖 ′ 𝑠𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠. 𝑃(𝐴1) ⋅ 𝑃(𝐴2|𝐴1) ⋅ 𝑃(𝐴3|𝐴1 ∩ 𝐴2) ⋯ 𝑃(𝐴𝑛| ⋂ 𝐴𝑖 𝑛−1 𝑖=1 ) Teorema de Probabilidades Totales: 𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 una partición disjunta y exhaustiva de Ω, y sea 𝐵 otro evento en Ω, entonces: 𝑃(𝐵) = ∑ 𝑃(𝐵|𝐴𝑖) ⋅ 𝑃(𝐴𝑖) 𝑛 𝑖=1 Teorema de Bayes: 𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 una partición disjunta y exhaustiva de Ω, entonces para cualquier otro evento 𝐵 en Ω, se tiene que: 𝑃(𝐴𝑖|𝐵) = 𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖) ∑ 𝑃(𝐵|𝐴𝑗) ⋅ 𝑃(𝐴𝑗) 𝑛 𝑗=1 , ∀ 𝑖 = 1, … , 𝑛.
  • 51. 51 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Problema 1: Se lanza una vez un dado cúbico con sus caras enumeradas del 1 al 6 y se observa la cara superior. a) Determine el espacio muestral del experimento. Solución: Ω = {1,2,3,4,5,6} b) Determine la probabilidad de que salga el 5. Solución: Sea el evento A = el dado muestra el número 5. P(A) = #A #Ω = 1 6 c) Determine la probabilidad que salga un número par. Solución: Sea el evento B = el dado muestra un número par. P(𝐵) = CF(B) 𝐶𝑇(Ω) = 3 6 = 1 2 d) Determine la probabilidad que salga un número mayor a 4. Solución: Sea el evento C = el dado muestra un número mayor a 4. P(𝐶) = CF(𝐶) 𝐶𝑇(Ω) = 2 6 = 1 3    PROBABILIDAD 
  • 52. 52 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Problema 2: Se tiene una moneda desbalanceada, con probabilidad de cara 1 3 y dos urnas, la urna A tiene 5 fichas blancas y 3 negras, la urna B tiene 3 fichas blancas y 5 negras. El experimento consiste en lanzar una vez la moneda al aire, si sale cara se selecciona una ficha al azar desde la urna A, en cambio si sale sello se selecciona al azar una ficha desde la urna B. a) Determine el espacio muestral del experimento. Solución: 𝑆𝑒𝑎𝑛 𝑙𝑜𝑠 𝑒𝑣𝑒𝑛𝑡𝑜𝑠: 𝐶: 𝑙𝑎 𝑚𝑜𝑛𝑒𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑐𝑎𝑟𝑎 𝑆: 𝑙𝑎 𝑚𝑜𝑛𝑒𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑠𝑒𝑙𝑙𝑜 𝐵: la ficha extraída es blanca 𝑁: la ficha extraída es negra Ω = {(𝐶, 𝐵), (𝐶, 𝑁), (𝑆, 𝐵), (𝑆, 𝑁)} b) Determine la probabilidad de que la ficha extraída sea blanca. Solución: P(B) = 1 3 ⋅ 5 8 + 2 3 ⋅ 3 8 = 11 24 c) Si la ficha extarída es de color negro, ¿Cuál es la probabilidad que la moneda haya mostrado sello? Solución: P(𝑆|𝑁) = P(N|S)P(S) 𝑃(𝑁) = 3 8 ⋅ 2 3 1 3 ⋅ 3 8 + 2 3 ⋅ 5 8 = 6 24 13 24 = 6 13    PROBABILIDAD  C S B N B N Una forma de representar el experimento, es mediante un árbol de probabilidades, en el cual se representan secuencialmente los eventos y sus respectivas probabilidades de ocurrencia.
  • 53. 53 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Problemas Propuestos 1. Demostrar que si dos eventos 𝐴 y 𝐵 son independientes, entonces 𝐴𝑐 y 𝐵𝑐 son independientes. 2. Una urna contiene cinco dados con sus caras de color blanco o rojo. El dado número 𝑖 (𝑖 = 1, … ,5) tiene 𝑖 de sus caras blancas y el resto rojas. Se selecciona al azar un dado de la urna, se lanza y sale cara roja. ¿Cuál es la probabilidad de que el dado seleccionado sea el 𝑖? 3. Una caja contiene 5 fichas blancas y 10 negras. Se lanza un dado y luego se extraen (sin reposición) de la caja tantas fichas como puntos se obtienen en el dado, a) ¿Cuál es la probabilidad de que exactamente dos de las fichas extraídas sean blancas? b) ¿Cuál es la probabilidad de que el dado muestre 3 si todas las fichas extraídas fueron blancas? 4. Una mano de póker consiste en cinco cartas seleccionadas sin reemplazo de una baraja de 52 (sin comodines). Determine la probabilidad de obtener las siguientes combinaciones: a) Escalera de color: las cinco cartas consecutivas y del mismo palo. b) Escalera de color real: escalera de color con el As como carta mayor, detrás de la K. c) Póker: cuatro cartas con la misma numeración. d) Póker de ases. e) Full: tres cartas con una numeración y las otras dos con otra. f) Escalera: las cinco cartas consecutivas (el As puede ir al comienzo o al final). g) Color: las cinco cartas del mismo palo. h) Dobles parejas. i) Trío. j) Pareja.    PROBABILIDAD 
  • 54. 54 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 5. Un banco ha comprobado que la probabilidad de que un cliente con fondos extienda un cheque con fecha equivocada es de 0,001. En cambio, todo cliente sin fondos pone una fecha errónea en sus cheques. El 90% de los clientes del banco tienen fondos. Se recibe hoy en caja un cheque con fecha equivocada. ¿Qué probabilidad hay de que sea de un cliente sin fondos? 6. Obtener la probabilidad 𝑝 de que al lanzar n veces dos dados se obtenga al menos un 6 doble. ¿Cuántas partidas habrá que jugar para que tengamos 𝑝 = 1/2 de obtener un 6 doble? 7. Problema de Galton. Se lanzan tres monedas al aire, ¿cuál es la probabilidad de que las tres sean caras o las tres cruces? 8. Una caja contiene ocho bolas rojas, tres blancas y nueve azules. Si se sacan tres bolas al azar, determinar la probabilidad de que: a) las tres sean rojas; b) las tres sean blancas; c) dos sean rojas y una blanca; d) al menos una sea blanca; e) sean una de cada color; f) salgan en el orden roja, blanca, azul.    PROBABILIDAD 
  • 55. 55 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Introducción En variados problemas, es posible definir una variable que represente el fenómeno de interés, ya sea que cuente la cantidad de caras al lanzar una moneda diez veces o que cuente la cantidad de automóviles que pasan por pórtico en una carretera.    VARIABLE ALEATORIA DISCRETA  Definición: Se dice que una variable aleatoria (v.a.) 𝑋 es discreta, si el conjunto de posibles resultados 𝐵 ∈ Ω (soporte), es un conjunto finito o infinito numerable, de tal forma que existe una función que asocia un número real con cada elemento del soporte. Definiciones:  Se denomina función de probabilidad o función de distribución de probabilidad de la variable aleatoria 𝑿, al conjunto de pares ordenados (𝑥, 𝑓(𝑥)) si se cumple: 1. 𝑓(𝑥) ≥ 0 ∀ 𝑥 ∈ 𝐵. 2. ∑ 𝑓(𝑥) 𝑥∈𝐵 = 1. 3. 𝑃(𝑋 = 𝑥) = 𝑓(𝑥).  Se denomina función de distribución acumulada 𝑭(𝒙) de la variable aleatoria 𝑿: 𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑓(𝑡) 𝑡≤𝑥 ∀ 𝑥 ∈ 𝐵.
  • 56. 56 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Problema 1: Se lanzar una moneda equilibrada tres veces y se observa la cantidad de caras que muestre la moneda. a) Construya la función de distribución de probabilidad para el número de caras. Solución: Sea 𝑋 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑎𝑠, entonces los valores posibles de la variable aleatoria son: 𝑋 = 0, 1, 2, 3 luego la distribución de probabilidad queda definida como: X: número de caras Espacio Muestral Probabilidad 0 (S,S,S) 1 8 1 (C,S,S); (S,C,S); (S,S,C) 3 8 2 (C,C,S); (C,S,C); (C,C,S) 3 8 3 (C,C,C) 1 8 Total 1    VARIABLE ALEATORIA DISCRETA  Definiciones:  Se define el Valor Esperado de la variable aleatoria 𝑋, como: 𝐸(𝑋) = ∑ 𝑥 ⋅ 𝑓(𝑥) 𝑥∈𝐵 .  Se define el Momento de orden 𝒌 de la variable aleatoria 𝑋, como: 𝐸(𝑋𝑘) = ∑ 𝑥𝑘 ⋅ 𝑓(𝑥) 𝑥∈𝐵 .  Se define la Varianza de la variable aleatoria 𝑋, como: 𝑉𝑎𝑟(𝑋) = 𝐸((𝑋 − 𝐸(𝑋) )2) = 𝐸(𝑋2) − 𝐸(𝑋)2 .
  • 57. 57 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD b) Obtener la media de la distribución. Solución: 𝐸(𝑋) = μ = 0 ( 1 8 ) + 1 ( 3 8 ) + 2 ( 3 8 ) + 3 ( 1 8 ) = 1,5 El resultado de la media o valor esperado es 1,5 caras, para el experimento aleatorio de lanzar tres veces una moneda. c) Calcular e interpretar la varianza y desviación estándar. Solución: 𝑉𝑎𝑟(𝑋) = 𝜎2 = [02 ( 1 8 ) + 12 ( 3 8 ) + 22 ( 3 8 ) + 32 ( 1 8 )] − 1,52 = 0,75 Luego, la desviación estándar es: 𝐷. 𝐸. (𝑋) = 𝜎 = √𝑉𝑎𝑟(𝑋) = √0,75 = 0,87 El valor de la desviación estándar es de 0,87 caras, lo cual nos indica que tan desviados están los valores alrededor de la media. d) Representar gráficamente la distribución. Solución: 0,00 0,10 0,20 0,30 0,40 0 1 2 3 Distribución de probabilidad    VARIABLE ALEATORIA DISCRETA 
  • 58. 58 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Problema 2: Se realizó un estudio para caracterizar el comportamiento de la cantidad de hijos por familia. La tabla siguiente, resume los resultados del estudio: Con la información de la tabla anterior, a) Determine el valor de la constante k para que la función sea una función de probabilidad. Solución: ∑ 𝑃(𝑋 = 𝑥) = 1 4 𝑥=0 ⟺ 0,10 + 𝑘 + 0,20 + 0,15 + 0,05 = 1 𝑘 = 1 − (0,10 + 0,20 + 0,15 + 0,05) = 0,50 b) ¿Cuál es la probabilidad que una familia tenga al menos 2 hijos? Solución: 𝑃(𝑋 ≥ 2) = 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3) + 𝑃(𝑋 = 4) = 0,20 + 0,15 + 0,05 = 0,4 El 40% de las familias tienen al menos 2 hijos. c) Determine la cantidad de hijos esperado por familia. Solución: 𝐸(𝑋) = 0 ⋅ 0,10 + 1 ⋅ 0,50 + 2 ⋅ 0,20 + 3 ⋅ 0,15 + 4 ⋅ 0,05 =1,55 La cantidad esperada de hijos por familia es de 1,55 ≈ 2. d) Determine la desviación estándar de la cantidad de hijos por familia. Solución: 𝐸(𝑋2) = 02 ⋅ 0,10 + 12 ⋅ 0,50 + 22 ⋅ 0,20 + 32 ⋅ 0,15 + 42 ⋅ 0,05 = 3,45 𝑉𝑎𝑟(𝑋) = 3,45 − 1,552 = 1,0475 ⟹ 𝜎 = √1,0475 = 1,02 La desviaciónestándar del número de hijos por familia es de 1,02. X 0 1 2 3 4 𝑃(𝑋 = 𝑥) 0,10 k 0,20 0,15 0,05    VARIABLE ALEATORIA DISCRETA 
  • 59. 59 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Problemas Propuestos 1. Estudiemos el modelo para el número de cuadernos en las mochilas de estudiantes. Sea X una variable aleatoria que representa el número de cuadernos que llevan los estudiantes de esta Universidad: X 0 1 2 3 𝑃(𝑋 = 𝑥) 0,5 0,2 0,2 0,1 a) Describir la forma de la distribución, de manera gráfica. b) ¿Qué proporción de estudiantes llevan 3 o menos libros? c) ¿Qué proporción de estudiantes llevan más de 2 libros? d) ¿Qué proporción de estudiantes llevan entre 2,1 y 2,8 libros? e) ¿Qué proporción de estudiantes llevan entre 1 y 2 libros (inclusive)? 2. En un estudio de reconocimiento de la marca Sony se entrevistaron grupos de cuatro consumidores. Si X es el número de personas en el grupo que reconocen la marca Sony entonces x puede ser 0, 1, 2, 3 o 4, y las probabilidades correspondientes son 0,0016; 0,0250; 0,1746; 0,3892 y 0,4096. ¿Será infrecuente seleccionar al azar a cuatro consumidores y descubrir que ninguno de ellos reconoce la marca Sony? ¿Cuál es la cantidad esperada de personas que reconocen la marca? 3. Determine si 𝑃(𝑋 = 𝑥) = 𝑥 10 con X= 1, 2, 3, 4 es una función de probabilidad. Verifique las propiedades que debe cumplir. Uno de los requisitos de una distribución de probabilidad es que la suma de las probabilidades debe ser 1 (se permite una pequeña cantidad de variación por errores de redondeo). ¿Cuál es la justificación de este requisito? 4. Un trabador asigna un beneficio de carácter vitalicio a cinco personas. Según las tablas actuales, la probabilidad de que una persona en estas condiciones viva 30 años o más es 2/3. Hállese la probabilidad de que, transcurridos 30 años, vivan: a) Las cinco personas. b) Al menos tres personas. c) Exactamente dos personas. d) Menos de dos personas.    VARIABLE ALEATORIA DISCRETA 
  • 60. 60 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 5. En el informe del Mapa Socioeconómico de Chile elaborado por Adimark aparece la distribución de número de bienes en el hogar (Ducha + TV color + Refrigerador + Lavadora + Calefont + Microondas + TV Cable o Satelital + PC + Internet + Vehículo) X 𝑃(𝑋 = 𝑥) 0 0,038 1 0,057 2 0,056 3 0,091 4 0,152 5 0,189 6 0,150 7 0,103 8 0,072 9 0,051 10 0,042 a) ¿Cuál es la probabilidad de encontrar un hogar con menos de 4 bienes? b) ¿Cuál es la probabilidad de encontrar un hogar con más de 7 bienes? c) ¿Cuál es la probabilidad de encontrar un hogar con 5 o más y menos de 9? d) Calcule el valor esperado de la variable aleatoria de interés, interprete el resultado. e) Determine la desviación estándar. f) Represente gráficamente la distribución. 6. En la tabla distribución de probabilidades que se presenta a continuación, se detalla número de artículos con fallas, en un embarque de 10.000 unidades de ese producto electrónico importado desde China y la probabilidad respectiva. N° de artículos con falla Probabilidad 3 0,111 4 0,278 5 0,222 6 0,167 7 0,139 8 0,083 Determine el intervalo de los ingresos esperados (𝜇 ± 𝜎).    VARIABLE ALEATORIA DISCRETA 
  • 61. 61 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 7. En un sector de la ciudad de Santiago, se han otorgado subsidios de agua con anterioridad alcanzando a un 25% de la población, si se extrae una muestra aleatoria de 10 familias. a) ¿Cuál es la probabilidad de que exactamente en tres familias hayan recibido el subsidio? b) ¿Cuál es la probabilidad de que por lo menos una familia haya recibido el subsidio? 8. El IPEC de abril muestra que se mantiene el buen ánimo de los consumidores. Este resultado, además, se ubica como uno de los niveles más altos de los últimos 16 años, señala que el 59,4%, de los chilenos considera que nuestro país presenta actualmente una situación económica buena. Determine la probabilidad de en una muestra de 30 personas entre 13 y 15, consideren una “buena situación económica” nacional. 9. Al analizar los impactos de las bombas V-1 en la Segunda Guerra Mundial, el sur de Londres se subdividió en 576 regiones, cada una con área de 0,25 km2 . En total, 535 bombas impactaron el área combinada de 576 regiones. Si se selecciona al azar una región, calcule la probabilidad de que haya sido impactada en dos ocasiones o menos. 10. El número promedio de goles de un equipo de fútbol de Inacap durante el primer tiempo de un partido de futbol es 1,67. Calcule la probabilidad de que pasen 2 goles en ese tiempo. 11. Un asistente comercial atiende en promedio a 5 personas por hora. ¿Cuál es la probabilidad de que en una determinada hora atienda a más de 7 personas? Además, calcule la desviación estándar. 12. Una compañía “asegura” la vida de 5000 personas mayores de 50 años. La probabilidad de que una persona de 50 años muera en un determinado año es de 0,001. ¿Cuál es la probabilidad de que la compañía pague 4 indemnizaciones en un determinado año?    VARIABLE ALEATORIA DISCRETA 
  • 62. 62 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Introducción Dentro de las variables aleatorias, también se pueden distinguir las variables aleatorias continuas, de las cuales las más utilizadas para describir el comportamiento de distintos fenómenos y procesos de producción, en especial en control de calidad es el llamado modelo Normal. La distribución Normal, es un modelo que permite represntar el comportamiento de una variable aleatoria continua. Su función de distribución de probabilidad es: 𝑓(𝑥) = 1 √2 ⋅ 𝜋 ⋅ 𝜎2 ⋅ 𝑒 − 1 2⋅𝜎2(𝑥−𝜇)2 , 𝑠𝑖 − ∞ < 𝑥 < ∞ Anotaremos, 𝑋 ∼ 𝑁(𝜇, 𝜎2). La expresión anterior, indica que la variable 𝑋 tiene una distribución Normal de media 𝜇 y varianza 𝜎2 . Al construir el gráfico de la distribución Normal, se obtiene una forma muy característica de esta distribución, forma por la cual recibe el nombre de Campana de Gauss. Aunque la distribución normal es muy útil para representar distintos problemas sobre todo en control de calidad, el cálculo de las probabilidades asociadas a una variable aleatoria normal, corresponderá al área bajo la curva, cuya determinación implica técnicas complejas de Cálculo Integral. Pero, toda variable normal puede ser transformada, mediante el siguiente cambio de variable: 𝑍 = 𝑋 − 𝜇 𝜎 ∼ 𝑁(0,1) La expresión 𝑍 ∼ 𝑁(0,1) indica que la variable aleatoria es normal con media 0 y varianza 1, y se llama Distribución Normal Estándar.    DISTRIBUCIÓN NORMAL 
  • 63. 63 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Los valores de la distribución normal estándar se encuentran tabulados, y esta transformación se denomina estandarización. Problema 1: Sea una variable aleatoria con distribución Normal Estándar 𝑧 ∼ 𝑁(0,1). a) Calcular el área que se encuentra a la izquierda de 𝑍 = 1,22 Solución: La representación gráfica del problema, se muestra en la figura siguiente: Utilizando la tabla de la distribución normal estándar acumulada, se obtiene que 𝑃(𝑍 ≤ 1,22) = 0,8888. b) Calcular el área que se encuentra a la derecha de 𝑍 = 1,22 (complemento). Solución: La representación gráfica del problema, se muestra en la figura siguiente: 𝑃(𝑍 > 1,22) = 1 − 𝑃(𝑍 ≤ 1,22) = 1 − 0,8888 = 0,1112    DISTRIBUCIÓN NORMAL 
  • 64. 64 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD c) Encuentre el área (probabilidad) de la distribución Normal estándar 𝑍 ∼ 𝑁(0,1) que se encuentra entre 𝑍 = 0 y 𝑍 = 1,22. Solución: La representación gráfica del problema, se muestra en la figura siguiente: 𝑃(0 ≤ 𝑍 ≤ 1,22) = P(Z ≤ 1,22) − P(Z ≤ 0) = 0,8888 − 0,5000 = 0,3888 d) Encuentre el área (probabilidad) de la distribución Normal estándar 𝑍 ∼ 𝑁(0,1) que se encuentra entre 𝑍 = −2,07 y 𝑍 = 1,96. Solución: La representación gráfica del problema, se muestra en la figura siguiente: 𝑃(−2,07 ≤ 𝑍 ≤ 1,96) = P(Z ≤ 1,96) − P(Z ≤ −2,07) = 0,975 − 0,0192 = 0,9558    DISTRIBUCIÓN NORMAL 
  • 65. 65 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD Problema 2: De acuerdo a los resultados de la Encuesta Suplementaria de Ingresos 2010- 2011 dada a conocer por el Instituto Nacional de Estadísticas (INE), el ingreso medio mensual per cápita de los ocupados es de $ 360.300 con una variación típica $ 55.200. a) ¿Cuál es la probabilidad de seleccionar una persona al azar y que su ingreso se encuentre entre $300.00 y $450.000 pesos? Solución: 𝑃(300.000 ≤ 𝑋 ≤ 450.000) Estandarizando: = 𝑃 ( 300.000 − 360.300 55.200 ≤ 𝑍 ≤ 450.000 − 360.300 55.200 ) = 𝑃(−1,09 ≤ 𝑍 ≤ 1,63) = 𝑃(𝑍 ≤ 1,63) − 𝑃(𝑍 ≤ −1,09) = Φ(1,63) − Φ(−1,09) = 0,9484 − 0,1379 = 0,8105 Finalmente: 𝑃(300.000 ≤ 𝑋 ≤ 450.000) = 0,8105. El 81,05% de la población recibe un ingreso mensual entre $300.00 y $450.000 pesos. b) ¿Cuál es la probabilidad de seleccionar una persona al azar y que su ingreso sea de al menos $490.000? Solución: 𝑃(𝑋 ≥ 490.000) = 1 − 𝑃(𝑋 ≤ 490.000) = 1 − 𝑃 (𝑍 ≤ 490.000 − 360.300 55.200 ) = 1 − 𝑃(𝑍 ≤ 2,35) = 1 − Φ(2,35) = 1 − 0,9906 = 0,0094 El 0,94% de la población recibe un ingreso mensual de al menos $490.000. c) Determine el monto mínimo del ingreso que percibe el 20% superior de los sueldos (cuarto quintil). Solución: 𝑃(𝑋 ≥ 𝑥) = 0,20 Utilizando la estandarización y calculando el percentil 80, se tiene que:    DISTRIBUCIÓN NORMAL     DISTRIBUCIÓN NORMAL 
  • 66. 66 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 𝑃 (𝑍 ≤ x − 360.300 55.200 ) = 1 − 0,20 = 0,80 𝑥 − 360.300 55.200 = 𝑍0,80 𝑥 = 0,84 ⋅ 55.200 + 360.300 𝑥 = 406.668 El 20% se los sueldos superiores, son de al menos $406.668. Problemas propuestos: 1. La pirámide poblacional de nuestro país presenta un promedio poblacional de 𝜇 = 34,4 años y una desviación estándar de 𝜎 = 21,5, si consideramos que nuestro país presenta un distribución Normal en la edad ¿Cuáles sería los valores para los cuartiles? 2. Calcular las probabilidades de la variable aleatoria Z, con una distribución normal Z ~ N(0,1). a) P(Z≤1,75) b) P(Z>1,75) c) P(Z≤0) d) P(Z≥2,57) e) P(1,89≤Z≤2,07) f) P(-1,96≤Z≤-0,52) 3. Si X es una variable aleatoria distribuida normalmente con media 80 y desviación estándar 10, calcular las siguientes probabilidades a) P(X≤100) b) P(X>80) c) P(67≤X≤103) d) P(82<X<92) e) P(X>120) f) P(X≤58) 4. Los administrativos de la municipalidad de Rioseco ganan en promedio un sueldo líquido de $650.000 mensuales, con una desviación estándar de $100.000, que se distribuye de forma Normal. Calcular la probabilidad de que un empleado elegido aleatoriamente gane: a) Un sueldo mayor a $850.000    DISTRIBUCIÓN NORMAL 
  • 67. 67 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD b) Un sueldo menor a $750.000 c) Un sueldo superior a $450.000 d) Un sueldo entre $550.000 y $950.000 e) Un sueldo inferior a $650.000 f) P(X>680.000) g) P(X≤596.000) h) P(567.000≤X≤803.000) i) P(650.000<X<712.000) j) ¿Cuál es el monto de sueldo que concentra el primer quintil? k) ¿Cuál es el monto de sueldo que concentra el 10% de suelos más altos? l) ¿Cuáles son los valores que concentran el 50% en torno a la media? 5. En una ciudad se estima que la temperatura máxima en el mes de abril sigue una distribución normal, con media 23° y desviación típica 5°.Calcular el número de días del mes en los que se espera alcanzar máximas entre 21° y 27°. (Considere un mes=30 días). 6. La media de los pesos de 500 estudiantes de primero a cuarto medio es 70 kilogramos y la desviación típica 5,5 kilógramos. Suponiendo que los pesos se distribuyen normalmente. Construir la siguiente clasificación y determinar el número de estudiantes que pertenecen a cada uno de las categorías para determinar el gasto en un plan de salud: a) Bajo peso: menos de 61,2 kilogramos b) Peso normal: entre 61,2 y 77,2 kilogramos c) Sobre peso: más de 77,2 kilogramos 7. El plan de salud que desea desarrollar una institución de ayuda tiene los siguientes costos, debe invertir $50.000 por cada estudiante en categoría bajo peso para su recuperación y $ 90.000 por cada estudiante con sobre peso. El departamento de asistencia social cuenta con $5.000.000 de presupuesto destinado a este colegio. ¿Es suficiente el monto para activar el plan? 8. Se supone que los resultados de un examen siguen una distribución normal con media 78 y varianza 36. Se pide: a) ¿Cuál es la probabilidad de que una persona que se presenta el examen obtenga una calificación superior a 72? b) Si se sabe que con 64 puntos un estudiante obtiene nota de aprobación. Calcule la proporción de estudiantes que tienen puntuaciones que exceden por lo menos en cinco puntos de la puntuación que marca la frontera entre aprobado y no aprobado.    DISTRIBUCIÓN NORMAL 
  • 68. 68 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 9. Los puntajes de una prueba de concentración tienen una puntuación que sigue una distribución normal, con media 100 y desviación típica 15. Determinar el porcentaje de población que obtendría un puntaje entre 95 y 110. 10. Se supone que el nivel de colesterol de los enfermos de un hospital sigue una distribución normal con una media de 179,1 mg/dL y una desviación estándar de 28,2 mg/dL. a) Calcule el porcentaje de enfermos con un nivel de colesterol inferior a 169 mg/dL. b) ¿Cuál será el valor del nivel de colesterol a partir del cual se encuentra el 10% de los enfermos del hospital con los niveles más altos? 11. El tiempo que demoran los nadadores de 100 metros estilo libre sigue una normal con media 55 segundos y desviación estándar de 5 segundos. a) Los organizadores de un campeonato deciden dar certificados a todos los nadadores que terminen antes de 49 segundos. Si hay 50 nadadores en los 100 metros mariposa, ¿cuántos certificados se necesitarán? b) ¿Con qué tiempo debe terminar un nadador para estar entre el 2% más rápido de la distribución de tiempos?    DISTRIBUCIÓN NORMAL 
  • 69. 69