This document contains three units on statistical data analysis:
Unit 1 covers univariate data analysis including variables, frequency tables, measures of central tendency, and measures of relative position.
Unit 2 analyzes bivariate data through tables and graphs.
Unit 3 discusses the normal probability distribution.
The document provides definitions, examples, and explanations to introduce students to basic statistical concepts and techniques for descriptive analysis of single and paired variable data sets.
Este documento presenta un ejercicio sobre consumo y ahorro, así como otro sobre inversión. En el primer ejercicio, pide definir conceptos clave sobre consumo como ingreso disponible y propensión marginal a consumir. Luego solicita determinar si ciertas proposiciones sobre teorías de consumo como la del ingreso permanente son verdaderas o falsas. Finalmente, plantea preguntas y problemas sobre temas como el efecto de cambios en el ingreso y las tasas de interés sobre el consumo y ahorro. El segundo ejercicio aborda concept
Este documento presenta los conceptos y principios fundamentales de la ingeniería económica. Explica que esta disciplina ayuda a las personas a tomar decisiones evaluando alternativas de proyectos mediante técnicas matemáticas. Se basa en 7 principios como crear alternativas, enfocarse en las diferencias, y revisar decisiones. También cubre temas como flujos de efectivo, valor del dinero en el tiempo, y utilidad económica.
3 regresion lineal multiple estimacion y propiedadesjeider1624
Este documento describe el modelo de regresión lineal múltiple. Explica que este modelo permite incluir múltiples variables explicativas para modelar fenómenos económicos mejor que un modelo de regresión simple. Presenta el modelo de regresión lineal múltiple utilizando álgebra matricial y define conceptos clave como la función de regresión poblacional, la función de regresión muestral, y los residuos.
Este documento trata sobre distribuciones de probabilidad discreta y continua. Explica que una distribución de probabilidad asigna probabilidades a los posibles resultados de una variable aleatoria. Describe distribuciones discretas como la binomial y distribuciones continuas como la normal. Incluye ejemplos y gráficos para ilustrar conceptos clave de distribuciones de probabilidad.
El documento explica cómo los factores de tiempo y el interés afectan el valor del dinero. Define la capitalización como determinar el valor futuro de una cantidad dada de dinero, e la actualización como determinar el valor presente de una cantidad de dinero que ocurrirá en el futuro. Presenta las fórmulas para calcular los factores F/P y P/F para una cantidad única, los cuales permiten determinar el valor futuro o presente respectivamente de una inversión inicial dada la tasa de interés y el número de períodos.
La teoría de colas estudia el comportamiento de líneas de espera cuando los clientes llegan demandando un servicio de un servidor con capacidad limitada. Modelos las colas como sistemas donde los clientes llegan buscando servicio y salen después de ser atendidos. Su objetivo es identificar la capacidad óptima que minimice los costos considerando el tiempo de espera de los clientes.
La econometría combina la teoría económica, la economía matemática, la estadística económica y la estadística matemática para dar contenido empírico a las teorías económicas. El método econometrico tradicional incluye 1) plantear una teoría económica, 2) especificar un modelo matemático, 3) estimar parámetros con datos, 4) probar hipótesis y hacer predicciones, y 5) utilizar el modelo para fines de política. El documento presenta un ejemplo de estimar
El documento explica la aplicación de histogramas en estadística. Un histograma representa gráficamente la frecuencia de valores de una variable a través de barras cuya altura es proporcional a la frecuencia. Se utilizan para variables continuas o discretas agrupadas en clases. Existen diferentes tipos de histogramas como simples, compuestos o agrupados. La construcción de un histograma implica determinar el rango y número de clases, establecer la longitud de clase e intervalos, y graficar las barras con sus frecuencias. Los histogramas permit
Este documento presenta un ejercicio sobre consumo y ahorro, así como otro sobre inversión. En el primer ejercicio, pide definir conceptos clave sobre consumo como ingreso disponible y propensión marginal a consumir. Luego solicita determinar si ciertas proposiciones sobre teorías de consumo como la del ingreso permanente son verdaderas o falsas. Finalmente, plantea preguntas y problemas sobre temas como el efecto de cambios en el ingreso y las tasas de interés sobre el consumo y ahorro. El segundo ejercicio aborda concept
Este documento presenta los conceptos y principios fundamentales de la ingeniería económica. Explica que esta disciplina ayuda a las personas a tomar decisiones evaluando alternativas de proyectos mediante técnicas matemáticas. Se basa en 7 principios como crear alternativas, enfocarse en las diferencias, y revisar decisiones. También cubre temas como flujos de efectivo, valor del dinero en el tiempo, y utilidad económica.
3 regresion lineal multiple estimacion y propiedadesjeider1624
Este documento describe el modelo de regresión lineal múltiple. Explica que este modelo permite incluir múltiples variables explicativas para modelar fenómenos económicos mejor que un modelo de regresión simple. Presenta el modelo de regresión lineal múltiple utilizando álgebra matricial y define conceptos clave como la función de regresión poblacional, la función de regresión muestral, y los residuos.
Este documento trata sobre distribuciones de probabilidad discreta y continua. Explica que una distribución de probabilidad asigna probabilidades a los posibles resultados de una variable aleatoria. Describe distribuciones discretas como la binomial y distribuciones continuas como la normal. Incluye ejemplos y gráficos para ilustrar conceptos clave de distribuciones de probabilidad.
El documento explica cómo los factores de tiempo y el interés afectan el valor del dinero. Define la capitalización como determinar el valor futuro de una cantidad dada de dinero, e la actualización como determinar el valor presente de una cantidad de dinero que ocurrirá en el futuro. Presenta las fórmulas para calcular los factores F/P y P/F para una cantidad única, los cuales permiten determinar el valor futuro o presente respectivamente de una inversión inicial dada la tasa de interés y el número de períodos.
La teoría de colas estudia el comportamiento de líneas de espera cuando los clientes llegan demandando un servicio de un servidor con capacidad limitada. Modelos las colas como sistemas donde los clientes llegan buscando servicio y salen después de ser atendidos. Su objetivo es identificar la capacidad óptima que minimice los costos considerando el tiempo de espera de los clientes.
La econometría combina la teoría económica, la economía matemática, la estadística económica y la estadística matemática para dar contenido empírico a las teorías económicas. El método econometrico tradicional incluye 1) plantear una teoría económica, 2) especificar un modelo matemático, 3) estimar parámetros con datos, 4) probar hipótesis y hacer predicciones, y 5) utilizar el modelo para fines de política. El documento presenta un ejemplo de estimar
El documento explica la aplicación de histogramas en estadística. Un histograma representa gráficamente la frecuencia de valores de una variable a través de barras cuya altura es proporcional a la frecuencia. Se utilizan para variables continuas o discretas agrupadas en clases. Existen diferentes tipos de histogramas como simples, compuestos o agrupados. La construcción de un histograma implica determinar el rango y número de clases, establecer la longitud de clase e intervalos, y graficar las barras con sus frecuencias. Los histogramas permit
El documento presenta dos ejemplos de análisis de regresión múltiple. El primero analiza los factores que afectan el gasto familiar mensual en alimentos, incluyendo el ingreso, integrantes familiares y ahorro. El segundo analiza los factores que afectan las ventas anuales de llantas de una empresa, incluyendo tiendas minoristas, tamaño del parque automotor, ingreso personal e antigüedad de autos. Ambos ejemplos presentan las ecuaciones de regresión obtenidas.
El documento proporciona una introducción al análisis multivariante. Explica que este conjunto de métodos estadísticos permite analizar datos con múltiples variables medidas para cada sujeto u objeto estudiado. Describe los objetivos del análisis multivariante y clasifica sus técnicas en métodos de dependencia, interdependencia y estructurales. Además, presenta ejemplos de aplicaciones del análisis multivariante en diversas áreas como la medicina, biología, sociología e investigación de mercados.
Este documento describe los pasos para configurar una nueva red inalámbrica. Explica que primero se debe instalar el hardware como el enrutador y las tarjetas de red inalámbricas. Luego se configura la seguridad de la red usando claves WEP o WPA. Finalmente, se conectan los dispositivos a la red y se comprueba que todo funcione correctamente.
Este documento describe la distribución gamma, incluyendo su definición, objetivo, origen, función, propiedades y aplicaciones. La distribución gamma modela variables aleatorias no negativas con una forma sesgada hacia la derecha. Se usa comúnmente para modelar procesos como precipitaciones y tiempos de espera.
El documento presenta cuatro problemas de investigación operativa relacionados con la distribución de productos desde almacenes y sucursales a diferentes destinos para satisfacer la demanda. Se describen los detalles de cada problema, incluida la oferta, demanda y costos de distribución. Luego, se muestran las ecuaciones y cálculos para resolver cada problema usando el método de la esquina noroeste.
El documento describe los conceptos básicos de análisis de redes, incluyendo que las redes son rutas que conectan recursos y entidades a través de interfaces y nodos. Las redes están compuestas de tramos separados por nodos, y pueden cambiar de dirección en puntos de quiebre. Los nodos y arcos son elementos fundamentales de una red, donde los nodos representan aspectos importantes y el origen/destino de bienes, y los arcos conectan nodos estableciendo relaciones. Existen al menos 7 modelos para optimizar el uso de recurs
Este documento presenta una introducción a las bases de datos y el software estadístico SPSS. Explica conceptos clave como datos, información y bases de datos, y describe los componentes de una base de datos como tablas y registros. Luego resume las principales características y usos de SPSS, incluida su capacidad para trabajar con grandes conjuntos de datos. Finalmente, detalla los pasos básicos para instalar y utilizar SPSS, como la creación y edición de variables.
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)guest8a3c19
Este documento presenta información sobre la distribución Ji-cuadrada y cómo se puede usar para probar hipótesis estadísticas en más de dos poblaciones. Explica la fórmula para calcular Ji-cuadrada, los supuestos y restricciones de la prueba, y provee ejemplos y ejercicios resueltos.
El documento describe los conceptos básicos de la distribución de frecuencia para datos agrupados y no agrupados, incluyendo cómo calcular frecuencias absolutas, relativas y acumuladas. También explica los componentes de una distribución de frecuencia de clase como el rango, intervalo de clase, amplitud de clase y punto medio. Por último, presenta diferentes métodos para representar datos como diagramas de sectores, barras, tallo y hoja, histogramas y polígonos de frecuencia.
El documento presenta el método de mínimos cuadrados para predecir las ventas futuras de una zapatería basándose en datos históricos de ventas. Se calculan las ecuaciones de regresión lineal y=a+bx utilizando las fórmulas dadas. Esto permite predecir que las ventas de la zapatería en 2015 serán de aproximadamente $828,472.18.
Este documento describe el análisis del valor anual (VA) y sus ventajas sobre otros métodos como el valor presente (VP) y el valor futuro (VF). Explica que el VA es el valor anual uniforme equivalente de todos los ingresos y egresos de un proyecto a lo largo de su ciclo de vida. También presenta un ejemplo numérico que demuestra la equivalencia entre el cálculo del VP para múltiples ciclos de vida y el cálculo del VA para un solo ciclo de vida.
Este documento presenta una introducción a las distribuciones muestrales. Explica que cuando se toman muestras de una población y se calculan estadísticos como la media y la varianza de cada muestra, estos valores varían y siguen distribuciones de probabilidad específicas llamadas distribuciones muestrales. A través de un ejemplo, muestra cómo calcular la distribución muestral de la media para una población y describirla mediante su media, desviación estándar y forma.
Este documento define y explica varias medidas de dispersión estadísticas, incluyendo rango, desviación estándar y varianza. Define estas medidas, describe cómo se calculan y provee ejemplos numéricos para ilustrar los cálculos. También explica cómo estas medidas cuantifican cuán dispersos están los valores de una distribución con respecto a la media y cómo esto provee información sobre la variabilidad dentro de la distribución.
Este documento proporciona una introducción a la distribución de frecuencias. Explica cómo organizar datos en intervalos de clase para formar tablas de distribución de frecuencias, incluyendo el cálculo de las fronteras de los intervalos, las marcas de clase, y las frecuencias absolutas y relativas. También incluye dos ejemplos numéricos que ilustran estos pasos.
Construcccion de un histograma y su utilidad. Presentación diseñada por el MT...JAVIER SOLIS NOYOLA
El Mtro. Javier Solis Noyola diseña presentación en diapositivas sobre el Proceso de Construcción de un Histograma y su Utilidad. La presentación incluye dos video-clases (tomadas de red social You Tube), en donde se expone el proceso paso a paso de la construcción de un histograma y su polígono de frecuencias. también se incluye un Glosario de conceptos implicados en el histograma.
El documento explica los factores de gradiente aritmético P/G y A/G, que se usan para calcular el valor presente y el valor anual equivalente de una serie de flujos de efectivo que cambia en una cantidad constante cada período. Define el concepto de gradiente y presenta ejemplos. Luego deriva las fórmulas para los factores P/G, A/G y F/G y explica cómo usarlos para convertir un gradiente aritmético a un valor presente, valor anual o valor futuro equivalente. Finalmente, cubre la interpolación en tablas
El documento presenta un resumen de la programación lineal. Explica que la programación lineal es un procedimiento matemático para resolver problemas indeterminados mediante ecuaciones lineales para optimizar una función objetivo lineal. También describe algunas aplicaciones comunes como la optimización de recursos y la toma de decisiones. Finalmente, resume las características y limitaciones de los problemas de programación lineal.
La modulación AM, DSB, DSB-SC y SSB se describen. La modulación AM varía la amplitud de la portadora de acuerdo a la señal moduladora. DSB transmite ambas bandas laterales redundantes. DSB-SC suprime la portadora. SSB transmite solo una banda lateral para mayor eficiencia. La modulación VSB es similar a DSB pero con una banda lateral vestigial para ahorrar ancho de banda.
Distribución de frecuencias y representaciones graficasinnovalabcun
Este documento describe diferentes conceptos relacionados con frecuencias y su representación gráfica en estadística. Explica que una frecuencia absoluta es el número de veces que aparece un elemento en una muestra, mientras que una frecuencia relativa es la frecuencia absoluta dividida por el tamaño total de la muestra. También describe cómo las frecuencias se pueden organizar y resumir en tablas de distribución de frecuencias, diagramas de barras, histogramas, polígonos de frecuencias y curvas de frecuencias acumuladas.
Pruebas de bondad de ajuste y pruebas no parametricasAlez Escandón
UNIDAD 4.- PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS
4.1 Bondad de ajuste.
4.1.1 Análisis Ji-Cuadrada.
4.1.2 Prueba de independencia.
4.1.3 Prueba de la bondad del ajuste.
4.1.4 Tablas de contingencia.
4.2 Pruebas no paramétricas.
4.2.1 Escala de medición.
4.2.2 Métodos estadísticos contra no paramétricos.
4.2.3 Prueba de Kolmogorov – Smirnov.
4.2.4 Prueba de Anderson – Darling.
4.2.5 Prueba de Ryan – Joiner.
4.2.6 Prueba de Shappiro – Wilk.
Statistics is the science of collecting, organizing, presenting, analyzing, and interpreting numerical data. It helps make better decisions by extracting information from data. There are two main types: descriptive statistics which describe data through methods like averages and distributions, and inferential statistics which make estimates, predictions, or generalizations about a population based on a sample. Key concepts in statistics include populations, samples, parameters which describe populations, and statistics which describe samples. The level of measurement of data, such as nominal, ordinal, interval, or ratio, determines what calculations and tests can be done.
This document discusses quantitative data and its importance in research. It defines quantitative data as numerical data that can be measured and counted. Quantitative data is classified as either discrete or continuous, and grouped or ungrouped. Ungrouped quantitative data that is not too large in quantity can be analyzed through ordering, frequency tables, and graphical representations to identify characteristics. This allows for a better understanding of research results and decision making.
El documento presenta dos ejemplos de análisis de regresión múltiple. El primero analiza los factores que afectan el gasto familiar mensual en alimentos, incluyendo el ingreso, integrantes familiares y ahorro. El segundo analiza los factores que afectan las ventas anuales de llantas de una empresa, incluyendo tiendas minoristas, tamaño del parque automotor, ingreso personal e antigüedad de autos. Ambos ejemplos presentan las ecuaciones de regresión obtenidas.
El documento proporciona una introducción al análisis multivariante. Explica que este conjunto de métodos estadísticos permite analizar datos con múltiples variables medidas para cada sujeto u objeto estudiado. Describe los objetivos del análisis multivariante y clasifica sus técnicas en métodos de dependencia, interdependencia y estructurales. Además, presenta ejemplos de aplicaciones del análisis multivariante en diversas áreas como la medicina, biología, sociología e investigación de mercados.
Este documento describe los pasos para configurar una nueva red inalámbrica. Explica que primero se debe instalar el hardware como el enrutador y las tarjetas de red inalámbricas. Luego se configura la seguridad de la red usando claves WEP o WPA. Finalmente, se conectan los dispositivos a la red y se comprueba que todo funcione correctamente.
Este documento describe la distribución gamma, incluyendo su definición, objetivo, origen, función, propiedades y aplicaciones. La distribución gamma modela variables aleatorias no negativas con una forma sesgada hacia la derecha. Se usa comúnmente para modelar procesos como precipitaciones y tiempos de espera.
El documento presenta cuatro problemas de investigación operativa relacionados con la distribución de productos desde almacenes y sucursales a diferentes destinos para satisfacer la demanda. Se describen los detalles de cada problema, incluida la oferta, demanda y costos de distribución. Luego, se muestran las ecuaciones y cálculos para resolver cada problema usando el método de la esquina noroeste.
El documento describe los conceptos básicos de análisis de redes, incluyendo que las redes son rutas que conectan recursos y entidades a través de interfaces y nodos. Las redes están compuestas de tramos separados por nodos, y pueden cambiar de dirección en puntos de quiebre. Los nodos y arcos son elementos fundamentales de una red, donde los nodos representan aspectos importantes y el origen/destino de bienes, y los arcos conectan nodos estableciendo relaciones. Existen al menos 7 modelos para optimizar el uso de recurs
Este documento presenta una introducción a las bases de datos y el software estadístico SPSS. Explica conceptos clave como datos, información y bases de datos, y describe los componentes de una base de datos como tablas y registros. Luego resume las principales características y usos de SPSS, incluida su capacidad para trabajar con grandes conjuntos de datos. Finalmente, detalla los pasos básicos para instalar y utilizar SPSS, como la creación y edición de variables.
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)guest8a3c19
Este documento presenta información sobre la distribución Ji-cuadrada y cómo se puede usar para probar hipótesis estadísticas en más de dos poblaciones. Explica la fórmula para calcular Ji-cuadrada, los supuestos y restricciones de la prueba, y provee ejemplos y ejercicios resueltos.
El documento describe los conceptos básicos de la distribución de frecuencia para datos agrupados y no agrupados, incluyendo cómo calcular frecuencias absolutas, relativas y acumuladas. También explica los componentes de una distribución de frecuencia de clase como el rango, intervalo de clase, amplitud de clase y punto medio. Por último, presenta diferentes métodos para representar datos como diagramas de sectores, barras, tallo y hoja, histogramas y polígonos de frecuencia.
El documento presenta el método de mínimos cuadrados para predecir las ventas futuras de una zapatería basándose en datos históricos de ventas. Se calculan las ecuaciones de regresión lineal y=a+bx utilizando las fórmulas dadas. Esto permite predecir que las ventas de la zapatería en 2015 serán de aproximadamente $828,472.18.
Este documento describe el análisis del valor anual (VA) y sus ventajas sobre otros métodos como el valor presente (VP) y el valor futuro (VF). Explica que el VA es el valor anual uniforme equivalente de todos los ingresos y egresos de un proyecto a lo largo de su ciclo de vida. También presenta un ejemplo numérico que demuestra la equivalencia entre el cálculo del VP para múltiples ciclos de vida y el cálculo del VA para un solo ciclo de vida.
Este documento presenta una introducción a las distribuciones muestrales. Explica que cuando se toman muestras de una población y se calculan estadísticos como la media y la varianza de cada muestra, estos valores varían y siguen distribuciones de probabilidad específicas llamadas distribuciones muestrales. A través de un ejemplo, muestra cómo calcular la distribución muestral de la media para una población y describirla mediante su media, desviación estándar y forma.
Este documento define y explica varias medidas de dispersión estadísticas, incluyendo rango, desviación estándar y varianza. Define estas medidas, describe cómo se calculan y provee ejemplos numéricos para ilustrar los cálculos. También explica cómo estas medidas cuantifican cuán dispersos están los valores de una distribución con respecto a la media y cómo esto provee información sobre la variabilidad dentro de la distribución.
Este documento proporciona una introducción a la distribución de frecuencias. Explica cómo organizar datos en intervalos de clase para formar tablas de distribución de frecuencias, incluyendo el cálculo de las fronteras de los intervalos, las marcas de clase, y las frecuencias absolutas y relativas. También incluye dos ejemplos numéricos que ilustran estos pasos.
Construcccion de un histograma y su utilidad. Presentación diseñada por el MT...JAVIER SOLIS NOYOLA
El Mtro. Javier Solis Noyola diseña presentación en diapositivas sobre el Proceso de Construcción de un Histograma y su Utilidad. La presentación incluye dos video-clases (tomadas de red social You Tube), en donde se expone el proceso paso a paso de la construcción de un histograma y su polígono de frecuencias. también se incluye un Glosario de conceptos implicados en el histograma.
El documento explica los factores de gradiente aritmético P/G y A/G, que se usan para calcular el valor presente y el valor anual equivalente de una serie de flujos de efectivo que cambia en una cantidad constante cada período. Define el concepto de gradiente y presenta ejemplos. Luego deriva las fórmulas para los factores P/G, A/G y F/G y explica cómo usarlos para convertir un gradiente aritmético a un valor presente, valor anual o valor futuro equivalente. Finalmente, cubre la interpolación en tablas
El documento presenta un resumen de la programación lineal. Explica que la programación lineal es un procedimiento matemático para resolver problemas indeterminados mediante ecuaciones lineales para optimizar una función objetivo lineal. También describe algunas aplicaciones comunes como la optimización de recursos y la toma de decisiones. Finalmente, resume las características y limitaciones de los problemas de programación lineal.
La modulación AM, DSB, DSB-SC y SSB se describen. La modulación AM varía la amplitud de la portadora de acuerdo a la señal moduladora. DSB transmite ambas bandas laterales redundantes. DSB-SC suprime la portadora. SSB transmite solo una banda lateral para mayor eficiencia. La modulación VSB es similar a DSB pero con una banda lateral vestigial para ahorrar ancho de banda.
Distribución de frecuencias y representaciones graficasinnovalabcun
Este documento describe diferentes conceptos relacionados con frecuencias y su representación gráfica en estadística. Explica que una frecuencia absoluta es el número de veces que aparece un elemento en una muestra, mientras que una frecuencia relativa es la frecuencia absoluta dividida por el tamaño total de la muestra. También describe cómo las frecuencias se pueden organizar y resumir en tablas de distribución de frecuencias, diagramas de barras, histogramas, polígonos de frecuencias y curvas de frecuencias acumuladas.
Pruebas de bondad de ajuste y pruebas no parametricasAlez Escandón
UNIDAD 4.- PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS
4.1 Bondad de ajuste.
4.1.1 Análisis Ji-Cuadrada.
4.1.2 Prueba de independencia.
4.1.3 Prueba de la bondad del ajuste.
4.1.4 Tablas de contingencia.
4.2 Pruebas no paramétricas.
4.2.1 Escala de medición.
4.2.2 Métodos estadísticos contra no paramétricos.
4.2.3 Prueba de Kolmogorov – Smirnov.
4.2.4 Prueba de Anderson – Darling.
4.2.5 Prueba de Ryan – Joiner.
4.2.6 Prueba de Shappiro – Wilk.
Statistics is the science of collecting, organizing, presenting, analyzing, and interpreting numerical data. It helps make better decisions by extracting information from data. There are two main types: descriptive statistics which describe data through methods like averages and distributions, and inferential statistics which make estimates, predictions, or generalizations about a population based on a sample. Key concepts in statistics include populations, samples, parameters which describe populations, and statistics which describe samples. The level of measurement of data, such as nominal, ordinal, interval, or ratio, determines what calculations and tests can be done.
This document discusses quantitative data and its importance in research. It defines quantitative data as numerical data that can be measured and counted. Quantitative data is classified as either discrete or continuous, and grouped or ungrouped. Ungrouped quantitative data that is not too large in quantity can be analyzed through ordering, frequency tables, and graphical representations to identify characteristics. This allows for a better understanding of research results and decision making.
Definition, functions, scope, limitations of statistics; diagrams and graphs; basic definitions and rules for probability, conditional probability and independence of events.
This document provides definitions and descriptions of basic statistical concepts. It discusses how statistics is used to collect, organize, analyze and present data in order to make decisions or predictions about a population based on sample data. It describes descriptive statistics, which summarize and describe data, and inferential statistics, which are used to generalize results from a sample to a population. It also defines key statistical terms like population, sample, variables, and levels of measurement.
If you happen to like this powerpoint, you may contact me at flippedchannel@gmail.com
I offer some educational services like:
-powerpoint presentation maker
-grammarian
-content creator
-layout designer
Subscribe to our online platforms:
FlippED Channel (Youtube)
http://bit.ly/FlippEDChannel
LET in the NET (facebook)
http://bit.ly/LETndNET
This document provides an introduction to biostatistics. It defines biostatistics as the application of statistical tools and concepts to data from biological sciences and medicine. The two main branches of statistics are described as descriptive statistics, which involves organizing and summarizing sample data, and inferential statistics, which involves generalizing from samples to populations. Several key statistical concepts are also defined, including populations, samples, variables, data types, levels of measurement, and common sampling methods. The objectives are to demonstrate knowledge of these fundamental statistical terms and concepts.
Statistics are used by organizations to measure and analyze business performance. American Express uses statistics such as total returns to shareholders, numbers of cardholders by age group, and cardholder spending by age to analyze business units, identify targeted customer groups, and inform marketing campaigns. Statistics on labor force characteristics by gender help conclude that male monthly incomes are typically higher than females, though this does not necessarily mean males spend more.
The document discusses statistical analysis and data collection methods. It describes key statistical concepts like population, sample, descriptive statistics, and inferential statistics. It explains the statistical method process of posing a problem, collecting and organizing data, constructing a model, and analyzing results. It also covers types of sampling, including probability and non-probability sampling methods like simple random sampling, systematic sampling, and stratified sampling. The goal is to obtain a representative sample and make inferences about a population.
Stastistics in Physical Education - SMK.pptxshatrunjaykote
• It is a specific branch of mathematics that deals with analysis of data collected on various population groups
• Statistics involves mathematical abilities more than addition, subtraction, division and multiplication which are repeated many times in a logical fashion.
• for fuller details of statistical tests may refer to Chandha (1992); Vincent (1995); Hopkin et al. (1996); Sincrich et al. (2002); Triola (2002)
• Understanding of basic statistics is indispensable for dealing with the process of evaluation of test and measurement.
• The statistical concepts facilities proper and effective interpretation of test scores or measurements taken by the coach or a physical educator
• While a computer assists the teacher or the coach in saving the huge time needed for enormous calculations, but the meaning of results is made clear only through the understanding of relevant statistical test concepts.
• Tests act as seed to measurements, the statistical tests act as seed to the construction of all other types of tests and are also essential for the testing of validity, reliability and objectivity of all tests.
The information which we can deduce from test and measurement is based on our statistical ability. It is the statistical tools which enable us to do the following important functions:
1. Organize and tabulate date (presentation of facts in a definite form)
2. Analysis data
3. Synthesize data (classification / combination of facts)
4. Compare groups of data
5. Simplification of unwieldy and complex data
6. Proper interpretation of a data
7. testing of hypotheses
8. understand the relationship and association between different parameters, make predications and take decisions.
9. Construction of physical, psychomotor and written tests
10. Evaluation of individual measurements
11. selection of sportsperson
12. Monitoring of training and teaching effects and testing the need for individualization of training and teaching.
13. Meaning: The word “statistics” is a plural form of ‘statistic’. The term statistic is uncommon to that an extent that many of the students of statistics may be unaware of its singular form. The word statistics has been taken from German word ‘statistik’ meaning a political state. Since, facts and figures were required in olden days mainly by kings for their administration. Therefore, in the beginning. It was also known as the ‘Science of Kings’ (Chadha, 1992). Subsequently, its scope has greatly widened and statistics now refers to a huge body of methods, symbols and formulae dealing with phenomena that can be described numerically providing quantitative arrays of information
14. Statistic is numerical value which characterizes a group of scores. For example the average height characterizes the entire sample whose all subjects’ heights have been measured to calculate the average height. A number of such characterizing values refer to the plural form of above mentioned statistic and thus, give rise to the more commonly used
This document provides information about a statistics course, including:
- The course is taught by Prof. T RAMA KRISHNA RAO and covers 5 units: measures of central tendency, measures of variation, correlation analysis, index numbers, and time series analysis.
- Previous year question papers from 2016-2013 are provided, with questions on topics like defining statistics, classification vs tabulation, and representing data visually.
- Key concepts from the first unit on statistics are defined, like data, characteristics of statistics, importance and scope of statistics, and limitations of statistics. Data sources like primary and secondary data are also mentioned.
This document provides an introduction to statistics, including definitions, reasons for studying statistics, and the scope and importance of statistics. It discusses how statistics is used in fields like insurance, medicine, administration, banking, agriculture, business, and sciences. It also outlines the main functions of statistics and its branches, including theoretical, descriptive, inferential, and applied statistics. Finally, it covers topics related to data representation, including methods of presenting data through tables, graphs, and diagrams.
Unit III - Statistical Process Control (SPC)Dr.Raja R
The seven tools of quality – Statistical Fundamentals – Measures of central Tendency and Dispersion, Population and Sample, Normal Curve, Control Charts for variables Xbar and R chart and attributes P, nP, C, and u charts, Industrial Examples, Process capability, Concept of six sigma – New seven Management tools.
This document provides an overview of statistics as a field of study. It defines statistics as both the plural and singular form, describing aggregates of numerical data and the science dealing with collecting, organizing, and interpreting numerical data. The two main branches of statistics are described as descriptive statistics, which describes what is occurring in a data set, and inferential statistics, which allows making generalizations about a larger population based on a sample. Key terms like data, variables, population, sample, and parameter are also defined. The stages of a statistical investigation and applications, uses, and limitations of statistics are summarized.
1. The document discusses the meaning, uses, functions, importance and limitations of statistics. It defines statistics as the collection, presentation, analysis and interpretation of numerical data.
2. Statistics has various uses across different fields such as policy planning, management, education, commerce and accounts. It helps present facts precisely and enables comparison, correlation, formulation and testing of hypotheses, and forecasting.
3. While statistics is important for planning, administration, economics and more, it also has limitations such as only studying aggregates, numerical data, and being an average. Statistics can also be misused if not used carefully by experts.
This document provides an overview of the contents and objectives of Statistics 1 course offered through the Virtual Modality by Universidad de la Costa. The course covers basic concepts and presentation of data, statistical tables and graphs, measures of central tendency and relative position, measures of variability, and exploratory data analysis. It describes the techniques students will learn to summarize, organize, and analyze data, which are important skills in fields like economics, engineering, and other sciences. The document outlines the topics to be covered in each class, including constructing frequency distributions and statistical graphs both with grouped and ungrouped data.
The document provides information about statistics and related concepts:
1. It defines statistics and discusses its importance in various fields like agriculture, economics, and administration.
2. It outlines the characteristics of a satisfactory average and describes various measures of central tendency including arithmetic mean, median, and mode.
3. It discusses the steps involved in constructing a frequency distribution table from raw data for both grouped and ungrouped data.
This document provides an introduction to quantitative techniques and statistics. It discusses that statistics is the science of collecting, analyzing, and presenting numerical data to draw conclusions about populations based on samples. Descriptive statistics can summarize both population and sample data using measures of central tendency and dispersion. Inferential statistics is then used to draw inferences about the overall population based on patterns in sample data while accounting for randomness. The objectives, types (descriptive and inferential), advantages, and disadvantages of statistics are also outlined. Key terms are introduced but not defined in detail.
Unit 1 Introduction to Statistics with history (1).pptxDrSJayashree
This document provides an overview of an introductory statistics course, outlining 6 units of study and their associated hours. Unit 1 covers basic concepts for 5 hours. Unit 2 covers diagrams and graphs for 7 hours. Unit 3 covers measures of central tendency, like mean, median and mode, for 15 hours. Unit 4 covers measures of dispersion like range and standard deviation for 13 hours. Unit 5 covers correlation and regression analysis for 10 hours. Unit 6 covers time series analysis for 10 hours.
This document provides an introduction to a course on statistical methods in nursing. It outlines the general objectives of understanding the nature and definition of statistics, its brief historical development, distinguishing samples from populations, types of variables, and the importance of statistics in research. It includes a pre-test to assess students' basic knowledge of statistical concepts before beginning the lessons.
Statistics is the collection, analysis, interpretation and presentation of data. It involves gathering data through various methods, organizing the data into tables, graphs or charts, analyzing the organized data to extract relevant information, and interpreting the analyzed data to draw conclusions about populations. The key processes include collecting data, presenting data, analyzing data, and interpreting results. There are two main types of statistics: descriptive statistics which summarizes and describes data, and inferential statistics which uses samples to make predictions about populations.
International Conference on NLP, Artificial Intelligence, Machine Learning an...gerogepatton
International Conference on NLP, Artificial Intelligence, Machine Learning and Applications (NLAIM 2024) offers a premier global platform for exchanging insights and findings in the theory, methodology, and applications of NLP, Artificial Intelligence, Machine Learning, and their applications. The conference seeks substantial contributions across all key domains of NLP, Artificial Intelligence, Machine Learning, and their practical applications, aiming to foster both theoretical advancements and real-world implementations. With a focus on facilitating collaboration between researchers and practitioners from academia and industry, the conference serves as a nexus for sharing the latest developments in the field.
Optimizing Gradle Builds - Gradle DPE Tour Berlin 2024Sinan KOZAK
Sinan from the Delivery Hero mobile infrastructure engineering team shares a deep dive into performance acceleration with Gradle build cache optimizations. Sinan shares their journey into solving complex build-cache problems that affect Gradle builds. By understanding the challenges and solutions found in our journey, we aim to demonstrate the possibilities for faster builds. The case study reveals how overlapping outputs and cache misconfigurations led to significant increases in build times, especially as the project scaled up with numerous modules using Paparazzi tests. The journey from diagnosing to defeating cache issues offers invaluable lessons on maintaining cache integrity without sacrificing functionality.
Understanding Inductive Bias in Machine LearningSUTEJAS
This presentation explores the concept of inductive bias in machine learning. It explains how algorithms come with built-in assumptions and preferences that guide the learning process. You'll learn about the different types of inductive bias and how they can impact the performance and generalizability of machine learning models.
The presentation also covers the positive and negative aspects of inductive bias, along with strategies for mitigating potential drawbacks. We'll explore examples of how bias manifests in algorithms like neural networks and decision trees.
By understanding inductive bias, you can gain valuable insights into how machine learning models work and make informed decisions when building and deploying them.
Redefining brain tumor segmentation: a cutting-edge convolutional neural netw...IJECEIAES
Medical image analysis has witnessed significant advancements with deep learning techniques. In the domain of brain tumor segmentation, the ability to
precisely delineate tumor boundaries from magnetic resonance imaging (MRI)
scans holds profound implications for diagnosis. This study presents an ensemble convolutional neural network (CNN) with transfer learning, integrating
the state-of-the-art Deeplabv3+ architecture with the ResNet18 backbone. The
model is rigorously trained and evaluated, exhibiting remarkable performance
metrics, including an impressive global accuracy of 99.286%, a high-class accuracy of 82.191%, a mean intersection over union (IoU) of 79.900%, a weighted
IoU of 98.620%, and a Boundary F1 (BF) score of 83.303%. Notably, a detailed comparative analysis with existing methods showcases the superiority of
our proposed model. These findings underscore the model’s competence in precise brain tumor localization, underscoring its potential to revolutionize medical
image analysis and enhance healthcare outcomes. This research paves the way
for future exploration and optimization of advanced CNN models in medical
imaging, emphasizing addressing false positives and resource efficiency.
Introduction- e - waste – definition - sources of e-waste– hazardous substances in e-waste - effects of e-waste on environment and human health- need for e-waste management– e-waste handling rules - waste minimization techniques for managing e-waste – recycling of e-waste - disposal treatment methods of e- waste – mechanism of extraction of precious metal from leaching solution-global Scenario of E-waste – E-waste in India- case studies.
ACEP Magazine edition 4th launched on 05.06.2024Rahul
This document provides information about the third edition of the magazine "Sthapatya" published by the Association of Civil Engineers (Practicing) Aurangabad. It includes messages from current and past presidents of ACEP, memories and photos from past ACEP events, information on life time achievement awards given by ACEP, and a technical article on concrete maintenance, repairs and strengthening. The document highlights activities of ACEP and provides a technical educational article for members.
Harnessing WebAssembly for Real-time Stateless Streaming PipelinesChristina Lin
Traditionally, dealing with real-time data pipelines has involved significant overhead, even for straightforward tasks like data transformation or masking. However, in this talk, we’ll venture into the dynamic realm of WebAssembly (WASM) and discover how it can revolutionize the creation of stateless streaming pipelines within a Kafka (Redpanda) broker. These pipelines are adept at managing low-latency, high-data-volume scenarios.
TIME DIVISION MULTIPLEXING TECHNIQUE FOR COMMUNICATION SYSTEMHODECEDSIET
Time Division Multiplexing (TDM) is a method of transmitting multiple signals over a single communication channel by dividing the signal into many segments, each having a very short duration of time. These time slots are then allocated to different data streams, allowing multiple signals to share the same transmission medium efficiently. TDM is widely used in telecommunications and data communication systems.
### How TDM Works
1. **Time Slots Allocation**: The core principle of TDM is to assign distinct time slots to each signal. During each time slot, the respective signal is transmitted, and then the process repeats cyclically. For example, if there are four signals to be transmitted, the TDM cycle will divide time into four slots, each assigned to one signal.
2. **Synchronization**: Synchronization is crucial in TDM systems to ensure that the signals are correctly aligned with their respective time slots. Both the transmitter and receiver must be synchronized to avoid any overlap or loss of data. This synchronization is typically maintained by a clock signal that ensures time slots are accurately aligned.
3. **Frame Structure**: TDM data is organized into frames, where each frame consists of a set of time slots. Each frame is repeated at regular intervals, ensuring continuous transmission of data streams. The frame structure helps in managing the data streams and maintaining the synchronization between the transmitter and receiver.
4. **Multiplexer and Demultiplexer**: At the transmitting end, a multiplexer combines multiple input signals into a single composite signal by assigning each signal to a specific time slot. At the receiving end, a demultiplexer separates the composite signal back into individual signals based on their respective time slots.
### Types of TDM
1. **Synchronous TDM**: In synchronous TDM, time slots are pre-assigned to each signal, regardless of whether the signal has data to transmit or not. This can lead to inefficiencies if some time slots remain empty due to the absence of data.
2. **Asynchronous TDM (or Statistical TDM)**: Asynchronous TDM addresses the inefficiencies of synchronous TDM by allocating time slots dynamically based on the presence of data. Time slots are assigned only when there is data to transmit, which optimizes the use of the communication channel.
### Applications of TDM
- **Telecommunications**: TDM is extensively used in telecommunication systems, such as in T1 and E1 lines, where multiple telephone calls are transmitted over a single line by assigning each call to a specific time slot.
- **Digital Audio and Video Broadcasting**: TDM is used in broadcasting systems to transmit multiple audio or video streams over a single channel, ensuring efficient use of bandwidth.
- **Computer Networks**: TDM is used in network protocols and systems to manage the transmission of data from multiple sources over a single network medium.
### Advantages of TDM
- **Efficient Use of Bandwidth**: TDM all
2. 2
ÍNDICE
UNIDAD 1 ....................................................................................................................................................................4
ANÁLISIS DE DATOS UNIVARIADOS..............................................................................................................4
UNIDAD 2 ..................................................................................................................................................................28
ANÁLISIS DE DATOS BIVARIADOS................................................................................................................28
UNIDAD 3 ..................................................................................................................................................................46
DISTRIBUCIÓN DE PROBABILIDAD NORMAL.........................................................................................46
3. 3
PRESENTACIÓN
Estimado Alumno y Alumna, te damos la más cordial bienvenida a Estadística y Probabilidad,
asignatura lectiva del área formativa de Disciplinas Básicas, del área del conocimiento de
Ciencias Básicas.
Estadística y Probabilidad tiene el propósito de entregar la herramientas elementales para la
caracterización de un conjunto de datos uni y bivariado, como también comprender el
concepto de probabilidades y realizar inferencia bajo incertidumbre, mediante estrategias de
clase expositiva, solución de ejercicios y problemas; además de, contribuir en la formación
técnica de los alumnos, mediante el desarrollo de destrezas que mejoren su desempeño
profesional.
La asignatura se realizará, a partir de experiencias de aprendizajes que involucren
metodologías principalmente deductivas, donde tu rol es activo y participativo, y el del
docente un mediador.
El presente texto, que INACAP pone a tu disposición, tiene los contenidos que sirven de
base y apoyo a tus clases, y puede ser utilizado como material de consulta permanente.
Confía en tus capacidades, te deseamos mucho éxito.
4. 4
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
a necesidad de caracterizar y extraer información desde conjunto de datos, a generado
el desarrollo de técnicas de clasificación y de resumen de conjuntos de datos, lo que
a la larga se a traducido en la Estadística.
El análisis estadístico tiene por objetivo encontrar propiedades, rasgos y relaciones
estadísticas de todo tipo respecto a las variables investigadas, las cuales se derivan de tablas
en las que se agrupan y clasifican los datos estadísticos en una investigación.
El nálisis descriptivo univariado trabaja con datos de una sola variable o distribución de
frecuencias y pretende determinar sus propiedades estadísticas. Este análisis proporciona
medidas representatvas de la distribución, estadísticos de dispersión, medidas de asimetría,
etc.
El análisis estadístico, involucra muchos más aspectos que solo definir, calcular y representar
en gráficos los datos, implica conocer la naturaleza de los datos y de esa forma la naturaleza
de la información. Al enfrentar los problemas que dan origen al conocimiento estadístico, los
investigadores utilizaron la intuición, la inventiva y la experimentación, elementos
fundamentales de todo experimento, que en muchas ocaciones no son perceptibles en las
fórmulas presentadas por los libros de textos.
UNIDAD 1
ANÁLISIS DE
DATOS
UNIVARIADOS
L
El término Estadística deriva de la palabra en
latin “status” que significa Estado.
Los primeros usos de la estadística fue la
compilación de datos y elaboración de gráficas
para describir diversos aspectos de un estado o
país.
5. 5
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
PROGRAMA DE LA ASIGNATURA ETEP01
UNIDAD 1
ANÁLISIS DE DATOS UNIVARIADOS
APRENDIZAJE ESPERADO
Analiza información proveniente de tablas de frecuencias y gráficas para describir un fenómeno.
CRITERIOS DE EVALUACIÓN
Clasifica diferentes tipos de variables que contenga un conjunto de observaciones.
Construye tablas de frecuencias y gráficas a partir de un conjunto de observaciones.
Analiza tablas de frecuencias y gráficas para determinar el comportamiento de un conjunto de observaciones.
APRENDIZAJE ESPERADO
Sintetiza información de un conjunto de datos aplicando las medidas de resumen.
CRITERIOS DE EVALUACIÓN
Calcula medidas de tendencia central y las relaciona para definir el centro de un conjunto de datos.
Calcula medidas de dispersión, para describir la variabilidad de un conjunto de datos.
Compara conjuntos de datos mediante el uso de las medidas de resumen.
APRENDIZAJE ESPERADO
Caracteriza un conjunto de datos utilizando las medidas de posición relativa.
CRITERIOS DE EVALUACIÓN
Calcula medidas de posición relativa para describir un conjunto de datos.
Representa gráficamente las medidas de posición mediante boxplot.
Relaciona medidas de posición para caracterizar un conjunto de datos.
6. 6
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Introducción
¿Qué significa aprender Estadística?
Habitualmente hablar de las estadísticas, trae a la mente gráfico y
uorcentuales que, en muchas ocaciones no tienen mucho sentido si son
descontextualizadas.
Pero en general, la Estadística son una colección de herramientas que
permiten realizar análisis y caracterización de conjunts de datos, que tal forma
sería imposible de entender.
La Estadística, entrega técnicas que permiten resumir la información que se
mantiene oculta en los datos, es decir, extraer la información que el conjunto
de datos entrega y no los datos por si solos.
El principal objetivo que está detrás de las técnicas estadísticas, es resumir
la información contenida en una colección de datos, de tal forma que que se
pueda transformar en información valiosa para la toma de decisiones.
Para lo anterior, existen variadas técnicas que facilitan
¿Por qué estudiar estadística?
La estadística es básica es la investigación científica, dada la necesidad de
manejar y tratar en ellas grandes catidades, progresivamente creciente, de
datos.
La rama de la estadística que trata sobre la descripción y análisis de un
conjuntos de datos, sin pretender extender o generalizar sus resultados y
conclusiones a poblaciones distintas o más amplias que aquella de donde
proviene la información analizada recibe el nombre de “Estadística
Descriptiva”
Cuando este análisis descriptivo se centra en una variable, recibe el nombre
de Analisis Univariado y si se estudian simultaneamente dos variables, se
denomina Análisis Bivariado.
VARIABLES Y
TABLAS
La ciencia de la
Estadística en sus
inicios también fue
llamada fue
aritmética política,
pero fue hasta el siglo
XIX cuando la
estadística adquirió el
significado de
recolectar y clasificar
datos, término que
fue introducido por el
militar británico sir
John Sinclair (1754-
1835).
7. 7
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Definiciones:
Población: Es la colección de todos individuos, elementos u observaciones
que poseen al menos una caracterísca común.
Muestra: Es una parte o subconjunto representativo de la población.
Al proceso de obtener la muestra se llama Muestreo.
Parámetro: Es una medida de resumen que describe una característica
de toda la población. Por ejemplo media de la población = μ (se lee mu)
Estadístico o estadígrafo: Es una medida de resumen que describe
una característica de la muestra. Por ejemplo media de la muestra =𝑥̅.
Unidad de observación o muetreo: Es el elemento o individuo
sobre el cual se mide la característica de interés.
Variable: Es una característica de la población que se va a investigar
y que puede tomar dieferentes valores.
1.1 Clasificación de variables
Variables Cualitativas: Son variables cuyos valores son cualidades que
represetan la población. Cualitativa nominas: las categorías de la variables
no implican orden. Cualitativa ordinal: las categorías de la variables si
implican orden.
Variables Cuantitativas: Surgen cuando se puede establecer cuánto o
qué cantidad se posee de una determinada característica. Cuantitativa
discreta: son aquellas que surgen por el procedimiento de conteo.
Cuantitativa continua: surgen cuando se mide alguna característica.
Cuanlitativas
Cuantitativas
Nominal
Ordinal
Discreta
Continua
VARIABLES Y
TABLAS
8. 8
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 1:
En los siguientes casos identifique: Población, Variable y Clasifique la
variable:
a) La empresa XX se desea estudiar el número de horas trabajadas por
sus empleados.
b) En una fábrica se desea estudiar el número de hijos por cada
trabajador.
c) En la municipalidad de Santiago se estudia las marcas de automóviles
que tienen su patente obtenida en dicha Municipalidad.
d) En una Universidad se estudia las carreras que los alumnos siguen.
e) En un sindicato se desea estudiar el nivel de educación que tienen sus
afiliados.
Solución:
Letra Población Variable Clasificación
a
Todos los
trabajadores de la
empresa XX
Horas
trabajadas
Cuantitativa
continua
b
Todos los
trabajadores de la
fábrica
Número de
hijos
Cauntitativa
discreta
c
Todos los autos
con patente en la
municipalidad de
Santiago
Marca del
auto
Cualitativa
nominal
d
Todos los afiliados
al sindicato
Nivel de
educación
Cualitativa
ordinal
VARIABLES Y
TABLAS
9. 9
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
1.2 Tablas de distribución de frecuencias.
La información se resume en un cuadro o tabla que detalla las categorías de
una variable con sus correspondientes frecuencias. Es sinónimo de
distribución de frecuencias.
Clases
𝑥𝑖
Frecuencia
Absoluta
(𝑛𝑖)
Frecuencia
relativa
(ℎ𝑖)
Frecuencia
Absoluta
Acumulada
Frecuencia
relativa
acumulada
𝑥1 𝑛1 ℎ1 𝑁1 𝐻1
… … … … …
𝑥𝑚 𝑛𝑚 ℎ𝑚 𝑁𝑚 1
Total 𝑁 1
𝑥𝑖 : marca de clase, se calcula promediando los límites del intervalo o clase.
𝑛𝑖: Se llama frecuencia absoluta, es el número de veces que aparece la categoría i-
ésima en el total de datos (𝑁).
ℎ𝑖 : Se llama frecuencia relativa, corresponde a la proporción que aparece la
categoría i-ésima en el total de datos (𝑁). Se calcula de la siguiente forma:
ℎ𝑖 =
𝑛𝑖
𝑁
𝑁𝑖: Se llama frecuencia absoluta acumulada “menor que”, se obtine sumando en
orden descendente la columna de frecuencia absoluta.
𝐻𝑖: Se llama frecuencia relativa acumula “menor que”, se obtiene sumando en
orden descendente la columna de frecuencia relativa.
Problema 2:
En la tabla de frecuencias que se da a continuación faltan algunos datos complétela.
Variable 𝑥𝑖 𝑁𝑖
20 – 24 0,10
24 – 28 0,25
- 32 11 0,55
32 - 0,85
- 40 1,00
Complete en cuadro.
i
n i
h i
H
VARIABLES Y
TABLAS
10. 10
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Solución:
calcular la marca de clase del intervalo:
𝑥𝑖 =
𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑙í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟
2
Para obtener el total de datos, usar la frecuencias acumuladas (𝑁3 y 𝐻3)
𝐻3 =
𝑁3
𝑛
⇒ 0,55 =
11
𝑛
⇒ 𝑛 = 20
1.3 Medidas de Tendencia Central.
Esta medidas deben su nombre al hecho de que sus valores tienden a ocupar
posiciones centrales o intermedios entre el menor y mayor valor del conjunto
de datos, es decir entregan información sobre el centro de la distribución.
Los más usados:
Media o Promedio. Es el punto de equilibrio de la distribución. Se
calcula sumando todas la observaciones de una serie de datos y luego
dividiendo el total entre el número de elementos involucrados.
Mediana: es el valor medio de una secuencia ordenada de datos.
Esta medida de resumen no se ve afectada por ninguna observación
extrema.
Moda: es aquel valor de la variable que presenta mayor frecuencia
absoluta, es decir, aquel que más veces se repite. Puede darse el caso de que
existan varios valores que presenten la máxima frecuencia absoluta,
entonces se tendrá una distribución bimodal, trimodal, etc.
Variable 𝑥𝑖 𝑁𝑖
20 – 24 22 2 0,10 2 0,10
24 – 28 26 3 0,15 5 0,25
28 – 36 30 6 0,30 11 0,55
32 – 36 34 6 0,30 17 0,85
36 – 40 38 3 0,15 20 1,00
i
n i
h i
H
VARIABLES Y
TABLAS
11. 11
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 3:
Los empleados de la empresa ALFA son sometidos a un test de habilidades, que otorga de 0 a 10 puntos. Los
resultados obtenidos por un grupo de trabajadores de la empresa son los siguientes:
4 7 9 10 10 7 5 6 7 8 5 5 6 7 3
3 4 9 8 7 9 10 7 8 4 5 6 9 10 9
¿Cuál es el puntaje máximo que obtuvo el 50% de los empleados?
Solución:
Como primer paso, se deben ordenar los datos de menor a mayor.
3 3 4 4 4 5 5 5 5 6 6 6 7 7 7
7 7 7 8 8 8 9 9 9 9 9 10 10 10 10
Como la cantidad de observaciones es par, se debe utilizar la fórmula:
𝑴𝒆 =
𝑿
(
𝟑𝟎
𝟐
)
+𝑿
(
𝟑𝟎
𝟐
+𝟏)
𝟐
=
𝑿(𝟏𝟓)+𝑿(𝟏𝟔)
𝟐
=
𝟕+𝟕
𝟐
= 𝟕
12. 12
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 4:
Los siguientes datos corresponden a los trabajadores que se ausentaron de
una fábrica en 55 días laborales.
Días xi Trabajadores (ni)
0 – 4 2 5
4 – 8 6 15
8 – 12 10 16
12 – 16 14 8
16 – 20 18 3
20 – 24 22 7
a) Identifique y clasifique la variable.
Solución:
Días de ausencia: Cuantitativa continua.
b) ¿Es el número días de ausencia promedio es mayor al número de
días de ausencia mediano?
Solución:
𝑋
̅ =
2 ∗ 6 + 6 ∗ 15 + 10 ∗ 16 + 14 ∗ 8 + 18 ∗ 3 + 22 ∗ 7
55
= 10,58 [𝑑í𝑎𝑠]
𝑀𝑒 = 8 + [27,5 − 21] ∗
4
16
= 9,625[𝑑í𝑎𝑠]
Con lo anterior, se puede decir que la afirmación es correcta.
c) ¿Cuál el el número de ausencias más frecuente?
Solución:
𝑀𝑜 = 8 + (
16 − 15
(16 − 15) + (16 − 8)
) ⋅ 4 = 8,44[𝑑í𝑎𝑠]
El número de ausencias más frecuente es de 8,44 días.
ANALISIS DE
DATOS
UNIVARIADOS
13. 13
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 5:
La información de la tabla presenta la distribución del sueldo de un grupo
de Ingenieros Civiles industriales, en miles de pesos, con más de 3 años de
experiencia laboral y su calsificación según sexo.
Sueldo mensual[M$] xi Masculino Femenino
800 – 1100 950 1 3
1100 – 1400 1250 7 5
1400 – 1700 1550 10 6
1700 – 2000 1850 8 4
Total 26 18
a) Identifique y clasifique la o las variables.
Solución:
X: Sueldo mensual en miles de pesos. Cuantitativa continua.
Y: Sexo. Cualitativa nominal
b) ¿Es posible afirmar que el ingreso medio mensual es superior en los
varones?
𝑋
̅ =
950 ∗ 1 + 1250 ∗ 7 + 1550 ∗ 10 + 1850 ∗ 8
26
= 1538,46[𝑀$]
𝑌
̅ =
950 ∗ 3 + 1250 ∗ 5 + 1550 ∗ 6 + 1850 ∗ 4
18
= 1433,33[𝑀$]
El ingreso medio mensual de los varones es 1538,46 [M$], y el ingreso medio
mensual de las mujeres es 1433,33[M$], por lo tanto la afirmación es
verdadera.
ANALISIS DE
DATOS
UNIVARIADOS
14. 14
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
c) Indique cuál es el sueldo máximo del 50% de los ingenieros?
Para respoder esta pregunta se debe considerar la información sin separar por
sexo.
Sueldo mensual[M$] Ingenieros
800 – 1100 4
1100 – 1400 12
1400 – 1700 16
1700 – 2000 12
Total 44
Solución:
𝑀𝑒 = 1400 + (22 − 20) ⋅
300
16
= 1437,5[𝑀$]
El sueldo máximo del 50% de los ingenieros es de 1437,5 [M$].
1.3 Medidas de Localización
Corresponden a estadígrafos que dividen a los datos en porciones iguales y no
sólo a la mitad como lo hace la mediana. Estas medidas reciben el nombre de
Cuantiles. Los cuantiles más usados son: cuartiles, deciles y percentiles.
Como los percentiles dividen al conjunto en 100 partes iguales, para el claculo
de cualquier valor de cuantil usaremos sólo la fórmula de percentil.
ANALISIS DE
DATOS
UNIVARIADOS
15. 15
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 6:
Usando la información del ejercicio 5, determine:
a) ¿Cuál es el ingreso máximo del 25% de los ingenieros varones?
Solución:
La expresión de percentil entrega el valor máximo para el porcentaje buscado,
por lo tanto el ingreso máximo del 25% es:
𝑃25 = 1100 + [6,5 − 1] ⋅
300
7
= 1335,71[𝑀$]
Por lo tanto el ingreso máximo del 25% de los ingenieros varones es de 1335,71
[M$]
b) ¿Cuál es el ingreso mínimo del 75% de los ingenieros varones que más ganan?
Solución:
Con apoyo de la resolución anterior. Si el ingreso máximo del 25% de los
ingenieros varones, entonces este valor equivale al ingreso mínimo del porcentaje
superior, que corresponde al 75%
c) ¿Qué porcentaje de ingenieros varones recibe ingresos entre $950.000 y
$1.200.000?
Solución:
950 = 800 + [
26 ∗ 𝑘1
100
− 0] ⋅
300
1
⇒ 𝑘1 = 1,92%
1200 = 1100 + [
26 ∗ 𝑘2
100
− 1] ⋅
300
7
⇒ 𝑘2 = 12,82%
𝑘2 − 𝑘1 = 12,82 − 1,92 = 10,9%
El 10.9% de los varones reciben ingresos entre $950.000 y $1.200.000.
ANALISIS DE
DATOS
UNIVARIADOS
25%
800 [M$] 2000 [M$]
16. 16
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
1.4 Medidas de Variabilidad
Miden la dispersión de los datos de una muestra, es decir mide cuán
similares son los valores que conforman la distribución de datos.
Dos conjunto de datos pueden tener la misma medida de tendencia central,
pero ser muy diferentes, por ejemplo: se tienen dos conjunto de datos
(medidos en cm).
a. 9-10-11-12-13-14-15.
b. 6-8-10-12-14-16-18.
En ambas conjuntos el promedio es de 12 cm y la mediana de 12 cm. A
simple vista es posible darse cuenta que cada conjunto está formado por
distintos valores, razón que hace tan importante la entrega de una medida
de variabilidad al momento de describir un conjunto de datos.
Acontinuación se detallan las más utilizadas:
Rango o recoerrido de la variable (R): Corresponde a la diferencia
entre el valor máximo y mínimo del conjunto de datos.
Rango Intercuartílico (RI): Corresponde a la diferencia entre en Cuartil
3 y Cuartil 1, lo que equivale a la diferencia entre en percentil 75 y percentil
25, siendo interpretada como la dispersión del 50% central de la distribución
de valores.
Varianza (𝜎2
): Corresponde a la media de de los cuadrados de las
desviaciones de los datos de una distribución respecto a su media.
Desviación Estándar (𝜎): Es simplemente la raíz cuadrada de la
varianza, es muy conveniente usar esta medida de dispersión, ya que se
encuentra en la misma dimensión en que están los datos.
Coeficiente de variación o coeficiente de variabilidad (C.V.): Medida
de dispersión adimensional, lo que la hace adecuada para comparar en
términos de variabilidad dos o más grupos de datos. Corresponde al número
de veces en que se encuentra contenida la desviación estándar sobre la
media.
ANALISIS DE
DATOS
UNIVARIADOS
17. 17
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 7:
En la última encuesta de opinión general, EOG, se consultó sobre qué
puntuación le pondrían a las modificaciones que se desean realizar a la ley de
IVA a la compra de viviendas nuevas, obteniéndose los siguientes resultados:
Puntuación Frecuencia
0 – 20 40
20 – 40 35
40 – 60 15
60 – 80 5
80 – 100 5
Total 100
A partir de la información, calcule e interprete el Rango, Rango Intercuartílico,
Varianza, Desviación Estándar y Coeficiente de Variabilidad.
Solución:
Rango:
𝑅 = 100 − 0 = 100 [𝑃𝑢𝑛𝑡𝑜𝑠]
La amplitud de los datos es de 100 puntos.
Rango Intercuartílico:
𝑄3 = 𝑃75 = 20 + [75 − 40] ∗
20
35
= 40 [𝑝𝑢𝑛𝑡𝑜𝑠]
𝑄1 = 𝑃25 = 0 + [25 − 0] ∗
20
40
= 12,5[𝑝𝑢𝑛𝑡𝑜𝑠]
𝑅𝐼 = 𝑄3 − 𝑄1 = 40 − 12,5 = 27,5[𝑝𝑢𝑛𝑡𝑜𝑠]
Existe una diferencia de 27,5 puntos en el 50% central de la distribución.
Varianza:
𝜎2
=
∑ 𝑥𝑖
2
∗ 𝑛𝑖
𝑁
− 𝜇2
𝜎2
=
102⋅40+302⋅35+502⋅15+702⋅5+902⋅5
100
− (30)2
= 480 [𝑝𝑢𝑛𝑡𝑜𝑠]2
La dispersión promedio de las puntuaciones en torno a la media de la
distribución es de 480 [puntos]2
.
ANALISIS DE
DATOS
UNIVARIADOS
18. 18
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Desviación Estándar:
𝜎 = √480 = 21,91 [𝑝𝑢𝑛𝑡𝑜𝑠]
La dispersión promedio de las puntuaciones en torno a la media de la
distribución es de 21,91 [puntos].
Coeficiente de Variabilidad:
𝐶𝑉 =
𝜎
𝑥̅
∗ 100 =
21,91
30
∗ 100 = 73%
La dispersión porcentual de las puntuaciones alcanza el 73%, esto indica que
existe una alta dispersión en los datos.
Problema 8:
Suponga que se quieren comparar la dispersión existente entre los sueldos de
los técnicos y profesionales de una empresa.
Sueldo
mensual
[M$]
Nº de técnicos (ni) nixi x2
i nix2
i
200 10 2000 40000 400000
250 10 2500 62500 625000
300 10 3000 90000 900000
Total 30 7500 1925000
Sueldo
mensual
[M$]
Nº de
profesionales
(ni)
nixi x2
i nix2
i
400 5 2000 160000 800000
500 10 5000 250000 2500000
600 5 3000 360000 1800000
Total 20 7500 5100000
ANALISIS DE
DATOS
UNIVARIADOS
19. 19
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Estadístico Técnicos Profesionales
Recorrido 𝑅
= 300 − 200
= 100
𝑅 = 200
Rango Intercuartílico 𝑅𝐼
= 300 − 200
= 100
𝑅𝐼 = 150
Varianza 𝜎2
=
1925000
30
−
(250)2
=
1666,67
𝜎2
= 5000
Desviación estándar 𝜎 = 40,82 𝜎 = 70,71
Coeficiente de Variabilidad 𝐶𝑉
=
40,82
250
∗ 100
= 16,33%
𝐶𝑉
= 14,14%
Solución:
Notar que todas las medidas de dispersión absoluta son más altas en el
grupo de los profesionales, antes de concluir que estos sueldos
presentan mayor variabilidad hay que tener en cuenta que se están
comparardo dos grupos diferentes, donde los sueldos son siempre
mayores en los profesionales, por esta razón el coeficiente de
variabilidad es una medida de variabilidad perfecta, ya que tiene en
cuenta todos los valores de la variable y al no tener dimensión permite
comparar la dispersión entre grupos, entonces se puede concluir que el
grupo con mayor dispersión es el de los sueldos de los técnicos.
Problema 9:
Estado Civil de las personas que trabajan en “INACAP”. Realice una
representación gráfica de las frecuencias absolutas y relativas.
Estado Civil
Frecuencia
Absoluta
Frecuencia Relativa
Soltero 85 65,9%
Casado 36 27,9%
Divorciado 5 3,9%
Viudo 3 2,3%
Total 129 100%
ANALISIS DE
DATOS
UNIVARIADOS
20. 20
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
a) ¿Cuál es el estado civil que presenta mayor cantidad de personas?
Solución:
Son las personas solteras, hay 85 y es equivalente al 65,9%
b) Realice una representación gráfica de la situación descrita por la tabla
de frecuencias.
Solución:
Una gráfica de barras de la frecuencia absoluta es:
También es posible representar gráficamente las frecuencias relativas, como
sigue:
Pensamiento crítico y conocimiento estadístico. ¿Cuál de las gráficas
anteriores es más útil? En comparación, es más útil en el sentido de
información la gráfica de las frecuencias absolutas.
0
20
40
60
80
100 85
36
5 3
Frecuencia absoluta
0%
10%
20%
30%
40%
50%
60%
70%
Frecuencia relativa
ANALISIS DE
DATOS
UNIVARIADOS
21. 21
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Problema 10:
Construcción de una tabla de frecuencias a partir de datos no
agrupados. Los siguientes datos corresponden, a los datos obtenidos en
una empresa en el turno vespertino, compuesto por trabajadores que
prestan servicios a la empresa. Los datos se presentan en horas trabajadas
en la semana.
14,0 8 18,4 16,6 20
15,6 18,4 17,6 26 12,2
17,6 19,4 19,8 21,6 24
15,6 15,8 15 12,2 20
10 22,4 9,4 13 17,4
16 16,8 12,6 18 10,5
18 17 19 16,6 15,5
11,2 21,8 19,6 12,8 18
a) Identifique y defina la población y la muestra.
Solución:
La población corresponde a todos los trabajadores de turno vespertino de
la empresa y la muestra corresponde a los 40 trabajadores que fueron
seleccionados.
b) Identifique la unidad y la variable.
Solución:
La unidad es un trabajador y la variable es el número de horas trabajadas en
el turno vespertino en una semana.
c) Construya una tabla de distribución de frecuencias.
Solución:
Rango=26,0-8,0=18,0
𝑘 = 1 + 3,3 ⋅ 𝑙𝑜𝑔 (40) = 6,28 𝑙𝑢𝑒𝑔𝑜 𝑘 = 6
C=18,0/6=3,0
𝐸 = 8,0 + 6 ⋅ 3,0 − 26,0 − 0,1 = −0,1 por lo tanto se debe corregir.
Entonces 𝐸 = 8,0 + 6 ⋅ 3,1 − 26,0 − 0,1 = 0,5
El límite inferior 1 es: I1=8,0-0,5/2=7,75 finalmente I1=7,8.
ANALISIS DE
DATOS
UNIVARIADOS
22. 22
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
LI LS 𝑛𝑖 ℎ𝑖 (%) 𝑁𝑖 𝐻𝑖 (%) 𝑥𝑖
7,8 10,8 4 10,0 4 10,0 9,3
10,9 13,9 6 15,0 10 25,0 12,4
14,0 17,0 11 27,5 21 52,5 15,5
17,1 20,1 14 35,0 35 87,5 18,6
20,2 23,2 3 7,5 38 95,0 21,7
23,3 26,3 2 5,0 40 100,0 24,8
Conteste las siguientes preguntas en referencia a la información proporcionada
por la tabla de frecuencias.
d) ¿Cuántos intervalos de clases son?
Solución:
6 intervalos de clase.
e) ¿Cuál de las clases contiene el 15% de las observaciones?
Solución:
La clase 2, que contiene los valores de horas trabajadas desde 10,9 hasta 13,9.
f) ¿Cuál es la cantidad de horas más frecuente de trabajo?
Solución:
Existe un total de 14 observaciones en la clase 4 y valor que representa es 18,6
horas.
g) ¿Qué valor acumula el 87,5% de las horas trabajadas?
Solución:
20,1 horas trabajadas
h) ¿Qué proporción de las observaciones se encuentra por sobre 23,2
horas trabajadas?
Solución:
Sólo la última clase que contiene el 5% de las observaciones de la muestra.
ANALISIS DE
DATOS
UNIVARIADOS
23. 23
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
i) ¿Qué porcentaje se observa entre 10,9 y 20,1 horas trabajadas?
Solución:
El 77,5%.
j) Determine el promedio de horas trabajadas en la clase 4.
Solución:
18,6 horas.
k) Mediante una gráfica adecuada, caracterice la forma de la distribución.
Solución:
Problema 11:
Construya el Box-plot para los datos del número de accidentes por año en una
intersección muy transitada en los últimos 20 años. Los valores ordenados son:
32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49
50 51
Solución: Para construir el Box-plot, se requiere los cinco números, que son
los siguientes:
Estadígrafo Valor
Mínimo (Xmin) 32
Primer cuartil (Q1) 41
Segundo cuartil (Q2) 43,5
Tercer cuartil (Q3) 46,5
Máximo (Xmax) 51
ANALISIS DE
DATOS
UNIVARIADOS
0
5
10
15
9,3 12,4 15,5 18,6 21,7 24,8
Frecuencia absoluta
24. 24
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
Así, el Box-plot (gráfico de caja) que definido por, no existen valores extremos
en la muestra:
Gráfico de Statdisk
Problemas Propuestos:
1. Consideremos la distribución de frecuencias de los 210 dispositivos en el
control de calidad, distribuidos como lo muestra la siguiente tabla:
Intervalo
Marcas de
clase
Frecuencia
Absoluta
Frecuencia
Absoluta
Acumulada
Frecuencia
Relativa
Frecuencia
Relativa
Acumulada
350 – 400
400 – 450
450 – 500
500 – 550
550 – 600
600 – 650
650 – 700
700 – 750
750 – 800
800 - 850
4
6
9
20
31
80
42
10
8
2
a) Completa la información de la tabla de frecuencias
b) Dibuja en un gráfico, el histograma y el polígono de frecuencias.
c) ¿Cuál es la cantidad de dispositivos entre 450-700?
d) ¿Qué % de estos dispositivos se encuentran entre 550 y 750?
e) ¿Qué % de estos dispositivos se encuentran acumulados hasta 650?
f) ¿Qué valor representa la categoría de 750-800?
ANALISIS DE
DATOS
UNIVARIADOS
25. 25
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
2. La siguiente información corresponde a la población que puede sostener una conversación en
inglés, según grupo de edad (censo 2012).
Grupo de
edad (años)
Frecuencia
Absoluta
(ni)
Frecuencia
Relativa
(pi)
Frecuencia
Absoluta
Acumulada (Ni)
Frecuencia
Relativa
Acumulada (Pi)
Marca de Clase
(Xi)
0-14 119638
15-29 664257
30-44 437453
45-59 220559
60-90 143120
Total
a) ¿Cuál es el número de personas consideradas?
b) ¿A qué rango de edad pertenece la mayor cantidad de personas y cuál es su porcentaje?
c) Realiza una gráfica de barras de las frecuencias relativas.
d) Realiza una gráfica de las frecuencias absolutas acumuladas.
e) ¿Cuál es la edad promedio de personas que en mayor proporción pueden mantener una
conversación en inglés?
f) ¿Cuántas personas con 44 años o menos pueden mantener una conversación en inglés?
g) ¿Cuántas personas con más de 59 años pueden mantener una conversación en inglés? ¿Cuál es su
proporción?
3. Utilizando los datos del Variación mensual de ventas para una empresa de retail, con año base 2009,
0,09 0,20 0,42 0,62
0,11 0,21 0,43 0,66
0,12 0,25 0,43 0,69
0,13 0,26 0,44 0,80
0,14 0,28 0,47 0,81
0,14 0,30 0,51 0,83
0,15 0,36 0,52 0,86
0,15 0,36 0,52 0,86
0,16 0,36 0,54 0,99
0,19 0,36 0,55
a) Construye una tabla de frecuencias
b) Determina el porcentaje de observaciones de la tercera clase
c) ¿Cuál es la cantidad de datos contendidos hasta la cuarta categoría?
d) ¿Cuál es el promedio de la clase dos?
e) Defina el porcentaje de datos menores o iguales a una tasa de variación de 0,70.
26. 26
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
4. Su firma está introduciendo un nuevo chip de computador del cual se promociona que realiza
cálculos estadísticos mucho más rápidamente que los que actualmente se encuentran en el mercado.
Se hacen veinte cálculos diferentes, produciendo los tiempos en segundos que se ven más adelante.
Aunque usted no puede tergiversar su producto, usted desea presentar los resultados de la manera
más favorable para su empresa. Determine la media, la mediana y la moda. Además, calcule la
desviación estándar y los valores comunes utilizando la regla empírica.
3,2 4,1 6,3 1,9 0,6
5,4 5,2 3,2 4,9 6,2
1,8 1,7 3,6 1,5 2,6
4,3 6,1 2,4 2,2 3,3
5. Una empresa grande de equipos deportivos está probando el efecto de dos planes publicitarios sobre
las ventas de los últimos 4 meses. Dadas las ventas que se ven aquí, ¿cuál programa de publicidad
parece producir el crecimiento promedio más alto en ventas mensuales?
Mes Plan 1 Plan 2
Enero 1.657.000 4.735.000
Febrero 1.998.000 5.012.000
Marzo 2.267.000 5.479.000
Abril 3.432.000 5.589.000
6. Pensamiento crítico y medidas de tendencia central. Para cada uno de los siguientes ejercicios
podemos calcular medidas de tendencia central como la media y la mediana. Identifique una razón
importante por la que, en estos casos, la media y la mediana no son estadísticos que puedan servir de
manera precisa y efectiva como medidas de tendencia central.
Códigos postales: 12601; 90210; 02116; 76177; 19102
Clasificaciones de los niveles de estrés de distintos empleos: 1; 2; 3; 7; 9
Los sujetos encuestados se codifican de la siguiente manera según la preferencia de club: 1 (U. de
Chile), 2 (U. Católica), 3 (Colo-colo), 4 (Palestino) o 5 (U. Española).
7. Exactitud del pronóstico del clima. En un análisis de la exactitud del pronóstico del clima se
comparan las temperaturas máximas reales con las temperaturas máximas pronosticadas un día
anterior y con las temperaturas máximas pronosticadas cinco días antes. Más abajo se señalan los
errores entre las temperaturas pronosticadas y las temperaturas máximas reales para días consecutivos
en Santiago. ¿La desviación estándar sugiere que las temperaturas pronosticadas un día antes son más
exactas que las pronosticadas cinco días antes, como se esperaría?
(real) — (pronosticada un día antes) 2 2 0 0 -3 -3 1 -2 8 1 0 -1 0 1
(real) — (pronosticada cinco días antes) 0 -3 2 5 -6 -9 4 -1 6 -2 -2 -1 6 -4
27. 27
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS
8. Los datos financieros con frecuencia están contenidos en un gráfico de máximos - mínimos y al
cierre. Como su nombre lo indica, muestra el valor más alto, el valor más bajo y el valor al cierre de
los instrumentos financieros como por ejemplo las acciones. Los datos tomados de The Wall Street
Journal para el índice Dow Jones respecto a 15 acciones durante un período de cinco días con base
en los siguientes datos, compare los valores máximos mínimos y de cierre utilizando elementos
estadísticos de tendencia central y variabilidad, además de la regla empírica.
Día Máximos Mínimos Cierre
1 181,07 178,17 178,88
2 180,65 178,28 179,11
3 180,24 178,17 179,35
4 182,79 179,82 181,37
5 182,14 179,53 181,31
9. Para ilustrar el cálculo de percentiles, se asume que se tienen observaciones para el número de
acciones correspondientes a 50 acciones transadas en la Bolsa de Valores de Santiago, como se
muestra en la tabla. Se desea calcular los cuartiles del conjunto de datos.
3 10 19 27 34 38 48 56 67 74
4 12 20 29 34 39 48 59 67 74
7 14 21 31 36 43 52 62 69 76
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80
10. La siguiente tabla muestra la distribución de frecuencia de los sueldos (en miles de pesos) que reciben
150 empleados en una empresa.
Clases ni
120 – 160 20
160 – 200 30
200 – 240 50
240 – 280 30
280 – 320 20
Calcule el promedio, la mediana y la moda de los sueldos de los trabajadores de esta empresa.
28. 28
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
n todo proceso de análisis, las variables cumplen un papel fundamental en el
momento de realizar un análisis, puesto que la cantidad de variables en análisis
condiciona, de alguna forma, las herramientas estadísticas a utilizar, un caso
particular es el Análisis Bivariado, esto ocurre cuando dos variables de interés son observadas
conjuntamente para el mismo grupo de elementos en estudio.
En general, el análisis bivariado no difiere significativamente al análisis univariado, la
diferencias fundamentales son en la cantidad de información contenida en los datos.
UNIDAD 2
ANÁLISIS DE DATOS BIVARIADOS
E
29. 29
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
PROGRAMA DE LA ASIGNATURA ETEP01
UNIDAD 2
ANÁLISIS DE DATOS BIVARIADOS
APRENDIZAJE ESPERADO
Utiliza tablas bivariadas para describir la distribución de un conjunto de observaciones.
CRITERIOS DE EVALUACIÓN
Realiza tablas de doble entrada utilizando distintos tipos de variables para su análisis.
Calcula distribuciones de frecuencias marginales y condicionales para describir las variables.
Aplica análisis conjunto de las variables para caracterizar su comportamiento simultáneo.
APRENDIZAJE ESPERADO
Evalúa el grado de asociación entre dos variables mediante el coeficiente y el análisis gráfico.
CRITERIOS DE EVALUACIÓN
Construye graficas de dispersión para presentar la relación entre variables.
Estima el grado de asociación entre dos variables en base a gráfico de dispersión.
Determina e interpreta de coeficiente de correlación lineal para estimar el grado de asociación entre variables.
APRENDIZAJE ESPERADO
Establece el comportamiento entre dos variables por medio de un modelo estadístico de regresión.
CRITERIOS DE EVALUACIÓN
Determina componentes del modelo de regresión mediante el método de mínimos cuadrados.
Interpreta los coeficientes de regresión y la variación explicada por el modelo.
Analiza predicciones y residuos en un análisis posterior a los datos.
30. 30
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Introducción
En muchas ocasiones el interés del investigador es estudiar
simultaneamente dos caráterísticas o variables medidas en cada individuo o
elemento. Por ejemplo medir estatura y peso en cada trabajador de una
empresa. Expresando la variable estatura con la letra x y el peso con la letra
y, por lo tanto se tendrán tantos pares de datos (x,y) como trabajadores
tenga la empresa. En esta unidad se estudian pares de variables de tipo
cuantitativas.
Tablas Estadísticas Bidimensionales: tablas de doble entrada. La
primera columna detalla frecuentemente la variable x y la primera fila detalla
la variable y.
Estructura de una Tabla Bidimensional con Frecuencias Absolutas:
XY yi … yl
∑ 𝑛𝑖𝑗 = 𝑛𝑖.
𝑙
𝑗=1
x1 n11 … n1l n.1
x2 n21 … n2l n.2
… …
xk nk1 … nkl n.k
= ∑ 𝑛𝑖𝑗 = 𝑛.𝑗
𝑘
𝑖=1
n.1 … n.l
∑ ∑ 𝑛𝑖𝑗 = 𝑛
𝑙
𝑗=1
𝑘
𝑖=1
Para representar las frecuencias absoluta acumulada, frecuencia relativa y
relativa acumuladas se debe construir una tabla por separado por cada una
de ellas.
Distribuciones marginales: Corresponde a la representación de cada
variable en tablas unidimensionales y se obtiene con la suma de las filas o
columnas para las respectivas variables.
ANALISIS DE
DATOS
UNIVARIADOS
31. 31
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Otro aspecto interesante del análisis bivariado, es que es posible determinar
el tipo y nivel de relación entre las variables, esto se puede realizar al
considerar una relación lineal entre las variables en estudio.
Definiciones:
Coeficiente de Correlación Lineal de Pearson.
𝑟𝑋𝑌 =
𝑆𝑋𝑌
√𝑆𝑋𝑋 ⋅ 𝑆𝑌𝑌
𝑆𝑋𝑌 = ∑ 𝑥𝑖𝑦𝑖
𝑛
𝑖=1
− 𝑛 ⋅ 𝑋
̅ ⋅ 𝑌
̅
𝑆𝑋𝑋 = ∑ 𝑥𝑖
2
𝑛
𝑖=1
− 𝑛 ⋅ 𝑋
̅2
𝑆𝑌𝑌 = ∑ 𝑦𝑖
2
𝑛
𝑖=1
− 𝑛 ⋅ 𝑌
̅2
El modelo de regresión lineal estimado es: 𝑦
̂ = 𝛽
̂0 + 𝛽
̂1 ⋅ 𝑥.
𝛽
̂0 = 𝑌
̅ − 𝛽
̂1 ⋅ 𝑋
̅
𝛽
̂1 =
𝑆𝑋𝑌
𝑆𝑋𝑋
El coeficiente de correlación lineal cumple que −1 ≤ 𝑟𝑋𝑌 ≤ 1.
También se define el coeficiente de determinación 𝑅2
= (𝑟𝑋𝑌)2
.
ANALISIS DE
DATOS
UNIVARIADOS
32. 32
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Problema 1:
Un examen de ingreso a la una universidad está compuesto de dos partes. El
puntaje obtenido por un grupo de estudiantes se detalla en la tabla adjunta. Sea
X el puntaje obtenido en la primera parte e Y el puntaje obtenido en la segunda
parte.
Y
0 5 10 15
X 0 2 6 2 10
5 4 15 20 10
10 1 15 14 1
a)Determine las distribuciones marginales de X e Y.
Solución:
b) ¿En qué parte del examen los estudiantes obtuvieron mayor puntaje
medio?
𝑋
̅ =
0 ⋅ 20 + 5 ⋅ 49 + 10 ⋅ 31
100
= 5,55[𝑝𝑢𝑛𝑡𝑜𝑠]
𝑌
̅ =
0 ⋅ 7 + 5 ⋅ 36 + 10 ⋅ 36 + 15 ⋅ 21
100
= 8,55[𝑝𝑢𝑛𝑡𝑜𝑠]
La parte Y obtuvo mayor puntaje medio.
c)Para aquellos estudiantes que obtuvieron 5 puntos en la parte X, ¿cuál es la
media en la parte Y?
Solución:
Puntaje (𝑌|𝑥 = 5) Frecuencia
0 4
5 15
10 20
15 10
Total 49
𝑌
̅𝑥=5 =
0 ∗ 4 + 5 ∗ 15 + 10 ∗ 20 + 15 ∗ 10
49
= 8,67 [𝑝𝑢𝑛𝑡𝑜𝑠]
El puntaje medio en la parte Y para aquellos estudiantes que obtuvieron en la
parte X, 5 puntos fue de 8,67.
Puntaje obtenido
en la parte X
Nº de
estudiantes
0 7
5 36
10 36
15 21
Total 100
Puntaje obtenido
en la parte X
Nº de
estudiantes
0 20
5 49
10 31
Total 100
ANALISIS DE
DATOS
UNIVARIADOS
33. 33
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Problema 2:
¿Existirá relación entre el estado nutricional y el rendimiento académico de
estudiantes de enseñanza básica? Se midió el estado nutricional de 1000 niños
de enseñanza básica, el que fue clasificado como "malo", "regular" "bueno". El
rendimiento académico fue clasificado como “bajo el promedio” “promedio” o
“sobre el promedio”.
Estado Nutricional
Malo Regular Bueno
Total
Rendimiento
Académico
Bajo
130 95 30 255
Promedio
120 450 35 605
Sobre
30 40 70 140
Total
280 585 135 1000
a)¿Cuál es la cantidad de los niños de enseñanza básica tienen un rendimiento
académico promedio?
Solución:
Son 605 niños en la muestra
b) ¿Qué cantidad de los niños de enseñanza básica tienen un estado
nutricional regular?
Solución:
Son 585 niños en la muestra
c)¿Qué cantidad de los niños de enseñanza básica tienen un rendimiento
académico promedio y un estado nutricional bueno?
Solución:
Son 35 niños en la muestra
ANALISIS DE
DATOS
UNIVARIADOS
34. 34
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
d) Calcule el porcentaje de los niños de enseñanza básica tienen un
rendimiento académico sobre el promedio
Solución:
Son 140 niños en la muestra de 1.000, entonces el porcentaje es:
140
1000
= 0,14 =
14%
e) Determine el porcentaje de los niños de enseñanza básica tienen un
estado nutricional malo?
Solución:
Son 30 niños en la muestra de 1.000, entonces el porcentaje es:
30
1000
= 0,03 =
3%
f)¿Qué porcentaje de los niños de enseñanza básica que tienen un estado
nutricional bueno están sobre el promedio en su rendimiento académico?
Solución:
Son 70 niños de 135 que tienen un estado nutricional bueno, entonces el
porcentaje es:
70
135
= 0,519 = 51,9%
g) Obtenga la distribución marginal del Estado Nutricional .
Solución:
Estado Nutricional
Malo Regular Bueno TOTAL
Frecuencia 280 585 135 1000
Frecuencia relativa 28% 58,5% 13,5% 100%
h) Calcule la distribución marginal del Rendimiento Académico.
Solución:
Rendimiento Académico
Bajo Promedio Sobre TOTAL
Frecuencia 255 605 140 1000
Frecuencia relativa 25,5% 60,5% 14% 100%
ANALISIS DE
DATOS
UNIVARIADOS
35. 35
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
i) Obtenga la distribución condicional del rendimiento académico dado el estado nutricional, es
decir que consideramos al rendimiento académico como respuesta al estado nutricional.
Solución:
Estado Nutricional
Malo Regular Bueno
Rendimiento
Académico
Bajo
130/280 95/585 30/135
Promedio
120/280 450/585 35/135
Sobre
30/280 40/585 70/135
Total
280/280 585/585 135
Luego:
Estado Nutricional
Malo Regular Bueno
Rendimiento
Académico
Bajo
46,4% 16,2% 22,2%
Promedio
42,9% 76,9% 25,9%
Sobre
10,7% 6,8% 51,9%
Total
100% 100% 100%
Problema 3:
En una empresa donde trabajan 54 personas, se ordenó en una tabla de doble entrada, la información referida
al ingreso mensual y al tiempo de servicio en la empresa, Las variables definidas como sigue: 𝑋 =
𝑖𝑛𝑔𝑟𝑒𝑠𝑜 𝑚𝑒𝑛𝑠𝑢𝑎𝑙 (𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝑝𝑒𝑠𝑜𝑠) e 𝑌 = 𝑡𝑖𝑒𝑚𝑝𝑜 𝑑𝑒 𝑠𝑒𝑟𝑣𝑖𝑐𝑖𝑜 𝑒𝑛 𝑙𝑎 𝑒𝑚𝑝𝑟𝑒𝑠𝑎 (𝑎ñ𝑜𝑠)
Tabla: ingreso y tiempo de servicio
Tiempo de Servicio
0-4 4-8 8-12
Ingreso
Mensual
300-340
6 4 2
340-480
3 6 4
480-620 2 8 6
620-960
1 2 10
36. 36
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
a) ¿Cuál es la cantidad de personas que llevan 4-8 años en la empresa y que tienen un ingreso mensual
de 480-620?
Solución:
Son 8 personas
b) ¿Cuál es el porcentaje de personas que tienen un tiempo de servicio entre 0-4 años y su ingreso
mensual está entre 620-960? ¿Qué porcentaje representa de los empleados?
Solución:
Es 1 persona de 54 personas empleadas, entonces el porcentaje es:
1
54
= 0,0185 = 1,85%
c) Obtenga la Media marginal del Ingreso Mensual.
Solución:
Para Obtener la media marginal de la variable Ingreso Mensual, es necesario conocer la distribución
marginal, luego esta es:
Estado Nutricional
300-340 340-480 480-620 620-960 TOTAL
Marca de Clase 320 410 550 790
Frecuencia 12 13 16 13 54
En base a la información proporcionada por la distribución marginal, se calcula la media marginal,
como sigue:
𝑀𝑒𝑑𝑖𝑎 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 = 𝑥̅ =
12∗320+⋯+13∗790
54
= 523 (Miles de pesos)
Entonces, el ingreso promedio es de $523.000.- para el conjunto de datos.
Observación: Así también, se puede calcular la media marginal de la variable tiempo de servicio,
replicando el procedimiento anterior.
d) Calcule la Varianza marginal de la variable Ingreso Mensual:
Solución: La varianza cuantifica la variabilidad de un conjunto de datos, su obtención se basa en la
información proporcionada por los datos de la frecuencia marginal.
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 = 𝑆2
=
12∗(320−523)2+⋯+13∗(790−523)2
54−1
= 30.168 (Miles de pesos)2
37. 37
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Debido a que la unidad de los datos está al cuadrado no es posible interpretar de manera directa con el
promedio, luego, la desviación estándar marginal de los ingresos mensuales es:
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 = 𝑆 = √30.168 = 173,689 ≈ 174 (Miles de pesos)
e) ¿Cuál es la variación conjunta de las variables?
Solución: Para definir la variación conjunta, se obtiene la covarianza (𝐶𝑂𝑉(𝑥, 𝑦))
Tiempo de Servicio
Marcas de Clase 2 6 10
Ingreso
Mensual
320
6 4 2
410
3 6 4
550 2 8 6
790
1 2 10
𝐶𝑂𝑉(𝑥, 𝑦) =
320 ∗ 2 ∗ 6 + ⋯ + 790 ∗ 10 ∗ 10
54
− 523,0 ∗ 6,7 = 237,8
Esto es la variación conjunta de las variables Ingreso Mensual y Tiempo de servicio. Podemos mencionar
que las variables 𝑥 e 𝑦 tiende a moverse en la misma dirección, es decir existe una relación positiva.
Problema 4:
Un docente de la asignatura de estadística desea relacionar los resultados obtenidos en la prueba 1 y los
resultados alcanzados en el examen, para lo cual cuenta con la siguiente información de sus estudiantes:
Su pregunta es ¿Existe correlación entre los resultados de la prueba 1 y el examen?
Solución:
El primer indicador es una referencia gráfica, a Continuación se presenta el Gráfico de Dispersión de Notas
en la Prueba 1 (X) versus Notas el Examen (Y) del curso de 25 alumnos.
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
P1 1,7 3,8 5,1 5,6 5,0 5,7 2,1 3,7 3,8 4,1 3,4 4,4 6,8 5,1 4,3 6,2 5,9 5,4 4,1 6,2 5,2 4,6 4,9 5,9 5,5
Ex 3,5 3,2 3,5 5,2 4,9 3,7 3,6 4,5 4,0 3,6 4,4 3,3 5,5 3,9 4,6 5,7 4,3 4,1 5,0 3,8 4,4 4,0 4,5 3,4 4,5
38. 38
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
La gráfica presenta una correlación positiva (ascendente) leve entre las notas obtenidas en la prueba 1 y el
examen, por otra parte para determinar el grado de asociación entre dos variables se utiliza el coeficiente de
correlación de Pearson, denotado por “r”, en este caso su valor es:
Coeficiente de correlación 𝑟 = 0,407
El cual es consistente a la información gráfica, lo que señala finalmente que existe una correlación positiva y
leve entre ambas variables analizadas.
Problema 5:
Las estaturas y pesos de los 10 jugadores de baloncesto de la Universidad Tecnológica De Chile, Inacap son:
Estatura (x) 186 189 190 192 193 193 198 201 203 205
Pesos (y) 85 85 86 90 87 91 93 103 100 101
a) ¿Existe una correlación entre las estaturas y el peso?
Solución:
La gráfica de dispersión (scatterplot), entre la estatura y el peso es la siguiente:
39. 39
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
La gráfica presenta una correlación positiva (ascendente) fuerte entre la estatura y el peso, el coeficiente de
correlación de Pearson, 𝑟 = 0,944, es cercano a 1, lo que es considerado como alto o fuerte.
b) La regresión lineal e identifique las variables (predictiva y respuesta)
Solución:
El modelo de regresión lineal para las variables: la estatura en centímetros (𝑥), que corresponde a la variable
predictiva o independiente y el peso en kilogramos (𝑦), que es la variable respuesta o dependiente, es:
𝑦 = 𝑎 + 𝑏 ∗ 𝑥
Donde:
𝑎 = −107,139
𝑏 = 1,022
Luego el modelo es:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎
c) Calcule el peso estimado de un jugador que mide 208 cm.
Solución:
Para estimar el peso de un jugador que mide 208 cm,
Se tiene que 𝑥 = 208, entonces:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 208
𝑃𝑒𝑠𝑜 = 105,4
El peso estimado es 105,4 Kg.
d) La estatura estimada de un jugador que pesa 100 kg.
Solución:
Para estimar la estatura de un jugador que pesa 100 kg.
Se tiene que 𝑦 = 100, entonces:
40. 40
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
100 = −107,139 + 1,022 ∗ 𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎
Despejando, el resultado es:
𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎 = 202,7
La estatura estimada es 202,7 cm.
e) El peso estimado de un jugador que mide 198 cm. ¿cuál es el residuo de la estimación?
Solución:
Para estimar el peso de un jugador que mide 198 cm,
Se tiene que 𝑥 = 198, entonces:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 198
𝑃𝑒𝑠𝑜 = 95,2
El peso estimado es 97,4 Kg.
La estimación del residuo o error: 𝑒 = 93 − 95,2 = −2,2
Esto significa que se estima un error de 2,2 kilogramos de sobrestimación.
f) El peso estimado de un jugador que mide 201 cm. ¿cuál es el residuo de la estimación?
Solución:
Para estimar el peso de un jugador que mide 201 cm,
Se tiene que 𝑥 = 201, entonces:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 201
𝑃𝑒𝑠𝑜 = 98,3
El peso estimado es 100,5 Kg.
La estimación del residuo o error: 𝑒 = 103 − 98,3 = 4,7
Esto significa que se estima un error de 4,7 kilogramos de subestimación.
Observación: las preguntas anteriores relejan los tipos de errores que se pueden estimar.
g) Estime el peso de un jugador de una estatura “particular” para la talla de los jugadores, que mide 155
cm. ¿cuál es el residuo de la estimación?
Solución:
Para estimar el peso de un jugador que mide 155 cm,
Se tiene que 𝑥 = 155, entonces:
𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 155
𝑃𝑒𝑠𝑜 = 51,3
El peso estimado es 51,3 Kg.
La estimación del residuo o error: en esta situación no es posible afirmar que sea una buena estimación,
debido a que el valor de la variable 𝑥, se encuentra fuera del ámbito de los valores obtenidos en la muestra.
41. 41
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
h) Desarrollemos el análisis residual de nuestro modelo de regresión. Los datos considerados son
los siguientes:
Solución:
Estatura (𝑥) 186 189 190 192 193 193 198 201 203 205
Pesos (𝑦) 85 85 86 90 87 91 93 103 100 101
Estimado (𝑦
̂) 83,0 86,0 87,0 89,1 90,1 90,1 95,2 98,3 100,3 102,4
Residuo (𝑒) 2,0 -1,0 -1,0 0,9 -3,1 0,9 -2,2 4,7 -0,3 -1,4
En base a los datos de los errores es posible realizar su representación gráfica:
Esta gráfica presenta una distribución uniforme de los errores o residuos, esto es un indicador de que el
modelo es adecuado.
i) Determinación de la variabilidad de los residuos, es error estándar de estimación, denotado 𝑆𝑒.
Solución:
Donde: 𝑆𝑒 = √
2,02+⋯+(−1,4)2
=10−2
= √
5,776
8
= 2,4 (kilogramos)
Este valor señala que el error estándar de estimación del modelo es de 2,4 kilogramos.
-4,0
-2,0
0,0
2,0
4,0
6,0
185 190 195 200 205 210
Residuos
Residuos
42. 42
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
Problemas Propuestos
1. Un grupo de investigadores, al estudiar la relación entre el tipo acción y la severidad de la
variabilidad, reunió los datos de 1500 acciones, los cuales se presentan en la tabla de
contingencia adjunta.
Tipo de Acción
A B C D
Variabilidad
Baja
543 211 90 476
Moderada 44 22 8 21
Severa
28 9 7 31
a) Calcule las distribuciones marginales. Interprete.
b) ¿Cuál es el porcentaje de acciones con variabilidad baja del tipo A?
c) ¿Cuál es el total de acciones que tienen una variabilidad severa, y su proporción de la muestra?
d) ¿Cuál de las acciones es la más estable?
e) Realice una representación gráfica de información proporcionada por la tabla
2. Una compañía aérea desea estudiar la relación entre el número de vuelos y la edad de sus
pasajeros, consultó a sus pasajeros y recabó información resumida en la siguiente tabla.
Número de vuelos por año
0-1 2-4 5-7
Edad
10-25
4 19 15
25-40 4 25 9
40-65
8 16 6
65-80
6 23 11
a) Determine las distribuciones marginales para las variables.
b) ¿Qué porcentaje de las personas entre 40 y 65 años, toma entre 2-4 vuelos?
c) ¿Cuál es el promedio de la variable edad? Y ¿Cuál es su variabilidad?
d) ¿Qué valor tiene la media de los vuelos por años?
e) Obtenga la Covarianza.
43. 43
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
3. Interprete cada uno de los siguientes coeficientes de correlación y use gráficos de
dispersión para representar como se vería cada una de las relaciones entre dos variables (x, y)
cualesquiera:
a) r = -1,0 b) r = 0,05 c) r = 0,85 d) r = -0,99 e) r = -0,03
4. Si el coeficiente de correlación para los datos de la tabla es 0,97, responda a las preguntas
siguientes, primero sin realizar ningún cálculo y después, comprobar las respuestas haciendo
los cálculos necesarios con su calculadora.
X 2 3 4 5 6
Y 5 7 8 13 14
Revise los gráficos de dispersión correspondientes y responda cómo cambiaría este
coeficiente si:
a) Sumamos 3 a la variable X (cada valor)
b) Sumamos 3 en ambas variables (cada valor)
c) Multiplicamos la variable X por 2 (cada valor)
d) Intercambiamos todos los valores de X por los de Y
e) Cambiamos el último valor de X por el de Y
f) Sumamos 10 a ambas variables pero sólo en el primer punto observado
5. Cada una de las frases siguientes contiene un error, explique en cada caso qué es lo que está
mal.
a) “Existe una alta correlación (r=0,32) entre el sexo de los trabajadores en Santiago y su salario”
b) “Se encontró una alta correlación (r=1,09) entre las evaluaciones de los estudiantes a los profesores
y los salarios de los académicos”
c) “La correlación entre el tamaño familiar y los metros cuadrados del hogar es r=0,65 metros
cuadrados”
6. La correlación lineal de X con Y es r = 0,60; la correlación de X con W es de r = -0,80. ¿Con
cuál de las variables Y o W, es mayor el grado de asociación lineal?
7. En un curso de introducción a la estadística, un profesor hace dos exámenes. El profesor
quiere determinar si los puntajes de los estudiantes en el segundo examen están
correlacionados con los puntajes del primero. Para facilitar los cálculos, se elige una muestra
de ocho estudiantes. Sus calificaciones aparecen en la siguiente tabla.
Estudiante 1 2 3 4 5 6 7 8
Examen 1 60 75 70 72 54 83 80 65
Examen 2 60 100 80 68 73 97 85 90
44. 44
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
a) Construya una gráfica de dispersión para estos datos, utilizando el puntaje del primer examen
como la variable X. ¿Parece lineal la relación?
b) Suponga que existe una relación lineal entre las calificaciones de los dos exámenes, calcule el valor
r de Pearson.
c) ¿Cuál es la variable explicativa y la variable respuesta?
d) Construya un modelo de regresión lineal simple
e) ¿Cuál es el puntaje estimado para el examen 2, si un estudiante logró 83 puntos en el examen 1?
f) Obtenga el error (residuo) de la estimación de la pregunta anterior. ¿Qué tipo de error se produce?
8. A partir de los siguientes datos referentes a horas trabajadas en un taller y unidades
producidas, determina:
a) Grafica los datos, califique el gráfico según sus parámetros e infiera los resultados posibles del modelo
y la correlación,
b) La recta de regresión lineal de la producción sobre las horas.
c) El coeficiente de correlación lineal e interpreta la respuesta.
d) ¿Cuál es la proporción de variación de los resultados que puede explicarse por el modelo?
e) Obtenga el error estándar de estimación del modelo e interprete su valor.
Horas 80 79 83 84 78 60 82 85 79 84 80 62
Producción 300 302 315 330 300 250 300 340 315 330 310 240
9.Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país a
partir de la relación de éstas y la renta nacional. Para investigar la relación cuenta con los
siguientes datos:
X 189 190 208 227 239 252 257 274 293 308 316
Y 402 404 412 425 429 436 440 447 458 469 469
X representa la renta nacional en miles de millones de pesos e Y representa las ventas las ventas de
la compañía en miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive):
a) La recta de regresión lineal, ¿Cuál es la variable explicativa y la variable respuesta?
b) El coeficiente de correlación lineal e interpretación y el coeficiente de determinación.
c) Si en 2001 la renta nacional del país fue de 325 miles de millones de pesos. ¿Cuál será la predicción
(extrapolación) para las ventas de la compañía en este año? ¿Es confiable dicho valor? ¿cuál es su
residuo?
d) Obtén los errores producidos en las estimaciones, para cada una de las observaciones (datos).
e) ¿El modelo calculado es representativo de los datos?
45. 45
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS
ñ
10. Remítase a los datos de la siguiente tabla y analice los valores extremos, en base a las
preguntas siguientes. (Efectos de un valor extremo)
x 1 1 1 2 2 2 3 3 3 10
y 1 2 3 1 2 3 1 2 3 10
a) Examine el patrón de los 10 puntos y determine de forma subjetiva sí parece existir una correlación
entre 𝑥 y 𝑦.
b) Después de identificar los 10 pares de coordenadas correspondientes a los 10 puntos, calcule el valor
del coeficiente de correlación r y determine si existe una correlación lineal.
c) Ahora elimine el punto con las coordenadas (10, 10) y repita los incisos a) y b). ¿Qué concluye cerca
del posible efecto de un solo par de valores?
11. Considere los siguientes conjuntos de datos. Desarrolle los siguientes puntos para cada uno
de los casos:
a) Construya una gráfica de dispersión
b) Obtenga e interprete el coeficiente de correlación lineal
c) Calcule el modelo de regresión
d) Obtenga los errores y realice una gráfica de éstos.
e) Calcule el error estándar de estimación
f) Interprete de forma conjunta ambas graficas realizadas
Caso 1
X 0 1 2 3 4 5 7 8 9 10
Y 1 4 8 18 19 24 36 43 42 47
Caso 2
X 0 1 2 3 4 5 7 8 9 10
Y 1 0 2 5 10 20 15 10 7 3
Caso 3
X 0 1 2 3 4 5 7 8 9 10
Y 0 6 9 15 10 35 15 60 75 20
46. 46
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
a probabilidad, puede ser uno de los tópicos más interesantes para la caracterización
de un conjunto de datos, puesto que permite medir la incerteza que se tiene respecto
a un fenómeno de interés.
UNIDAD 3
DISTRIBUCIÓN DE PROBABILIDAD
NORMAL
L
47. 47
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
PROGRAMA DE LA ASIGNATURA ETEP01
UNIDAD 3
DISTRIBUCIONES DE PROBABILIDAD
APRENDIZAJE ESPERADO
Resuelve problemas aplicando los principios de probabilidades en problemas de aplicación
CRITERIOS DE EVALUACIÓN
Utiliza propiedades para determinación de probabilidades en problemas de aplicación.
Construye la distribución de probabilidades para una variable aleatoria.
APRENDIZAJE ESPERADO
Describe el comportamiento de una variable aleatoria con distribución normal estándar.
CRITERIOS DE EVALUACIÓN
Reconoce los parámetros de la distribución normal estándar.
Calcula probabilidades de una distribución normal estándar.
Obtiene e interpreta percentiles de una distribución normal estándar.
APRENDIZAJE ESPERADO
Aplica la distribución normal a resolución de problemas de la especialidad.
CRITERIOS DE EVALUACIÓN
Estandariza una variable aleatoria normal para su aplicación a problemas.
Determina probabilidades y percentiles de una variable aleatoria mediante el uso de la distribución normal
estandarizada.
Resuelve problemas de la especialidad a través del uso de la distribución normal.
48. 48
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Introducción
El concepto de probabilidad, aunque tiene suele ser utilizado con bastante
frecuencia en distintas situaciones, no siempre es utilizado de forma
adecuada. La medida de probabilidad permite medir el nivel de conocimiento
o de incertidumbre que se tiene respecto a un fenómeno de interés, es decir,
permite cuantificar qué tan seguros estamos que un determinado evento o
fenómeno puede ocurrir (respectivamente no ocurrir).
PROBABILIDAD
Definiciones:
Ω: Espacio muestral, conjunto de todos los posibles resultados
de un experimento.
𝐴 ⊆ Ω: Evento o fenómeno en Ω.
#Ω: cardinalidad de Ω,cantidad de elementos del conjunto.
𝑃(𝐴): Probabilidad de que ocurra el evento A.
𝑃(𝐴) =
⋕ A
⋕ Ω
=
𝐶𝑎𝑠𝑜𝑠 𝑎 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐴
𝑐𝑎𝑠𝑜𝑠 𝑇𝑜𝑡𝑎𝑙𝑒𝑠 𝑑𝑒 Ω
=
𝐶𝐹
𝐶𝑇
𝐶𝑘
𝑛
: Cantidad de formas de seleccionar 𝑘 elementos sin
devolución desde un total de 𝑛, sin importar el orden en el cual
son seleccionados.
𝐶𝑘
𝑛
= (
𝑛
𝑘
) =
𝑛!
(𝑛 − 𝑘)! 𝑘!
𝑃𝑘
𝑛
: Cantidad de formas de seleccionar 𝑘 elementos sin
devolución desde un total de 𝑛, cuando importar el orden en el
cual son seleccionados.
𝑃𝑘
𝑛
= (
𝑛
𝑘
) 𝑘! =
𝑛!
(𝑛 − 𝑘)!
49. 49
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Además todas las propiedades de conjuntos son válidads en probabilidades.
PROBABILIDAD
Axiomas:
P(Ω) = 1
P(Ω𝑐) = P(ϕ) = 0
Sea un evento 𝐴 ⊆ Ω, entonces
0 ≤ 𝑃(𝐴) ≤ 1
Si 𝐴 ⊆ Ω, entonces 𝐴𝑐
⊆ Ω, así
𝑃(𝐴𝑐) = 1 − 𝑃(𝐴)
Sean 𝐴, 𝐵 ⊆ Ω, entonces:
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
Definiciones:
Dos eventos 𝐴 y 𝐵 se dicen independientes estocásticamente si
la ocurrencia de uno de ellos no afecta ni altera la ocurrencia del
otro, y viceversa.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)
Dos eventos 𝐴 y 𝐵 se dicen excluyentes si la ocurrencia de uno
de ellos impide la ocurrencia del otro, y viceversa.
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵), 𝑃(𝐴 ∩ 𝐵) = 0
Dos eventos 𝐴 y 𝐵 se dicen dependientes si la ocurrencia de uno
de ellos entrega información sobre la ocurrencia del otro, y
viceversa.
𝑃(𝐴|𝐵) =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
, 𝑠𝑖 𝑃(𝐵) > 0
50. 50
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Teoremas:
PROBABILIDAD Teorema de la Multiplicación:
𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑒𝑛 Ω, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠:
𝑃 (⋂ 𝐴𝑖
𝑛
𝑖=1
) = {
∏ 𝑃(𝐴𝑖)
𝑛
𝑖=1
𝑠𝑖 𝑙𝑜𝑠 𝐴𝑖
′
𝑠𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠.
𝑃(𝐴1) ⋅ 𝑃(𝐴2|𝐴1) ⋅ 𝑃(𝐴3|𝐴1 ∩ 𝐴2) ⋯ 𝑃(𝐴𝑛| ⋂ 𝐴𝑖
𝑛−1
𝑖=1 )
Teorema de Probabilidades Totales:
𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 una partición disjunta y exhaustiva de Ω, y sea 𝐵 otro
evento en Ω, entonces:
𝑃(𝐵) = ∑ 𝑃(𝐵|𝐴𝑖) ⋅ 𝑃(𝐴𝑖)
𝑛
𝑖=1
Teorema de Bayes:
𝑆𝑒𝑎𝑛 𝐴1, … , 𝐴𝑛 una partición disjunta y exhaustiva de Ω, entonces para
cualquier otro evento 𝐵 en Ω, se tiene que:
𝑃(𝐴𝑖|𝐵) =
𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)
∑ 𝑃(𝐵|𝐴𝑗) ⋅ 𝑃(𝐴𝑗)
𝑛
𝑗=1
, ∀ 𝑖 = 1, … , 𝑛.
51. 51
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problema 1:
Se lanza una vez un dado cúbico con sus caras enumeradas del 1 al 6 y se
observa la cara superior.
a) Determine el espacio muestral del experimento.
Solución:
Ω = {1,2,3,4,5,6}
b) Determine la probabilidad de que salga el 5.
Solución:
Sea el evento A = el dado muestra el número 5.
P(A) =
#A
#Ω
=
1
6
c) Determine la probabilidad que salga un número par.
Solución:
Sea el evento B = el dado muestra un número par.
P(𝐵) =
CF(B)
𝐶𝑇(Ω)
=
3
6
=
1
2
d) Determine la probabilidad que salga un número mayor a 4.
Solución:
Sea el evento C = el dado muestra un número mayor a 4.
P(𝐶) =
CF(𝐶)
𝐶𝑇(Ω)
=
2
6
=
1
3
PROBABILIDAD
52. 52
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problema 2:
Se tiene una moneda desbalanceada, con probabilidad de cara
1
3
y dos urnas,
la urna A tiene 5 fichas blancas y 3 negras, la urna B tiene 3 fichas blancas y
5 negras. El experimento consiste en lanzar una vez la moneda al aire, si sale
cara se selecciona una ficha al azar desde la urna A, en cambio si sale sello se
selecciona al azar una ficha desde la urna B.
a) Determine el espacio muestral del experimento.
Solución:
𝑆𝑒𝑎𝑛 𝑙𝑜𝑠 𝑒𝑣𝑒𝑛𝑡𝑜𝑠:
𝐶: 𝑙𝑎 𝑚𝑜𝑛𝑒𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑐𝑎𝑟𝑎
𝑆: 𝑙𝑎 𝑚𝑜𝑛𝑒𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑠𝑒𝑙𝑙𝑜
𝐵: la ficha extraída es blanca
𝑁: la ficha extraída es negra
Ω = {(𝐶, 𝐵), (𝐶, 𝑁), (𝑆, 𝐵), (𝑆, 𝑁)}
b) Determine la probabilidad de que la ficha extraída sea blanca.
Solución:
P(B) =
1
3
⋅
5
8
+
2
3
⋅
3
8
=
11
24
c) Si la ficha extarída es de color negro, ¿Cuál es la probabilidad que la
moneda haya mostrado sello?
Solución:
P(𝑆|𝑁) =
P(N|S)P(S)
𝑃(𝑁)
=
3
8
⋅
2
3
1
3
⋅
3
8
+
2
3
⋅
5
8
=
6
24
13
24
=
6
13
PROBABILIDAD
C
S
B
N
B
N
Una forma de representar el
experimento, es mediante un
árbol de probabilidades, en el
cual se representan
secuencialmente los eventos
y sus respectivas
probabilidades de ocurrencia.
53. 53
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problemas Propuestos
1. Demostrar que si dos eventos 𝐴 y 𝐵 son independientes, entonces 𝐴𝑐
y 𝐵𝑐
son independientes.
2. Una urna contiene cinco dados con sus caras de color blanco o rojo.
El dado número 𝑖 (𝑖 = 1, … ,5) tiene 𝑖 de sus caras blancas y el resto rojas.
Se selecciona al azar un dado de la urna, se lanza y sale cara roja. ¿Cuál es la
probabilidad de que el dado seleccionado sea el 𝑖?
3. Una caja contiene 5 fichas blancas y 10 negras. Se lanza un dado y
luego se extraen (sin reposición) de la caja tantas fichas como puntos se
obtienen en el dado,
a) ¿Cuál es la probabilidad de que exactamente dos de las fichas extraídas
sean blancas?
b) ¿Cuál es la probabilidad de que el dado muestre 3 si todas las fichas
extraídas fueron blancas?
4. Una mano de póker consiste en cinco cartas seleccionadas sin
reemplazo de una baraja de 52 (sin comodines). Determine la probabilidad
de obtener las siguientes combinaciones:
a) Escalera de color: las cinco cartas consecutivas y del mismo palo.
b) Escalera de color real: escalera de color con el As como carta mayor,
detrás de la K.
c) Póker: cuatro cartas con la misma numeración.
d) Póker de ases.
e) Full: tres cartas con una numeración y las otras dos con otra.
f) Escalera: las cinco cartas consecutivas (el As puede ir al comienzo o al
final).
g) Color: las cinco cartas del mismo palo.
h) Dobles parejas.
i) Trío.
j) Pareja.
PROBABILIDAD
54. 54
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
5. Un banco ha comprobado que la probabilidad de que un cliente con
fondos extienda un cheque con fecha equivocada es de 0,001. En cambio, todo
cliente sin fondos pone una fecha errónea en sus cheques. El 90% de los
clientes del banco tienen fondos. Se recibe hoy en caja un cheque con fecha
equivocada. ¿Qué probabilidad hay de que sea de un cliente sin fondos?
6. Obtener la probabilidad 𝑝 de que al lanzar n veces dos dados se
obtenga al menos un 6 doble. ¿Cuántas partidas habrá que jugar para que
tengamos 𝑝 = 1/2 de obtener un 6 doble?
7. Problema de Galton. Se lanzan tres monedas al aire, ¿cuál es la
probabilidad de que las tres sean caras o las tres cruces?
8. Una caja contiene ocho bolas rojas, tres blancas y nueve azules. Si se
sacan tres bolas al azar, determinar la probabilidad de que:
a) las tres sean rojas;
b) las tres sean blancas;
c) dos sean rojas y una blanca;
d) al menos una sea blanca;
e) sean una de cada color;
f) salgan en el orden roja, blanca, azul.
PROBABILIDAD
55. 55
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Introducción
En variados problemas, es posible definir una variable que represente el
fenómeno de interés, ya sea que cuente la cantidad de caras al lanzar una
moneda diez veces o que cuente la cantidad de automóviles que pasan por
pórtico en una carretera.
VARIABLE
ALEATORIA
DISCRETA
Definición:
Se dice que una variable aleatoria (v.a.) 𝑋 es discreta, si el conjunto de
posibles resultados 𝐵 ∈ Ω (soporte), es un conjunto finito o infinito
numerable, de tal forma que existe una función que asocia un número
real con cada elemento del soporte.
Definiciones:
Se denomina función de probabilidad o función de
distribución de probabilidad de la variable aleatoria 𝑿, al
conjunto de pares ordenados (𝑥, 𝑓(𝑥)) si se cumple:
1. 𝑓(𝑥) ≥ 0 ∀ 𝑥 ∈ 𝐵.
2. ∑ 𝑓(𝑥)
𝑥∈𝐵 = 1.
3. 𝑃(𝑋 = 𝑥) = 𝑓(𝑥).
Se denomina función de distribución acumulada 𝑭(𝒙) de la
variable aleatoria 𝑿:
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑓(𝑡)
𝑡≤𝑥
∀ 𝑥 ∈ 𝐵.
56. 56
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problema 1:
Se lanzar una moneda equilibrada tres veces y se observa la cantidad de caras
que muestre la moneda.
a) Construya la función de distribución de probabilidad para el número
de caras.
Solución:
Sea 𝑋 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑎𝑠, entonces los valores posibles de la variable
aleatoria son: 𝑋 = 0, 1, 2, 3 luego la distribución de probabilidad queda
definida como:
X: número de caras Espacio Muestral Probabilidad
0 (S,S,S) 1
8
1 (C,S,S); (S,C,S); (S,S,C) 3
8
2 (C,C,S); (C,S,C); (C,C,S) 3
8
3 (C,C,C) 1
8
Total 1
VARIABLE
ALEATORIA
DISCRETA
Definiciones:
Se define el Valor Esperado de la variable aleatoria 𝑋, como:
𝐸(𝑋) = ∑ 𝑥 ⋅ 𝑓(𝑥)
𝑥∈𝐵
.
Se define el Momento de orden 𝒌 de la variable aleatoria 𝑋,
como:
𝐸(𝑋𝑘) = ∑ 𝑥𝑘
⋅ 𝑓(𝑥)
𝑥∈𝐵
.
Se define la Varianza de la variable aleatoria 𝑋, como:
𝑉𝑎𝑟(𝑋) = 𝐸((𝑋 − 𝐸(𝑋) )2) = 𝐸(𝑋2) − 𝐸(𝑋)2
.
57. 57
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
b) Obtener la media de la distribución.
Solución:
𝐸(𝑋) = μ = 0 (
1
8
) + 1 (
3
8
) + 2 (
3
8
) + 3 (
1
8
) = 1,5
El resultado de la media o valor esperado es 1,5 caras, para el experimento
aleatorio de lanzar tres veces una moneda.
c) Calcular e interpretar la varianza y desviación estándar.
Solución:
𝑉𝑎𝑟(𝑋) = 𝜎2
= [02
(
1
8
) + 12
(
3
8
) + 22
(
3
8
) + 32
(
1
8
)] − 1,52
= 0,75
Luego, la desviación estándar es:
𝐷. 𝐸. (𝑋) = 𝜎 = √𝑉𝑎𝑟(𝑋) = √0,75 = 0,87
El valor de la desviación estándar es de 0,87 caras, lo cual nos indica que tan
desviados están los valores alrededor de la media.
d) Representar gráficamente la distribución.
Solución:
0,00
0,10
0,20
0,30
0,40
0 1 2 3
Distribución de probabilidad
VARIABLE
ALEATORIA
DISCRETA
58. 58
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problema 2:
Se realizó un estudio para caracterizar el comportamiento de la cantidad de
hijos por familia. La tabla siguiente, resume los resultados del estudio:
Con la información de la tabla anterior,
a) Determine el valor de la constante k para que la función sea una
función de probabilidad.
Solución:
∑ 𝑃(𝑋 = 𝑥) = 1
4
𝑥=0
⟺ 0,10 + 𝑘 + 0,20 + 0,15 + 0,05 = 1
𝑘 = 1 − (0,10 + 0,20 + 0,15 + 0,05) = 0,50
b) ¿Cuál es la probabilidad que una familia tenga al menos 2 hijos?
Solución:
𝑃(𝑋 ≥ 2) = 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3) + 𝑃(𝑋 = 4)
= 0,20 + 0,15 + 0,05 = 0,4
El 40% de las familias tienen al menos 2 hijos.
c) Determine la cantidad de hijos esperado por familia.
Solución:
𝐸(𝑋) = 0 ⋅ 0,10 + 1 ⋅ 0,50 + 2 ⋅ 0,20 + 3 ⋅ 0,15 + 4 ⋅ 0,05 =1,55
La cantidad esperada de hijos por familia es de 1,55 ≈ 2.
d) Determine la desviación estándar de la cantidad de hijos por familia.
Solución:
𝐸(𝑋2) = 02
⋅ 0,10 + 12
⋅ 0,50 + 22
⋅ 0,20 + 32
⋅ 0,15 + 42
⋅ 0,05 = 3,45
𝑉𝑎𝑟(𝑋) = 3,45 − 1,552
= 1,0475 ⟹ 𝜎 = √1,0475 = 1,02
La desviaciónestándar del número de hijos por familia es de 1,02.
X 0 1 2 3 4
𝑃(𝑋 = 𝑥) 0,10 k 0,20 0,15 0,05
VARIABLE
ALEATORIA
DISCRETA
59. 59
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problemas Propuestos
1. Estudiemos el modelo para el número de cuadernos en las mochilas
de estudiantes. Sea X una variable aleatoria que representa el número de
cuadernos que llevan los estudiantes de esta Universidad:
X 0 1 2 3
𝑃(𝑋 = 𝑥) 0,5 0,2 0,2 0,1
a) Describir la forma de la distribución, de manera gráfica.
b) ¿Qué proporción de estudiantes llevan 3 o menos libros?
c) ¿Qué proporción de estudiantes llevan más de 2 libros?
d) ¿Qué proporción de estudiantes llevan entre 2,1 y 2,8 libros?
e) ¿Qué proporción de estudiantes llevan entre 1 y 2 libros (inclusive)?
2. En un estudio de reconocimiento de la marca Sony se entrevistaron
grupos de cuatro consumidores. Si X es el número de personas en el grupo
que reconocen la marca Sony entonces x puede ser 0, 1, 2, 3 o 4, y las
probabilidades correspondientes son 0,0016; 0,0250; 0,1746; 0,3892 y
0,4096. ¿Será infrecuente seleccionar al azar a cuatro consumidores y
descubrir que ninguno de ellos reconoce la marca Sony? ¿Cuál es la cantidad
esperada de personas que reconocen la marca?
3. Determine si 𝑃(𝑋 = 𝑥) =
𝑥
10
con X= 1, 2, 3, 4 es una función de
probabilidad. Verifique las propiedades que debe cumplir. Uno de los
requisitos de una distribución de probabilidad es que la suma de las
probabilidades debe ser 1 (se permite una pequeña cantidad de variación por
errores de redondeo). ¿Cuál es la justificación de este requisito?
4. Un trabador asigna un beneficio de carácter vitalicio a cinco personas.
Según las tablas actuales, la probabilidad de que una persona en estas
condiciones viva 30 años o más es 2/3. Hállese la probabilidad de que,
transcurridos 30 años, vivan:
a) Las cinco personas.
b) Al menos tres personas.
c) Exactamente dos personas.
d) Menos de dos personas.
VARIABLE
ALEATORIA
DISCRETA
60. 60
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
5. En el informe del Mapa Socioeconómico de Chile elaborado por
Adimark aparece la distribución de número de bienes en el hogar (Ducha +
TV color + Refrigerador + Lavadora + Calefont + Microondas + TV Cable
o Satelital + PC + Internet + Vehículo)
X 𝑃(𝑋 = 𝑥)
0 0,038
1 0,057
2 0,056
3 0,091
4 0,152
5 0,189
6 0,150
7 0,103
8 0,072
9 0,051
10 0,042
a) ¿Cuál es la probabilidad de encontrar un hogar con menos de 4 bienes?
b) ¿Cuál es la probabilidad de encontrar un hogar con más de 7 bienes?
c) ¿Cuál es la probabilidad de encontrar un hogar con 5 o más y menos
de 9?
d) Calcule el valor esperado de la variable aleatoria de interés, interprete
el resultado.
e) Determine la desviación estándar.
f) Represente gráficamente la distribución.
6. En la tabla distribución de probabilidades que se presenta a
continuación, se detalla número de artículos con fallas, en un embarque de
10.000 unidades de ese producto electrónico importado desde China y la
probabilidad respectiva.
N° de artículos con falla Probabilidad
3 0,111
4 0,278
5 0,222
6 0,167
7 0,139
8 0,083
Determine el intervalo de los ingresos esperados (𝜇 ± 𝜎).
VARIABLE
ALEATORIA
DISCRETA
61. 61
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
7. En un sector de la ciudad de Santiago, se han otorgado subsidios de
agua con anterioridad alcanzando a un 25% de la población, si se extrae una
muestra aleatoria de 10 familias.
a) ¿Cuál es la probabilidad de que exactamente en tres familias hayan
recibido el subsidio?
b) ¿Cuál es la probabilidad de que por lo menos una familia haya recibido
el subsidio?
8. El IPEC de abril muestra que se mantiene el buen ánimo de los
consumidores. Este resultado, además, se ubica como uno de los niveles
más altos de los últimos 16 años, señala que el 59,4%, de los chilenos
considera que nuestro país presenta actualmente una situación económica
buena. Determine la probabilidad de en una muestra de 30 personas entre
13 y 15, consideren una “buena situación económica” nacional.
9. Al analizar los impactos de las bombas V-1 en la Segunda Guerra
Mundial, el sur de Londres se subdividió en 576 regiones, cada una con área
de 0,25 km2
. En total, 535 bombas impactaron el área combinada de 576
regiones. Si se selecciona al azar una región, calcule la probabilidad de que
haya sido impactada en dos ocasiones o menos.
10. El número promedio de goles de un equipo de fútbol de Inacap
durante el primer tiempo de un partido de futbol es 1,67. Calcule la
probabilidad de que pasen 2 goles en ese tiempo.
11. Un asistente comercial atiende en promedio a 5 personas por hora.
¿Cuál es la probabilidad de que en una determinada hora atienda a más de 7
personas? Además, calcule la desviación estándar.
12. Una compañía “asegura” la vida de 5000 personas mayores de 50 años.
La probabilidad de que una persona de 50 años muera en un determinado
año es de 0,001. ¿Cuál es la probabilidad de que la compañía pague 4
indemnizaciones en un determinado año?
VARIABLE
ALEATORIA
DISCRETA
62. 62
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Introducción
Dentro de las variables aleatorias, también se pueden distinguir las variables
aleatorias continuas, de las cuales las más utilizadas para describir el
comportamiento de distintos fenómenos y procesos de producción, en
especial en control de calidad es el llamado modelo Normal.
La distribución Normal, es un modelo que permite represntar el
comportamiento de una variable aleatoria continua. Su función de
distribución de probabilidad es:
𝑓(𝑥) =
1
√2 ⋅ 𝜋 ⋅ 𝜎2
⋅ 𝑒
−
1
2⋅𝜎2(𝑥−𝜇)2
, 𝑠𝑖 − ∞ < 𝑥 < ∞
Anotaremos, 𝑋 ∼ 𝑁(𝜇, 𝜎2). La expresión anterior, indica que la variable 𝑋
tiene una distribución Normal de media 𝜇 y varianza 𝜎2
.
Al construir el gráfico de la distribución Normal, se obtiene una forma muy
característica de esta distribución, forma por la cual recibe el nombre de
Campana de Gauss.
Aunque la distribución normal es muy útil para representar distintos
problemas sobre todo en control de calidad, el cálculo de las probabilidades
asociadas a una variable aleatoria normal, corresponderá al área bajo la
curva, cuya determinación implica técnicas complejas de Cálculo Integral.
Pero, toda variable normal puede ser transformada, mediante el siguiente
cambio de variable:
𝑍 =
𝑋 − 𝜇
𝜎
∼ 𝑁(0,1)
La expresión 𝑍 ∼ 𝑁(0,1) indica que la variable aleatoria es normal con
media 0 y varianza 1, y se llama Distribución Normal Estándar.
DISTRIBUCIÓN
NORMAL
63. 63
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Los valores de la distribución normal estándar se encuentran tabulados, y
esta transformación se denomina estandarización.
Problema 1:
Sea una variable aleatoria con distribución Normal Estándar 𝑧 ∼ 𝑁(0,1).
a) Calcular el área que se encuentra a la izquierda de 𝑍 = 1,22
Solución:
La representación gráfica del problema, se muestra en la figura siguiente:
Utilizando la tabla de la distribución normal estándar acumulada, se obtiene
que 𝑃(𝑍 ≤ 1,22) = 0,8888.
b) Calcular el área que se encuentra a la derecha de 𝑍 = 1,22
(complemento).
Solución:
La representación gráfica del problema, se muestra en la figura siguiente:
𝑃(𝑍 > 1,22) = 1 − 𝑃(𝑍 ≤ 1,22) = 1 − 0,8888 = 0,1112
DISTRIBUCIÓN
NORMAL
64. 64
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
c) Encuentre el área (probabilidad) de la distribución Normal
estándar 𝑍 ∼ 𝑁(0,1) que se encuentra entre 𝑍 = 0 y 𝑍 = 1,22.
Solución:
La representación gráfica del problema, se muestra en la figura siguiente:
𝑃(0 ≤ 𝑍 ≤ 1,22) = P(Z ≤ 1,22) − P(Z ≤ 0)
= 0,8888 − 0,5000 = 0,3888
d) Encuentre el área (probabilidad) de la distribución Normal estándar
𝑍 ∼ 𝑁(0,1) que se encuentra entre 𝑍 = −2,07 y 𝑍 = 1,96.
Solución:
La representación gráfica del problema, se muestra en la figura siguiente:
𝑃(−2,07 ≤ 𝑍 ≤ 1,96) = P(Z ≤ 1,96) − P(Z ≤ −2,07)
= 0,975 − 0,0192 = 0,9558
DISTRIBUCIÓN
NORMAL
65. 65
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
Problema 2:
De acuerdo a los resultados de la Encuesta Suplementaria de Ingresos 2010-
2011 dada a conocer por el Instituto Nacional de Estadísticas (INE), el
ingreso medio mensual per cápita de los ocupados es de $ 360.300 con una
variación típica $ 55.200.
a) ¿Cuál es la probabilidad de seleccionar una persona al azar y que su
ingreso se encuentre entre $300.00 y $450.000 pesos?
Solución:
𝑃(300.000 ≤ 𝑋 ≤ 450.000)
Estandarizando:
= 𝑃 (
300.000 − 360.300
55.200
≤ 𝑍 ≤
450.000 − 360.300
55.200
)
= 𝑃(−1,09 ≤ 𝑍 ≤ 1,63) = 𝑃(𝑍 ≤ 1,63) − 𝑃(𝑍 ≤ −1,09)
= Φ(1,63) − Φ(−1,09) = 0,9484 − 0,1379 = 0,8105
Finalmente: 𝑃(300.000 ≤ 𝑋 ≤ 450.000) = 0,8105.
El 81,05% de la población recibe un ingreso mensual entre $300.00 y
$450.000 pesos.
b) ¿Cuál es la probabilidad de seleccionar una persona al azar y que su
ingreso sea de al menos $490.000?
Solución:
𝑃(𝑋 ≥ 490.000) = 1 − 𝑃(𝑋 ≤ 490.000)
= 1 − 𝑃 (𝑍 ≤
490.000 − 360.300
55.200
) = 1 − 𝑃(𝑍 ≤ 2,35)
= 1 − Φ(2,35) = 1 − 0,9906 = 0,0094
El 0,94% de la población recibe un ingreso mensual de al menos $490.000.
c) Determine el monto mínimo del ingreso que percibe el 20% superior
de los sueldos (cuarto quintil).
Solución:
𝑃(𝑋 ≥ 𝑥) = 0,20
Utilizando la estandarización y calculando el percentil 80, se tiene que:
DISTRIBUCIÓN
NORMAL
DISTRIBUCIÓN
NORMAL
66. 66
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
𝑃 (𝑍 ≤
x − 360.300
55.200
) = 1 − 0,20 = 0,80
𝑥 − 360.300
55.200
= 𝑍0,80
𝑥 = 0,84 ⋅ 55.200 + 360.300
𝑥 = 406.668
El 20% se los sueldos superiores, son de al menos $406.668.
Problemas propuestos:
1. La pirámide poblacional de nuestro país presenta un promedio
poblacional de 𝜇 = 34,4 años y una desviación estándar de 𝜎 = 21,5, si
consideramos que nuestro país presenta un distribución Normal en la edad
¿Cuáles sería los valores para los cuartiles?
2. Calcular las probabilidades de la variable aleatoria Z, con una
distribución normal Z ~ N(0,1).
a) P(Z≤1,75)
b) P(Z>1,75)
c) P(Z≤0)
d) P(Z≥2,57)
e) P(1,89≤Z≤2,07)
f) P(-1,96≤Z≤-0,52)
3. Si X es una variable aleatoria distribuida normalmente con media 80 y
desviación estándar 10, calcular las siguientes probabilidades
a) P(X≤100)
b) P(X>80)
c) P(67≤X≤103)
d) P(82<X<92)
e) P(X>120)
f) P(X≤58)
4. Los administrativos de la municipalidad de Rioseco ganan en
promedio un sueldo líquido de $650.000 mensuales, con una desviación
estándar de $100.000, que se distribuye de forma Normal. Calcular la
probabilidad de que un empleado elegido aleatoriamente gane:
a) Un sueldo mayor a $850.000
DISTRIBUCIÓN
NORMAL
67. 67
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
b) Un sueldo menor a $750.000
c) Un sueldo superior a $450.000
d) Un sueldo entre $550.000 y $950.000
e) Un sueldo inferior a $650.000
f) P(X>680.000)
g) P(X≤596.000)
h) P(567.000≤X≤803.000)
i) P(650.000<X<712.000)
j) ¿Cuál es el monto de sueldo que concentra el primer quintil?
k) ¿Cuál es el monto de sueldo que concentra el 10% de suelos más altos?
l) ¿Cuáles son los valores que concentran el 50% en torno a la media?
5. En una ciudad se estima que la temperatura máxima en el mes de abril
sigue una distribución normal, con media 23° y desviación típica 5°.Calcular
el número de días del mes en los que se espera alcanzar máximas entre 21°
y 27°. (Considere un mes=30 días).
6. La media de los pesos de 500 estudiantes de primero a cuarto medio
es 70 kilogramos y la desviación típica 5,5 kilógramos. Suponiendo que los
pesos se distribuyen normalmente. Construir la siguiente clasificación y
determinar el número de estudiantes que pertenecen a cada uno de las
categorías para determinar el gasto en un plan de salud:
a) Bajo peso: menos de 61,2 kilogramos
b) Peso normal: entre 61,2 y 77,2 kilogramos
c) Sobre peso: más de 77,2 kilogramos
7. El plan de salud que desea desarrollar una institución de ayuda tiene
los siguientes costos, debe invertir $50.000 por cada estudiante en categoría
bajo peso para su recuperación y $ 90.000 por cada estudiante con sobre
peso. El departamento de asistencia social cuenta con $5.000.000 de
presupuesto destinado a este colegio. ¿Es suficiente el monto para activar el
plan?
8. Se supone que los resultados de un examen siguen una distribución
normal con media 78 y varianza 36. Se pide:
a) ¿Cuál es la probabilidad de que una persona que se presenta el examen
obtenga una calificación superior a 72?
b) Si se sabe que con 64 puntos un estudiante obtiene nota de
aprobación. Calcule la proporción de estudiantes que tienen puntuaciones
que exceden por lo menos en cinco puntos de la puntuación que marca la
frontera entre aprobado y no aprobado.
DISTRIBUCIÓN
NORMAL
68. 68
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD
9. Los puntajes de una prueba de concentración tienen una
puntuación que sigue una distribución normal, con media 100 y desviación
típica 15. Determinar el porcentaje de población que obtendría un puntaje
entre 95 y 110.
10. Se supone que el nivel de colesterol de los enfermos de un hospital
sigue una distribución normal con una media de 179,1 mg/dL y una
desviación estándar de 28,2 mg/dL.
a) Calcule el porcentaje de enfermos con un nivel de colesterol inferior
a 169 mg/dL.
b) ¿Cuál será el valor del nivel de colesterol a partir del cual se encuentra
el 10% de los enfermos del hospital con los niveles más altos?
11. El tiempo que demoran los nadadores de 100 metros estilo libre sigue
una normal con media 55 segundos y desviación estándar de 5 segundos.
a) Los organizadores de un campeonato deciden dar certificados a todos
los nadadores que terminen antes de 49 segundos. Si hay 50 nadadores en
los 100 metros mariposa, ¿cuántos certificados se necesitarán?
b) ¿Con qué tiempo debe terminar un nadador para estar entre el 2% más
rápido de la distribución de tiempos?
DISTRIBUCIÓN
NORMAL