Curso breve de estadística
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,769
On Slideshare
1,769
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
62
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. CURSO BREVE DE ESTADÍSTICACOLECTIVO DE AUTORES:MSc. Manuel Ernesto Acosta Aguilera Prof. Asistente mernesto@fec.uh.cuMSc. Luis Piña León Prof. Auxiliar luisp@fec.uh.cuMSc. Daysi Espallargas Ibarra Prof. Auxiliar daysi@fec.uh.cu DPTO. ESTADÍSTICA - INFORMÁTICA FACULTAD DE ECONOMÍA UNIVERSIDAD DE LA HABANA 2008
  • 2. ÍNDICEINTRODUCCIÓN A LA ESTADÍSTICA ..................................................................................... 3OBJETIVOS DEL CURSO ............................................................................................................ 4TEMA I: MÉTODOS DESCRIPTIVOS......................................................................................... 51.1: Definición de población y muestra. Clasificación de las variables. Organización de los datos.Tablas de frecuencias. Gráficos...............................................................................................................51.2: Medidas descriptivas o estadígrafos. Estadígrafos de posición más usados: media, medianay moda. Estadígrafos de dispersión más usados: varianza, desviación típica y coeficiente devariación.....................................................................................................................................................16TEMA II: PROBABILIDADES. .................................................................................................. 282.1: Introducción a los fenómenos y experimentos aleatorios. Espacio muestral y sucesos.Clasificación de sucesos. Definición clásica de Probabilidad. Definición estadística deProbabilidad...............................................................................................................................................282.2: Axiomatización de la Probabilidad. Reglas de cálculo de probabilidades. Probabilidadcondicional. Independencia de sucesos. ..............................................................................................35TEMA III: DISTRIBUCIONES TEÓRICAS DE PROBABILIDAD.......................................... 413.1: Definición de variable aleatoria. Función de probabilidad univariada: casos discreto ycontinuo. Función de distribución. Media y varianza de variables aleatorias. ................................413.2: Distribución binomial: características y uso. Distribución de Poisson: características y uso......................................................................................................................................................................493.3: Distribución normal o de Gauss. Distribución chi-cuadrado. Distribución t de Student.Distribución F de Fisher...........................................................................................................................58TEMA IV: MUESTREO Y ESTIMACIÓN ................................................................................. 744.1. Conceptos básicos: Población y Muestra. Muestreos aleatorios: Muestreo Aleatorio Simple.Uso de la tabla de números aleatorios para efectuar un muestreo aleatorio. ................................744.2 Estimadores. Propiedades deseables para un buen estimador. Estimación puntual.Distribución muestral. Distribución muestral de la media tanto con varianza (σ2) conocida comodesconocida. Distribución muestral de las proporciones y de la varianza. .....................................804.3: Error máximo permisible y tamaño de muestra necesario para la estimación de μ y p.Estimación por intervalos de confianza. ...............................................................................................89TEMA V: PRUEBAS DE HIPÓTESIS ........................................................................................ 985.1. Conceptos básicos. Desarrollo general de pruebas de hipótesis. Pruebas para medias enuna población............................................................................................................................................985.2: Tamaño del error tipo II. Función de potencia. Tamaño de la muestra. ................................1125.3: Pruebas no paramétricas: Prueba chi-cuadrado de la bondad de ajuste para verificarnormalidad. Prueba chi-cuadrado para verificar el supuesto de independencia. Tablas decontingencia. ...........................................................................................................................................119TEMA VI: ANÁLISIS DE VARIANZA.................................................................................... 1296.1: Conceptos básicos del análisis de varianza. Modelo de clasificación simple. Supuestos delmétodo. ....................................................................................................................................................129BIBLIOGRAFÍA BÁSICA:........................................................................................................ 140 1
  • 3. PRESENTACIÓNA los estudiantes:Este texto ha sido elaborado por un colectivo de profesores de Estadística de la Facultad de Economía dela Universidad de La Habana, para contribuir a un mejor estudio de los temas correspondientes a estaasignatura en las carreras de perfil económico y social, en general, particularmente en la Licenciatura enEconomía.El objetivo del estudio de la Estadística en cualquier carrera es dotar al alumno de algunos elementos quele servirán para trabajar con conjuntos de datos, describir situaciones de interés, hacer inferencias sobrela base de observaciones y evaluar hipótesis relacionadas con alguna circunstancia práctica; además,pueden iniciarse en el estudio de los fenómenos y experimentos aleatorios, estableciendo el vínculo entrelos conocimientos y habilidades de los contenidos de la Estadística Descriptiva, la Teoría de lasProbabilidades y la Estadística Inferencial.Debe señalarse que la Estadística es eminentemente práctica, sin embargo, se necesita del conocimientode la teoría que la sustenta para la correcta aplicación de las fórmulas de cálculo y los modelos queintentan representar la realidad existente.En el texto se detallan los objetivos generales del curso y la distribución del mismo en los seis temas enque está subdividido. También se incluyen los objetivos específicos de cada una de las unidadesdidácticas que conforman los distintos temas. Además, se desarrolla sucintamente el contenido de laasignatura, el cual aparece disperso en otros textos que se refieren en la bibliografía básica. Finalmente,se brindan ejemplos demostrativos de todos los aspectos abrdados, y se han añadido ejercicios para quesirvan de autoevaluación.Es aspiración de los autores que estos apuntes para el estudio de Estadística sean de utilidad tanto parasus destinatarios iniciales como para estudiantes de otras carreras y modalidades de estudio. Los Autores. La Habana, 2008 2
  • 4. INTRODUCCIÓN A LA ESTADÍSTICAEl vocablo “estadística” (con minúscula) se utiliza para denominar cualquier colecciónsistemática de datos, por ejemplo: natalidad o mortalidad en un país o provincia, resultadosperiódicos en cierto deporte, cifras de producción de una empresa, pasajeros transportadosdurante un período, enfermos recuperados con ciertos medicamentosLas estadísticas son tan antiguas como las sociedades humanas, pero la Estadística comociencia (con mayúscula) surge en el siglo XVI paralelo al desarrollo de las probabilidades.La Estadística como ciencia puede definirse como un conjunto de principios y métodos quese han desarrollado para analizar datos numéricos, utilizando las probabilidades; susmétodos se clasifican en:• Métodos descriptivos (Estadística Descriptiva) Describen el comportamiento de los datos estadísticos, se ocupan de la recolección, organización, reducción, tabulación y presentación de la información.• Inferencia estadística (Estadística Inferencial) Estudia y concluye sobre un fenómeno basándose en el análisis e investigación de una parte del mismo, por lo que constituye una poderosa herramienta para la investigación científica. 3
  • 5. OBJETIVOS DEL CURSO 1. Clasificar las variables en cualitativas, cuantitativas discretas y cuantitativas continuas. Organizar los datos u observaciones de diferentes variables (discretas y continuas) en tablas de frecuencias. Construir gráficos de barras (histogramas) y polígonos de frecuencias. Calcular e interpretar los principales estadígrafos o medidas de posición y de dispersión. Aplicar e interpretar resultados obtenidos mediante algún paquete de cómputo estadístico. 2. Diferenciar entre determinismo y aleatoriedad. Definir el espacio muestral de un experimento o fenómeno aleatorio. Calcular la probabilidad de ocurrencia de un suceso utilizando la definición clásica y la estadística. Aplicar las propiedades o teoremas derivados de la definición axiomática de probabilidad. Aplicar las definiciones de probabilidad condicional e independencia. Aplicar e interpretar los fundamentos de la teoría de probabilidades en la solución de problemas. 3. Asociar a la noción de variable aleatoria (tanto discreta como continua), los conceptos de función de probabilidad, función de distribución o acumulación, y caracterizar estas funciones mediante la esperanza, valor esperado o media teórica, y la varianza teórica. Identificar y caracterizar las distribuciones probabilísticas: Binomial, Poisson, Normal, Chi-Cuadrado, t’ Student y F de Fisher. Calcular probabilidades asociadas a las distribuciones anteriores haciendo uso de las tablas correspondientes. 4. Identificar los conceptos básicos de población, muestra, muestreo, parámetro y estimador. Caracterizar el Muestreo Aleatorio Simple (MAS) y el Muestreo Irrestricto Aleatorio (MIA). Obtener muestras aleatorias simples mediante la tabla de números aleatorios. Aplicar la distribución muestral de la media, la varianza y la proporción en la estimación puntual y por intervalos de los parámetros correspondientes (μ, σ2 y p), así como también a la obtención de una medida probabilística del error y del tamaño de la muestra requerido para la estimación de los mismos. 5. Identificar los conceptos básicos asociados a las pruebas de hipótesis: hipótesis nula e hipótesis alternativa, región crítica o de rechazo y nivel de significación. Diferenciar entre los errores de tipo I y tipo II. Identificar y emplear distintas pruebas paramétricas para una población: de media (con varianza conocida y desconocida), de proporciones, y de varianza. Identificar y emplear las pruebas no paramétricas chi- cuadrado, tanto para probar normalidad, como para verificar independencia entre variables o criterios de clasificación. Verificar el supuesto de normalidad a través de la prueba Jarque-Bera, a partir de salidas del programa de cómputo EViews. 6. Aplicar el análisis estadístico para verificar la igualdad de tres o más medias poblacionales a través del análisis de varianza. Establecer los supuestos del análisis de varianza. 4
  • 6. TEMA I: MÉTODOS DESCRIPTIVOSCon este tema se inicia el estudio de la parte de la estadística que se ocupa de la recolección,organización, resumen y presentación de la información; cuestión esencial para cualquierinvestigación. El buen uso de los métodos descriptivos ahorra tiempo y esfuerzo, facilita lainterpretación de resultados y sirve de base incuestionable para el desarrollo de métodos deinferencia y predicción: La información recogida durante el proceso de observación, medición,entrevista, etc., suele ser dispersa, y no es hasta que la misma se organiza, procesa y presentaadecuadamente que cobra real dimensión la misma y puede considerarse, más allá de unconjunto de datos, verdadera información.1.1: Definición de población y muestra. Clasificación de las variables.Organización de los datos. Tablas de frecuencias. Gráficos.Ya se ha dicho que los métodos descriptivos se ocupan de la recolección, organización,reducción, tabulación y presentación de la información en un estudio o investigación dados.Durante este proceso siempre se hace referencia de alguna manera a conceptos básicos en elcontexto de la Estadística, como son:Población: Colección de individuos o elementos que representan el objeto de interés (seresvivos o inanimados).Tamaño de la población: Cantidad de elementos que abarca la población. En casi todos lostextos se representa con el símbolo “N”.Censo: Observación y estudio de todos los elementos que componen la población.Muestra: Cualquier subconjunto de la población tomado para su estudio.Muestreo: Procedimiento mediante el cuál se extrae una muestra.Tamaño de muestra: Cantidad de elementos contenidos en la muestra. En casi todos lostextos se representa con el símbolo “n”.Variable o característica: Es el signo o detalle que interesa caracterizar en la población.Para organizar los datos muchas veces es útil conocer qué tipo de variables éstos miden. Coneste fin, las variables pueden clasificarse en:Cualitativas: También llamadas atributos, y se refieren a cualidades tales como: calidad(bueno, regular, malo), sexo, color del pelo o de los ojos, estado civil, nivel escolaridad, etc.Cuantitativas: Se refieren a cantidades tales como costos, estaturas, pesos, ingresos, númerode hijos, etc. A la vez, se distinguen dos tipos de datos o variables cuantitativos: • Variables Discretas: Son aquellas que tienen valores prohibidos dentro de su intervalo de definición, o sea, toman valores determinados, predefinido. Generalmente representan valores enteros asociados a observaciones susceptibles de conteo. 5
  • 7. • Variables Continuas: Son aquellas que pueden tomar cualquier valor dentro de su intervalo de definición. Generalmente representan observaciones susceptibles de medición. Es importante tener en cuenta que la continuidad está dada por la propia naturaleza de variable, no porque ésta se exprese con valores decimales o no, pues esto es algo que depende de las unidades de medida utilizadas, de la precisión deseada o de costumbres al expresar una magnitud.TABULACIÓN DE DATOS (TABLAS DE FRECUENCIAS):Según la forma en que se presenta la información, se habla de:• Recolección simple o no organizada (datos no organizados): Es el listado de los datos presentados en su forma primaria, es decir, tal como fueron obtenidos durante el proceso observación o medición en la muestra o población.• Recolección organizada o tabulación (datos organizados): Es el ordenamiento de la información en tablas, denominadas tablas de frecuencias o distribuciones de frecuencias, a partir de los datos primarios. Cuando los datos se tabulan, o se organizan en las tablas de frecuencias, pueden estar no agrupados, es decir, de manera que se leen directamente los valores observados, o agrupados, esto es, se construyen intervalos para resumir la información observada.Se dice que los datos están organizados, pero no agrupados, cuando en las tablas defrecuencias se ponen, organizados, todos y cada uno de los valores que toma la variable; estoes, se colocan los datos en columnas que recogen los distintos valores de la variable y lasfrecuencias (las veces) con que han aparecido tales valores.Por su parte, se dice que los datos están organizados y agrupados cuando en la tabla sepresentan éstos no con sus valores individuales, sino en agrupaciones parciales del recorridode la variable, denominadas “clases” o “intervalos de clases”.Una clase se caracteriza por un valor que es su límite inferior y otro que es su límite superior. Elpromedio de los dos límites, que muchas veces se toma como el valor representativo de laclase, es llamado marca de clase. Y a la diferencia o distancia entre los límites de la clase se lellama ancho de clase: aunque no es obligatorio, es usual utilizar clases del mismo anchosiempre que es posible. (Si las clases no tienen el mismo ancho, no es la altura de las barras orectángulos la que debe ser proporcional a las frecuencias representadas, sino su área.)La forma general de una tabla de frecuencias es la siguiente: Li-1 - Li Xi ni fi Ni Fi L0 - L1 X1 n1 f1 N1 F1 L1 - L2 X2 n2 f2 N2 F2 … … … … … … Lk-1 - Lk Xk nk fk Nk Fk ↑ ↑ ↑ ↑ sólo si hay clases frecuencias (datos agrupados) complementarias 6
  • 8. Los símbolos y definiciones correspondientes son:Xi : representa los valores individuales de la variable (en datos no agrupados) o las marcas declase (en datos agrupados en clases)Li-1 - Li : representan las clases (si los datos se agruparon), delimitadas por los límites de clase,el inferior (Li-1) y el superior (Li)ni ( frecuencia absoluta ): número de veces que se repite el i-ésimo valor de la variable;donde ∑ ni = nn ( tamaño de la muestra ): cantidad de observaciones efectuadas, es decir, número deelementos contenidos en la muestrak: representa el número de valores diferentes observados (datos no agrupados) o la cantidadde clases creadas (datos agrupados)También pueden incorporarse a la tabla otras frecuencias, como:fi ( frecuencia relativa ): proporción de veces que se repite el i-ésimo valor de la variable (si semultiplica por cien constituye un porciento); se cumple que: fi = ni/n y donde ∑ fi = 1Ni ( frecuencia absoluta acumulada ): Es el número de observaciones menores o iguales al i-ésimo valor de la variable, donde N1 = n1, N2 = n1 + n2, N3 = n1 + n2 + n3, y así sucesivamentehasta Nk = n. Así, se interpreta como el número de observaciones menores o iguales al i-ésimovalor de la variable.Fi ( frecuencia relativa acumulada ): es la proporción (o porciento) de observaciones menoreso iguales al i-ésimo valor de la variable, siendo F1 = f1, F2 = f1 + f2, F3 = f1 + f2 + f3, y asísucesivamente hasta Fk = 1.Generalmente se agrupan las observaciones correspondientes a variables continuas, ya queestas son las que pueden tomar cualquier valor en un intervalo, y prácticamente es imposibleconsiderar todos y cada uno de los valores que toma la variable, como sí ocurre con lasvariables discretas.No obstante no se puede decir rotundamente que no se agrupan en clases las variablesdiscretas y sí las continuas, porque esto depende de la cantidad de datos que se tiene y del tipode análisis que se va a hacer. Así, se podría presentar la situación de que se tiene una variablediscreta que toma tantos valores diferentes que es necesario agruparla; o el caso de que setiene una variable continua para la cual todas las observaciones constituyen valores enteros yse pueden recoger entonces en una tabla de frecuencia con datos no agrupados.Por todo ello, cuando se insiste en que las variables discretas se presentan en tablas defrecuencia sin agrupar, y las variables continuas en tablas de frecuencias agrupadas, esto esante todo con fines metodológicos. 7
  • 9. PROPIEDADES DE LAS FRECUENCIAS:De la definición de las distintas frecuencias se deduce que éstas son siempre números nonegativos, y pueden considerarse como propiedades de las mismas las siguientes: 1. ni ≥ 0 / Ni ≥ 0 6. Fk = 1 2. ∑ni = n 7. N1 = n1 3. ∑ fi = 1 8. F1 = f1 4. 0 ≤ fi ≤ 1 / 0 ≤ Fi ≤ 1 9. n1 = N1 ≤ N2 ≤ N3 ≤ ... ≤ Nk 5. Nk = n 10. f1 = F1 ≤ F2 ≤ F3 ≤ ... ≤ FkAGRUPACIÓN DE LOS DATOS EN CLASES:La agrupación de datos en clases incluye muchas cuestiones subjetivas, como facilidad oconveniencias de agrupación, diversidad de criterios o necesidades de la investigación; eincluso puede depender de la propia naturaleza de los datos.Se debe considerar también que la agrupación de datos siempre conlleva un grado depérdida de información, pues ya no se cuenta con todos y cada uno de los valores de lavariable sino con los intervalos creados; no obstante, esta pérdida de información en general noes significativa para el análisis global.Algunas de las formas en que se presentan los intervalos de clases son: Caso A Caso B Caso C 10 14,9 10 15 10 15 15 19,9 15,1 20 15 20 20 24,9 20,1 25 20 25Las variantes A y B se utilizan con el objetivo de que no se repita el mismo valor de un límite declase, de manera que para una observación dada sea inequívoca (única) la pertenencia a unaclase; pero en cualquiera de los dos casos hay infinitos valores posibles entre el cierre de unaclase y el inicio de la otra, es decir, entre 14,9 y 15 (caso A) y lo mismo entre 15 y 15,1 (casoB). Por ello muchos autores e investigadores prefieren la variante C, donde el valor que cierrauna clase es el mismo que abre la siguiente, y se suele recurrir al siguiente convenio: cuandouna observación coincide con un límite de clase se incluye en la clase donde dicho límitees el límite superior, es decir, se consideran los intervalos de clase como abiertos al inicio ycerrados al final, así: ( Li-1 ; Li ]También existen los intervalos abiertos atendiendo al tipo de información que se puedepresentar: 8
  • 10. Abierto en la Abierto en la Abierto en la primera y en la primera clase última clase última clase menos de 10 0 10 menos de 10 10 20 10 20 10 20 20 30 20 30 20 30 30 40 30 40 30 40 40 50 más de 50 más de 50Es útil tener en cuenta además que no siempre los intervalos podrán ser de igual amplitud, sinembargo es recomendable que estos tengan el mismo ancho si es posible ello, para lograrmayor facilidad en las interpretaciones, representaciones y cálculos.Entre los métodos seguidos para crear las clases, dos son los más utilizados:1. Definir, a partir del uso que se hará de la información, el ancho de clases que se empleará, y con esto ver cuántas clases surgen.2. Definir, a partir de la cantidad de datos disponibles, la cantidad de clases que se crearán, y a partir de ahí calcular el ancho que deberán tener las mismas.Los pasos que se deben dar para agrupar los valores observados según el segundo métodopueden resumirse como sigue:1. Determinar el recorrido de la variable (R), definido como la diferencia entre el valor máximo y el mínimo de la variable: R = Xmax - Xmin2. Definir el número de intervalos o clases (k): La práctica indica que menos de 4 ó 5 clases suele ser muy poco y que en general más de 20 clases puede ser excesivo, es decir, ni tan pocos, que se pierda demasiada información, ni tantos que parezca que no se han agrupados los datos ( 4 ≤ k ≤ 20 )3. Determinar la amplitud o ancho de estos intervalos (c), como el cociente del recorrido de los datos entre la cantidad de clases que se decidió usar, aproximado convenientemente y siempre por exceso: c ≈ R/k4. Crear las clases, partiendo del valor mínimo observado (xmin) o un valor inferior, y sumando sucesivamente el ancho de clases (c) determinado.5. Clasificar la variable en las distintas clases, para lo cual se puede hacer un tarjado, obteniendo las frecuencias absolutas correspondiente (ni).6. Calcular las restantes frecuencias deseadas: relativas (fi), absolutas acumuladas (Ni) y relativas acumuladas (Fi).7. Determinar las marcas de clases (Xi), valores que representarán a sus respectivas clases.REPRESENTACIÓN GRÁFICA DE LOS DATOS:Otra manera de presentar los datos de manera de que brinden información a primera vista esuna representación gráfica de los mismos, y entre los gráficos más usados se encuentran:• Gráficos de barras o histogramas Constan de dos ejes; un eje horizontal, donde se distribuyen los valores observados de la variable (datos no agrupados) o sus límites de clases (datos agrupados), y un eje vertical 9
  • 11. donde se representan las frecuencias absolutas (ni) o relativas (fi) correspondientes. En el punto correspondiente a cada observación o clase se levanta una barra cuya altura indica el valor de la frecuencia observada. Si los datos están agrupados en clases las barras conforman rectángulos contiguos, y el gráfico suele ser denominado histograma.• Polígonos de frecuencias Son similares a los gráficos de barras, y tienen la misma función, aunque actualmente se utilizan menos que aquellos. Constan de también de dos ejes, con la diferencia de que en el eje horizontal, si los datos están agrupados en clases se distribuyen no sus límites de clase sino sus marcas de clase. En cualquier caso, sobre el punto correspondiente a cada observación o marca de clase se hace una marca a la altura de la frecuencia observada, y posteriormente estas marcas se unen con trazos rectos, formando una línea poligonal.• Gráficos circulares o de pastel Parten de subdividir un círculo en tantos sectores como valores distintos (datos no agrupados) o clases (datos agrupados en clases) se tiene, de manera que la amplitud angular del sector, y por tanto su área, es proporcional a la frecuencia absoluta correspondiente (y consecuentemente también a la relativa).EJEMPLO 1 (Datos no agrupados):Se tiene los datos recopilados acerca de la variable X: número de ausencias a clase que tienenlos estudiantes de un grupo. 0 1 2 2 1 3 2 1 4 2 4 3 2 0 0 2 2 3 0 3 Datos en su forma primaria (sin organizar)¿Qué tipo de variable es esta?: Variable cuantitativa discreta.Construcción de la tabla o distribución de frecuencias:Al tratarse de una variable discreta (un conteo siempre tomará valores enteros) y con pocosvalores diferentes, no parece necesario crear clases para agrupar los datos.En este caso k = 5 (son cinco los valores distintos de X: 0, 1, 2, 3 y 4).Para facilitar el conteo de las observaciones se suele hacer algún tipo de marcas, a lo cual se lellama tarjado. número de cantidad de proporción de ausencias tarjado estudiantes estudiantes Xi ni fi Ni Fi 0 //// 4 0,20 4 0,20 1 /// 3 0,15 7 0,35 2 /////// 7 0,35 14 0,70 3 //// 4 0,20 18 0,90 4 // 2 0,10 20 1,00 n = 20 10
  • 12. Interpretación de las distintas frecuencias:• ni indica las veces que se repite el valor de la variable, así: n1 = 4 indica que hay 4 alumnos del grupo que no tienen ausencias. n3 = 7 indica que hay 7 estudiantes del grupo que tienen 2 ausencias.• fi indica el porciento de veces que se repite el valor de la variable, así: f4 = 0.20 indica que el 20% de los estudiantes tienen 3 ausencias f5= 0.10 indica que el 10% de los estudiantes tienen 4 ausencias• Ni indica el número de observaciones menores o iguales al valor de la variable, así: N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como máximo) 1 ausencia N3 = 18 indica que hay 18 estudiantes que tienen hasta 3 ausencias• Fi indica el porciento de observaciones menores o iguales al valor de la variable, así: F2 = 0.35 indica que el 35% de los estudiantes tienen hasta 1 ausencia. F3 = 0.70 indica que el 70% de los estudiantes tienen hasta 2 ausencias.Representación gráfica:A partir de la tabla de frecuencias se puede construir cualquiera de los gráficos siguientes: gráfico de barras polígono de frecuencias ni ni 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 0 0 0 1 2 3 4 xi 0 1 2 3 4 xi diagrama circular 4 0 10% 20% 3 20% 1 2 15% 35% 11
  • 13. EJEMPLO 2 (Datos agrupados):Los siguientes valores corresponden al registro del consumo de gasolina de una flota de 50taxis, en litros, un día dado: 46 39 34 33 32 36 41 26 32 36 43 28 30 27 32 42 30 31 34 41 28 30 26 21 37 39 25 33 47 28 26 23 30 43 40 36 21 38 31 38 29 30 48 47 23 31 24 38 35 36¿Qué tipo de variable es ésta?Aunque los datos observados son todos enteros la variable es continua, por su propianaturaleza (de hecho, un taxi podría haber consumido 24,75 litros de gasolina).• Se tiene n = 50 taxis (tamaño de la muestra).• Determinación del recorrido: R = Xmax - Xmin = 48 - 21 = 27• Definición del número de clases a usar: Para 50 observaciones podrían usarse 5, 6, 7 u 8 clases, según decisión de quien va a organizar los datos. Sea en este caso k = 6.• Determinación del ancho de clases: c ≈ R/k R/k = 27/6 = 4,5 ≈ 5 c=5 (El valor R/k = 4,5 se redondea a 5 porque no tendría sentido en este caso hacer los intervalos de amplitud decimal, ya que complicaría, en vez de facilitar, la interpretación y el trabajo con la información; nótese que esta aproximación fue a un valor superior al verdadero cociente, es decir, por exceso.)• Creación de las clases: Se podría partir del valor Xmin = 21, pero resulta más cómodo comenzar ligeramente por debajo de él, en 20, de manera que la primera clase sea desde 20 a 20 + c (ya se tiene c = 5), o sea, de 20 a 25; la segunda de 25 a 30, sin incluir el 25 (límite inferior y extremo abierto) e incluyendo el 30 (límite superior y extremo cerrado), y así sucesivamente hasta la sexta clase (k = 6), que sería desde 45 (extremo abierto) a 50 (extremo cerrado).• Determinación de las marcas de clases (Xi): Siendo el promedio de los límites de clase se tiene que: Xi = (Li – Li-1)/2 Así: X1 = (20 + 25)/2 = 45/2 = 22,5 X2 = (25 + 30)/2 = 55/2 = 25,5 ó X2 = X1 + c Y así sucesivamente…• Clasificación de la variable y cálculo de las distintas frecuencias: Para ello se puede hacer previamente un tarjado… Se debe tener en cuenta, además, el convenio de que si una observación coincide con un límite de clase, se incluye en la clase donde dicho límite está como límite superior; así, 12
  • 14. todos los taxis que consumieron 30 litros de gasolina se incluyen en la clase de 25 a 30, no en la que va de 30 a 35. clases tarjado (Li-1; Li] Xi ni fi Ni Fi 20 - 25 22,5 ///// / 6 0,12 6 0,12 25 - 30 27,5 ///// ///// /// 13 0,26 19 0,38 30 - 35 32,5 ///// ///// / 11 0,22 30 0,60 35 - 40 37,5 ///// ///// / 11 0,22 41 0,82 40 - 45 42,5 ///// 5 0,10 46 0,92 45 - 50 47,5 //// 4 0,08 50 1,00 n = 50 1,00Interpretación de las distintas frecuencias:• n2 = 13: indica que hay 13 taxis que consumieron entre 25 y 30 litros de gasolina, o que consumieron como promedio 27,5 litros (utilizando la marca de clases)• f3 = 0,22: indica que el 22% de los taxis consumieron entre 30 y 35 litros de gasolina, o que consumieron 32,5 litros como promedio.• N4 = 41: indica que 41 taxis consumieron HASTA 40 litros de gasolina, o un máximo de 40 litros. (Las frecuencias acumuladas se interpretan utilizando el límite superior del intervalo, nunca con la marca de clases.)• F5 = 0,92: indica que el 92% de los taxis consumió HASTA 45 litros de gasolina, o un máximo de 45 litros.Representación gráfica: ni histograma ni polígono de frecuencias 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 0 20 25 30 35 40 45 50 22,5 27,5 32,5 37,5 42,5 47,5 i X (clases) XEJERCICIOS DE AUTOEVALUACIÓN1.- Ponga 3 ejemplos de variables discretas y 3 de variables continuas2.- ¿Qué quiere decir organizar los datos?3.- ¿Cómo se forma una tabla de frecuencias? 13
  • 15. 4.- A partir de los siguientes datos, que representan el número de habitaciones de 50 viviendasdel municipio Plaza, que se están visitando para estudiar el grado de hacinamiento, construyauna distribución de frecuencias e interprete 3 frecuencias absolutas y relativas simples y 3frecuencias absolutas y relativas acumuladas. 3 2 3 4 3 5 2 1 3 2 4 3 2 1 1 2 5 2 3 1 2 3 2 1 2 2 2 3 3 4 3 2 2 3 4 1 1 5 2 3 4 4 3 3 2 2 2 1 1 25.- ¿Es absolutamente privativo de las variables discretas la organización de los datosdirectamente a partir de los valores observados, o considera que una variable continua tambiénpodría organizarse de esta forma? Explique.6.- ¿Qué pasos se deben dar para conformar una tabla de frecuencia?7.- ¿En casos de datos agrupados se cumple que: ∑ni = n y ∑fi = 1? Fundamente su respuesta.8.- ¿Cómo se determina el recorrido de la variable?9.- ¿Se agrupan en intervalos de clase sólo las variables continuas?10.- ¿Cómo determinaría el número de intervalos o clases a considerar en una tabla defrecuencias?11.- ¿En que casos utilizaría intervalos de amplitud diferentes?12.- Si una observación le coincide con un límite de clases, ¿dónde la pondría y por qué?13.- Investigados los precios por habitación de 50 hoteles del país se ha obtenido los siguientesresultados (en cientos de pesos): 7 3 5 4 5 7 4 7.5 8 5 5 7.5 3 7 10 15 5 7.5 12 8 4 5 3 5 10 3 4 5 7 5 3 4 7 4 7 5 4 7 10 7.5 7 8 7.5 7 7.5 8 7 7 12 8 a) Diga qué tipo de variable es. b) Construya la distribución de frecuencias para esta variable.14.- Realizada una encuesta en una región del país, se han agrupados los establecimientoshoteleros por el número de cuartos, obteniéndose la siguiente distribución: cuartos # de hoteles 0 100 25 100 200 37 200 300 12 300 400 22 14
  • 16. 400 500 21 500 600 13 600 700 5 700 800 3a.- Determine el número de establecimientos hoteleros con más de 300 cuartos.b.- Determine el porcentaje de establecimientos que tienen más de 100 cuartos y hasta 400.c.- Represente gráficamente la distribución.d.- ¿Que tipo de variable es ésta?e.- ¿Por qué, siendo ese el tipo de variable, la tabla de frecuencia es de esta forma? 15
  • 17. 1.2: Medidas descriptivas o estadígrafos. Estadígrafos de posición más usados:media, mediana y moda. Estadígrafos de dispersión más usados: varianza,desviación típica y coeficiente de variación.La organización de los datos y el análisis del comportamiento de los mismos mediante tablas ográficos, aportan una información inicial sobre la población en estudio, pero no suelen sersuficiente para describir a la misma. Sin embargo, es posible la obtención de ciertas cantidadesnuméricas, denominadas estadígrafos o estadísticos, que caracterizan mejor el conjunto dedatos.Un estadígrafo o estadístico es una medida descriptiva que resume alguna de las principalescaracterísticas de un conjunto de datos, como puede ser la tendencia central, la dispersión o laforma. Precisamente atendiendo al tipo de resumen que brindan los estadígrafos, éstos suelenclasificarse.Cuando un estadígrafo es calculado a partir de todos los datos poblacionales, es decir, no enuna muestra sino en toda la población, se dice que es un parámetro poblacional.1.2.1- ESTADÍGRAFOS O MEDIDAS DE POSICIÓN O TENDENCIALos llamados estadígrafos de posición son medidas que informan sobre el centro de ladistribución (tendencia central) o sobre valores significativos de ésta.La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de unpunto central y por lo general es posible encontrar algún tipo de valor promedio que describatodo el conjunto. Un valor típico descriptivo como ese, es una medida de tendencia central. Confrecuencia se utilizan, como las más importantes medidas de tendencia central, la mediaaritmética, la mediana, la moda y la media geométrica.No obstante, aunque menos usadas, también se recurre en muchos casos a otras estadígrafosde posición que no son medidas de tendencia central, como las cuantilas, entre las que seencuentran las cuartilas, las decilas y los percentiles, que son aquellos valores que dividen elconjunto de datos en cuatro, diez y cien partes iguales, respectivamente.MEDIA ARITMÉTICA (O MEDIA)La media aritmética, más frecuentemente denominada sólo media, es el promedio o medidade tendencia central que se utiliza con mayor frecuencia. Se define como la suma de todos losvalores de la variable dividida entre el número de elementos, dicho en otras palabras, es lo quecomúnmente se conoce como promedio.La media se representa: • en la muestra, por x • en la población, por μ (la letra griega miu) • en definiciones y demostraciones, por M(x)A partir de la propia definición se deduce que la media en una muestra puede calcularse como: 16
  • 18. ∑ xi 1 x= ó x= ∑ xi (definición) n n EJEMPLO: Sea X las calificaciones de un estudiante: X: 5 4 3 4 5 3 5 5 Su promedio es, por tanto: 1 1 34 x = ∑ x i = (5 + 4 + 3 + 4 + 5 + 3 + 5 + 5 ) = = 4,25 n 8 8Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable (Xi) serepite una determinada cantidad de veces (ni), y por tanto, la expresión matemática derivada dela definición de la media debe modificarse, como se muestra, multiplicando cada valor por surespectiva frecuencia. ∑ x in i 1 x= ó x = n ∑ x in i ó x = ∑ x i f i (en datos tabulados) nEJEMPLO 1 (caso de datos no agrupados, continuación):Calcular el promedio de inasistencias para los 20 estudiantes del grupo analizado: Xi ni fi Ni Fi Xini 1 37 0 4 0,20 4 0,20 0 x= ∑ x in i = = 1,85 n 20 1 3 0,15 7 0,35 3 2 7 0,35 14 0,70 14 3 4 0,20 18 0,90 12 Nota: Es usual, cuando se efectúan cálculos utilizar 4 2 0,10 20 1,00 8 la propia tabla de frecuencia, creando columnas 37 auxiliares, como se ve, para facilitar los mismos.EJEMPLO 2 (caso de datos agrupados, continuación):Calcular el consumo promedio diario de gasolina de los 50 taxis de la flota. clases Xi ni fi Xini 20 - 25 22,5 6 0,12 135,0 25 - 30 27,5 13 0,26 357,5 1 1665 x= ∑ x in i = = 33,3 30 - 35 32,5 11 0,22 357,5 n 50 35 - 40 37,5 11 0,22 412,5 40 - 45 42,5 5 0,10 212,5 (O sea, el consumo promedio en el día fue 45 - 50 47,5 4 0,08 190,0 de 33,3 litros por auto.) 1665,0Nota: Para los cálculos de la media en datos agrupados en clases se utilizan las marcas declase, y salvo eso, la expresión matemática empleada no se diferencia del caso en que los 17
  • 19. datos no están agrupados. Algo a tener en cuenta en este sentido es que si existen intervalosabiertos, como a veces se presenta la primera o la última clase, la media no se puede calculara menos que se modifiquen los mismos.PROPIEDADES Y CARACTERÍSTICAS DE LA MEDIA:Algunas propiedades importantes y con utilidad práctica de la media son: 1. M(k) = k (La media de una constante es igual a la propia constante.) 2. M(kx) = k M(x) (La media de una constante por una variable es igual a la constante por la media de la variable.) 3. M(k + x) = k + M(x) (La media de una constante más una variable es igual a la constante más la media de la variable.) 4. M(x1 + x2) = M(x1) + M(x2) (La media de la suma de dos variables es igual a la suma de las medias de ambas variables.) 5. M(x - x ) = 0 (La media de las desviaciones con respecto a la media es igual a cero.) 6. M(x - x )2 = mínimo. (La media del cuadrado de las desviaciones con respecto a la media al cuadrado es un mínimo.)Cabe especificar que se le llama desviaciones a la diferencia entre los valores de una variable yun valor fijo; cuando este valor fijo es la propia media de la variable, se le llama desviacionescon respecto a la media.De la quinta propiedad citada se deduce que la media es el centro de gravedad o el punto deequilibrio de la distribución, o sea, el valor que correspondería a una distribución equitativa paratodas las observaciones.Una característica notable en la media es que ésta se ve afectada por la ocurrencia devalores extremos, esto quiere decir que si hay algunos valores atípicos en el conjunto, estosarrastran consigo el valor de la media; así, valores atípicos muy grandes conducirán a unamedia mayor que la real del conjunto, mientras que valores muy pequeños provocarán que lamedia sea menor que la real.MODALa moda se define como el valor mas frecuente en un conjunto de datos, es decir, el valormodal es el de mayor frecuencia. Se denota por Mo(x) y puede no existir en una distribución(distribución amodal), o existir más de una (distribución multimodal).La moda cobra especial importancia en datos de tipo cualitativo, pues en ellos es imposiblecalcular otros estadígrafos de posición, como la media. Esto no quita que también para datoscuantitativos suele ser de interés conocer el valor modal, que se utiliza en ocasiones comomedida de tendencia central. 18
  • 20. Para determinar la moda a partir de datos primarios suele ser conveniente organizar primeroestos, conformando lo que se llama un arreglo ordenado. EJEMPLO: Sean las calificaciones de tres estudiantes: A: 3 4 3 4 5 4 5 4 4 B: 3 4 5 4 5 4 5 5 4 C: 3 4 3 4 5 4 5 5 3 Organizando primeramente los datos se tiene: A: 3 3 4 4 4 4 4 5 5 Mo(A) = 4 (conjunto unimodal) B: 3 4 4 4 4 5 5 5 5 Mo(B) = { 4 ; 5 } (conjunto bimodal) C: 3 3 3 4 4 4 5 5 5 Mo(C) = Ø (conjunto amodal) Nota: Para el estudiante C ninguna nota es más frecuente que las demás, por eso no tiene valor modal.En datos tabulados es muy sencillo encontrar el valor o valores modales, pues son aquellos quepresentan la máxima frecuencia absoluta.EJEMPLO 1 (caso de datos no agrupados, continuación):Determinar la moda de inasistencias para los 20 estudiantes del grupo analizado: Xi ni fi Ni Fi 0 4 0,20 4 0,20 nmod = 7 (frecuencia modal) 1 3 0,15 7 0,35 2 7 0,35 14 0,70 Mo(X) = 2 3 4 0,20 18 0,90 4 2 0,10 20 1,00Nota: La frecuencia modal es 7, porque la cantidad de inasistencias que más ocurre, que sondos, se repite 7 veces en la muestra (o un 35% de las veces).Cuando se trabaja con datos agrupados en clases, es sencillo determinar la clase o clasesmodales existentes, y para muchos fines esto es suficiente. Pero si se quiere indicar un valormodal dentro de la clase modal, se ha determinado, atendiendo a cuestiones geométricas, queel mismo puede obtenerse a partir de la expresión: n mod − n mod −1 Mo ( x ) = L mod −1 + c ⋅ (n mod − n mod −1 ) + (n mod − n mod +1 )Siendo: Lmod-1: el límite inferior de la clase modal c: el ancho de la clase modal (que en general es el de todas las clases) nmod: la frecuencia absoluta de la clase modal nmod-1: la frecuencia absoluta de la clase anterior a la modal 19
  • 21. nmod+1: la frecuencia absoluta de la clase siguiente a laEJEMPLO 2 (caso de datos agrupados, continuación):Calcular el valor modal para el consumo diario de gasolina de los 50 taxis de la flota. clases Xi ni fi 20 - 25 22,5 6 0,12 25 - 30 27,5 13 0,26 30 - 35 32,5 11 0,22 35 - 40 37,5 11 0,22 40 - 45 42,5 5 0,10 nmod = 13 45 - 50 47,5 4 0,08 clase modal: 25 - 30Para determinar un valor modal puntual se parte de la clase modal: n mod − n mod −1 13 − 6Mo ( x ) = L mod −1 + c ⋅ = 25 + 5 ⋅ (n mod − n mod −1 ) + (n mod − n mod +1 ) (13 − 6 ) + (13 − 11) 7Mo ( x ) = 25 + 5 ⋅ = 25 + 3,89 = 28,89 9CARACTERÍSTICAS DE LA MODA:A diferencia de la media, la moda no se afecta ante la presencia de valores extremos.La moda, como se ha visto, no tiene necesariamente que existir, ni tiene que ser única.Además, la moda puede ser definida en forma relativa, aunque es menos frecuente este uso,llamando valor modal a aquel donde exista un máximo relativo en la distribución de frecuencias,esto es, donde: ni – 1 < ni >ni + 1MEDIANALa mediana se define como el valor central de un grupo de datos ordenados, o sea, como aquelvalor que supera hasta un 50% de las observaciones y a la vez es superado por hasta un 50 %de las observaciones. Se denota por Me(x).Para calcular la mediana a partir de un conjunto de datos en su forma primaria, es necesarioantes ordenarlos; después, se puede buscar la posición del valor mediano en el arregloordenado, atendiendo al número de observaciones, según las dos siguientes reglas: Regla 1: Si el tamaño de la muestra es un número impar, la mediana está representada por el valor numérico correspondiente a la posición del centro de las observaciones ordenadas. 20
  • 22. Regla 2: Si el tamaño de la muestra es un número par, entonces el valor mediano, será la semisuma o promedio de los dos valores centrales de las observaciones ordenadas. (Esto, estrictamente hablando, es un convenio adoptado, pues cualquier valor entre los dos valores centrales podría ser considerado como un valor mediano) EJEMPLO: Sean las calificaciones de un estudiante en dos semestres: SI: 5 3 5 4 4 5 5 SII: 5 3 5 4 4 5 5 4 Ordenando los datos, se tiene: SI: 3 4 4 5 5 5 5 Me(x) = 5 SII: 3 4 4 4 5 5 5 5 Me(x) = (4 + 5)/2 = 4,5Para determinar la mediana en datos tabulados pero sin agrupar en clases se puede procederde la siguiente manera: 1. Determinar la fracción n/2, que ubica el centro de la distribución. 2. Encontrar la denominada frecuencia mediana, que es la primera frecuencia absoluta acumulada que iguala o supera a n/2 (representada por Nmed); y entonces: • Si Nmed > n/2, Me(x) = Xmed (Es decir, si la frecuencia mediana encontrada supera a n/2, la mediana es el valor de X al que le corresponde dicha frecuencia en la tabla) • Si Nmed = n/2, Me(x) = (Xmed + Xmed+1)/2 (Es decir, si la frecuencia mediana encontrada coincide con n/2, la mediana es el promedio del valor de X al que le corresponde dicha frecuencia en la tabla con el valor de X siguiente)EJEMPLO 1 (caso de datos no agrupados, continuación):Determinar la mediana para las inasistencias de los 20 estudiantes del grupo analizado: Xi ni fi Ni Fi n/2 = 10 0 4 0,20 4 0,20 Nmed = 14 ( >10 ) 1 3 0,15 7 0,35 Me(X) = 2 2 7 0,35 14 0,70 3 4 0,20 18 0,90 Nota: La frecuencia mediana es 14, porque es la primera 4 2 0,10 20 1,00 frecuencia absoluta acumulada que sobrepasa a n/2 = 10. 21
  • 23. En el caso de datos agrupados en clases, se determina ante todo una clase mediana, comoaquella cuya frecuencia absoluta acumulada sobrepasa a n/2; y si quiere un valor mediano,sobre esa clase se aplica la siguiente expresión: n −N med−1 Me( x ) = L med−1 + c ⋅ 2 nmedSiendo: Lmed-1: el límite inferior de la clase mediana c: el ancho de la clase modal (que en general es el de todas las clases) Nmed-1: la frecuencia absoluta acumulada hasta la clase anterior a la mediana nmed: la frecuencia absoluta de la clase medianaEJEMPLO 2 (caso de datos agrupados, continuación):Calcular el valor mediano para el consumo diario de gasolina de los 50 taxis de la flota. clases Xi ni Ni 20 - 25 22,5 6 6 25 - 30 27,5 13 19 30 - 35 32,5 11 30 35 - 40 37,5 11 41 Nmed = 30 40 - 45 42,5 5 46 clase mediana: 30 - 35 45 - 50 47,5 4 50 n − Nmed−1 25 − 19 6 Me( x ) = Lmed−1 + c ⋅ 2 = 30 + 5 ⋅ = 30 + 5 ⋅ = 30 + 2,73 = 32,73 nmed 11 11CARACTERÍSTICAS DE LA MEDIANA:La mediana no se ve afectada por datos extremos, es por ello que cuando éstos existen ellaes más representativa que la media como medida de tendencia central.1.2.2- ESTADÍGRAFOS O MEDIDAS DE DISPERSIÓNA pesar de toda la información que brindan los estadígrafos de posición, no basta con ellos paracaracterizar un conjunto de datos:Téngase por caso dos empresas que reportan el mismo promedio de recaudacionesmensuales, siendo que una de ellas esto se debe a que todos los meses ha recaudado esamisma cantidad, mientras que la otra ha oscilado bastante en sus recaudaciones alrededor deese valor medio, habiendo recaudado unos meses mucho más que dicho valor, pero otros,mucho menos; de esta manera, no puede decirse que ambas empresas tiene el mismocomportamiento, a pesar de que han coincidido en el valor de la recaudación media mensual: laprimera de ellas es mucho más estable en su comportamiento que la segunda… Esto sería útilconocerlo a través de alguna medida resumen, junto con el valor de la media. 22
  • 24. Precisamente, los estadígrafos de dispersión son medidas que describen cómo se distribuyenlos datos alrededor de alguno de sus valores representativos, principalmente alrededor de sumedia.Por tanto, las medidas de posición no dicen mucho si no están acompañadas de medidas dedispersión o variabilidad, porque a través de estas últimas es que se puede determinar si lamedida de posición es significativa o representativa de la distribución.Entre las medidas de dispersión más empleadas destacan la varianza, la desviación típica y elcoeficiente de variación.VARIANZALa varianza de un conjunto de datos se define como la media o promedio del cuadrado de lasdesviaciones de la variable respecto a su media. Por sus propiedades, es la medida dedispersión más usada, y base para el cálculo de otras.La varianza se representa: • en la muestra, por S2 • en la población, por σ2 (la letra griega sigma, al cuadrado) • en definiciones y demostraciones, por V(x)De la definición de la varianza se desprende que ésta, en una muestra, puede calcularse como: ∑ (x i − x ) 2 1 ∑ (x i − x ) 2 S2 = ó S2 = (definición) n n EJEMPLO: Sea X las calificaciones de un estudiante: X: 5 4 3 4 5 3 El promedio es: x = 4 Por tanto, la varianza es: S2 = 1 n 2 1 6 [ ∑ (x i − x ) = (5 − 4 ) + (4 − 4 ) + (3 − 4 ) + (4 − 4 ) + (5 − 4 ) + (3 − 4 ) 2 2 2 2 2 2 ] 1 [ ] 4 S 2 = 12 + 0 2 + (− 1) + 0 2 + 12 + (− 1) = = 0,67 6 2 2 6Al trabajar con datos tabulados debe tenerse en cuenta, al igual que en los cálculos de lamedia, que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni), y portanto, la expresión matemática derivada de la definición debe modificarse, como se muestra: 23
  • 25. ∑ (x i − x ) n i 2 1 ∑ (x i − x ) n i ó S 2 = ∑ (x i − x ) fi 2 2 2S = ó S2 = (en datos tabulados) n nEJEMPLO 1 (caso de datos no agrupados, continuación):Calcular la varianza en las inasistencias para los 20 estudiantes del grupo analizado:Xi ni fi Ni Fi (x i − x )2 ni Se tiene que: x = 1,850 4 0,20 4 0,2013,6900 Por tanto:1 3 0,15 7 0,35 2,16752 7 0,35 14 0,70 0,1575 1 30,55 5,2900 S = n ∑ (x i − x ) n i = 20 = 1,53 2 23 4 0,20 18 0,904 2 0,10 20 1,00 9,2450 30,5500Nota: Algunos cálculos se han organizado utilizando la propia tabla de frecuencias.EJEMPLO 2 (caso de datos agrupados, continuación):Calcularla varianza para el consumo diario de gasolina de los 50 taxis de la flota.clases Xi ni (x i − x )2 ni20 - 25 22,5 6 703,7334 Se tiene que: x = 33,325 - 30 27,5 13 441,855730 - 35 32,5 11 7,5779 Por tanto:35 - 40 37,5 11 191,2779 1 2568 ,045 ∑ (x i − x ) n i =40 - 45 42,5 5 420,4445 S2 = 2 = 128 ,445 - 50 47,5 4 803,1556 n 50 n=50 2568,0450PROPIEDADES Y CARACTERÍSTICAS DE LA VARIANZA:Algunas propiedades importantes y con utilidad práctica de la varianza son: 1. V(x) ≥ 0 (La varianza es un número no negativo.) 2. V(k) = 0 (La varianza de un grupo de datos constante es igual a cero.) 3. V(x ± k) = V(x) (La varianza de la suma de los valores de una variable más una constante es igual a la varianza de la variable.) 4. V(kx) = k2 V(x) (La varianza del producto de los valores de una variable por una constante es igual a la constante al cuadrado por la varianza de la variable.)La varianza, dada la manera en que se define y calcula, se expresa en unidades cuadráticasrespecto a la variable de la que procede, y esto hace que no se le pueda dar una interpretaciónrealista a dicho estadígrafo. 24
  • 26. No obstante, la varianza, por la misma forma en que se define y calcula, indica el grado dedispersión de los datos; se dice que es una medida de dispersión absoluta: mientras mayor esla varianza en un conjunto de observaciones, mayor es su dispersión; por el contrario, si unavarianza nula indica que todas las observaciones coinciden en un mismo valor.DESVIACIÓN TÍPICA O ESTÁNDARPuesto que la varianza pierde interpretación por estar su resultado en unidades cuadráticas,resulta conveniente contar con otro estadístico que basado en el valor de la varianza sirva paradar una medida de la dispersión en las mismas unidades o dimensiones en que estánexpresados los datos y este estadístico es la desviación típica.La desviación típica o desviación estándar se define como la raíz cuadrada positiva de lavarianza. Se denota por S en la muestra y por σ en la población: S = S2 EJEMPLO: Sea X el precio de venta, en centavos, los distintos jabones de una marca dada: X: 40 35 45 50 40 1 40 + 35 + 45 + 50 + 40 El precio promedio para la marca es: x = ∑ xi = = 42 ¢ n 5 1 130 ∑ (x i − x ) = 2 La varianza es: S 2 = = 26 ¢ 2 n 5 Por tanto, la desviación estándar es: S = S 2 = 26 = 5,1¢La desviación típica es una magnitud no negativa, y con el misma interpretación que la varianzaen cuanto a medida de dispersión absoluta, pero no cumple las restantes propiedadesmatemáticas de aquella, pues la extracción de la raíz no lo permite.COEFICIENTE DE VARIACIÓNEn ocasiones resulta necesario contar con un estadígrafo que refleje la dispersión sin dependerde la magnitud de las observaciones, esto es que sea un valor relativo. Esta necesidad surgegeneralmente cuando se comparan las dispersiones entre varios conjuntos expresados enunidades diferentes, o incluso entre variables expresadas en las mismas unidades pero condiferencias significativas en sus valores medios. Este estadístico es el denominado coeficientede variación.El coeficiente de variación se define como el cociente de la desviación típica entre la media. Sedenota por CV(x), y en forma matemática puede expresarse: 25
  • 27. Sx CV( x ) = xDel coeficiente de variación se dice que es una medida de dispersión relativa, por carecer deunidades, o una medida de la variabilidad de los datos. Muchas veces su valor se multiplica por100, para expresar el resultado en porciento. EJEMPLO: Sea cuenta con datos del peso y la estatura de un grupo de 20 niños entre 8 y 10 años, y se desea saber cuál de las dos variables tiene mayor variabilidad. X: estatura (cm) Y: peso (kg) X = 155 cm Y = 42 kg S2 X = 110 cm 2 S 2 = 20 kg2 Y S X = 10,5 cm S Y = 4,5 kg En este caso no tiene sentido decir que hay mayor dispersión en términos absolutos en la estatura, por el hecho de que la desviación estándar para dicha variable es 10,5 mientras que para el peso es 4,5, pues las unidades en que están expresadas ambas no son comparables. Aquí cobran especial importancia los coeficientes de variación, que quedan: 10,5 4,5 CV( X) = = 0,068 = 6,8% CV( Y ) = = 0,107 = 10,7% 155 42 De ello resulta que hay mayor variabilidad en el peso (10,7%) que en la estatura de los niños (6,8%).EJERCICIOS DE AUTOEVALUACIÓN1.- ¿Qué indican las medidas de tendencia central?2.- ¿Cómo se define la media aritmética? ¿Cuáles son sus propiedades?3.- ¿Qué desventajas se le pudiera atribuir a la media?4.- ¿Cómo se define la mediana?5.- ¿Cuál de los dos estadísticos, media y mediana, considera que es mejor para representar elpromedio? Explique su respuesta.6.- ¿Cómo se define la moda?7.- ¿En que casos considera útil utilizar la moda? 26
  • 28. 8.- ¿Qué indican las medidas de dispersión?9.- ¿Cómo se define la varianza? Mencione algunas de sus propiedades.10.- ¿Cómo interpretaría el resultado de la varianza?11.- ¿Cómo se define la desviación típica? ¿Cómo la interpretaría en general?12.- ¿Cuándo y porqué utilizaría la desviación típica en vez de la varianza?13.- ¿Cómo se define el coeficiente de variación? ¿Cómo se interpreta este coeficiente?14.- ¿Cuáles son las ventajas del coeficiente de variación sobre la desviación típica?15.- Un fabricante de pilas para linternas tomó una muestra de 13 piezas de la producción de undía y las utilizó de forma continua hasta que comenzaron a fallar. El resultado en horas defuncionamiento fue: 342, 426, 317, 545, 264, 451, 1049, 631, 512, 266, 492, 562, 298a.- Calcule la media, la mediana y la moda. ¿Qué medidas descriptivas parecen ser las mejoresy cuales las peores? ¿Por que?b.- Calcule la varianza, la desviación típica y el coeficiente de variación.c.- Utilizando la información anterior ¿qué se aconsejaría al fabricante si él deseara anunciarque sus baterías duran 400 horas?16.- Examinando los registros de cuentas mensuales de una empresa que vende Li-1 Li nilibros por correo, el auditor toma una muestra de 20 de esas cuentas no pagadas 10 15 4(dadas en cientos de pesos). Los adeudos de la empresa eran: 15 20 6a.- Calcule la media, la mediana y la moda.b.- Calcule la varianza y el coeficiente de variación e interprete los resultados. 20 25 7c.- A que conclusión llegaría acerca de la empresa conociendo que tiene 370 25 30 2facturas pendientes de pago. 30 35 1 27
  • 29. TEMA II: PROBABILIDADES.2.1: Introducción a los fenómenos y experimentos aleatorios. Espacio muestral ysucesos. Clasificación de sucesos. Definición clásica de Probabilidad. Definiciónestadística de Probabilidad.La Teoría de las Probabilidades surge en el siglo XVII, relacionada con problemas de los juegosde azar, y entre sus principales precursores estuvo el matemático Pascal, junto con Fermat,Huygens y Bernoulli; algo después se sumó la importante contribución de De Moivre, Gauss,Laplace y Poisson. Esta teoría se encarga del estudio de las leyes que rigen el comportamientode los fenómenos aleatorios, y es la base de la inferencia estadística, de ahí la necesidad de suestudio si se quiere pasar de la mera descripción al trazado de predicciones.Para desarrollar la teoría de las probabilidades es preciso establecer la barrera entre eldeterminismo y la necesario aleatoriedad o azar:Un fenómeno o experimento es determinista cuando se puede predecir con total exactitud elresultado del mismo a partir del conocimiento de las condiciones iniciales; así, los fenómenos yexperimentos de que se ocupan ciencias exactas como la física y la química son deterministas.Un fenómeno o experimento es, por el contrario, aleatorio cuando no se puede predecir conexactitud el resultado del mismo aunque se conozcan las condiciones iniciales; esto es lo quepor lo general ocurre en el campo de las ciencias económicas y sociales.Según lo dicho, si se va a dejar caer un dado desde una altura determinada, el hecho de que seconozca cuál es la altura permitiría determinar antes y con exactitud, sobre la base de leyesfísicas, con qué velocidad llegará el dado al suelo, lo que hace de ésta una observacióndeterminista; sin embargo, no sería posible predecir con total certeza qué cara del dadoquedará hacia arriba, siendo esta otra una observación aleatoria.Se plantea que la estadística es la tecnología del método científico que proporcionainstrumentos para la toma de decisiones, cuando estas se adoptan en ambiente deincertidumbre y siempre que pueda ser medida en términos de probabilidad. Luego es unaciencia que estudia los fenómenos aleatorios.La probabilidad, en una aproximación intuitiva, puede definirse como una medida cuantitativa deque las posibilidades pueden llegar a ser realidades.TERMINOLOGÍA ASOCIADA A LOS EXPERIMENTOS ALEATORIOS:Para llegar a una definición más rigurosa de lo que lo que es probabilidad resulta útil dominaralgunos conceptos vinculados justamente con lo no medible con exactitud, con lo aleatorio:Espacio muestral: Es el conjunto formado por todos los posibles resultados de unexperimento o fenómeno aleatorio. Se suele representar con “S”, mayúscula, y utilizando lanotación de la Teoría de Conjuntos. La cantidad de elementos (puntos muestrales) queconforman el especio muestral es denominada “tamaño del espacio muestral”, y serepresenta como N(S). Ej. 1: Lanzamiento de una moneda... S: { C ; E } donde C: Cara E: Escudo 28
  • 30. N(S) = 2 Ej. 2: Lanzamiento de un dado... S: { 1, 2, 3, 4, 5, 6 } N(S) = 6Cuando el experimento consta de observaciones sucesivas (a esto se le denomina experimentode muestreo), el espacio muestral es la combinación de los posibles resultados en cada una delas observaciones, y para determinar el mismo se pueden utilizar los llamados diagramas deárbol. En un diagrama de árbol se ordenan las diferentes observaciones y se establecen losposibles resultados para cada observación atendiendo a las observaciones anteriores. Ej. 3: Lanzamiento de dos monedas S: { CC ; CE ; EC ; CC } N(S) = 4El espacio muestral puede ser finito o infinito según el conjunto tenga un número finito o infinitode elementos (puntos muestrales).Punto muestral: Es cada uno de los resultados posibles de un experimento o fenómenoaleatorio.Suceso o evento: Cualquier característica observada como resultado de un experimento ofenómeno, y es aleatorio si tiene tanto posibilidad de ocurrir o como de no ocurrir; o sea, es unacolección cualquiera de puntos muestrales. Se utilizan letras mayúsculas para representarlos,exceptuando la S.Para establecer relaciones de sucesos con el espacio muestral o entre ellos mismos se utilizanlos diagramas de Venn. En un diagrama de Venn se suele representar el espacio muestralcomo un rectángulo, y dentro de este, con círculos u otras formas geométricas los diferentessucesos de interés, así: S AEjemplos de sucesos, en el experimento del lanzamiento de un dado son: A: Que salga el 6. A={6} B: Que salga un número > 3 B = { 4; 5; 6 } C: Que salga un número ≤ 2 C = { 1; 2 } D: Que salga un número par D = { 2; 4; 6 } E: Que salga un número impar E = { 1; 3; 5 } F: Que salga un número primo F = { 1; 2; 3; 5 } G: Que salga un número < 10 G = { 1; 2; 3; 4; 5; 6 } (= S ) H: Que salga un número > 6 H = ø (conjunto vacío) 29
  • 31. Los sucesos pueden clasificarse atendiendo a diferentes criterios; así, en dependencia de lacantidad de puntos muestrales que lo constituyen se habla de sucesos simples y compuestos: Suceso simple: Es aquel que consta de un solo punto muestral. (En el ejemplo anterior, el suceso A.) Suceso compuesto: Es aquel que tiene dos o más puntos muestrales. (En el ejemplo anterior, los sucesos del B al G.)Atendiendo a su ocurrencia, se puede hablar de sucesos seguros o ciertos y de sucesosimposibles o nulos: Suceso seguro o cierto: Es aquel cuya ocurrencia es inevitable, que siempre va a ocurrir. (En el ejemplo anterior, el suceso G: al lanzar un dado siempre saldrá un número del 1 al 6.) Los sucesos seguros coinciden con el espacio muestral. Suceso imposible o nulo. Es aquel que nunca ocurrirá. (En el ejemplo anterior, el suceso H.) Los sucesos imposibles constituyen conjuntos vacíos.Además, en función del vínculo de un suceso o evento con otros existen las siguientesdenominaciones: Subevento: A es un subevento o subsuceso de B si todos los puntos muestrales de A están incluidos en B, o sea, A ⊂ B. (En el ejemplo anterior: A ⊂ B, A ⊂ D, C ⊂ F, E ⊂ F.) A⊂B Sucesos complementarios: Un suceso es complementario de otro suceso A, si está formado por todos los puntos del espacio muestral que no están incluidos en A; se dice entonces que ese suceso es el complemento de A, y se denota por A o Ac. (En el ejemplo anterior se tiene para A = { 6 } que el complemento es A’ = { 1; 2; 3; 4; 5}.) Sucesos excluyentes: Dos sucesos se dice que son mutuamente excluyentes si la ocurrencia de uno excluye la ocurrencia del otro, por lo tanto dichos sucesos no tienen puntos en común. (En el ejemplo anterior son excluyentes A y C, B y C, D y E.) 30
  • 32. Nota: Un caso particular de sucesos excluyentes son los complementarios. Todos los sucesos complementarios son excluyentes; lo contrario no necesariamente ocurre. Sucesos no excluyentes: Dos sucesos son no excluyentes si pueden ocurrir simultáneamente, es decir, si tienen puntos en común. (En el ejemplo anterior son no excluyentes A y B, C y D, B y D, C y E, etc.) Sucesos exhaustivos: Se dice que dos sucesos son colectivamente exhaustivos cuando la ocurrencia de ambos abarca el espacio muestral. (En el ejemplo anterior son no exhaustivos: D y E, D y F.) Nota: Un caso particular de sucesos exhaustivos son los complementarios. Todos los sucesos complementarios son exhaustivos; lo contrario no necesariamente ocurre.OPERACIONES ENTRE SUCESOS:Para establecer la relación entre diferentes sucesos se recurre a las operaciones definidas porel álgebra booleana en la propia Teoría de Conjuntos, entre ellas, las más usadas son: • Intersección o producto: La intersección de los sucesos A y B da como resultado un suceso que consiste en la ocurrencia simultánea de ambos, es decir, que contiene los puntos muestrales contenidos a la vez en A y en B. Se denota por A ∩ B ó AB. Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un número mayor que 3) y D = { 2; 4; 6 } (que salga un número par), la intersección es el suceso dado por que salga un número par y mayor que tres, es decir: B ∩ D ≡ BD = { 4; 6 } B ∩ D ≡ BD 31
  • 33. • Unión o suma: La unión de dos sucesos A y B da como resultado un suceso que consiste en la ocurrencia de al menos uno de los dos sucesos, es decir que contiene todos los puntos muestrales contenidos en A o en B (o en ambos). Se denota por A ∪ B ó A + B. Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un número mayor que 3) y D = { 2; 4; 6 } (que salga un número par), la unión es el suceso dado por que salga un número par o mayor que tres, es decir: B ∪ D = { 2; 4; 5; 6 } B∪D • Complemento o negación: El complemento de un suceso A da como resultado su suceso complementario, es decir, que no ocurra A. Se denota como A’ ó Ac. Ej.: En el lanzamiento del dado, siendo C = { 1; 2 } (que salga un número menor o igual que 2), el complemento unión es el suceso dado por que salga un número mayor que 2, es decir: C’ = { 3; 4; 5; 6 } C’ ≡ CcDEFINICIÓN CLÁSICA DE PROBABILIDAD:En el siglo XIX, concretamente en el año 1812, Laplace formula la que es conocida comodefinición clásica de probabilidad, que establece que:Si S es un espacio muestral finito y todos los puntos muestrales son equivalentes o igualmenterepresentativos, entonces la probabilidad de ocurrencia de cualquier suceso A definido en Spuede calcularse como el cociente del número de resultados favorables al suceso A (tamañodel suceso) entre el número de resultados posibles (tamaño del espacio muestral), así: N( A ) P( A ) = N(S) Ejemplos: La probabilidad de obtener el número 6 al lanzar un dado será: A: Que salga el 6. N(A) = 1 P(A) = 1/6 = 0,167 La probabilidad de obtener un número par será: D: Que salga un número par N(D) = 3 P(D) = 3/6 = 0,5 32
  • 34. La definición clásica también se conoce como definición a “priori” de probabilidad, porque no esnecesario realizar el experimento para calcular la probabilidad de ocurrencia. Esta definicióntiene las siguientes limitaciones: 1. No puede ser aplicada a espacios muestrales infinitos. 2. No puede ser aplicada cuando los puntos muestrales no son equiprobables, o lo que es lo mismo, igualmente probables.DEFINICIÓN ESTADÍSTICA DE PROBABILIDAD:Debido a las limitaciones que confronta la definición clásica de probabilidad, se comenzaron arealizar experimentos con los juegos de azar, surgiendo el concepto de regularidadestadística. Se le llama regularidad estadística a la estabilidad que presentan las frecuenciasrelativas asociadas a un suceso al considerar un gran número de veces un experimento bajo lasmismas condiciones; por ejemplo, si una moneda se lanza un gran número de veces (500, 1000veces), se observará que aproximadamente el 50% de estas veces sale cara, y mientras máslanzamientos se haga más tenderá este valor al 50%.A partir de la regularidad estadística, surge la definición estadística de probabilidad que plantea:Si el número de observaciones (n) tiende a infinito, la frecuencia relativa asociada a un sucesoA (fA), alcanza un cierto valor límite o ideal, y entonces puede asociarse a un número P(A)equivalente a la probabilidad de ocurrencia de A, así: nA P( A ) = lim = lim f A n→ ∞ n n→ ∞ Ejemplo: Un arquero ha acertado 70 veces en un blanco de un total de 100 intentos, y se quiere conocer la probabilidad de que haga blanco en un nuevo tiro. Sea A: acertar en el blanco Se tiene que n = 100 y nA = 70. Entonces: P(A) = 70/100 = 0,70 O sea, se espera que el arquero haga blanco un 70% de las veces que tire.La definición estadística o frecuencial además se conoce como definición “a posteriori” deprobabilidad, porque si no se realiza el experimento no se puede calcular la misma. Estadefinición también tiene limitaciones, dadas por lo siguiente: No siempre es posible repetir un experimento un mismo número de veces bajo las mismas condiciones.PROPIEDADES DE LA PROBABILIDAD:La probabilidad, como medida de la posibilidad de ocurrencia de un suceso, cumple lassiguientes propiedades: • P(A) ≥ 0 • P(S) = 1 33
  • 35. Lo anterior implica que: 0 ≤ P(A) ≤ 1Nota: Es común multiplicar las probabilidades por 100 para expresarlas porcentualmente, y de esta forma, lógicamente, resultará un número (un valor porcentual) entre 0 y 100.EJERCICIOS DE AUTOEVALUACIÓN1.- ¿Qué es un experimento aleatorio?2.- ¿Puede calcularse probabilidad a partir de un experimento determinista?. Explique.3.- ¿Cuáles son los sucesos mutuamente excluyentes?4.- ¿Cuáles son los sucesos complementarios?5.- Explique la diferencia entre unión e intersección y proporcione un ejemplo de cada uno.6.- ¿Cómo se define la probabilidad clásicamente? ¿Bajo que condiciones puede aplicarse?7.- ¿Cómo se define la probabilidad estadística o frecuencialmente?8.- ¿Cuáles son las limitaciones de ambas definiciones?9.- En una amplia red metropolitana se seleccionó una muestra de 500 entrevistados para determinar diversas informaciones relacionadas con el comportamiento del consumidor. Entre las preguntas hechas se encontraba: “¿disfruta ir de compras?”. De 240 hombres 136 contestaron que sí; de 260 mujeres 224 contestaron que sí. a.- De un ejemplo de un evento simple. b.- ¿Cuál es el complemento de disfrutar ir de compras? c.- ¿Cual es la probabilidad de que el entrevistado seleccionado en forma aleatoria ... c.1 sea hombre? c.2 disfrute ir de compras? c.3 sea mujer? c.4 no disfrute ir de compras? c.5 sea mujer y disfrute ir de compras? c.6 sea hombre y no disfrute ir de compras? c.7 sea hombre y disfrute ir de compras? c.8 sea mujer o disfrute ir de compras? c.9 sea hombre o no disfrute ir de compras? 34
  • 36. 2.2: Axiomatización de la Probabilidad. Reglas de cálculo de probabilidades.Probabilidad condicional. Independencia de sucesos.Existen múltiples situaciones complejas en las que es necesario o deseable conocer laprobabilidad de ocurrencia de un determinado suceso, y donde la aplicación directa de algunade las definiciones de este concepto parece prácticamente imposible; de ahí que la teoría entorno a las probabilidades continuase desarrollándose para encontrar solución a estos casos,dando lugar a numerosos teoremas y reglas.Dadas las limitaciones que presentan las dos definiciones previas, en 1933 se axiomatiza laprobabilidad a partir de la formulación de tres axiomas básicos. Entonces, si S es un espaciomuestral y A un suceso definido en S, se dirá, que todo suceso A definido en S está asociado aun numero real P(A), llamado probabilidad de A, el cual cumplirá con los siguientes axiomas: 1. P(A) ≥ 0 2. P(S) = 1 3. P(A1 ∪ A2 ∪ A3 ∪ ... ∪ Ak) = P(A1) + P(A2) + ... + P(Ak) si los k sucesos son excluyentes o lo que es lo mismo si para cada par Ai y Aj se tiene que AiAj = ø siendo i ≠ j.TEOREMAS ASOCIADOS AL CÁLCULO DE PROBABILIDADES:De los axiomas establecidos para la probabilidad se derivan algunos teoremas que encuentranaplicación directa en el cálculo de probabilidades, entre los más usados están:Teorema 1: La probabilidad de un suceso imposible o nulo es cero: P(∅) = 0Teorema 2: Si A es un subconjunto de B entonces P(A) ≤ P(B)Teorema 3: La probabilidad del suceso complementario al suceso A es igual a la probabilidad del espacio muestral, que es igual a 1 ( P(S) = 1 ), menos la probabilidad de A. P(A) = 1 - P (A)Teorema 4: La probabilidad de que ocurra A y no ocurra B será: P(AB) = P(A) - P(AB)Teorema 5: La probabilidad de que ocurra la unión de dos sucesos, A y B, será: P(A ∪ B) = P(A) + P(B) - P(AB) Este teorema es conocido como “regla de la unión”. El mismo puede generalizarse para más de dos sucesos; por ejemplo, la regla de la unión referida a tres sucesos queda: 35
  • 37. P(A ∪ B ∪ C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)Teorema 6: La probabilidad de que no ocurra ninguno de dos sucesos, A y B, será: P(A’B’) = 1 - P(A ∪ B) Ejemplo: De un grupo de 1000 habaneros: 420 leen Granma, 105 leen Juventud Rebelde y 45 leen ambos periódicos. a.- ¿Cuál es la probabilidad de seleccionar aleatoriamente un habanero del grupo y lea Granma o Juventud Rebelde. b.- ¿Qué probabilidad hay de que el habanero seleccionado no lea ninguno de los periódicos? c.- ¿Qué probabilidad hay de que lea sólo Granma? Sean los sucesos: G: leer Granma J: leer Juventud Rebelde. Se tiene: N(S) = 1000 N(G) = 420, por tanto: P(G) = 0,42 N(J) = 105, por tanto: P(J) = 0,105 N(GJ) = 45, por tanto: P(GJ) = 0,045 a.- P(G ∪ J) = P(G) + P(J) + P(GJ) = 0,42 + 0,105 - 0,045 = 0,48 b.- P(G ∪ J) = 1 - P(G ∪ J) = 1 - 0,48 = 0,52 c.- P(GJ) = P(G) - P(GJ) = 0,42 - 0,045 = 0,385PROBABILIDAD CONDICIONAL:Muchas veces surge la necesidad de calcular la probabilidad de ocurrencia de un sucesoasumiendo la ocurrencia de otro, que puede ser llamado condicionante; esto quiere decir que yano interesa la totalidad del espacio muestral, sino sólo aquella parte o subconjunto de aquel quecoincide con la realización del suceso condicionante. La probabilidad así calculada se le llamaprobabilidad condicional.Para representar la probabilidad condicional de un suceso A respecto a otro B (condicionante ocondición) se utiliza la el símbolo P(A/B), que se lee “probabilidad de A dado B”, o “probabilidadde A si ocurre B”.Matemáticamente se puede calcular la probabilidad condicional como el cociente de laprobabilidad de intersección de los dos sucesos entre la probabilidad del suceso condicionante: 36
  • 38. P( AB) P( A / B) = P(B)También se puede calcular la probabilidad condicional directamente a partir del tamaño de lossucesos: N( AB) P( A / B) = N(B) Ejemplo: En una escuela de idiomas se ha visto que el 70% de los estudiantes termina bien el primer año de Inglés, y que un 59,5% termina bien los dos años de estudio. Se quiere determinar la probabilidad de que un estudiante termine bien el segundo año. Sean los sucesos: Se sabe que: A: terminar bien el 1er año de Inglés P(A)=0,70 B: terminar bien el 2do año de Inglés P(AB)=0,595 P( AB) 0,595 Entonces: P(B / A ) = = = 0,85 P( A ) 0,70REGLA DEL PRODUCTO:Si A y B son sucesos definidos en S, la probabilidad de AB, de acuerdo a la definición deprobabilidad condicional, se puede expresar como: P(AB) = P(A) P(B/A) P(AB) = P(B) P(A/B)De la misma forma: P(ABC) = P(A)P(B/A)P(C/AB)Luego la regla del producto expresa la probabilidad de que ocurran A y B en un ordendeterminado: P(AB)=P(A)P(B/A) que primero salga A y en segundo lugar salga B óP(AB)=P(B)P(A/B) que primero salga B y en segundo lugar ASi no interesa el orden, sino que salga una vez A y una vez B, entonces se tienen que expresarlas dos combinaciones posibles que hay: P(AB) = P(A1 B2 ) + P(B1 A2 )Ejemplo. De una urna que contiene 4 esmeraldas y 1 brillante, se extraen 2 piedras, una a una,sin reposición. Calcule la siguiente probabilidad.a.- Que la 1ra piedra sea esmeralda y la 2da brillante.b.- Que las dos piedras sean esmeraldasc.- Solo una sea esmeralda.Solución: como es sin reposición las extracciones, entonces los sucesos son dependientes,además que piden orden.a.- P(E1 B2 )= P(E)P(B/E) = 4/5 . 1/4 = 4/20 = 1/5 = 0.20b.- P(E1 E2)= 4/5 . 3/4 = 16/20 = 6/10 = 0.6c.- P(E1 B2 ∪ B1 E2) = P(E)P(B/E) + P(B)P(E/B) 37
  • 39. = 4/5 . 1/4 + 1/5 . 4/4 = 4/20 + 4/20 = 8/20 = 4/10 = 0.4INDEPENDENCIA DE SUCESOS:Dos sucesos A y B se llaman independientes, cuando la probabilidad de ocurrencia de uno deellos, no depende de la ocurrencia o no del otro.Dos sucesos son independientes si se cumple alguna de las siguientes igualdades: 1. P(A/B) = P(A) 2. P(B/A) = P(B) 3. P(AB) = P(A) P(B)Se debe aclarar que sólo se puede comprobar independencia a través de esta última fórmula sise tienen las 3 probabilidades y comprobar si la intersección es igual al producto de laprobabilidad de ambos sucesos.Un ejemplo de independencia es el siguiente: Si se lanza una moneda dos veces, laprobabilidad de que salga cara en el primer lanzamiento, no depende de que salga cara o no enel segundo lanzamiento.Ejemplo:Si una caja contiene 100 piezas de las cuáles 20 son defectuosas y se extraen aleatoriamente 2piezas una a una (con reposición). ¿Cuál será la probabilidad de obtener una pieza defectuosaen la primera extracción?:P=20/100=0.20¿Y cuál será la probabilidad, en la segunda extracción, de obtener también una piezadefectuosa?P=20/100=0.20, es decir exactamente igual, esto es debido a que se repuso la primera pieza.Por tanto, cuando las observaciones son con reposición se puede considerar que sonindependientes, pues lo que ocurre en la segunda extracción es independiente de lo queocurre en la primera (y así con las sucesivas, si hay más). Pero si no se repone, es decir,se hacen las observaciones “sin reposición” la probabilidad de cada observacióndepende de las anteriores.Si de la caja de 100 piezas en la primera extracción sale una pieza defectuosa, la probabilidadde pieza defectuosa en la segunda extracción, sin reponer la primera pieza tomada, será 19/99;pero si lo que sale en la primera extracción es una pieza en buen estado, entonces laprobabilidad de pieza defectuosa en la segunda extracción será 20/99.Generalmente para los juegos de azar, es fácil decidir si dos sucesos son independientes o no.Para otros experimentos aleatorios, se debe tener más cuidado.Ejemplo. Si se tienen 3 sucesos definidos en un espacio muestral S y se conoce que:P(A)=0.40 P(B)=0.42 P(C)=0.15 P(A/B)=0 P(A/C)=0 P(C/B)=0 38
  • 40. Diga si: a.- A y B son independiente b.- A y C son mutuamente excluyentes c.- B y C son independientes d.- A y B son equiprobablesa.- P(A/B) = P(A) ya que para que A y B sean independientes se debe cumplir esta relación.Pero P(A/B) = 0 y P(A) = 0.40 luego son diferentes por tanto no son independiente.b.- Para que sean mutuamente excluyentes se debe cumplir que P(AC)=0, ya que al no tenerelementos comunes(AC), la intersección es igual al conjunto vacío.Como P(A/C)=0 eso implica que P(AC)=0 ya que P(A/C)=P(AC)/P(C) por lo tanto los sucesosA y C son mutuamente excluyentes.c.- P(B/C) = P(B) ó P(C/B) = P(C) ya que para que sean independientes se debe cumplircualquiera de las dos. P(C/B) = P(C) 0 ≠ 0.15 Por tanto, no son independientes.d.- Para que sean equiprobables se debe cumplir que P(A) = P(B), pero: P(A) = 0.40 ≠ P(B) = 0.42, por tanto no son equiprobables.EJERCICIOS DE AUTOEVALUACIÓN1.- ¿Cuáles son los axiomas sobre los que descansa la teoría axiomática de la probabilidad?2.- Diga al menos 3 propiedades de la definición axiomática de probabilidad.3.- ¿Cuándo dos sucesos son independientes?4.- ¿Cuándo dos sucesos son mutuamente excluyentes?5.- Un embarque de 10 muñecos contiene 3 muñecos y 7 muñecas. a.- Si se seleccionan dos muñecos, sin reposición, ¿cuál es la probabilidad de que: a1.- sean dos muñecas? a2.- haya una muñeca y un muñeco? a3.- el primer muñeco seleccionado sea una muñeca y el segundo un muñeco?. b.- compare la respuesta a.2 y a.3 y explique porque son diferentes.6.- Con referencia al ejercicio 9 de la autoevaluación de la semana anterior. a.- Supóngase que el entrevistado seleccionado sea mujer. ¿Cuál es entonces la probabilidad de que no disfrute ir de compras? b.- Supóngase que el entrevistado seleccionado disfruta ir de compras. ¿Cuál es la probabilidad de que sea un hombre? c.- ¿Son estadísticamente independiente disfrutar ir de compras y el sexo de la persona? Fundamente su respuesta. d.- ¿Cuál es la probabilidad de que un entrevistado, seleccionado en forma aleatoria... d.1.- ¿Sea mujer o disfrute ir de compras? 39
  • 41. d.2.- ¿Sea hombre o no disfrute ir de compras? d.3.- ¿Sea hombre o mujer? Utilice para el inciso “d” las propiedades de la definición axiomática de probabilidad.7.- A partir de una investigación realizada, se supo que el 70% de los hombres son fumadores;y que padecen afecciones respiratorias dado que son fumadores un 50%. Además se conocióque no siendo fumadores, dado que padecen de afecciones existen un 40%, Si se realiza elexperimento de seleccionar un individuo del grupo al azar, diga: a.- Probabilidad de que no sea fumador. b.- Probabilidad de que sea fumador y padezca de afección pulmonar. c.- Probabilidad de que fume dado que padece de los pulmones. d.- Probabilidad de que no padezca de afecciones pulmonares dado que fuma e.- Probabilidad de que padezca de afección respiratoria. 40
  • 42. TEMA III: DISTRIBUCIONES TEÓRICAS DE PROBABILIDAD3.1: Definición de variable aleatoria. Función de probabilidad univariada: casosdiscreto y continuo. Función de distribución. Media y varianza de variablesaleatorias.En este tema que se estudiarán las distribuciones teóricas de probabilidad, que son modelosteóricos basados en las probabilidades, establecidos para describir el comportamiento devariables en cuyos valores hay incidencias aleatorias, y que se utilizan atendiendo a lascaracterísticas de la situación existente.Se dice que una variable es aleatoria si sobre cuyos valores influye de alguna manera laaleatoriedad o azar.Una manera más matemática de expresarlo es la siguiente: una variable aleatoria "X" es unaaplicación definida en un espacio muestral S, que toma valores reales, o sea es latransformación del espacio muestral en un conjunto numérico, mediante X.La mayor parte de las variables aleatorias se pueden expresar numéricamente, y por tanto sonclasificables igualmente en discretas y continuas: son discretas las que toman un conjunto finito-o infinito, pero numerable- de valores; son continuas las que pueden tomar cualquier valor realde un intervalo. Ejemplo: Experimento: lanzamiento de una moneda dos veces. El espacio muestral es: S = { CC EE CE EC } Si lo que interesa es conocer la cantidad de caras que pueden aparecer, se define entonces la variable aleatoria X: número de caras que aparecen, siendo su espacio muestral o dominio de definición: X = { 0, 1, 2 }Como para una variable aleatoria es imposible saber con exactitud qué valor tomará en unmomento dado, para describir el comportamiento de las mismas se recurre al uso de lasprobabilidades...Cuando se conocen características o se efectúan estudios sobre el comportamiento de unavariable, se puede desarrollar algún modelo que brinde una descripción probabilística de lamisma, el cual tendrá además implícito un grupo de condiciones que debe cumplir la variable.Todo modelo así desarrollado se basa en lo siguiente: Una función de probabilidad: f(x) Una función de distribución: F(x) Parámetros (medidas numéricas descriptivas)FUNCIÓN DE PROBABILIDAD:Una función de probabilidad es la correspondencia que se establece entre los valores, ointervalos de valores, de una variable aleatoria y la probabilidad de ocurrencia de éstos. Sedenota por f(x). 41
  • 43. Si la función de probabilidad [f(x)] es discreta también se le denomina función de cuantía, ymuchos autores la representan entonces como p(x). Para que sea una función de probabilidad,la función de cuantía, debe cumplir las siguientes propiedades: 1.- f (x) ≥ 0 2.- ∑ f (x) = 1Ahora bien, si la función de probabilidad [f(x)] es continua se le denomina función dedensidad. Para que sea una función de probabilidad, la función de densidad, deben cumplirselas siguientes propiedades: Xmax b 1.- f (x) ≥ 0 2.- ∫ f ( x)dx = 1 Xmin ∫ 3.- P(a < x ≤ b) = f ( x )dx a 4.- P (X = Xk) = 0Esta última propiedad nos indica que para variables continuas la probabilidad de tomar un valorpuntual es nula, y esto conlleva que para las variables continuas se cumpla lo siguiente: b ∫ f ( x )dx = P(a ≤ x ≤ b) = P(a < x ≤ b) = P(a ≤ x < b) = P(a < x < b) a (Por tanto, en el caso continuo no importa si las desigualdades son estrictas o no, pues da igual: un punto por sí mismo no influye, no aporta probabilidad.)FUNCIÓN DE DISTRIBUCIÓN:Existe otra función que está íntimamente relacionada con las funciones de probabilidad, la cualse denomina función de distribución o función de acumulación probabilística, y se denotapor F(x).La función de distribución recoge la probabilidad de que la variable tome valores menores oiguales al valor dado, es decir, acumula las probabilidades hasta un valor dado (xk). Esto,matemáticamente, quiere decir que: F(xk) = P(X ≤ Xk)Toda función de distribución cumple las siguientes propiedades: 1. lim F( x ) = 0 2. lim F( x ) = 1 3. 0 ≤ F(x) ≤ 1 X→ − ∞ X→ ∞ 4. x1 ≤ x2 ⇒ F(x1) ≤ F(x2) (Es decir, es una función no decreciente.) 5. x1 < x2 ⇒ P(x1 < x ≤ x2) = F(x2) - F(x1)Para las funciones de distribución correspondientes a variables discretas, se cumple que: Xk F( x k ) = ∑ f(x ) Xmin iY de la quinta propiedad general citada se deriva, en el caso discreto, que: 42
  • 44. P(x1 < x ≤ x2) = F(x2) - F(x1) P(x1 ≤ x ≤ x2) = F(x2) - F(x1) + f (x1) P(x1 < x < x2) = F(x2) - F(x1) - f (x2) P(x1 ≤ x < x2) = F(x2) - F(x1) + f (x1) - f (x2)Debe mencionarse que la función de distribución es más usada en el caso de variablescontinuas que en el de las discretas, pues para estas últimas resulta más cómodo trabajardirectamente con la función de cuantía.Para funciones de distribución correspondientes a variables aleatorias continuas se cumple que: Xk ∂ F( x ) ∫ F( x k ) = f ( x) dx Xmin y ∂x = f(x)Además, teniendo en cuenta que la probabilidad puntual en variables continuas es nula, de laquinta propiedad general citada se deriva para este caso, con fines prácticos, lo siguiente: P(x ≤ xk) = P(x < xk) = F(xk) P(x ≥ xk) = P(x > xk) = 1 - F(xk) P(x1 ≤ x ≤ x2) = P(x1 < x < x2) = P(x1 < x ≤ x2) = P(x1 ≤ x < x2) = F(x2) - F(x1)Ejemplos:1.- Un determinado experimento aleatorio tiene como función de probabilidad la relación: x +1 f(x) = para x = { 0, 1, 2, 3 } 10Se pide:a.- Verificar las propiedades de f(x)b.- P(x >1)c.- F(1)d.- Probabilidad de que x tome por lo menos valor 1e.- Probabilidad de que x tome a lo sumo valor 2Solución:a.- Propiedad f (x) ≥ 0 f (x0)= 1/10; f (x1)= 2/10; f (x2)= 3/10; f (x3)= 4/10; por tanto f (x) > 0 Propiedad que la suma de f (x) desde 0 a 3 = 1 f (x)= 1/10[(1+0)+(1+1)+(1+2)+(1+3)] = 10/10 = 1 3b.- P(x > 1) = ∑ f (x ) = (1+2)/10 + (1+3)/10 = 3/10 + 4/10 = 7/10=0.7 x=2c.- x f (x) F(x) 0 1/10 1/10 F(1) = 3/10 = 0.3 esto nos indica que x es menor 1 2/10 3/10 ó igual a 1. 43
  • 45. 2 3/10 6/10 3 4/10 10/10 Nota: Como se ve, si la variable es discreta F(x), se determina de la mismo que Fi, es decir las frecuencias relativas acumuladas. 3d.- P(x ≥ 1) = ∑ f (x) = 1 - f (x = 0) = 1 - 1/10 = 9/10 = 0.9 x=1También se podría hacer, sumando, en vez de por el complemento: = 1/10[(1+1) + (1+2) + (1+3) ] = = 1/10 (2 + 3 + 4) = 9/10 = 0.9 2e.- P(x ≤ 2) = ∑ f (x) = 1 - f (x = 3) = 1 - 4/10 = 6/10 = 0.6 x=0También se podría hacer sumando en vez de por el complemento: = 1/10[(1+0) + (1+1) + (1+2)] = = 1/10 (1 + 2 + 3) = 6/10 = 0.62.-Sea f (x) = 1/18(3 + 2x) una función de densidad para 2 < x < 4a.- Verifique si se cumplen las propiedades de f (x)b.- Calcule P(x < 3)c.- P(x ≥ 3)d.- P(x = 3)e.- Halle F(x)f.- Calcule P(2 < x ≤ 3) haciendo uso de la F(x)Solución: 4a.- f (x) = 1/18 ∫ (3 + 2x)dx = 1/18[ 3x + 2x /2 ]= 1/18[(12+16) - (6+4)] 2 2 = 1/18 (28 - 10) = 18/18 = 1 3b.- P(x < 3)= 1/18 ∫ (3 + 2 x)dx 2 = 1 / 18(3x + 2x 2 / 2] = 1 / 18[(9 + 9) - (6 + 4)] = 1/18 (18 - 10) = 8/18 = 4/9 = 0.44 4c.- P(x ≥ 3)=1/18 ∫ (3 + 2 x)dx 3 = 1 / 18(3x + 2x 2 / 2] = 1 / 18[(12 + 16) - (9 + 9)] =1/18(28 -18) = 10/18 = 5/9 = 0.55d.- P(x=3) = 0 xke.- F(x) = 1/18 ∫ (3 + 2 x)dx 2 = 1 / 18(3x + 2x 2 / 2] = [(3xk + x 2 k ) - (6 + 4)] = 1/18(3xk + x2k - 10) por tanto F(x) será: F(x) = 1/18 (x2 + 3x - 10)f.- P(2 < x ≤ 3) = F(3) - F(2) = [1/18(9+9-10) ] - [1/18(4+6-10) ] 44
  • 46. = 1/18(8 - 0) = 8/18 = 4/9 = 0.44MEDIDAS NUMÉRICAS DE RESUMEN ASOCIADAS A VARIABLES ALEATORIAS:Las medidas numéricas de resumen asociadas a variables aleatorias permiten sintetizar lainformación de forma tal que ofrecen las características generales del fenómeno en estudio, esdecir, sus rasgos principales. Tienen su equivalente en los estadígrafos que se utilizan paracaracterizar conjuntos de observaciones o muestras, y en este caso se conocen comoparámetros de las variables.Entre los parámetros más usados están la media, como medida de posición, y la varianza comomedida de dispersión.MEDIA O ESPERANZA MATEMÁTICAEl valor medio de una variable aleatoria, se denomina media teórica, valor esperado oesperanza matemática, y se denota por E(x) ó μ.La media o valor esperado de una variable aleatoria se puede considerar como su promedioponderado sobre todos los resultados posibles siendo las "ponderaciones" la probabilidadrelacionada con cada uno de los resultados.El cálculo del valor esperado está en dependencia si se está trabajando con variablesaleatorias discretas o continuas. En el caso de las variables aleatorias discretas, esta medida deresumen se puede obtener multiplicando cada posible de la variable, xi, por su probabilidadcorrespondiente, P(xi) o f(xi), y después sumando los productos resultantes, así: μ = E (x) = ∑ x f(x)En el caso de las variables aleatorias continuas, esta medida de resumen se obtiene integrandoel producto de la variable x por su función de probabilidad, desde el valor mínimo de la variable,xmin, hasta su valor máximo, xmax, de la siguiente forma: Xmax μ = E( x ) = ∫ x f ( x) dx XminPropiedades de la media o valor esperado:1.- La esperanza de una constante es igual a la propia constante: E (k) = k2.- La esperanza del producto de una constante por una variable es igual a la constante por laesperanza de la variable: E (kx) = k E (x)3.- Si x1, x2 , ... , xn son variables aleatorias entonces: E ( ∑ xi ) = ∑ E (x)4.- La esperanza de la suma (o resta) de una constante y una variable es igual a la constantemás la suma (o resta) de la esperanza de x: 45
  • 47. E (k ± x) = k ± E (x)5.- Si la media poblacional es igual a la esperanza de x, entonces la esperanza de lasdesviaciones con respecto a la media es igual a cero: E (x - μ)= 06.- Si x e y son variables aleatorias independientes entonces, la esperanza del producto de "x" e"y" es igual al producto de la esperanza de "x" y de la esperanza de "y": E (xy) = E (x) E (y)7.- La esperanza del producto de la suma de n, variables y constantes es igual a la suma delproducto de las "n" constantes por las esperanza de las variables. E (C1x1 + C2x2 + ... + Cnxn ) = C1E (x1) + C2E (x2) + ... + CnE (xn)VARIANZALa varianza es igual a la esperanza de las desviaciones con respecto a la media, al cuadrado: V(x) = E (x - μ)2También se simboliza por σ2 (sigma al cuadrado, letra griega). Esta definición hace un tantodifícil el cálculo de la varianza, ya que como se dijo anteriormente en el cálculo de la esperanza,la variable, es lo que está dentro del paréntesis, y en este caso lo que está dentro delparéntesis, es (x - μ)2.Por lo tanto para el cálculo de la varianza para una variable aleatoria discreta sería: V(x) = ∑(x - μ)2 f(x)Y en el caso de variables aleatorias continuas sería: x max ∫ ( x − μ) 2 V( x ) = f ( x )dx x minHaciendo transformaciones matemáticas se puede llegar a obtener una fórmula de cálculo parala varianza que es mucho más cómoda.V(x) = E (x2) - [E (x)]2 en el caso de la variable discreta la: xn 2 2E(x ) = ∑ x f (x) y en el caso de variables continua E(x )= 2 ∫x x1 2 f ( x )dxPropiedades de la varianza:1.- La varianza de una variable es igual o mayor que cero: V(x) ≥ 02.- La varianza de una constante es igual a cero: V(k) = 0 46
  • 48. 3.- La varianza del producto de una constante por una variable es igual a la constante alcuadrado por la varianza de la variable: V(kx) = k2 V(x)4.- La varianza de la suma de una constante más una variable es igual a la varianza de lavariable: V(k+x) = V(x)5.- Si x1 , x2 , ...xn son variables aleatorias independientes, entonces la varianza de la suma de"n" variables es igual a la suma de las varianza de las variables: V(∑ xi) = ∑ V(xi)6.- La varianza de la suma del producto de "n" variables por "n" constantes es igual a la sumadel producto de las "n" constantes al cuadrado por las varianzas de las variables: V(C1 x1 + C2 x2 + ... + Cn xn) = C 21 V(x1) + C22 V(x2) + ... + C2n V(xn)Ejemplo 1.- La función de una variable aleatoria x, esta dado por: x: 1 2 3 4 f(x): 1/6 1/3 1/6 1/3Calcular el valor esperado de x y su varianza.Solución:Primeramente se debe definir si es una variable aleatoria discreta o continua, ya que endependencia del tipo de variable así será su cálculo. En este caso es discreta, se sabe, porquela variable toma valores definidos: 1, 2, 3, y 4.Para los cálculos se necesitarán los productos x f (x) y x2 f (x), que se pueden tabular: x: 1 2 3 4 f(x): 1/6 1/3 1/6 1/3 x f(x) 1/6 2/3 3/6 4/3 x2 f(x) 1/6 4/3 9/6 16/3Entonces:E (x)= μ = ∑ x f (x) = 1/6 + 2/3 + 3/6 + 4/6 = (1+4+3+8)/6 = 16/6 = 2,66V(x)= E(x2) - [E(x)]2 E(x2) = ∑x2 f (x) = 1/6 + 4/3 + 9/6 + 16/3 = (1+ 8 + 9 + 32)/6 = 50/6 = 8.33V(x)= E(x2) - [E(x)]2 = 8.33 - 2,662 = 8.33 - 7.07 = 1.26Ejemplo 2.- Si f (x) = x/2 para 0 < x < 2a.- ¿Cuál será el valor de la varianza de x?b.- Hallar E(x+3)c.- Hallar E(2x2)d.- ¿Cuál será el valor de V(2x)?e.- ¿Cuál es el valor de la desviación típica de x? 47
  • 49. Solución:¿Qué tipo de variable es esta? La forma de presentar el recorrido de la variable x, indica quees una variable continua. 2 2 1 ⎛ x3 ⎞ 2 1 2 1⎛8 ⎞ 8 4 ∫0 ∫a.- E( x ) = x f ( x )dx = 20 x dx = ⎜ ⎟ = ⎜ − 0 ⎟ = = = 1.33 ⎜ 3 ⎟ 2⎝ ⎠ 2⎝3 ⎠ 6 3 0 2 2 1 ⎛ x4 ⎞ 2 ⎟ = ⎛ ⎞ 16 1 3 1 16 ∫ ∫ x dx = ⎜ 2 2 E( x ) = x f ( x )dx = ⎜ − 0⎟ = =2 0 20 2⎜ 4 ⎝ ⎟ ⎠0 2⎝ 4 ⎠ 8 V(x) = E (x2) - [E (x)]2 = 2 - 1.332 = 2 - 1.77 = 0.23b.- E(x+3) = E (x) + 3 = 1.33 + 3 = 4.33c.- E(2x2) = 2 E(x2) = 2 ⋅ 2 = 4d.- V(2x) = 22 V(x) = 4 (0.23) = 0.92e.- σ = σ 2 = 0,23 = 0.48EJERCICIOS DE AUTOEVALUACIÓN1.- ¿Qué entiende por variable aleatoria? ¿A qué se denomina función de probabilidad? ¿Cómose denomina a la función de probabilidad de una variable aleatoria discreta y cómo a la de unavariable continua? ¿Cómo se define la función de distribución?2.- A partir de la definición de función de distribución como determinaría las siguientesprobabilidades para una variable aleatoria discreta y para una variable aleatoria continua: a.- P(x ≤ xk) b.- P(x > xk) c.- P(x1 ≤ x < x2) d.- P(x1< x ≤ x2) e.- P(x1 < x < x2) f.- P(x1 ≤ x ≤ x2) 48
  • 50. 3.2: Distribución binomial: características y uso. Distribución de Poisson:características y uso.Entre las distribuciones probabilísticas más usadas asociadas a variables aleatorias discretascabe citar las siguientes: Bernoulli, binomial, binomial negativa, geométrica, hipergeométrica yPoissonDISTRIBUCIÓN BINOMIALLa distribución Binomial es una de las distribuciones discretas más utilizadas. Su nombre sedebe a la relación que tiene la misma con el desarrollo del binomio: n n ⎛ n ⎞ x n− x n n! (p + q)n = ∑ x =0 C n p x qn − x ≡ x ∑ ⎜ ⎟p q ⎜ ⎟ x =0 ⎝ x ⎠ ≡ ∑ x!(n − x )! p q x =0 x n− x ⎛n⎞Donde el símbolos Cn y ⎜ ⎟ son equivalentes y se leen “combinatoria de n con x”, siendo: x ⎜x⎟ ⎝ ⎠ ⎛n⎞ n! Cn ≡ ⎜ ⎟ = x ⎜ x ⎟ x! (n − x )! ⎝ ⎠La distribución binomial está relacionada con la distribución de Bernoulli, que es la distribuciónde una variable aleatoria que toma solamente valores cero y uno (fracaso y éxito) al realizar unaúnica observación y verificar si ocurrió o no un suceso de interés. Sin embargo existen confrecuencia experimentos de carácter repetitivos en que interesa registrar la ocurrencia o noocurrencia de un suceso.Distribución Binomial: Antecedentes: Los experimentos son con reposición, o independientes.1.- Definición de la variable: X: cantidad de éxitos (veces que ocurre un suceso de interés) en n pruebas. X = 0, 1, 2, ... , n2.- Características: Se realizan "n" pruebas (número finito de observaciones). El resultado de cada observación se puede clasificar en una de dos categorías mutuamente excluyentes y colectivamente exhaustiva, denominadas éxito (ocurrencia del suceso de interés) y fracaso (no ocurrencia del suceso). Las pruebas son independientes. La probabilidad de éxito es constante de una observación a otra (p) (igualmente lo será entonces la probabilidad complementaria del fracaso (q), siendo q= 1 - p ⎛n⎞ n!3.- Función de Probabilidad: f ( x ) = ⎜ ⎟ p x qn− x ⎜x⎟ ó f ( x) = p x qn − x ⎝ ⎠ x! (n − x )! 49
  • 51. xk4.- Función de Distribución: F( x k ) = ∑ f ( x) x min5.- Parámetros: n μ = E(x) = ∑ xf( x ) = np x =0 σ2 = V(x) = E(x2) - [E(x)]2 = npq6.- Representación: X ∼ B (n, p) La distribución binomial queda definida por dos parámetros: "n" y "p", y cada vez que se especifican estos parámetros se tiene un caso particular de distribución binomial. La notación anterior se lee: X sigue una distribución binomial con parámetros n y p.7.- Forma: Una distribución binomial puede ser simétrica o asimétrica (sesgada). Siempre que p = 0.5, la distribución binomial será simétrica, sin tomar en cuenta que tan grande o pequeño sea el valor de “n”. Sin embargo, cuando “p” es diferente de 0.5, la distribución será sesgada. Cuanto más cerca se encuentre “p” de 0.5 y mayor sea el número de observaciones “n”, menos sesgada será la distribución, por otra parte, con una “p” pequeña la distribución tendrá un gran sesgo a la derecha y para una “p” muy grande la distribución tendría un gran sesgo a la izquierda.La distribución BINOMIAL ha sido utilizada en numerosas aplicaciones, como:- EN JUEGOS DE AZAR. ¿Qué probabilidad hay de que, al tirar un dado 10 veces salga el 6 al menos cinco veces?- EN EL CONTROL DE LA CALIDAD DE UN PRODUCTO. ¿Qué probabilidad hay de que en una muestra de 20 conos de hilo del mismo tipo ningunoestá‚ defectuoso, si el 10% de todos los conos de hilo producido en cierta planta sondefectuosos?- EN LA EDUCACION. ¿Qué probabilidad tiene un estudiante de aprobar un examen de 5 preguntas de opciónmúltiple (cada una de ellas contiene 4 opciones) si adivina en cada pregunta? (Aprobar sedefine como lograr correcto el 60% de las preguntas; es decir, acertar por lo menos 3preguntas)- EN LAS FINANZAS. ¿Cuál es la probabilidad de que cierta acción mostrar un aumento en su precio al cierre, enuna base diaria durante 10 sesiones (consecutivas) de operaciones, si en realidad los cambiosde precios en el mercado accionario son aleatorios?Los cálculos de probabilidad a partir de la función, pueden llegar a ser muy laboriosos, enespecial cuando aumenta “n”, por ello se han desarrollado tablas con los valores de estadistribución para diferentes combinaciones de n y p, y un fragmento de estas tablas puedeconsultarse en la Selección de tablas estadísticas.La tabla de la binomial tiene en la primera fila los valores de “p”; en la primera columna losvalores de “n” y en la segunda columna los valores de x, pero están representados en ella poruna k. 50
  • 52. Sin embargo debe tenerse en cuenta que no están todos y cada uno de los valores de “p” quese necesitan; y hay casos en que, al ser p > 0.5, sería necesario redefinir el cálculo en términosde la variable complementaria (el fracaso), para la cual de éxito es la “q”, y buscar entonces enla tabla los valores equivalentes de x (esto se verá concretamente en un ejemplo).Si se quiere tener el resultado de la probabilidad se combinan los valores de n y p y dentro deellos se busca el valor de x que se necesita digamos que se tiene una distribución binomialdonde n = 2 y p = 0.15 y se quiere obtener la probabilidad de un éxito, o sea, P(x = 1); esta seobtiene donde se interceptan el valor de p = 0.15 y x = 1 (dentro de n = 2), que en este caso esigual a 0.2550.Ejemplo 1.En la industria rayonera de Matanzas se está realizando una investigación acerca de ladisciplina laboral.Las estadísticas demuestran que el 5% de los obreros son ausentistas, si se selecciona unamuestra aleatoria de 5 trabajadores. Calcule la probabilidad que:a.- 2 de ellos sean ausentistas.b.- entre 3 y 5 sea ausentistas.c.- de que todos asistan.d.- al menos 4 sean ausentistasSoluciónAquí se puede observar que la distribución binomial se ajusta, ya que:- el resultado se puede clasificar en éxito y fracaso (ausentistas y no ausentistasrespectivamente)- las pruebas son independientes, es decir que un obrero sea ausentista es independiente deque otro lo sea.- n es finito (se analizarán 5 trabajadores).- p es constante (el 5% de los trabajadores son ausentistas). 51
  • 53. Por tanto puedo decir que X ∼ B(5 ; 0,05)X: número de obreros ausentistas de 5a.- P (x = 2) = f(2) = C 2 0.05 2 0.95 3 = 10(0.0025)(0.8574) = 0.0214 5 n! 5! 5 ⋅ 4 ⋅ 3! ya que C n = x = C5 = 2 = = 10 (n − x )! x! 3! ⋅ 2! 2 ⋅ 1⋅ 3! Sin embargo esto se resuelve muy fácil utilizando la tabla, buscando para n = 5, y para una p = 0.05 y dentro de ellos x = 2 donde se interceptan se obtiene este valor encontrado, es decir 0.0214. Luego, podemos concluir que únicamente será necesario hacer el cálculo a través de la función de probabilidad cuando no exista en la tabla la probabilidad de éxito que se tiene (p)b.- P(3 ≤ x ≤ 5) = f(3) + f(4) + f(5) = 0.011 + 0 + 0 =0.011c.- P (x=0) = f(0) = 0.7738d.- P (x ≥ 4) = f (4) + f (5) = 0 + 0 = 0También si no se tuviese la tabla habría que sustituir en la función de probabilidad los valores yresolverla.Ejemplo 2. La probabilidad de que un avión de combate regrese de una misión sin sufrir daños es de 0.85y se envían 4 aviones a una misión, hallar la probabilidad de que:a.- De 2 a 4 regresen sin sufrir averías.b.- Al menos 3 regresen sin sufrir daños.c.- A lo sumo dos regresen sin sufrir daños.d.- Probabilidad de que todos regresen dañados.e.- ¿Cuál es el promedio de aviones que no debe sufrir daños?Solución: X: número de aviones de combate que regresan sin sufrir daños. X ∼ B(n ; p) n = 4 p = 0.85 q = 0.15.Como en la tabla no está p = 0.85 > 0.5 habría que usar la función y sustituir los valores en ellapara calcular las probabilidades deseadas. No obstante, se puede utilizar la variablecomplementaria de X y replantear los cálculos en términos de esto, con la equivalenciaadecuada entre X y X’. X’: # de aviones de combate que regresan dañados n=4 px’ = qx = 0.15Para buscar la equivalencia entre lo que pide el problema y como se tiene expresada lavariable se puede hacer una tabla que ayude a ver claramente lo que se va a calcular. Aviones sin sufrir daños (x): 0 1 2 3 4 Aviones con daños (x’): 4 3 2 1 0 Que regrese 1 avión sin sufrir daño es lo mismo que decir que regresen 3 dañados; que regresen 3 aviones sin sufrir daños es lo mismo que decir que regrese 1 avión dañado… O sea, se busca la equivalencia entre la variable original y su complemento. 52
  • 54. a.- P(2 ≤ x ≤ 4) ≡ P(x’ ≤ 2) = f (0) + f (1) + f (2) = 0.5220 + 0.3685 + 0.0975 = 0.9880b.- P(x ≥ 3) ≡ P(x’ ≤ 1) = f (0) + f (1) = 0.5220 + 0.3685 = 0.8905c.- P(x ≤2) ≡ P(x’ ≥ 2) = f(2) + f(3) + f(4) = 0.0975 + 0.0115 + 0.0005 = 0.1095d.- P(x’ = 4) = 0.005 (Esta pregunta está realizada directamente en términos de la variablecomplementaria, de ahí que no haya que buscar equivalencia.)e.- np = 4(0,85) = 3.4 = μ npq = 0.85(0.15)(4) = 0.1275(4) = 0.51 = σ2DISTRIBUCIÓN DE POISSONEsta distribución se refiere a aquellas situaciones en las cuales el suceso ocurre repetidamente,pero al azar, es decir sin seguir una periodicidad dada, se produce aleatoriamente.A la ocurrencia del suceso se le denomina cambio.Estos cambios pueden ocurrir en el tiempo, o en puntos aleatorios, o en una línea de espera; esdecir pueden formularse en función del tiempo, unidades de longitud, área o volumen etc..El interés estará centrado en: número de cambios que ocurren en un intervalo dado. Ejemplos:Número de barcos que llegan al puerto de la Habana en una semana; número de negocios quecierran, por semana, en Ciudad de la Habana.1.- Definición de la variable: X: cantidad de cambios u ocurrencias aleatorias que se producen en un intervalo (t ó I) deotra variable X : 0, 1, 2, ..., ∞2.- Características: Sin antecedentes, importancia para su uso en programación Matemática. - Los cambios u ocurrencias observados son independientes entre sí. - El promedio de ocurrencias o cambios en intervalos de tamaño fijo es constante (λ) (rapidezde cambio constante en el tiempo o en el espacio) - La probabilidad de observar dos o más cambios ó éxitos en un intervalo suficientementepequeño es cero. e − λ λx3.- Función de probabilidad: f ( x ) = x! λ es el promedio (histórico) de cambios en un intervalo unitario "t ó I" e es la constante de Euler (2.71828) xk4.- Función de Distribución: F( x k ) = ∑ f (x) x min 53
  • 55. 5.- Parámetros: μ =λ Coinciden numéricamente aunque por supuesto μ está expresada en σ2 = λ unidades lineales y σ2 en unidades cuadráticas.6.- Simbólicamente se expresa como: X ∼ P ( λ)Esta distribución queda definida por un solo parámetro, “λ” .Forma:La distribución de Poisson estará sesgada hacia la derecha cuando λ es pequeña. Seacercará a la simetría (con su punto más alto en el centro) según aumente λ. Ejemplos: Supóngase que se estudian las llamadas recibidas por hora en una central telefónica. Cualquier llamada que se reciba es un evento discreto en un punto dado durante un intervalo continuo de una hora. En una hora se recibirán 180 llamadas como promedio. Ahora si se dividiera el intervalo de una hora en 3600 intervalos consecutivos de un segundo, se tendría: λ = 180/3600 = 0.05/segundos 1.- La cantidad esperada (o promedio) de llamadas recibidas en cualquier intervalo de un segundo sería 0.05, es decir sería estable. 2.- La probabilidad de recibir más de una llamada en cualquier intervalo de una fracción de segundo es cero. 3.- Recibir una llamada en un segundo dado no tiene efecto (o sea, es estadísticamente independiente) sobre recibir otra llamada en cualquier otro intervalo de un segundo.De la misma forma que para la distribución binomial, la distribución de Poisson se encuentratabulada, encontrándose su tabla en la Selección de Tablas estadísticas.La tabla de la Poisson tiene en la primera fila los valores de λ, y en la primera columna losvalores de x designados en esta tabla por k. En ella aparecen grupos de valores para valores deλ desde 0.1 hasta 8, estando estos grupos definidos hasta donde "x" puede tomar valores,proporciona los valores de λ con aproximación hasta la décima.Se debe señalar que para cálculos con valores de λ mayores de 8 se puede acudir a la tabla dela función exponencial, en la columna de exponentes negativos (e-x), que está en la página 20de la Selección de tablas estadísticas; y sustituir luego en la fórmula de la función de Poisson elvalor correspondiente. 54
  • 56. Ejemplo 1Una pizarra telefónica recibe 480 llamadas en una hora, pero no puede recibir más de 12llamadas en un minuto.Determine:a.- La probabilidad de que se produzcan 10 llamadas en un minuto.b.- La probabilidad de que la pizarra quede saturada en medio minuto (30 segundos).c.- La probabilidad de que se produzcan a lo sumo 1 llamada en un minuto dado.d.- La probabilidad de que se produzcan más de 2 llamadas en un minuto.e.- El número de llamadas esperadas en cinco minutos.Solución:x: # de llamadas que se reciben en un minutoλ0 = 480 llamadas/hora (promedio histórico conocido) Nota: Para los cálculos posteriores se debe convertir el promedio conocido a las mismas unidades de los intervalos de interés, en este caso pasar de llamadas por hora a llamadas por minuto. λ0 = 480 llamadas/hora = 480 llamadas / 60 minutos = 8 llamadas/min Nota: para cada cálculo de probabilidades que interese se debe atender también al intervalo (I) en el que se efectúa el conteo de ocurrencias, pues si no coincide con el 55
  • 57. intervalo asociado al promedio histórico, es necesario calcular el promedio (λ) correspondiente a dicho intervalo, lo cual se hace multiplicando el tamaño del intervalo por el promedio histórico.a. I = 1 min (por tanto λ = λ0 = 8 ), y lo buscado es: P(x =10) = f (10) = 0.0993b. I = ½ min (por tanto λ = λ0/2 = 4 ). Lo buscado ahora es P(x > 12), porque como la pizarra no puede recibir más de 12 llamadas en un minuto, quedaría saturada si recibe más de 12... P(x >12) = 1 - P(x ≤ 12) = 1 - [ P(x=0) + P(x=1) + P(x=2) + P(x=3) +.... + P(x =12) ] = 1 - 0.9997 = 0.0003 Nota: Se debe tener en cuenta que en la distribución de Poisson "x" toma valores desde 0 hasta infinito, por tanto NUNCA SE PUEDE CALCULAR DIRECTAMENTE P(x > Xk) ni P(x ≥ Xk), cualquiera sea Xk, sino que siempre en estos casos hay que trabajar con el complemento. Y al hacer esto, si la igualdad está en la parte izquierda de la expresión no debe estar en la derecha, que es su complemento; y si la igualdad no está en la parte izquierda, debe estar en la derecha.c. I = 1 min (por tanto λ = λ0 = 8 ) P(x ≤ 1) = f (0) + f (1) = 0.0003 + 0.0027 = 0.0030d. I = 1 min (por tanto λ = λ0 = 8 ) P(x > 2) = 1 - P(x ≤ 2 ) = 1 - [f (0)+ f (1)+ f (2)] = 1 – (0.0030 + 0.0027 + 0.0107) = 1 – 0.0137 = 0.9860e. I = 5 min (por tanto λ = 5λ0 = 40 ) μ = λ = 40 llamadasEjemplo 2Sea una distribución de Poisson donde f (0) = 0.00674Se pide:a.- Hallar el valor de λb.- Calcular la probabilidad de que X = 0 , en un intervalo 1,5 veces el original.Solución: e − λ λ0a.- Se sabe que f (0) = 0!Pero: λ0 = 1 y 0! = 1 (por propiedad del factorial).Por tanto: f(0) = e-λEntonces, basta con encontrar qué valor de λ cumple que e-λ=0.00674 (para ello se puede usarla tabla de e-x que está en la página 20 de la selección de tablas estadísticas).Y se obtiene que e-5 = 0.00674, lo que implica que λ = 5.b.- I = 1,5 I0, por tanto λ = 1,5 λ0 = 1,5 ⋅ 5 = 7,5 P(X = 0) = f (0) = 0,0006 56
  • 58. EJERCICIOS DE AUTOEVALUACIÓN1.- ¿Qué expresa la variable X en una distribución binomial, y cuál es su recorrido? ¿Cuales sonlas características de la distribución binomial? ¿Qué parámetros la definen? ¿Cuál es su mediay cuál su varianza?2.- ¿Qué expresa la variable X en una distribución de Poisson, y cuál es su recorrido? ¿Cualesson las características de una distribución de Poisson? ¿Qué parámetros definen la distribuciónde Poisson? ¿Qué representa λ en la distribución de Poisson? ¿Cuál es la media y la varianzaen la distribución de Poisson?3.- Sobre la base de la experiencia anterior, la impresora principal del centro de cómputo decierta universidad funciona adecuadamente el 90% del tiempo. Si se hace una muestra aleatoriade 10 inspecciones: a.- ¿Cuál es la probabilidad de que la impresora principal funcione en forma apropiada... a.1.- exactamente nueve veces? a.2.- por lo menos nueve veces? a.3.- cuando más 9 veces? a.4.- más de 9 veces? a.5.- menos de 9 veces? b.- ¿Cuantas veces se puede esperar que funcione en forma apropiada la impresora principal?4.- El número promedio de automóviles que se detienen por minuto para tomar gasolina encierta gasolinera perteneciente a CUPET de Ciudad de la Habana es 1.2. ¿Cuál es laprobabilidad de qué en determinado minuto se detengan... a.- menos de dos automóviles? b.- más de tres automóviles? c.- menos de dos automóviles ó más de tres? d.- dos ó tres automóviles para tomar gasolina? e.- al menos dos automóviles? 57
  • 59. 3.3: Distribución normal o de Gauss. Distribución chi-cuadrado. Distribución t deStudent. Distribución F de Fisher.Luego de estudiar dos distribuciones de probabilidad discreta se prestará atención a lasfunciones continuas de densidad de probabilidad, las que surgen por algún proceso de mediciónen diversos fenómenos de interés o como transformaciones de otras variables.Los modelos continuos tienen aplicaciones importantes en los negocios y en las cienciassociales, además de en la Ingeniería y la Física.Entre las distribuciones probabilísticas más usadas con variables aleatorias continuas cabe citarlas siguientes: uniforme, exponencial, normal, chi-cuadrado, t’Student y F de Fisher.En las distribuciones continuas tiene una marcada importancia la función de distribución ya quea partir de sus propiedades es factible calcular fácilmente probabilidades, así: P(X ≤ Xk) = F(X) P(X > Xk) = 1 - F(X) P(a < X ≤ b) = F(b) - F(a)(No obstante, en variables continuas no hay diferencia si el signo es < ó ≤, o si es > ó ≥, ya quela probabilidad de un valor puntual es nula.)Para aquellas distribuciones continuas de amplio uso, lo que se recoge en tablas son valores dela función de distribución (F).DISTRIBUCIÓN NORMAL O DE GAUSSMuchas de las técnicas utilizadas en estadística aplicada se basan en la distribución Normal ode Gauss.1.- CARACTERISTICAS: - Tiene la forma de una campana boca a bajo. - Es simétrica con respecto a X = μ - La función está definida en todo el eje X - La función tiene un máximo en X = μ = Me = Md - Tiene dos puntos de inflexión en μ +σ y μ - σ - Su variable aleatoria asociada tiene rango infinito (− ∞ < Χ < ∞ )2.- FUNCION DE PROBABILIDAD 2 1⎛ x− μ ⎞ − ⎜ ⎟ 1 f ( x) = e 2⎝ σ ⎠ Donde: e = 2.71828 y π =3.14159 σ 2π3.- FUNCION DE DISTRIBUCIÓN xkF( x k ) = ∫ −∞ f ( x )dx 58
  • 60. 4.- PARAMETROS: La media en esta distribución es μ y la varianza es σ2 por lo que la mismaqueda definida por estos dos parámetros ya que "e" y " π " son constantes matemáticas.5.- REPRESENTACION X ∼ Ν(μ, σ)Por lo tanto, habrá tantas curvas normales como valores o combinaciones particulares de μ y σhaya.Toda distribución normal con media μ y desviación típica σ tiene la característica de tener elárea bajo la curva de su función de densidad, distribuida de la siguiente forma: 1. P(μ −σ < Χ < μ+σ) = 68.27% del área bajo la curva normal 2. P(μ −2σ < Χ < μ+2σ) = 95.45% del área bajo la curva normal 3. P(μ −3σ < Χ < μ+3σ) = 99.73% del área bajo la curva normalA estas tres expresiones se les llaman comúnmente “reglas de las 3 sigmas”.Como es una variable continua para calcular probabilidad se tendría que integrar la función deX, en el intervalo que se quiere hallar la probabilidad.La única forma de hacer una tabla para evitar este cálculo sería estandarizando la variable, esdecir cualquier variable aleatoria normal X, se convierte en una variable aleatoria estandarizada"Z" que siempre tendría como media cero y desviación típica 1; y así se tendría la posibilidadde tabular los resultados. 1 1 − Z2Pues bien Z ∼ N (0 ; 1) y su función de probabilidad es: f ( z ) = e 2 2π x−μDonde: Z = σ 59
  • 61. La estructura de la tabla normal es la siguiente: En la primera columna se tienen los valores deZ, hasta la aproximación de la décima y en la primera fila la aproximación de la centésima.Como se dijo anteriormente en esta tabla están registrados los valores de la función dedistribución, por tanto son valores acumulados, es decir la probabilidad acumula desde menosinfinito (-∞) hasta el valor de Z que se busca; dichas probabilidades están en el cuerpo de latabla.En el folleto de selección de tablas estadísticas, la tabla aparece estructurada de manera queen una primera mitad aparecen los valores de Z negativos, o sea los correspondientes a la colaizquierda de la distribución, y en una segunda mitad se presentan los valores de Z positivos,correspondientes a la cola derecha.Nota: Queda claro, no obstante, que cualquier valor de probabilidad, independientemente delsigno de Z, será positivo. 60
  • 62. Así para una Zk = -2,82 la probabilidad acumulada es 0,0024, es decir, esa es la probabilidad deque la variable Z tome algún valor entre menos infinito y Zk = -2,82.Igualmente, para Zk= 2,64 la probabilidad acumulada es 0,9959, lo que indica que una variableZ tiene un 99,59% de tomar algún valor menor o igual a 2,64.Ejemplo 1: (Ejercicio 324, página 223 del Laboratorio)En una distribución normal con μ = 23 y σ2 = 25, hallar:a.- P(X < 23,5) e.- P(25 < X < 30)b.- P(X > 10) f.- P(X < 20)c.- P(X >23) g.- P(X < 25)d.- P(8 < X < 21)Solución:Ante todo, se debe observar que se conoce la varianza (σ2 = 25), y por tanto la desviación típicapara la variable es σ = 5.a.- P(X < 23,5) = P(Z < (23,5 - 23)/5) = P(Z < 0,5/5) = P(Z < 0,1) = Fz(0,1) = 0,5398b.- P(X > 10) = 1 - P(X < 10)= 1 - P(Z < (10-23)/5)= 1 - P(Z < -13/5) = 1 - P(Z < -2,6) = 1 - Fz(-2.6) = 1 - 0.0047 = 0.9953c.- P(X > 23) = 0.50 Esto no hay ni que buscarlo en la tabla porque el área bajo la curva es 1por tanto de la mitad al final de la distribución será la mitad, (0.50) pero además, en este punto"Z" es igual a cero, y buscando Z=0 daría también Fz(0) = 0.50d.- P(8 < X < 21) = P[(8-23)/5 < Z < (21-23)/5]= P(-15/5 < Z < -2/5)= = P(-3 < Z < -0.4)= Fz(-0.4) - Fz(-3) = 61
  • 63. = 0.3446 - 0.0013 = 0.3433e.- P(25 < X < 30) = P[(25-23)/5 < Z < (30-23)/5]= P(2/5 < Z < 7/5)= = P(0.4 < Z < 1.4) = Fz(1.4) - Fz(0.4) = = 0.9192 - 0.6554 = 0.2638f.- P(X < 20) = P(Z < (20-23)/5) = P(Z < -3/5) = P(Z < -0.6) = = Fz(-0.6) = 0.2743g.- P(X < 25) = P(Z < (25-23)/5) = P(Z < 2/5) = P(Z < 0.4) = = Fz(0.4) = 0.6554Ejemplo 2: (Variante del problema 332, página 226, del Laboratorio)El llenado de las cajas de talco en la fábrica de una empresa de perfumería se haceautomatizadamente, de forma que el peso neto de las cajas se distribuye normalmente, siendoel peso promedio de 15 onzas con una desviación típica de 0,8 onzas.a) ¿Qué probabilidad hay de que una caja tenga un peso neto inferior a 13 onzas?b) ¿Qué proporción de las cajas tendrá pesos netos superiores a 16 onzas?c) ¿Qué proporción de las cajas tendrá pesos netos entre 15 y 16 onzas?d) ¿Cuál es el peso máximo del 20% de las cajas menos pesadas?e) ¿Cuál es el peso mínimo del 10% de las cajas más pesadas?Solución:Sea X el peso neto de las cajas de talco: X ∼ N (15 ; 0,8)Al tratarse de una variable con distribución normal, se debe estandarizar la misma en cadacálculo para hacer uso de la tabla.a) P(X < 13) = P(Z < (13 - 15)/0,8) = P(Z < -2,5) = Fz(-2,5) = 0,0062 En este caso, al tratarse de la probabilidad acumulada hasta un punto (z=-2,5), el resultado es directamente el valor que aparece en la tabla para la z.b) P(X > 16) = P(Z > (16 -15)/0,8) = P(Z > 1,25)= 1 - P(Z ≤ 1,25) = 1 - Fz(1,25) = 1 – 0,8944 = 0,1056 (El 10,6% de las cajas tendrá pesos netos mayores de 16 onzas.) Aquí, al tratarse de la probabilidad por encima de un punto (zk=1,25), el resultado se debe calcular usando la regla del complemento, o sea, restando a la probabilidad bajo toda la curva (que es 1) la acumulada hasta el punto zk, que es la que brinda la tabla. 62
  • 64. c) P(15 < X < 16) = P[(15 -15)/0,8 < Z < (16 -15)/0,8] = P(0 < Z < 1,25) = Fz(1,25) - Fz(0) = 0,8944 – 0,5 = 0,3944 (El 39,4% de las cajas tendrán pesos netos entre 15 y 16 onzas.) En este caso, al tratarse de la probabilidad en un intervalo, el resultado se debe calcular como la diferencia de lo acumulado hasta el límite superior (z=1,25) menos lo acumulado hasta el límite inferior (z=0). Debe destacarse aquí que la probabilidad acumulada hasta el extremo inferior no era necesario calcularla, pues dicho extremo coincide con el valor de la media de la variable (μ=15, ó z=0 para la variable estandarizada), y conociendo que la distribución normal es simétrica respecto a su media se deduce que hasta el punto X=μ (z=0) se acumula un 50% de probabilidad.d) Para resolver esto lo primero es ubicar las cajas menos pesadas, que son aquellas ubicadas en la cola o extremo izquierdo de la curva. De ellas interesan las que representan el 20% del total, y se quiere determinar el peso (Xk) que acota superiormente a ese 20% de cajas; por tanto, puede plantearse que: P(X < Xk) = 0,20 Entonces, de la misma manera se tiene que: P(Z < Zk) = 0,20 Y una forma de representar ese valor Zk es: Zk = Z0,20 Con esto se quiere decir que es el valor de de una variable Z que ha acumulado un 20% de probabilidad. Encontrar mediante la tabla el valor de Z que acumula un 20% de probabilidad implica buscar en el interior de la misma el número más cercano a 0,20 (que es 0,2005), y de su encabezado de fila y columna se llega a que: Zk = Z0,20 = -0,84 x−μ Conocido el valor Zk se puede hallar Xk, despejando de: Z = σ Xk = Zk σ + μ = -0,84 ⋅ 0,8 + 15 = 15 – 0,672 = 14,328 Se concluye, pues, que el peso máximo para el 20% de las cajas menos pesadas es de 14,328 onzas.e) Ahora interesan las cajas más pesadas, que son las ubicadas en la cola o extremo derecho de la curva, y de ellas importa las que representan el 10% del total. O sea, se quiere 63
  • 65. determinar el peso (Xk) que acota inferiormente a ese 10% de cajas; y puede plantearse que: P(X > Xk) = 0,10 Así, se tiene también que: P(Z > Zk) = 0,10 Pero esto no constituye un valor de probabilidad acumulada, pues la probabilidad acumulada es la que está por debajo del punto, y para Zk sería, haciendo uso de la regla del complemento: P(Z < Zk) = 1 - 0,10 = 0,90 ó: Zk = Z1-0,10 = Z0,90 Buscando en la tabla el valor de Z que acumula un 90% de probabilidad se encuentra que el valor más cercano a 0,90 en el interior de la misma es 0,8997, y de su encabezado de fila y columna se llega a que: Zk = Z0,90 = 1,28 Y despejando Xk: Xk = Zk σ + μ = 1,28 ⋅ 0,8 + 15 = 15 + 1,024 = 16,024 Se concluye, pues, que el peso mínimo para el 10% de las cajas más pesadas es de 16,024 onzas.TEOREMA CENTRAL DEL LÍMITEHay un importante teorema asociado a la distribución normal, en el que descansa la granimportancia y el poder de aplicación de esta distribución, que recibe el nombre de TeoremaCentral del Límite. Este teorema establece que si se tiene un grupo de variables que siguenuna misma distribución, la suma y la media de estas variables tienden a una distribución normalcuando el número de variables se hace grande.DISTRIBUCIÓN CHI-CUADRADOEsta distribución fue introducida por Helmert en 1876.Si Z1, Z2,..., Zv, son variables aleatorias normalmente distribuidas e independientes con mediacero y varianza 1, la suma de sus cuadrados, se representan en general por χ2 (letra griega chi,o ji, al cuadrado) y donde: χ2 = Z12 + Z22 + ... + Z v2A la distribución probabilística asociada a esta nueva variable se le llama distribución ji-cuadrado, siendo su función de densidad: 64
  • 66. f ( x ) = Kν χ (ν − 2 )/ 2 e -x/2 Cuando x > 0 y ƒ(x ) = 0 cuando x ≤ 0En esta función ν (nu), representa los llamados grados de libertad de la distribución, y Kν es unaconstante que depende de ν.¿Qué son los grados de libertad? Los grados de libertad constituyen la cantidad de valoresindependientes que admite un conjunto de observaciones a partir de determinadas condicionesque tiene que cumplir dicho conjunto. Así, si se dice que una variable tiene n -1 grados delibertad esto indica que solo n -1 de los valores de la muestra están libre para variar. Se puededemostrar este concepto de la forma siguiente. Caso ilustrativo: Suponga que se tiene una muestra de 5 elementos de la que se sabe que la media es igual a 20. ¿Cuantos valores diferentes se necesitarían conocer antes de poder obtener el resto? n El hecho de que n = 5 y de que X = 20 también indica que: ∑ X i = 100 i =1 Por lo tanto una vez que se conocen 4 valores el quinto no tendrá "libertad de variar", puesto que la suma tiene que ser 100. Digamos que 4 de los valores son: 18, 24, 19, y 16, el quinto solo puede ser 23 para que todos sumen 100.Una variable chi cuadrado está definida para cualquier valor real positivo, o sea: χ2 ≥ 0. Ladistribución χ2 es asimétrica, deformada a la derecha, y tiene como μ = ν y σ2 =2ν.Para ν > 2 la curva ƒ(x) de la chi-cuadrado tiene un máximo en x = (ν - 2)Cuando ν (nu) es grande (ν > 30) la distribución χ2 se puede aproximar a la distribución normal.Obsérvese que la distribución depende de un sólo parámetro: los grados de libertad, ν. xkLa función de distribución viene dada por: F ( x) = ∫ f ( x)dx 0Esta función está tabulada para distintos valores de los grados de libertad.Estructura de la tabla: Tabla limitada para algunos valores de los grados de libertad. El área oprobabilidad acumulada se encuentra en la primera fila y en la primera columna los grados delibertad; en el cuerpo de la tabla están los valores de la variable chi-cuadrado. 65
  • 67. Nota: Como lo que está tabulado es la función de distribución, la tabla brinda el área (o probabilidad acumulada) desde cero hasta un punto.Ejemplo:Se conoce que una variable en estudio tiene una distribución χ2, resuelva las siguientesproposiciones:a.- Diga el valor de P(χ2(17) < 27.6)b.- Halle P(5.7 < χ2(17) < 21.6)c.- Calcule P (χ2(17) >10.1)d.- Hallar Xk si P(χ2(17) > χ2k) = 0.8e.- Calcule la P(7.56 < χ2(17) < 16.3)f.- Hallar los grados de libertad que satisfacen P(χ2 > 8.9) = 0.99g.- Determinar qué valores χ21 y χ22 alrededor de χ2(21) = 20.3 forman probabilidades de áreascentrales.Solución:a.- P(χ2(17) < 27.6) = Fχ2(27.6) = 0.95 (por definición de F(x)) Se busca en la tabla a partir de ν = 17 el valor 27.6 y el valor que le corresponde en la fila superior, al subir por la columna, es la probabilidad buscada.b.- P(5.7 < χ2(17) < 21.6) = Fχ2(21.6) - Fχ2(5.7) = 0.80 - 0.005 = 0.755c.- P(χ217) > 10.1) = 1 - P(χ2(17) < 10.1) = 1 - Fχ2(10.1) = 1 - 0.10 = 0.90 Esto se puede deducir del gráfico, pues lo que se quiere no es la probabilidad acumulada 66
  • 68. hasta 10.1, sino de ahí en adelante, por lo que se puede utilizar la regla del complemento.d.- P(χ2(17) > Xk) = 0.8 ===> P(χ2(17) < Xk) = 0.20 por tanto Xk = 12e.- P(7.56 < χ2(17) < 16.3) = Fχ2(16.3) - Fχ2(7.56) = 0.50 - 0.025 = 0.475f.- P(χ2 > 8.9) = 0.99 ===> P(χ2 < 8.9) = 0.01 por tanto ν = 21 Esto se obtiene recorriendo los valores de χ20.01 y donde esté 8.9 ó un valor próximo a él, y se busca el grado de libertad que le corresponde a este valor.g.- Puntos χ21 y χ22 simétricos que forman un área central con χ2(21) = 20.3 son: Probabilidades acumuladas Probabilidad χ21 χ22 central F(χ21) F(χ22) 17,2 23,9 0,30 0,70 0,40 15,4 26,2 0,20 0,80 0,60 13,2 29,6 0,10 0,90 0,80 11,6 32,7 0,05 0,95 0,90 10,3 35,5 0,025 0,975 0,95 8,9 38,9 0,01 0,99 0,98 8,03 31,4 0,005 0,995 0,99DISTRIBUCIÓN TSTUDENT:Es una distribución continua de considerable importancia práctica, muy utilizada en la teoría demuestras pequeñas, con la que se trabajará en el campo de la inferencia. De momento, elestudio de la misma se circunscribe al manejo de la tabla, ya que su aplicación se veráposteriormente ZLa distribución tStudent es la distribución de la variable: t = χ2 νAquí Z representa a una variable con distribución normal estándar y χ2 otra variable condistribución chi cuadrado; ν representa los grados de libertad de la chi cuadrado, que serán losmismos que caractericen a la variable t.La función de probabilidad es: Kνf (t ) = ( Kν es una constante que depende de ν ) (1 + t / ν ) (ν +1)/ 2 2Una variable t está definida para cualquier valor real, o sea: -∞ < t < ∞En esta distribución μ = 0 y σ2 = ν/(ν-2), para ν>2. La curva de la distribución es simétrica, comola normal, pero un poco más achatada que ella. 67
  • 69. Cuando los grados de libertad aumentan la variable t se aproxima cada vez más a unadistribución normal con μ = 0 y σ = 1, es decir, tiende a la normal estandarizada (z).La función de distribución de la t’Student está tabulada, recogiendo probabilidades acumuladasdesde - ∞ hasta un punto.Estructura de la tabla: Está limitada para algunos valores de los grados de libertad, que estánubicados en la primera columna. El área o probabilidad acumulada se encuentra en la primerafila, y en el cuerpo de la tabla están los valores de la variable t.En la práctica, dada la simetría de la distribución, se suele tabular sólo valores positivos de t, olo que es lo mismo, las probabilidades acumuladas por encima de 0.50; así, si quiere hacer usode un valor negativo de t o de alguna probabilidad acumulada inferior a 0.50 se debe utilizar lamencionada simetría. 68
  • 70. La razón apuntada anteriormente, de que la función de distribución está tabulada sólo paravalores positivos de "t", lleva a tener que hacer algunas transformaciones cuando aparece unpercentil con signo negativo, es decir si se tiene que buscar un área que corresponde a la colaizquierda, evidentemente el valor de "t" es negativo, en ese caso, se le cambia el sentido delsigno de la desigualdad, lo que está apoyado en la simetría de la distribución. De la mismaforma si se trabaja con las propiedades de la función de distribución y se tiene el caso de una Ftevaluada para algún valor de "t" negativo, como en principio cambia la desigualdad, entoncesserá [1 - Ft] (con el valor correspondiente positivo).Ejemplo:Se tiene una Variable aleatoria "x", con distribución tstudent, resuelva las siguientesproposiciones:a.- Halle P(t(17) < 0.863)b.- Represente gráficamente y calcule P(t(17) > -0.392)c.- Resuelva P(-1.07 < t(17) < 2.9)d.- Diga el valor de P(t(17) < - 0.534)e.- Calcule P(-1.74 < t(17) < -0.257)f.- Halle tk las que P(t(17) < tk) = 0.75g.- Halle entre que valores t1 y t2 se encuentra una probabilidad central del 0.70 si t(17).Solución:a.- P(t(17) < 0.863) = Ft(0.863) = 0.80 (Por definición de F(x)) Se busca en 17 grados de libertad un valor igual o próximo a 0.863, y el valor que le corresponde en la primera fila es la probabilidad buscada.b.- P(t(17) > -0.392) = P(t(17) < 0.392) = Ft (0.392) = 0.65 Gráficamente se puede observar lo que se desea calcular como el área sombreada siguiente: Sin embargo, esto no es un valor que se puede obtener directamente de la tabla, pues no es una probabilidad acumulada. Pero utilizando la simetría de la distribución se tiene un área equivalente: 69
  • 71. Y la tabla da la probabilidad acumulada desde -∞ hasta la t positiva; por tanto, se obtiene de esta forma la probabilidad buscada.c.- P(-1.07 < t(17) < 2.9) = F(2.9) - F(-1.07) (por propiedad de F(x)) = F(2.9) - [1 - F(1.07)] (por ser "t" negativa) = 0.995 - (1 - 0.85) = 0.995 - 0.15 = 0.845d.- P(t(17) < -0.534) = P(t(17) > 0.534) = 1 - F(0.534) (por propiedad de F(x)) = 1 - 0.70 = 0.30e.- P(-1.74 < t(17) < -0.257) = F(-0.257) - F(-1.74) = [1 - F(0.257)] - [1 - F(1.74)] (por ser las dos "t" negativas) = (1 - 0.60) - (1 - 0.95) = 0.40 - 0.05 = 0.35f.- P(t(17) < tk) = 0.75 ====> tk = 0.689g.- P(t1 < t(17) < t2) = 0.7 Para buscar estos dos valores, t1 y t2, conviene graficar la distribución, dibujando un área central igual a 0.70, y los 0.30 restantes se dividen para las dos colas: Buscando esta área se obtiene el valor de "t" positivo en la tabla (es decir de t2) y el valor de t1 es el mismo con signo negativo, debido a la simetría de la distribución.DISTRIBUCIÓN “F” DE FISHEROtra de las distribuciones importantes asociadas a la normal es la que se define como elcociente de dos distribuciones χ2 independientes, y que es llamada distribución de probabilidadde Fisher. 70
  • 72. Sean X ∼ χ n e Y∼ χ m variables aleatorias independientes, entonces: 2 2 χ (2n ) / n F= ∼ F(n, m) χ (2m ) / mUna variable F de Fisher está definida para valores reales positivos (F ≥ 0), y se caracteriza porun par de grados de libertad (n ; m), que suelen ser llamados respectivamente grados delibertad del numerador (νn) y del denominador (νd). Debe destacarse que: F(n, m) ≠ F(m, n) ⎛ n + m ⎞ n/2 m/2 Γ⎜ ⎟n mLa función de densidad de Fisher es: f ( x) = ⎝ 2 ⎠ x −( m − 2) / 2 (m + nx) −( n + m ) / 2 ⎛ n⎞ ⎛m⎞ Γ⎜ ⎟Γ⎜ ⎟ ⎝2⎠ ⎝ 2 ⎠ 1Una propiedad interesante de esta distribución es la siguiente: F ∼ F(n, m) ⇔ ∼ F(m, n) FGráficamente, la función de densidad de Fisher toma la forma:Lo más común al tabular la distribución de Fisher es construir diferentes tablas para los valoresde probabilidad acumulada útiles en las aplicaciones de esta distribución. Lo que sigue es unfragmento de la tabla para una probabilidad acumulada igual a 0,99 (lo que, en muchasaplicaciones, como se verá más adelante, equivale a decir un α = 1%).Estructura de la tabla: En esta tabla debe entrarse con 3 valores, el nivel de probabilidadacumulada, el número de grados de libertad del numerador, que en la tabla están en la primerafila, el número de grados de libertad del denominador que están en la primera columna (a laizquierda).Se presentan dos tablas separadas, una para las proporciones acumulativas del 95% y otra del99% (F0.95 , F0.99). También se marcan con el 5% y el 1 %, y estos porcentajes se refieren a laproporción de área encerradas por las curvas a la derecha de los valores dados en las tablas;así, por ejemplo, lo que indica el 1%, si n = 10 y m = 12, es que el 1% del área bajo la curvaF10.12 está a la derecha de 4,30. 71
  • 73. Ejemplo:Si se reconoce que la variable aleatoria en estudio sigue una distribución F de Fisher, y que seva a tratar únicamente con probabilidades acumuladas iguales a 0.95 ó 0.99, resuelva lassiguientes proposiciones: a) P(F(4,15) < 3.06) b) P(F(4,15) > 4.89) c) El valor de xk, tal que P(F(10,20) < xk) = 0.99 d) El valor de xk, tal que P(F(12,8) > xk) = 0.95 e) P(0.2123 - F(10.12) < 4.30)Solución:Puesto que las probabilidades acumuladas son del 95% ó del 99%, se limitará la búsqueda aestas dos tablas. Se debe tener en cuenta que los grados de libertad del numerador (el primernúmero del par) están en la primera fila de la tabla, y los grados de libertad del denominador (elsegundo número del par) están en la primera columna. a) P(F(4,15) < 3.06) = 0.95 b) P(F(4,15) > 4.89) = 1 – 0.99 = 0.01 c) El valor de Xk, tal que P(F(10,20) < Xk) = 0.99 ⇒ Xk = 3.37 d) El valor de Xk, tal que P(F(12,8) > Xk) = 0.95 ⇒ Xk = 3.28 e) P(0.2123 < F(10.12) < 4.30) 72
  • 74. Aquí lo que se quiere es el área entre dos puntos. Si P(F(10, 12) < 4.30) = 0.99 y P(F(10, 12) < 0.2123 ) = 0.01 entonces el área tras 4.30, menos el área tras 0.2130 nos dará el área o probabilidad buscada, o sea: P = 0.99 – 0.01 = 0.98.EJERCICIOS DE AUTOEVALUACIÓN1.- ¿Cuáles son las características de la distribución normal2.- ¿Qué parámetros la definen?3.- ¿Qué distribución tiene Z, y cuáles son su media y varianza?4.- ¿A qué tipo de variable corresponden estos tres modelos: Normal, TStudent y Ji-Cuadrado?5.- El análisis estadístico de 1000 llamadas telefónicas de larga distancia realizadas desde lasoficinas centrales de la Corporación CIMEX, señala que la duración de estas llamadas estádistribuida normalmente con μ = 240 segundos y desviación típica igual a 40 segundos.a.- ¿Qué porcentaje de llamadas duró menos de 180 segundos?b.- ¿Cuál es la probabilidad de que una llamada en particular durara entre 180 y 300 segundos?c.- ¿Cuantas llamadas duraron menos de 180 segundos ó más de 300 segundos?d.- ¿Qué porcentaje de las llamadas duró entre 110 y 180 segundos?e.- ¿Cuál es la duración mínima del 1% de las llamadas más largas?6.- Determine el valor de Xo en cada uno de los siguientes casos:a.- P(Xo < X < 26,2) = 0.98 conociendo que X sigue χ212b.- P(Xo < X < 2,76) = 0.98 conociendo que X sigue t (10)7.- Calcule cada uno de los valores siguientes para una χ2 con 25 grados de libertad: a.- χ20.90 b.- χ20.10 c.- χ20.95 d.- χ20.05 e.- χ20.99 f.- χ20.01 g.- χ20.975 h.- χ20.025 i.- χ20.995 j.- χ20.808.- Calcule cada uno de los valores siguientes para una t con 25 grados de libertad: a.- t0.90 b.- t0.10 c.-t0.95 d.-t0.05 e.-t0.975 f.-t0.025 g.- t0.99 h.- t0.01 i.-t0.995 j.-t0.005 73
  • 75. TEMA IV: MUESTREO Y ESTIMACIÓN4.1. Conceptos básicos: Población y Muestra. Muestreos aleatorios: MuestreoAleatorio Simple. Uso de la tabla de números aleatorios para efectuar unmuestreo aleatorio.Con este tema se inicia el estudio de la parte de la Estadística que se ocupa de la inferencia.Como se dijo, la Estadística Descriptiva se ocupa de la recolección, organización, reducción ymedición de la información, mientras que la Estadística Inferencial desarrolla técnicas quepermiten hacer análisis, pronósticos y llegar a conclusiones, partiendo de un grupo deobservaciones, o sea, de una muestra. Una parte importante de la aplicación cualquier métodoinferencial es la adecuada selección de la muestra, lo cual es abordado por un gran capítulo dela Estadística Inferencial que es la Teoría del Muestreo, que se abordará brevemente aquí.Algunos conceptos que se deben manejar para adentrarse en la Teoría del Muestreo son: Población: Conjunto de individuos, elementos o cosas que se desea estudiar a partir de algunas características que tienen en común. Muestra: Parte o subconjunto de la población que se toma para el estudio. Censo: Estudio de la totalidad de elementos de la población. Muestreo: Conjunto de procedimientos para tomar una muestra de una población.Ante la imposibilidad material, temporal o económica de realizar un censo se determina tomaruna muestra, y a partir de ella estimar, es decir, dar un valor aproximado de los parámetrosque interesa estudiar.Los métodos de muestreo pueden ser: opináticos o aleatorios. Muestreos opináticos o no aleatorios son aquellos en que se selecciona la muestra atendiendo por lo general a la opinión de algún experto en el tema en estudio. Su principal limitación es que no permiten establecer una medida probabilística de los posibles errores en la estimación. Muestreos aleatorios son aquellos en que de alguna manera se introduce la aleatoriedad o azar en la conformación de la muestra, intentando eliminar la subjetividad en el proceso; y la presencia del azar conlleva la posibilidad de emplear la Teoría de las Probabilidades en la medición de posibles errores de estimación. Dentro de los muestreos aleatorios están: Muestreo Aleatorio Simple (MAS) Muestreo Irrestricto Aleatorio (MIA) Muestreo Sistemático (MS) Muestreo Aleatorio Estratificado (MAE) Muestreo Aleatorio por Conglomerado (MAC) 74
  • 76. El uso de uno u otro de los muestreos aleatorios está en dependencia de cómo se comporta lacaracterística objeto de interés en la población. Sin embargo lo más importante para obtenerbuenas estimaciones será siempre que la muestra sea representativa de la población, lo queindica que debe usarse el método de muestreo adecuado y tenerse una idea del tamaño demuestra necesario.EL MUESTREO ALEATORIO SIMPLE (MAS)El Muestreo Aleatorio Simple (MAS) es el procedimiento mediante el cual se eligen por sorteo nelementos de una población tamaño N, haciendo las extracciones o selección con reposición.Sea una población finita de tamaño N, y sea X la variable o característica en estudio. De estapoblación se pueden obtener, con reposición, Nn muestras distintas de tamaño n; y cada una deellas será un conjunto de n variables independientes: x1, x2,..., xn (como la selección se hacecon reposición eso equivale a que los valores de “xi” son independientes). Como “xi” es unavariable aleatoria, tendrá asociada una función de probabilidad f (x1), f (x2),..., f(xn).Dado lo anterior se puede llegar a una definición más rigurosa del MAS: Sean x1, x2,..., xn, n variables aleatorias independientes que representan un conjunto de valores observados de una variable poblacional X; se dice que estos valores conforman una muestra aleatoria simple si se cumple que: (La probabilidad de que cualquier elemento de la 1.- f(x1) = f(x2) = ...= f xn) = f(x) población pase a la muestra es la misma.) 2.- f(x1,x2, ...,xn) = f(x1)f(x2)...f(xn) (Hay independencia entre las observaciones.) 3.- E(x1) = E(x2) = ...= E(xn) = E(x) El valor esperado para cada observación, y su 4.- V(x1) = V(x2) = ...= V(xn) = V(x) varianza, son los mismos para toda la muestra.Ejemplo: Demostración de las propiedades del MASDada una población finita con 3 elementos cuyos valores en la variable son x = {1, 2, 3} sequiere obtener todas las muestra aleatorias simples de tamaño 2 y verificar sus propiedades. Nota: El tomar una muestra de una población de tamaño 3 parece un absurdo, pues ésta es estudiable en su totalidad; y también parece absurdo tomar todas las muestras posibles, pues es un trabajo mayor tomar todas las muestras posibles que hacer un censo. Se trata aquí de un desarrollo teórico...Solución:Población: X = 1, 2, 3 (N = 3)Como hay un solo valor de cada elemento se puede plantear:Xi f(X) X f(X) X2 f(X)1 1/3 1/3 1/32 1/3 2/3 4/3 Así: f (x) = 1/33 1/3 3/3 9/3 1 2 14/3 E(x) = Σ x f(x) = 6/3 = 2V(x) = E(x2) - [E(x)]2 = 14/3 - (6/3)2 = 14/3 - 36/9 =(42 -36)/9 = 6/9 = 2/3 = 0.67 75
  • 77. El conjunto de todas las muestras posibles de tamaño 2 es:x1 x2 x1 x2 x1 x2 Siendo:1 1 2 1 3 1 x1 = valores que toma el 1er elemento de la muestra1 2 2 2 3 2 x2 = valores que toma el 2do elemento de la muestra1 3 2 3 3 3 N(S) = 9Entonces: x1 f (x1) x1 f(x1) x 21 f (x1) x2 f (x2) x2 f(x2) x22 f (x2) 1 3/9 1/3 1/3 1 3/9 1/3 1/3 2 3/9 2/3 4/3 2 3/9 2/3 4/3 3 3/9 3/3 9/3 3 3/9 3/3 9/3 Σ= 2 Σ= 14/3 Σ= 2 Σ= 14/3Y de un análisis bivariado, según el espacio muestral, resulta: X2 X1 1 2 3 f(x2) 1 1/9 1/9 1/9 1/3 2 1/9 1/9 1/9 1/3 3 1/9 1/9 1/9 1/3 f(x1) 1/3 1/3 1/3 1 1ra propiedad: f (x1) = f (x2) = f (x) = 3/9 = 1/3 2da propiedad: f(x1) = 1/3 f (x2) = 1/3 f (x1, x2) = 1/9 Por tanto: f (x1 x2) = 1/9 = f (x1)f (x2) = 1/3⋅1/3 3ra propiedad: E(x1) = ∑ x1 f(x1) = 1/3 + 2/3 + 3/3 = 2 E(x2) = ∑ x2 f(x2) = 1/3 + 2/3 + 3/3 = 2 Por tanto: E(x1) = E(x2) = E(x) = 2 4ta propiedad: V(x1) = E(x12) - [E(x1)]2 = ∑ x12 f(x1) – (2)2= 14/3 - 4 = 2/3 V(x2) = E(x22) - [E(x2)]2 = ∑ x22 f(x2) – (2)2= 14/3 - 4 = 2/3 Por tanto: V(x1) = V(x2) = V(x)Notas: • Conviene resaltar que algunos autores (ver Canavos), al hablar del Muestreo Aleatorio Simple (o MAS) incluyen dentro del mismo el caso con reposición como aquel sin reposición; otros autores (ver Calero) diferencian estos casos y cuando no se hace reposición hablan de un muestreo irrestricto aleatorio (MIA). Aquí se preferirá distinguirlos separadamente. • En la práctica rara vez interesa efectuar un muestreo con reposición, pero el estudio de éste, dada la independencia que garantiza, es la base para cualquier otro muestreo donde –dada la no reposición– ya no habría independencia entre los elementos de la muestra, y donde, por tanto, los cálculos probabilísticos serán más complicados. Por otra parte, cuando la población es muy grande –y a la vez mucho más grande que la muestra que se obtendrá–, aunque se haga reposición es muy poco probable que un elemento de la población salga repetido en la muestra, lo cual hace que el muestreo con reposición pueda verse como un caso límite del muestreo sin reposición cuando N es muy grande. 76
  • 78. TABLA DE NÚMEROS ALEATORIOSUna tabla de números aleatorios es una tabla para ayudar a elegir n elementos de unapoblación mediante "sorteo", hecha como si se introdujera una lista de números en un bombo yse fueran tomando luego algunos sin mirar; es decir, la tabla suministra un grupo de númerosequivalentes a los que se tomarían al azar. Estas tablas pueden ser aleatorias de formahorizontal, de forma vertical, o de ambas formas.Estructura de la tabla:La tabla de números aleatorios que está en la selección de tablas estadística es aleatoriasolamente de forma horizontal, por tanto solo puede ser utilizada de esta forma. Esta tabla estáformada por 4 bloques de 1000 cifras, y están numeradas las filas y columnas, en el caso de lasfilas están numeradas consecutivamente desde la 1 a la 25, mientras que las columnas estánde cuatro en cuatro y se indica 1 - 4 ó 5 - 8, etc., lo que indica las columna 1, 2, 3, 4 o lascolumna 5, 6, 7, y 8, y así sucesivamente.Uso de la tabla:1.- Se enumeran de forma consecutiva los N elementos de la población. (Para que cadaelemento esté identificado con una etiqueta, que puede aparecer o no en la tabla de númerosaleatorios).2.- Se elegirá al azar, el bloque, fila y columna por donde se comenzará a tomar, en formaconsecutiva y horizontalmente los "n" números aleatorios que ayudarán a conformar la muestra,según lo siguiente: Cada número seleccionado debe tener tantas cifras, como cifras tenga N. Ej.: Si N = 3000 se formarán números de 4 cifras. 77
  • 79. Si el número seleccionado de la tabla es > N puede ser desechado; no obstante, este criterio obliga a trabajar más. Otro criterio es no desecharlo tal número, sino transformarlo, restándole sucesivamente N hasta obtener un número menor o igual a N. Ej.: Si el número aleatorio encontrado es 7820 y N=3000 entonces se resta: 7820 - 3000 = 4820 – 3000 = 1820 <N. Para garantizar que cada uno de los N elementos de la población tenga la misma posibilidad de ser seleccionado, se debe elegir un intervalo de trabajo que no sobrepase al mayor múltiplo de N con la misma cantidad de cifras que N. Ej.: Si N = 3000 su mayor múltiplo con la misma cantidad de cifras (4) es 9000. Al formar números de cuatro cifras, estos podrán variar entre 0001 y 9999, pero los mayores que 9000 deben desecharse, pues a partir de 9000 hasta 9999 no hay otros 3000 número, sino sólo 999, y estos estarías entonces privilegiados probabilísticamente en el muestreo, como se ve en el siguiente esquema:3.- Finalmente, se obtiene la muestra. Para ello se toman de la población los elementos cuyoetiquetado coincide con los números aleatorios generados.Nota: En el caso de que se opte por un muestreo sin reposición (lo que Calero Vinelo denominaun MIA), los números aleatorios repetidos también deben eliminarse previamente y buscarotros.Ejemplo: (Ejercicio 423 página 289 del Laboratorio de Estadística 2da. Parte)X: # de televisores que llegan con roturas en una semana a 20 talleres. 3 8 9 8 5 7 5 4 6 8 5 7 9 4 7 3 8 6 4 5Seleccione una muestra aleatoria de tamaño 5 (o sea, se quiere como muestra el resultado para5 talleres), utilizando para el arranque el primer bloque, fila 3, columna 25.Solución: Primeramente se etiqueta la población: 31 82 93 84 55 76 57 48 69 810 511 712 913 414 715 316 817 618 419 520 Nota: Lo que semeja un exponente son las etiquetas que se le han puesto a la población, o sea, la enumeración de sus elementos para después elegir la muestra. N = 20 ⇒ 2 cifras 78
  • 80. El mayor múltiplo de 20 con 2 cifras es 80, por lo tanto el intervalo de trabajo estará entre 01 y 80; todo valor mayor que 80 se elimina y el que esté entre 20 y 80 se rectifica restándole 20 hasta que quede un número del 1 al 20, que será el que se tome como número aleatorio rectificado. número número elemento aleatorio aleatorio de la rectificado muestra Xi 10 10 8 03 3 9 22 2 8 11 11 5 54 14 4EJERCICIOS DE AUTOEVALUACIÓNEn lo adelante se podrán resolver preguntas como la siguiente:Si en una población se conoce que x sigue una N (10, 2) ¿Qué podría afirmarse de ladistribución y los parámetros de la variable aleatoria xi, que se definen en el MAS?A esto puede responderse que cada xi sigue una distribución normal con la misma media y lamisma varianza y que su función conjunta es igual al producto de las funciones de cadavariable: f (x1, x2, ..., xn) = f (x1)f(x2) ... f(xn) 79
  • 81. 4.2 Estimadores. Propiedades deseables para un buen estimador. Estimaciónpuntual. Distribución muestral. Distribución muestral de la media tanto convarianza (σ2) conocida como desconocida. Distribución muestral de lasproporciones y de la varianza.La Teoría de la Estimación, tema que se comienza a estudiar ahora, es aquella parte de laInferencia Estadística que se ocupa de los métodos para estimar el valor de los parámetrospoblacionales.En ocasiones ocurre que los principales parámetros poblacionales son desconocidos, y noresulta ni posible, ni económico, observar toda la población para calcular el valor de dichosparámetros. En tales situaciones el estadístico o el investigador tendrán que estimar dichosparámetros sobre la base de lo que tiene posibilidad de conocer: una muestra aleatoria; de aquíla importancia que tiene la toma correcta de la muestra.En la Inferencia Estadística se emplea el método inductivo (de lo particular a lo general), lo quetendrá como consecuencia, que la conclusión o inferencias obtenidas tendrá asociado ungrado de error o incertidumbre y es necesario por tanto estudiar los métodos que ofrezcan unamedida confiable del mismo, y que será expresada en términos probabilísticos.Se le llama estimador a cualquier función de "n" variables en la que, después de sustituir losvalores muestrales, el resultado obtenido puede servir como sustituto del valor de un parámetropoblacional.En general es de interés poder contar con un estimador para cualquier parámetro poblacional,como la media, la varianza, la proporción asociada a determinados valores de la variable, etc.Para representar un parámetro cualquiera se utiliza de forma genérica el símbolo θ (letra griega $sita), y θ para el estimador correspondiente (el acento circunflejo ^ denota estimación).Se denomina estimación al valor numérico concreto que resulta de un estimador, cuando secalcula éste sobre una muestra.Como de una población de tamaño N, se pueden sacar muchas muestras, se deriva de ello quelas estimaciones o medidas que se determinan en cada muestra son variables aleatorias, quepueden variar de una muestra a otra.PROPIEDADES DESEABLES PARA UN BUEN ESTIMADOR:La importancia de contar con buenos estimadores puede quedar clara si se analiza que lasestimaciones de los parámetros se obtendrán con una muestra que no contiene exactamente lamisma información que la población, pues solamente es un reflejo de ella, y en ocasiones unreflejo bastante pálido, lo cual ya de por sí conlleva a posibles errores. Es de desear, por tanto,que el método de estimación usado no introduzca otros errores.Para hablar de buenos estimadores se definen entre las cualidades que estos deben tener lassiguientes: • Ser insesgados. • Ser consistentes. • Ser eficientes. 80
  • 82. INSESGADEZSe dice que un estimador es insesgado si se cumple que su esperanza es igual al parámetroque estima, o sea, si: ˆ E(θ) = θ ˆSi el estimador no es insesgado, o sea, si E(θ) ≠ θ , se dice, que es sesgado, y se llama sesgo ala cantidad en que difiere el estimador del parámetro: ˆ Sesgo = E(θ) − θCabe preguntarse: ¿Será x un estimador insesgado de μ? ∑ x ⎟ = n E(∑ x ) = n ∑ E(x ) = n ∑ μ = n n μ = μ ⎛1 ⎞ 1 1 1 1E( x ) = E⎜ O sea: E( x ) = μ ⎝n ⎠ Por tanto x es un estimador insesgado, con lo cual, al contar con una muestra aleatoria, la media muestral constituirá una estimación insesgada de la media poblacional.Lo mismo puede decirse de la proporción de elementos que cumplen determinada condición enuna muestra como estimador para la correspondiente proporción poblacional: es un estimadorinsesgado, pues: xn x (Aquí X es una variable discreta, de conteo: xn indica un ˆE(p ) = p ˆ Con: p = y p= N n N conteo en la muestra y xN un conteo en la población)Hay que destacar, sin embargo, que S2 no es un estimador insesgado de σ2, ya que, al aplicarlas propiedades del valor esperado se obtiene: n −1 2 E (S 2 ) = σ n O sea, E(S2) tiene un sesgo, una diferencia, con el parámetro que estima, σ2. Pero observando a este resultado puede construirse un estimador insesgado para la varianza poblacional, multiplicando por n y dividiendo entre (n -1) la varianza de la muestra, así: ⎛ n ⎞ n n n −1 2 E⎜ S2 ⎟ = E(S 2 ) = ⋅ σ = σ2 ⎝ n −1 ⎠ n −1 n −1 n Entonces, un estimador insesgado para la varianza poblacional será: n 1 s2 = n −1 S 2 , que puede también formularse como: s 2 = n −1 ∑ (x − x ) 2 Esta última manera de plantearlo muestra que el estimador de la varianza se diferencia de la verdadera varianza de la muestra en que aquella se calcula dividiendo por n mientras que en éste se divide por (n -1). 81
  • 83. CONSISTENCIASe dice que un estimador es consistente si al hacerse el tamaño de muestra cada vez másgrande, de manera que n → N, el estimador tiende a estar más cerca del parámetro. Entérminos rigurosos debe decirse: ˆ lim P(| θ − θ | ≤ ε ) = 1 para todos los valores de θ y ε > 0 n→ ∞Este límite constituye lo que se denomina convergencia en probabilidad; es decir, si unestimador es consistente, converge en probabilidad al valor del parámetro que está intentandoestimar conforme el tamaño de la muestra crece. Esto implica que la varianza de un estimadorconsistente disminuye a medida que “n” crece y su media tiende al verdadero valor delparámetro, es decir, se cumple que: ˆ 1.- lim E(θ) = θ ˆ 2.- lim V(θ) = 0 n→ ∞ n→ ∞Bajo muestreos aleatorios simples se verifica que: x , s2 y p son estimadores consistentes. ˆ Nota: Un estimador insesgado puede o no ser consistente.EFICIENCIASe dice que un estimador es eficiente si su error cuadrático medio es menor que el de cualquierotro estimador con el que se le compare. Este error cuadrático medio (ECM) se calcula como lasuma de la varianza más el sesgo al cuadrado del estimador: ECM (θ$) = V (θ$) + ( E (θ$) − θ ) 2Así, el procedimiento tiene que ser calcular el ECM para todos los estimadores que sepropongan, y de la comparación elegir cuál es el más eficiente. Notas: • Todo estimador eficiente es consistente. • Si los estimadores que se comparan son todos insesgados, entonces: ECM (θ$) = V (θ$) y el estimador eficiente será el de menor varianza.ESTIMACIÓN PUNTUAL Y ERROR DE ESTIMACIÓN:El objetivo que se persigue con una estimación es obtener valores específicos del parámetrodesconocido, que pueden ser utilizados en su lugar. Una estimación puntual es precisamenteeso: la evaluación de un buen estimador en una muestra para tomar ese valor como medidaaproximada del parámetro desconocido.En el MAS se utilizan como buenos estimadores para los parámetros más significativos los quesiguen: 82
  • 84. tipo de estudio característica medible parámetro ( θ ) estimador ( θ )ˆ 1 medida de tendencia μ x= n ∑ x cuantitativo 1 medida de dispersión σ2 s2 = n −1 ∑( x − x)2 x cualitativo medida de proporción p ˆ p= n n Ejemplo: Estimar el promedio de televisores que llegan con roturas a los talleres a partir de la muestra de tamaño 5 tomada (ver ejemplo anterior); estimar también la varianza. Solución: Xi Xi2 1 34 8 64 μ=x= ˆ n ∑x= 5 = 6,8 = 34/5 = 6.8 9 81 (Aproximadamente 7 televisores llegan como promedio a los 8 64 talleres.) 5 25 4 16 1 ∑x 2 − n x2 250 − 5 ⋅ 6.8 2 ∑ = 34 ∑=250 σ2 = s2 = ˆ n −1 ∑ ( x − μ)2 = n −1 = 4 = 4 .7 Es de destacar que para estimar la varianza se ha usado el estimador insesgado, es decir, aquel en que la suma de desviaciones cuadráticas se divide por n -1. Además, se ha recurrido a una transformación matemática de la definición del estimador, que en muchos casos simplifica los cálculos.Se llama error de muestreo o error de estimación (em) a la diferencia entre el valor de laestimación y el del verdadero valor del parámetro. (Es evidente que cuando se estima unparámetro poblacional a partir de un estimador muestral puede haber implícito un error, que esel error de muestreo): ˆ em (θ) = θ − θ Nota: Algunos autores diferencian entre el concepto de error de estimación y el de muestreo, calculando uno modularmente y el otro sin emplear el módulo; otros autores no consideran esta diferenciación como fundamental y utilizan ambos términos como sinónimos, que es lo que se hará acá.El error de muestreo, al depender de una estimación, constituye otra variable aleatoria, puespuede variar de estimación a estimación. Pero además, es un valor que no se puede conocer,pues habría que conocer el parámetro poblacional, y si se conociera éste, no habría necesidadde estimarlo. Esto conduce a que se plantee la necesidad de contar con una medida del errorde muestreo, que será una medida probabilística.DISTRIBUCIONES MUESTRALES:Ya se ha visto que si de una población cualquiera se toman todas las muestras posibles detamaño n, a través del MAS, y si sobre todas ellas se calcula –por ejemplo- la media muestral 83
  • 85. como estimación de la media poblacional, se obtendrán valores diferentes en el conjunto demuestras, lo que hace que estas estimaciones constituyan variables aleatorias. Lo mismopasaría con la varianza o cualquier otro estimador; por tanto se puede llegar a una conclusiónmuy importante: Todo estimador es una variable aleatoria, y al ser variable aleatoria tiene asociada: Distribución de probabilidad Características numéricas o parámetrosA las distribuciones de probabilidad de los estimadores se les denomina distribucionesmuestrales.Es común, una vez conocida la distribución muestral asociada a un estimador, determinar lamedia y la desviación estándar de la distribución, a esta última se le suele llamar errorestándar. Ejemplo: La distribución del estimador de la media ( x ) cumple lo siguiente: E( x ) = μ y V( x ) = σ2/n (Ver demostración en página 123 del libro de texto.) Estas características informan que: 1.- El centro de la distribución poblacional y de la distribución muestral de x coinciden: μ(x) = μ ( x ) 2.- La varianza del estimador x es n veces menor que la varianza de la población: V(x) = σ2 y V( x ) = σ2/n σ 3.- La desviación estándar o error estándar asociado a la media es: σ x = V( x ) = n (Lo cual permite concluir que a medida que n aumenta los valores de la media muestral se concentran más alrededor de μ. Falta por conocer la función de probabilidad del estimador para poder sacar conclusiones respecto al error.) Nota: El nombre de error estándar se debe a la propia manera en que se calcula éste: 1 ˆ ˆ σ( θ) = V ( θ) = n ˆ ∑ ( θ − θ)2 De la expresión anterior se ve que el error estándar es una especie de promedio de los ˆ errores de estimación o muestreo (θ − θ) , pues se calcula como la raíz del promedio de sus cuadrados, o sea, es una medida resumen del error de estimación para el parámetro.DISTRIBUCIÓN MUESTRAL DE LOS PARÁMETROS MÁS USADOS:Hay un teorema que plantea que si X tiene una distribución normal, con media μ y varianza σ2, yse selecciona una muestra aleatoria tamaño n por el procedimiento del MAS, entonces la mediamuestral tendrá también una distribución normal, en este caso con media μ y varianza σ2/n.O sea, si X ∼ N(μ ,σ) entonces X ∼ N ( μ , σ / n ) 84
  • 86. Y para calcular la probabilidad de cierto comportamiento de la media, se utilizará la variable x −μestandarizada: Z = σ/ n¿Pero, y si X no tiene una distribución normal?Esto lo resuelve el Teorema Central del Límite, que entre sus corolarios establece: si X es unavariable aleatoria con media μ y varianza σ2, y x es la media de una muestra aleatoria simplede tamaño n, entonces la transformación: x−μ tiende una distribución que se aproxima a la normal σ/ n estandarizada a medida que n tiende a infinito.Esto es, si X ∼ ? (μ , σ ) y n → ∞ entonces x ∼ N (μ , σ / n ) Nota: En la práctica se ha demostrado que siempre que n ≥ 30 la aproximación a la normal es buena, por lo que se utiliza este criterio para considerar que n → ∞Hasta aquí se ha llegado a expresiones que involucran el conocimiento de la varianza (σ2) o ladesviación típica (σ) poblacional de X. Pero, ¿y si esta no se conoce?Si la desviación típica poblacional no se conoce, a lo cual se le llama caso de σ desconocida,es necesario previamente estimar ésta a través de s, su estimador insesgado y consistente(teniendo en cuenta dividir por n -1 y no por n en el cálculo). Y hay otro teorema que planteaque si se tiene una población normal, con varianza desconocida, y de la cual se ha extraído unamuestra aleatoria de tamaño n, entonces se puede afirmar que: x−μ ∼ t (n-1) s/ nAsí, cuando se quiere hallar la probabilidad de cierto comportamiento de la media siendodesconocida la varianza de la población –si se cumple que la variable original se distribuyenormalmente-, se utiliza la distribución tStudent. x−μLa transformación así obtenida para la media t = , recibe el nombre de estadígrafo t. s/ nNo obstante, el propio teorema central del límite permite concluir lo siguiente: Si n → ∞, o sea,cuando n > 30, la distribución tStudent tiende a la normal estandarizada, esto es a Z ∼ N (0, 1),y por tanto t se puede aproximar a través de Z, así: ⎛ s ⎞ Si X ∼ N( μ, ?) y n > 30, entonces: x ∼ N⎜ μ , ⎜ ⎟ , o lo que es igual: t → Z ∼ N (0, 1). ⎟ ⎝ n⎠De la misma manera, utilizando también el teorema central del límite se llega a que laproporción muestral, como estimador de la proporción poblacional, tiende a distribuirsenormalmente cuando n > 30, o sea: ⎛ pq ⎞ ˆ Si n > 30 entonces: p ∼ N⎜ p , ˆ ⎟ , o estandarizando: z p = p − p ∼ N (0, 1) ⎜ n ⎟ pq / n ⎝ ⎠ 85
  • 87. Se verifica en la práctica que esta aproximación es realmente buena cuando el producto np > 5y/o nq < 5.Por otra parte, al estudiar s2 como estimador de la varianza poblacional se ve que no sigue unadistribución normal, sino que tiene un comportamiento asimétrico. Sin embargo, hay un teoremaque plantea que para una población normal se cumple que s2 tiene asociada una distribuciónchi-cuadrado con ( n -1) grados de libertad, como sigue: (n − 1)s 2 ∼ χ2(n -1) σ2 (n − 1)s 2Debido a esto la expresión χ 2 = recibe el nombre de estadígrafo chi-cuadrado. σ2Resumen de las principales distribuciones muestrales: parámetro estimador condiciones distribución muestral x −μ ⎛ σ ⎞ X ∼ N (μ , σ ) Z= ∼ N (0, 1) ó x ∼ N⎜ μ , ⎜ ⎟ ⎟ σ/ n ⎝ n⎠ X ∼ ? (μ , σ ) x −μ ⎛ σ ⎞ Z= ∼ N (0, 1) ó x ∼ N⎜ μ , ⎜ ⎟ ⎟ y n > 30 σ/ n ⎝ n⎠ μ x x −μ X ∼ N (μ , ?) t= ∼ t (n -1) s/ n X ∼ ? (μ , ? ) x −μ ⎛ s ⎞ Z= ∼ N (0, 1) ó x ∼ N⎜ μ , ⎜ ⎟ ⎟ y n > 30 σ/ n ⎝ n⎠ (n − 1)s 2 σ2 s2 X∼N χ2 = 2 ∼ χ2(n -1) σ ˆ p−p ⎛ pq ⎞ p ˆ p n > 30 zp = ∼ N (0, 1) ó p ∼ N⎜ p , ˆ ⎟ pq / n ⎜ n ⎟ ⎝ ⎠EJEMPLO 1: σ 4Sean: X ∼ N (60 ; 4), n = 4, μ = 60, σ = 4, σ x = = =2 n 4Calcular:1.- P( x < 64) = P(Z < (64 - 60)/2) = P(Z < 2) = Fz (2) = 0.97722.- P( x < 62) = P(Z < (62 - 60)/2) = P(Z < 1) = Fz(1) = 0.84133.- P( x > 60) = P(Z > (60 - 60)/2) = P(Z > 0) = 1 - P(Z < 0) = 1 - Fz (0) = 1 - 0.5 = 0.54.- P(58 < x < 62) = P [(58 -60)/2 < Z < (62 -60)/2] = P ( -1 < Z < 1) = Fz(1) - Fz(-1) = 0.8413 - 0.1587 = 0.6826 86
  • 88. EJEMPLO 2: ∑ (X ) n n ∑ 2Datos: n = 16, X ini = 482 , i − X ni = 60 i=1 i=1 n 1a.- x = n ∑ X n = 482/16 = 30.12 i=1 i i ∑( ) 1 n 2b.- s 2 = X i − X ni = 60/15 = 4 n − 1 i=1 s 2 2c.- s x = = = = 0.5 (error promedio de estimación o error estándar) n 16 4d.- si μ = 32 entonces em = ( x - μ) = 30.1 - 32 = -1.9 ⎛ − 0 .5 0 .5 ⎞e.- P (⏐ x - μ⏐< 0.5) = P ( -0.5 < x - μ < 0.5 ) = P⎜ ⎜ < t(15) < ⎟ ⎟ ⎝ 2 / 16 2 / 16 ⎠ = P ( -0.5/0.5 < t(15) < 0.5/0.5) = P ( -1 < t < 1) = Ft (1) - Ft (-1) = 0.85 - (1 - 0.85) = 0.85 - 0.15 = 0.70 (Nota: Se utiliza la tStudent porque se desconocía la varianza de la población.)EJEMPLO 3:Datos:x: incremento del rendimiento p = 0.5, n = 100 pq 0 .5 ⋅ 0 . 5Calculando previamente la desviación típica se tiene: σ = = = 0.0025 = 0.05 n 100a.- P (0.40 < P < 0.55) = P [(0.40 - 0.50)/0.05 < Z < (0.55 - 0.50)/0.05] = P (-0.10/0.05 < Z < 0.05/0.05) = P (-2 < Z < 1) = Fz(1) - Fz(-2) = 0.8413 - 0.0228 = 0.8185b.- μ = n p = 60 ⋅ 0.8185 = 49EJEMPLO 4:Calcule la probabilidad de que la varianza de una muestra de tamaño 21 obtenida de unapoblación normal con media 5 y desviación típica 2:a.- Sea superior a 8b.- Sea inferior a 5c.- Tome valores en el intervalo (4, 8)d.- Entre qué dos valores se moverá S2 con una probabilidad central de 0.95.Datos: n=21, μ=5, σ=2a.- P(s2 > 8) = 1 – P(s2 < 8) = 1 - P[ (n-1)s2/σ2 < 20(8)/4] = 1 - P (χ2(20) < 160/4) = 1 - P (χ2(20) < 40) = 1 - Fχ2(20) (40) = 1 - 0.995 = 0.005 87
  • 89. b.- P(s2 < 5) = P (χ2(20) < 20(5)/4] = P (χ2(20) < 100/4) = P (χ2(20) < 25) = F(χ2) (25) = 0.80c.- P(4 < s2 < 8) = P [20 (4)/4 < χ2(20) < 20(8)/4] = P(20 < χ2(20) < 40) = Fχ2(40) - Fχ2(20) = 0.995 - 0.50 = 0.495d.- P(s2a < s2 < s2b) = 0.95 (probabilidad central) Estos valores de probabilidad central se buscan como sigue: Luego χ2a = χ2(0.025) y χ2b = χ2(0.975) son los valores que le corresponden a s2a y s2b, (n − 1)s 2 χ (2n−1) σ 2 Ahora, despejando de χ (2n−1) = 2 se llega a: s = σ2 (n − 1) Entonces: s2a = χ2(0.025) (4)/20 = 9.59 (4)/20 = 1.918 s2b = χ2(0.975) (4/20) =34.2(4)/20 = 6.84 Por tanto, los valores s2a y s2b determinan una probabilidad central del 95% así: P (1.1918 < s2 < 6.84) = 0.95EJERCICIOS DE AUTOEVALUACIÓN1.- Si se desconoce la varianza de la población y n < 30 ¿Con que distribución de probabilidadtrabajaría en el cálculo de la probabilidad de la media?2.-¿Que supuesto se debe tener en cuenta para trabajar con la distribución de probabilidad detstudent?3.- Si se desconoce la varianza de la población y n > 30 ¿Con que distribución de probabilidadtrabajaría en el cálculo de la probabilidad de la media?4.- Si se desconoce la distribución de probabilidad que sigue la variable original y n → ∞, ¿Cualsería la distribución de probabilidad de la media? Fundamente su respuesta.5.- ¿Qué distribución de probabilidad tiene la proporción muestral, y bajo cuales condiciones?6.- ¿Tiene la varianza muestral una distribución normal?7.- ¿Con qué distribución calcularía la probabilidad de que la varianza muestral, asumadeterminados valores? 88
  • 90. 4.3: Error máximo permisible y tamaño de muestra necesario para la estimaciónde μ y p. Estimación por intervalos de confianza.Como se sabe, cualquier estimación puede tener asociada un error de muestreo, dado por ladiferencia entre el estimador y el parámetro, y este error no es calculable ya que en la prácticano se conoce el verdadero valor de un parámetro que se está estimando; por ello la estimaciónpuntual no permite evaluar cuan cercano está el valor estimado del correspondiente parámetro,es decir, no permite calcular la precisión de la estimación. Pero conociendo la correspondientedistribución muestral se puede tener una medida probabilística del error. Y aún más, se puedeorganizar el proceso de estimación de manera tal que se dé un intervalo posible de valores parael parámetro (estimación por intervalo), o que se garantice que el error de estimación nosobrepase un determinado valor prefijado (error máximo permisible).Cuando se quiere estimar un parámetro, esto puede hacerse no sólo mediante una estimaciónpuntual, sino que puede recurrirse a una estimación por intervalos. Una estimación porintervalos consiste en construir un intervalo alrededor de la estimación puntual de manera quese pueda garantizar que el parámetro estimado está dentro de dicho intervalo con unaprobabilidad escogida de antemano; a esa probabilidad, representada como 1-α, se ledenomina nivel de confianza, y al intervalo construido se le llama entonces intervalo deconfianza.La construcción del intervalo de confianza se basa en encontrar el par de valores que delimiteneste intervalo para un nivel de confianza prefijado, lo cual se basa en la distribución muestral delestimador. El intervalo es, por tanto, de extremos variables, ya que sus límites pueden cambiarsegún el resultado de la estimación puntual sobre la muestra. El nivel de confianza lo decide elinvestigador, o el estadístico; en la práctica, en estudios económicos y sociales, los niveles deconfianza más usados suelen ser: 0.90, 0.95, 0.98, 0.99.Al crearse el intervalo de confianza, si 1-α representa la probabilidad con que se quiere que elmismo contenga al parámetro, α representará la probabilidad de que el verdadero valor delparámetro no esté en el intervalo, y los intervalos suelen construirse de forma tal que estaprobabilidad α se reparta simétricamente, como se muestra gráficamente:Utilizando el método habitual para la construcción de los intervalos –la repartición simétrica dela probabilidad α a ambos lados-, cuando la distribución muestral del estimador es a su vezsimétrica –por ejemplo normal o t’Student- los límites del intervalo resultan también simétricosrespecto a la estimación puntual tomada como partida, y a la distancia desde el centro del 89
  • 91. intervalo hasta cada límite, que simboliza con la letra d, se le denomina entonces error máximoadmitido:Entonces, en caso de estimadores con distribuciones simétricas el intervalo de confianza quedade la forma: ˆ θ = θ ± dθEn la expresión anterior se utilizó el símbolo ±, que es una manera abreviada de indicar que loque sigue se resta y se suma para crear un intervalo, por tanto, el mismo intervalo de confianzapuede representarse como sigue: ˆ ˆ θ ∈ [θ − d θ ; θ + d θ ]El error máximo admitido viene a representar el máximo error que se admite cometer en laestimación bajo el nivel de confianza escogido, y en general se calcula como el producto de unfactor que depende del nivel de confianza, el denominado coeficiente de confianza (C1-α/2), porel error estándar del estimador: ˆ dθ = C α σ(θ) 1− 2Los intervalos de confianza para la media y la proporción, por tener ambos estimadoresdistribuciones muestrales simétricas, se forman así: estimador ± error máximo admitido Ejemplo ilustrativo: Sea el caso de una estimación por intervalo para la media, siendo la varianza poblacional (σ) conocida, y prefijado un nivel de confianza (1 - α): Fijar un nivel de confianza quiere decir que se exige que el error máximo permisible cumpla con: P(⏐ x - μ ⏐ ≤ d ) = P (-d ≤ x - μ ≤ d) = 1 - α Esto equivale a decir que: P(⏐ x - μ ⏐ > d ) = α Pero: P(⏐ x - μ ⏐ > d ) = P( x - μ < -d) + P( x - μ > d) = α 90
  • 92. α Y dada la simetría ambos sumandos son iguales, por lo que: P(x − μ < −d) = 2 ⎛ σ ⎞ Ahora, si X ∼ N (μ ,σ), se tiene que x ∼ N⎜ μ , ⎜ ⎟ , por tanto: ⎟ ⎝ n⎠ ⎛ −d ⎞ α −d P( x - μ < -d) = P⎜ z < ⎟= Entonces: =Z α ⎜ σ n⎠ ⎟ 2 σ n 1− ⎝ 2 σ Y despejando: d=Z α 1− 2 nAtendiendo al ejemplo anterior, se pueden desarrollar las expresiones para los intervalos deconfianza en todos los casos de la media, y la varianza, y las proporciones. Esto se resume enla siguiente tabla (asumiendo siempre un muestreo aleatorio simple): error máximoparámetro estimador condiciones intervalo de confianza admisible σ X ∼ N (μ , σ ) d=Z α 1− 2 n X ∼ ? (μ , σ ) σ d=Z α y n > 30 1− n μ x 2 μ= x ± d ó μ ∈[ x − d ; x + d ] s X ∼ N (μ , ?) d = t (n−1) 1− α 2 n X ∼ ? (μ , ? ) s d=Z α y n > 30 1− 2 n ⎡ ⎤ ⎢ (n −1) s 2 (n −1) s 2 ⎥ σ2 s 2 X∼N --- σ ∈⎢ 2 2 ; 2 ⎥ ⎢ χ (n − 1) χ (n − 1) α / 2 ⎥ ⎢ ⎣ 1− α / 2 ⎥ ⎦ ˆˆ pq p ˆ p n > 30 d=Z α ˆ p= p ± d ó p ∈[ p − d ; p + d ] ˆ ˆ 1− 2 nVale la pena anotar que en el caso de la varianza, dado que la distribución muestral (chi-cuadrado) es asimétrica, no se puede hablar de un error máximo admitido, y se calculandirectamente los límites inferior y superior del intervalo de confianza.Además, en los casos en que se usa la normal, que es simétrica, al hallar el límite inferior delintervalo es equivalente usar –Z1-α/2 ó Zα/2; y lo mismo es aplicable a la t’Student.Por otra parte, es fácil darse cuenta al examinar las expresiones para los intervalos deconfianza que: Mientras más grande es el tamaño de la muestra menor es el ancho del intervalo. Para niveles de confianza (1 - α) más grandes, mayor es el ancho del intervalo. 91
  • 93. Ambos resultados son lógicos ya que un tamaño grande de la muestra disminuirá la varianza del estimador, y un nivel de confianza grande incrementará el valor del coeficiente de confianza, es decir, el estadístico de la distribución de probabilidad del estimador, lo que dará como resultado en cada caso un intervalo más amplio.Finalmente, una importante aplicación de las expresiones para los intervalos de confianza es elempleo de éstas para determinar el tamaño de muestra mínimo necesario para que el error enuna estimación no sobrepase un valor decidido de antemano. Esto se consigue despejando nen la expresión, pues el error máximo asumido es precisamente d; los resultados usados paraun muestreo aleatorio simple son los siguientes: 2Para la media ⎛ σ⎞ n = ⎜ Z 1−α / 2 ⎟ (con σ conocida): ⎝ d⎠ 2Para la media ⎛ s⎞ Aquí se utiliza la Z y no la t porque esta última n = ⎜ Z 1−α / 2 ⎟ (con σ desconocida): ⎝ d⎠ involucra a la n en sus grados de libertad. 2 2 Aquí p y q son desconocidos (es ⎛ Z1−α / 2 ⎞ ⎛ Z1−α / 2 ⎞ justo lo que se quiere estimar),Para las proporciones: n =pq ⎜ ⎟ =⎜ ⎜ d ⎟ ⎜ 2d ⎟ ⎟ por eso se toma p = q = 0.5, que ⎝ ⎠ ⎝ ⎠ matemáticamente maximiza n.Ejemplo 1:La media y la desviación típica de las cargas máximas soportadas por 60 cables, están dadaspor 12 y 0.7 toneladas, respectivamente. Se quiere hallar un intervalo de confianza para lacarga media máxima soportada por los cables, con un 95% de confianza.Solución:X: carga soportada por un cableInformación: n = 60, x = 12, s = 0.7, (1 - α) = 0.95 ( Se asumirá que X ∼ N(μ , σ ) ) s sEntonces: μ = x ± d y d = t (n−1) 1− α ≈Z α 2 n 1− 2 n Se parte del uso de la t porque la desviación típica poblacional es desconocida (lo que se tiene es una estimación puntual de la misma); no obstante, al ser n > 30, dada la convergencia de la t a la Z, se puede usar esta última, que es más cómodo.Para obtener el coeficiente de confianza se debe ver que:(1 - α) = 0.95 ⇒ α = 0.05 ⇒ α/2 = 0.025 ⇒ (1 - α/2) = 0.975 Para buscar el valor de Z0.975 se puede buscar este número en el interior de la tabla de la normal estándar, y obtener Z por la intercepción con los bordes. Pero una vía más rápida es utilizar la tabla que está a continuación en la selección de tablas (página 17), donde están las dos colas de la curva sombreadas; ahí se busca simplemente el valor de α por la derecha y en la izquierda está la Z requerida. 0.7 0.7d = 1.96 = 1.96 ⋅ = 0.176 60 7.75 92
  • 94. Por tanto: μ = 12 ± 0.18Y siendo: 12 + 0.18 = 12.18 y 12 - 0.18 = 11.82 , el intervalo será: μ ∈[11.82 ; 12.18 ]Se puede decir, pues, que en el 95% de los cables el valor medio de la carga soportada estáentre 11.82 y 12.18 toneladas. Nota: Es esencial saber interpretar adecuadamente la información que brinda un intervalo de confianza: En el caso teórico de contar con todas las muestras posibles de tamaño n, efectuar una estimación por intervalo con un nivel de confianza 1 - α equivale a indicar que un (1 - α )⋅100% de todos los posibles intervalos contendrán al parámetro, mientras que el α⋅(100)% restante serán intervalos que no contengan al verdadero valor de dicho parámetro. μ Por ejemplo, un intervalo de confianza del 90% para la media poblacional indica que el 90% de las muestras que se tomen (o sea, 9 de cada 10 muestras) darán lugar a intervalos que contengan el parámetro; esto se aprecia en el esquema mostrado, donde cada barra horizontal representa el intervalo obtenido de una muestra dada.Ejemplo 2:A continuación se brindan los resultados de las entrevistas a 40 personas sobre su preferencia(1) o no (0) respecto a un nuevo producto que se ha ofertado en el mercado. 0 0 1 1 0 1 0 1 0 1 1 1 0 1 0 1 1 1 0 1 1 0 1 0 1 1 0 1 1 0 0 1 1 0 1 1 0 1 1 0a) Calcule la proporción muestral de individuos que gustan de este producto. Interprete el resultado.b) Calcule la probabilidad de que el error máximo en la estimación de esta proporción no sea mayor de 0.05.c) Calcule para un nivel de confianza de 0.95 el error máximo en la estimación de la proporción.d) Determine cuántas personas deben seleccionarse para que la proporción resultante tenga un error no mayor de 0.01 con una probabilidad asociada de 0.99.Solución:X: cantidad de personas que prefieren el nuevo producto.n = 40 X n 24 ˆa) p = = = 0.60 El 60% de las personas prefieren el nuevo producto. n 40 93
  • 95. ⎛ − 0.05 0.05 ⎞b) P (⎜ p - P ⎜≤ 0.05) = P (-0.05 ≤ p - P ≤ 0.05) = P⎜ $ $ ≤Z≤ ⎟ ⎜ σp σp ⎟ ⎝ ˆ ˆ ⎠ donde : σ p = pq / n = 0.6 ⋅ 0.4 / 40 = 0.0060 = 0.0775 ≈ 0.078 ˆ Por tanto: P (⎜ p - P ⎜≤ 0.05) = P (-0.05/0.078 ≤ Ζ ≤ 0.05/0.078) = P (-0.641 ≤ Ζ ≤ 0.641) $ = Fz(0.641) - Fz(-0.641) = 0.7389 - 0.2611 = 0.4778 En el 47,78% de las muestras de tamaño 40, el error que se puede cometer al estimar p no va a ser mayor que 0.05 ˆˆ pq 0 .6 ⋅ 0 .4c) d = Z α = Z 0.975 = 1.96 ⋅ 0.078 = 0.1529 1− 2 n 40 En muestras de tamaño 40 el error en la estimación de la proporción poblacional no será superior a 0.153, con una probabilidad de 0.95. 2 2 2 ⎛Z ⎞ ⎛ Z0.995 ⎞ ⎛ 2.58 ⎞d) n = p q ⎜ 1−α / 2 ⎟ = ⎜ ⎟ ⎜ ⎟ ⎜ 2 d ⎟ = ⎜ 2 ⋅ 0.02 ⎟ = 64.5 = 4160.25 ≈ 4161 2 ⎜ d ⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ Nota: Debe destacarse que la aproximación de n siempre es por exceso, pues el número obtenido es lo mínimo necesario para satisfacer las condiciones deseadas para la estimación.Ejemplo 3La experiencia adquirida indica que la resistencia a la ruptura de las varillas de alambreproducidas por cierta fábrica sigue una distribución normal con una resistencia media de 400 kgf(kilogramo-fuerza) y una desviación típica de 16 kgf. Si se toma una muestra aleatoria de 16varillas.a.- Calcule la probabilidad de que el error en la estimación de μ no sea mayor de 8 kgf.b.- Determine, con una probabilidad de 0.99, el error máximo que se espera cometer al estimar μ a través de la media muestral.c.- Diga cuántas varillas deberán seleccionarse para que la media resultante tenga un error no mayor de 2 kgf con una confiabilidad del 95%.Solución.X: resistencia a la ruptura (kgf) n = 16 ⎛ 16 ⎞X ∼ N (400 ; 16), entonces x ∼ N⎜ 400 ; ⎜ ⎟ = N (400 ; 4) , por tanto: ⎟ ⎝ 16 ⎠a) P(⏐ x - μ ⏐ ≤ 8) = P(-8 ≤ x - μ ≤ 8) = P (-8/4 ≤ Ζ ≤ 8/4) = P (-2 ≤ Ζ ≤ 2) = Fz(2) - Fz(-2) = 0.9772 - 0.0228 = 0.9544 En el 95,4 % de las muestras de tamaños 16 el error que se puede cometer al estimar μ no va a ser mayor que 8. σ σb) d = Z α = Z 0.995 = 2.58 ⋅ 4 = 10.32 1− 2 n n 94
  • 96. 2 2 2 ⎛ σ⎞ ⎛ σ⎞ ⎛ 16 ⎞c) n = ⎜ Z1−α / 2 ⎟ = ⎜ Z0.975 ⎟ = ⎜1.96 ⋅ ⎟ = 246 varillas. ⎝ d⎠ ⎝ d⎠ ⎝ 2⎠ Debe significarse que con una muestra de este tamaño se está garantizando que el error en la estimación de la resistencia media no sea mayor de 2 kgf, con una probabilidad de certeza del 95%Ejemplo 4En una determinada localidad se obtuvo la siguiente muestra aleatoria, correspondiente a lacantidad de personas por núcleos familiares en 37 viviendas: 4 2 5 6 6 5 6 6 6 7 5 5 4 4 2 8 4 6 8 5 2 2 5 5 4 3 6 7 6 5 5 5 6 5 4 6 1Se quiere una estimación por intervalos de la proporción de los núcleos familiares con 4 ó másintegrantes, para un nivel de confiabilidad del 90%.Solución:X: Núcleos familiares con 4 ó más integrantes.Se tiene que:ˆp = Xn/n = 31/37 = 0.84 Y: σ p = pq / n = 0.84 ⋅ 0.16 / 37 = 0.0036 = 0.060 ˆ ˆEntonces: p = p ± Z(1−α/2) pq / n = 0.84 ± 1.64(0.060) = 0.84 ± 0.0988Por tanto el intervalo de confianza será: 0.7412 ≤ p ≤ 0.9388Esto indica que el 90% de las veces el valor de la proporción muestral se encontrará entre 0.74y 0.94Ejemplo 5En una muestra simple aleatoria de 64 piezas de un mismo tipo, extraídas de un almacén, seencontraron 13 piezas defectuosas. Dé una estimación por intervalo con un nivel de confianzadel 95% para la proporción de piezas defectuosas en el almacén.Solución: n = 64 ˆ p = 13/64 = 0.20 ˆp = p ± Z(1−α/2) pq / n = 0.20 ±1.96 0.20(0.8) / 64 = 0.20 ± 1.96 0.0025 = 0.20 ± 1.96(0.05)O sea: p = 0.20 ± 0.098Por tanto, el intervalo será: 0.102 ≤ p ≤ 0.298, indicando que el 95% de las veces el verdaderovalor de la proporción poblacional se encontrará entre 0.102 y 0.298.Ejemplo 6Calcule un intervalo de confianza del 95% de la varianza poblacional de una población normal,si en una muestra aleatoria de tamaño 22 se obtuvo una varianza de 121. 95
  • 97. Solución:n = 22 s2 = 121 1 - α = 0.95Como se desea un intervalo de confianza para la varianza, cuya distribución muestral asociadaes χ2, se sustituye directamente en la expresión para el intervalo de confianza: ⎡ ⎤ ⎡ ⎤ ⎢ (n −1) s 2 (n −1) s 2 ⎥ ⎢ (22 −1)⋅121 (22 −1) ⋅121⎥ ⎡ 2541 2541⎤ σ 2∈ ⎢ 2 ; 2 ⎥=⎢ 2 ; 2 ⎥=⎢ ; ⎥ ⎢ χ (n − 1) χ (n − 1) α / 2 ⎥ ⎢ χ ( 21) χ ( 21) 0.025 ⎥ ⎣ 35.5 10.3 ⎦ ⎢ ⎣ 1− α / 2 ⎥ ⎢ ⎦ ⎣ 0.975 ⎥ ⎦Por tanto: 71.57 ≤ σ2 ≤ 246.69Esto indica que el 95% de las veces el valor de la varianza poblacional se encontrará entre71.57 y 246.69.Nota: Si se quiere sacar el intervalo de confianza de la desviación típica poblacional sólo se lesaca la raíz cuadrada al intervalo de la varianza: 8.46 ≤ σ ≤ 15.71EJERCICIOS DE AUTOEVALUCIÓN1.- ¿Qué nos indica el error máximo admisible? ¿Para que se utiliza?2.- ¿A partir de qué se calcula el tamaño de la muestra? ¿Cuáles son los criterios que se debentener en cuenta para determinarlo?3.- ¿Qué ventajas tendrá una estimación por intervalo sobre una estimación puntual.?4.- ¿En que caso en la estimación por intervalo de μ se trabaja con la distribución muestral detStudent? ¿Qué supuestos se deben hacer para trabajar con esta distribución en el cálculo delintervalo de confianza de μ?5.- ¿Con que distribución de probabilidad se trabaja el intervalo de confianza de la proporciónpoblacional y que condiciones se deben dar? ¿Y con que distribución de probabilidad se trabajael intervalo de confianza de la varianza y desviación típica poblacional?.6.- Se desea estimar el ingreso medio de una población que sigue aproximadamente unadistribución normal constituida por 10 personas y para ello se seleccionó una muestra de 5personas, recogiéndose de ellos lo siguiente:ingresos: 150, 148, 152, 149, y 151a.- Halle una estimación puntual de μ y de σ2.b.- Halle una estimación por intervalo del 95% de μ y de σ2.7.- Si el tamaño de una muestra es de 225 unidades en una población de 3000 elementos y seconoce que la característica en estudio tiene una varianza de σ2 = 400, diga qué error máximo 96
  • 98. admisible puede obtenerse con una confiabilidad de un 95%, para la estimación de la mediapoblacional.8.- Se conoce que el número de propietarios de autos de la ciudad de la Habana es de 9000 yse desea estimar la proporción de ellos que se encuentran retrasados en el pago de impuestosobre circulación terrestre en el mes de junio del año 1997, con una d = 0.05, si una muestraarroja una proporción del 50%. Calcule el tamaño de la muestra necesario para una estimaciónconfiable (utilice un nivel de confianza del 95%).9.- De una población de 200 trabajadores se han muestreado 30, de los cuales 18 sonfumadores. Dé un estimado de la verdadera proporción de fumadores y del total de fumadoresde dicha población.a.- En estimaciones puntualesb.- En estimaciones por intervalo con una confianza del 99%. 97
  • 99. TEMA V: PRUEBAS DE HIPÓTESIS5.1. Conceptos básicos. Desarrollo general de pruebas de hipótesis. Pruebas paramedias en una población.El desarrollo de pruebas de hipótesis forma parte de los métodos de la Estadística Inferencialvinculados directamente la toma de decisiones, y como tal se utiliza en prácticamente cualquierrama de las ciencias y la tecnología, por ejemplo:• En la agricultura, cuando se quiere conocer si un nuevo fertilizante aumenta el rendimiento o no.• En la educación, cuando se quiere conocer si un método de enseñanza determinado, aumenta la promoción o no.• En el deporte, cuando se quiere conocer si un estilo de juego mejora o no los resultados.• En medicina, cuando se quiere conocer si un medicamento disminuye o no el tiempo de restablecimiento de un paciente.Desarrollo del contenido:Una prueba de hipótesis suele girar en torno al valor de uno o varios parámetros poblacionales–o al comportamiento de la distribución de la población–, sobre lo cual se tiene algunasuposición previa basada en evidencia empírica o teórica. Para verificar si la suposición escierta o no se debe, entonces, tomar una muestra de la población y calcular sobre ella unaestimación del parámetro o parámetros en cuestión; a partir de esas estimaciones, y teniendoen cuenta el comportamiento probabilístico de los estimadores usados, se puede llegar a unaconclusión sobre la suposición o hipótesis de partida.CARACTERÍSTICAS GENERALES DE UNA PRUEBA DE HIPÓTESIS:Si el desarrollo de una prueba requiere del conocimiento de parámetros o características de ladistribución de la población, se le clasifica como prueba paramétrica; si, por el contrario, estosdatos no son requeridos, se hablará de una prueba no paramétrica.La simbología usada en este contexto es análoga a la que se utiliza en el contexto general de laTeoría de la Estimación: así, con θ se representa el parámetro en cuestión (que puede ser μ, σ2,p u otro) y con θo el valor histórico conocido para dicho parámetro.En el proceso de desarrollar una prueba de hipótesis a partir de una determinada suposición, sebusca como traducir dicha suposición a términos de algún parámetro o estadígrafo, y se formulaentonces lo que se llama hipótesis estadística. En general, una hipótesis estadística siemprese subdivide en dos: una llamada hipótesis nula (Ho) y otra llamada hipótesis alternativa (H1).Hipótesis nula (Ho): Es una hipótesis de diferencias nulas; lo que equivale a decir que es unahipótesis que contiene una igualdad o algo similar.Hipótesis alternativa (H1): Es la hipótesis que deberá ser aceptada si la nula se rechaza, ytiene asociado algún tipo de desigualdad estricta.Al plantear el par de hipótesis nula y alternativa surge alguno de los tres casos siguientes: 98
  • 100. O sea, se quiere verificar si el valor del parámetro ha Ho: θ = θo ( ó Ho: θ ≤ θo ) aumentado, contraponiendo esto a que se mantiene H1: θ > θo igual, o incluso disminuyó. O sea, se quiere verificar si el valor del parámetro ha Ho: θ = θo ( ó Ho: θ ≥ θo ) disminuido, contraponiendo esto a que se mantiene H1: θ < θo igual, o incluso aumentó. O sea, se quiere verificar si el valor del parámetro ha Ho: θ = θo variado en algún sentido, contraponiendo esto a que H1: θ ≠ θo se mantiene igual.Comúnmente la hipótesis alternativa representa la hipótesis de investigación, lo que se deseaverificar después de algún cambio en el sistema en estudio, y suele ser en muchos casos la quese formula primero; la hipótesis nula, por el contrario, se asocia a la situación que existía hastael momento del cambio, a lo ya conocido; por ello es esta última es la que recoge la igualdad,estricta o no.En muchos casos Ho se formula con la intención expresa de ser rechazada, ya que si Ho serechaza ello implica que H1 se acepta.La decisión estadística se basa en estimaciones efectuadas sobre la muestra aleatoriatomada, todo lo cual da lugar a los siguientes conceptos: ˆEstadístico o estadígrafo de prueba: Es el estimador ( θ ), o alguna transformación de éste,que se utiliza para tomar una decisión respecto al comportamiento del parámetro en estudio.Valor crítico (C o θc): Es un valor numérico que se calcula a partir del dato histórico conocido yde la distribución probabilística del estimador, para que el estadígrafo de prueba se comparecon él y se pueda tomar una decisión.La necesidad del valor crítico puede entenderse por el hecho de que el estadígrafo de prueba,al ser el resultado de una estimación, no se debe comparar directamente con el dato histórico,sino que se debe dejar una especie de margen para los posibles errores de estimación.Región crítica ó región de rechazo (W o Wc): Es el conjunto de valores del estadístico deprueba a partir de los cuales se rechaza la hipótesis nula.La distribución del estadístico de prueba se divide en dos partes la región de rechazo y la regiónde no rechazo o aceptación, estando separadas ambas regiones por el valor crítico.La ubicación de la región crítica respecto al dato histórico depende de la hipótesis alternativa, ypuede ser unilateral (a la derecha o a la izquierda) o bilateral (a ambos lados), como serepresenta en los siguientes esquemas: ˆ Caso del posible aumento: Si θ > θc, se rechazaría H0, adoptándose H1; pero ˆ ˆ si θ ≤ θc, aunque sea θ > θ0, no hay evidencia de un aumento significativo. 99
  • 101. ˆ Caso de posible reducción: Si θ < θc, se rechazaría H0, adoptándose H1; pero ˆ ˆ si θ ≥ θc, aunque sea θ < θ0, no hay evidencia de una reducción significativa. ˆ Caso de posible variación: Si θ < θc1 ó ˆ θ > θc2, se rechazaría H0, adoptándose ˆ ˆ H1; pero si θc1 ≤ θ ≤ θc2, aun si θ ≠ θ0, no hay evidencia de variación significativa.Regla de decisión: Es una especie de traducción al lenguaje común de la región crítica; en ellase establece lo que se debe hacer, partiendo del valor crítico determinado. Esto es: Se rechaza Ho para todo valor del estadístico de Ho: θ = θo ( ó Ho: θ ≤ θo ) prueba que sea mayor que θc y se acepta Ho para H1: θ > θo todo valor del estadístico de prueba que sea menor o igual que θc. Se rechaza Ho para todo valor del estadístico de Ho: θ = θo ( ó Ho: θ ≥ θo ) prueba que sea menor que θc y se acepta Ho para H1: θ < θo todo valor del estadístico de prueba que sea mayor o igual que θc. Se rechaza Ho para todo valor del estadístico de Ho: θ = θo prueba que sea menor que θc1 o mayor que θc2 y se H1: θ ≠ θo acepta Ho para todo valor del estadístico de prueba que esté comprendido entre θc1 y θc2.Debe señalarse, no obstante, que en términos estrictamente estadísticos, en el caso que seacepte Ho no se debe plantear categóricamente que se acepta Ho, sino que “no hay elementospara rechazar Ho”, ya que es más factible refutar hipótesis que aceptarlas.Nivel de significación (α): Es la probabilidad máxima con que se admite cometer el errorconsiderado más grave.El nivel de significación es escogido en la práctica por el investigador. Los valores más usadosson: 5% (0,05) y 1% (0,01). Una vez fijado éste se puede calcular el valor crítico y determinar laregión crítica.El término de significación se utiliza dado que conociendo el valor de α se podrá determinarcuál es el valor del estadístico de prueba a partir del cuál la diferencia entre éste y el parámetrose considera significativa.En lugar del nivel de significación a veces se utiliza el nivel de confianza (1 - α), definido en laTeoría de la Estimación. 100
  • 102. POSIBLES ERRORES A COMETER:Al tomar una decisión es posible que se cometa uno de los dos siguientes errores: rechazar Hosiendo cierta o aceptar Ho siendo falsa. El primero de estos posibles errores, dadas susconsecuencias, es el más grave, y se le denomina Error tipo I; al otro se le llama Error tipo II. Laprobabilidad de un error de tipo I se conoce como α, es el nivel de significación, y laprobabilidad de un error de tipo II se conoce como β. A partir de las definiciones se tiene:α = Ρ ( Rechazar H0 siendo cierta) Entonces: ˆ α = Ρ( θ ∈ Wc / θ = θ0)β = Ρ ( Aceptar H0 siendo falsa ) Entonces: ˆ β = Ρ( θ ∉ Wc / θ ≠ θ0)Luego, interesa medir las magnitudes de esos errores y tratar de que estos sean lo máspequeños posible, o sea, que la probabilidad de cometerlos sea lo suficientemente pequeña.Pero reducir la magnitud de ambos es imposible pues una disminución en uno de ellos, provocaen general un aumento del otro.Observando las figuras anteriores se puede comprender mejor lo planteado: Se representa ladistribución probabilística asociada al estadístico de prueba en una prueba dada, tanto para lahipótesis nula (θ 0) como para un valor de la alternativa (θ a). Es apreciable que al disminuir α, sedesplaza el valor crítico (θ c), y aumenta β.Es por ello que la solución dada por los matemáticos es fijar la probabilidad de cometer el errorde connotación más grave a un nivel aceptablemente bajo y tratar de hacer mínimo el otro; esdecir, se prefija α.En el contexto económico a los errores antes mencionados, y sus probabilidades, se les llamariesgo de los productores (α) y riesgo de los consumidores (β) respectivamente. Al riesgode rechazar una hipótesis nula verdadera se le llaman riesgo de los productores porque que si 101
  • 103. la hipótesis se rechaza es a favor de un cambio que supuestamente conlleva una mejora en lasventas, y al ser errónea la decisión el productor pierde una posible ganancia extra. Por su parte,al riesgo de aceptar una hipótesis nula falsa se le llaman riesgo de los consumidores porqueuna aceptación de la nula debería corresponderse con el hecho de que la mejor opción era la yaexistente, y si la decisión es errónea es una pérdida de posibles mejoras para el consumidor.PASOS A SEGUIR EN LA CONSTRUCCIÓN DE UNA PRUEBA DE HIPÓTESIS:A manera de resumen, se puede elaborar una especie de algoritmo para desarrollar una pruebade hipótesis, que implicaría los siguientes pasos:• Análisis de los datos• Formulación de las hipótesis nula y alternativa• Elección del nivel de significación (α)• Determinación del valor crítico (θ c)• Planteamiento de la región crítica (W c) o de la regla de decisión• Cálculo del estadístico de prueba (a partir de la muestra, según el parámetro en prueba)• Toma de decisión y conclusiónLa decisión se toma utilizando el estadístico de prueba que nos facilitó la muestra y si el mismocae en la región crítica se rechaza H0 y por tanto se acepta H1; si cae en la región de no rechazo(de aceptación) no existen elementos para rechazar H0.PRUEBAS DE HIPÓTESIS PARAMÉTRICAS:Se le llama pruebas paramétricas, como se ha dicho, a aquellas que requieren del conocimientode la distribución muestral de los estimadores asociados a los parámetros poblacionales. Laspruebas paramétricas más conocidas son las pruebas respecto al comportamiento de la media,la varianza y las proporciones en una población.Pruebas para la media:En el caso de las pruebas para medias se debe tener en cuenta si se conoce la varianzapoblacional real (σ²) o si se contará con una estimación de la misma (s²), igual que cuando sehacen cálculos probabilísticos asociados a alguna estimación. En función de esto, si se tomacomo estadígrafo de prueba la propia media muestral ( x ), las regiones críticas –atendiendo altipo de hipótesis alternativa– quedan: Para cuando σ² es conocida: ⎧ σ ⎫ H1: μ > μo WC = ⎨x : x > μ 0 + Z1−α ⎬ ⎩ n⎭ ⎧ σ ⎫ H1: μ < μo WC = ⎨x : x < μ 0 − Z1−α ⎬ ⎩ n⎭ ⎧ σ σ ⎫ H1: μ ≠ μo WC = ⎨x : x < μ 0 − Z1−α ó x > μ 0 + Z1−α ⎬ ⎩ 2 n 2 n⎭ 102
  • 104. Para cuando σ² es desconocida: ⎧ s ⎫ H1: μ > μo WC = ⎨x : x > μ 0 + t 1−α (n−1) ⎬ ⎩ n⎭ ⎧ s ⎫ H1: μ < μo WC = ⎨x : x < μ 0 − t 1−α (n−1) ⎬ ⎩ n⎭ ⎧ s s ⎫ H1: μ ≠ μo WC = ⎨x : x < μ 0 − t 1−α ó x > μ 0 + t 1−α ⎬ ⎩ 2 ( n −1) n 2 ( n −1) n⎭ Nota: Aquí igualmente deben tenerse en cuenta las condiciones necesarias o supuestos de aplicación de la distribución probabilística adecuada, en particular la toma de la muestra mediante un muestreo aleatorio simple y la asunción de normalidad poblacional de la variable. También puede sustituirse el uso de la t por Z cuando la muestra es suficientemente grande, o sea, si n > 30.Otra variante, que algunos llaman vía interna de solución, es utilizar como estadígrafo deprueba la conocida estandarización de la media muestral, que en dependencia de si se conoceo no la varianza poblacional recibe el nombre de estadígrafo Z o estadígrafo t respectivamente,en correspondencia con la distribución muestral que sigue. O sea: x − μ0 x − μ0 Z0 = t0 = σ/ n s/ nSi se usan estos estadígrafos de prueba las regiones críticas quedan expresadas de unamanera más sencilla: Para cuando σ² es conocida: H1: μ > μo Wc = { Z0 : Z0 > Z1-α } H1: μ < μo Wc = { Z0 : Z0 < - Z1-α } H1: μ ≠ μo Wc = { Z0 : | Z0 | > Z1-α/2 } Para cuando σ² es desconocida: H1: μ > μo Wc = { t0 : t0 > t1-α (n-1) } H1: μ < μo Wc = { t0 : t0 < - t1-α (n-1) } H1: μ ≠ μo Wc = { t0 : | t0 | > t1-α/2 (n-1) }Pruebas para proporciones:Si lo que interesa verificar es la posible variación en algún valor porcentual o en el resultado delconteo de alguna variable, ello puede expresarse como una prueba de hipótesis paraproporciones.Las pruebas para proporciones se basan en las mismas condiciones o supuestos analizadospara considerar adecuada la proporción muestral como estimador de la proporción poblacional:desarrollar un muestreo aleatorio simple y contar con una muestra tal que n > 30. Así se tiene,para los distintos casos de hipótesis alternativas las regiones críticas siguientes: 103
  • 105. ⎧ ⎪ˆ ˆ p 0 q0 ⎫ ⎪ • H1: p > p0 WC = ⎨p : p > p 0 + Z 1−α ⎬ ⎪ ⎩ n ⎪ ⎭ ⎧ ⎪ˆ ˆ p 0 q0 ⎫ ⎪ • H1: p < p0 WC = ⎨p : p < p 0 − Z 1−α ⎬ ⎪ ⎩ n ⎪ ⎭ ⎧ ⎪ˆ ˆ p 0 q0 p 0 q0 ⎫ ⎪ • H1: p ≠ p0 WC = ⎨p : p < p 0 − Z 1−α ó ˆ p > p 0 + Z 1−α ⎬ ⎪ ⎩ 2 n 2 n ⎪ ⎭ ˆ p − p0Para la vía interna de solución se recurre al estadígrafo: Z 0 = p 0 q0 nY las regiones críticas quedan: H1: p > p0 Wc = { Z0 : Z0 > Z1-α } H1: p < p0 Wc = { Z0 : Z0 < - Z1-α } H1: p ≠ p0 Wc = { Z0 : | Z0 | > Z1-α/2 }Este resultado para las regiones críticas coincide con en el de las pruebas para medias cuandola varianza poblacional es conocida, o sea, cuando se usa Z. Esto evidencia una de lasventajas de la vía interna: las regiones críticas suelen permanecer inalterables para un tipo dealternativa dado, lo que varía es la forma en que se calcula el estadígrafo de prueba.Pruebas para la varianza:Cuando es de interés determinar si la variabilidad en el valor de una magnitud medida condeterminado método no supera ciertos límites, o difieren o no de cierto valor dado, el problemase reduce a realizar una prueba de hipótesis para la varianza poblacional. Esta prueba se harábajo el supuesto de que se tiene una muestra aleatoria simple procedente de una distribución.Atendiendo a que el estimador de la varianza tiene asociado a su distribución muestral una chi-cuadrado, las regiones críticas para los posibles casos de alternativas resultan: ⎧ σ2 2 ⎫ • H1: σ2 > σ20 WC = ⎨s 2 : s 2 > χ 1−α (n−1) ⎬ ⎩ n −1 ⎭ ⎧ σ 2 ⎫ • H1: σ2 < σ20 WC = ⎨s 2 : s 2 < χ 2 (n−1) ⎬ α ⎩ n −1 ⎭ ⎧ σ 2 σ2 2 ⎫ • H1: σ2 ≠ σ20 WC = ⎨s 2 : s 2 < χ α (n−1) ó s 2 > 2 χ 1−α (n−1) ⎬ ⎩ n −1 2 n −1 2 ⎭ 2 2 (n − 1) sPor la vía interna de solución el estadígrafo de prueba es: χ 0 = 2 σ0Y las regiones críticas son: H1: σ2 > σ20 Wc = { χ20 : χ20 > χ21-α } H1: σ2 < σ20 Wc = { χ20 : χ20 < χ2α } H1: σ2 < σ20 Wc = { χ20 : χ20 < χ2α/2 ó χ20 > χ21-α/2 } 104
  • 106. Ejemplo 1:En una fábrica se producen cuerdas cuya resistencia promedio es de 500 kgf (kilogramo-fuerza), con una desviación típica de 40 kgf. El jefe de producción plantea que con otra materiaprima la resistencia promedio puede aumentarse. Para probar su planteamiento se utilizó deforma experimental la nueva materia prima, tomándose una muestra de 64 de las cuerdasproducidas, para la cual la resistencia promedio fue de 510 kgf. Se quiere realizar la prueba dehipótesis correspondiente para un 5% de significación.Solución:Al enfrentar un problema de este tipo, lo primero que se hace es analizar a que parámetro se leva a hacer la prueba, y esto está en dependencia de lo que se va a investigar. En este caso seplantea que con la nueva materia prima la resistencia promedio puede aumentarse, por lo queevidentemente se debe efectuar una prueba de hipótesis de media ( μ ). Se debe determinarentonces si se conoce la varianza poblacional ( σ²) o no; para ello lo segundo que se hará essacar la información que brinda el problema.Datos:µ0 = 500 σ = 40 n = 64 x = 510 α = 0,05Dado que σ2 es conocida, se tiene que x ∼ N (µ ; σ / n ), luego las fórmulas para el cálculode la región crítica que se deben utilizar son las de la normal.Formulación de las hipótesis:H0: µ = 500 (Dice que con la nueva materia prima la resistencia promedio no varía.)H1: µ > 500 (Dice que con la nueva materia prima la resistencia promedio aumenta.) Nota: H0 hubiera podido ser también totalmente contraria a H1, o sea: µ ≤ 500, es decir, que con la nueva materia prima la resistencia promedio no varía o incluso disminuye.Región crítica: ⎧ σ ⎫WC = ⎨x : x > μ 0 + Z1−α ⎬ ⎩ n⎭ = { x : x > 500 + Z0.95 (40 / 64 ) } = { x : x > 500 + 1.64 (5) } = { x : x > 500 + 8.2 } Por tanto: Wc = { x : x > 508.2 }Regla de decisión:Se rechaza Ho si x > 508.2Se acepta H0 si x ≤ 508.2 105
  • 107. Toma de la decisión:x = 510 > µC = 508.2, o sea: x ∈ WC Por tanto, se rechaza H0 Esto implica que se acepta H1, lo cual permite concluir, con un nivel de significación del 5, que con la nueva materia prima la resistencia promedio puede aumentarse. Al tomar esta decisión pudo cometerse el error tipo I, rechazar una hipótesis nula cierta, por ello se indica el nivel de significación usado.La prueba hubiera podido desarrollarse también por la llamada vía interna; en este caso, paralas mismas hipótesis planteadas se tendría:Región crítica:Wc = { Z0 : Z0 > Z1-α } = { Z0 : Z0 > Z0.95 } = { Z0 : Z0 > 1.64}Regla de decisión:Se rechaza Ho si Z0 > 1.64Se acepta Ho si Z0 ≤ 1.64Decisión: x − μ 0 510 − 500 10Z0 = = = = 2 > ZC = 2 o sea: Z 0 ∈ WC σ/ n 40 5 64 Por tanto, de la misma manera, se rechaza H0, y se llega a igual conclusión: el cambio de materia prima puede aumentar la resistencia promedio de las cuerdas.Ejemplo 2:La producción promedio diaria de leche por vaca en la provincia en los meses de verano ha sidoen los años anteriores de 10.1 litros. Este año en una muestra simple aleatoria de 16 días de losmeses de verano se obtuvo una producción media diaria por vaca de 9.9 litros con unadesviación estándar de 1.1 litros. ¿Hay razón para afirmar que ha variado la producción mediodiaria de leche por vaca?Solución:Esta es una prueba paramétrica sobre la media, ya que de lo que se trata es de verificar si hatenido variación la producción promedio diaria de leche por vaca.Datos: μ = 10.1 σ = ? n = 16 σ = 9.9 s = 1.1 Nota: Este es un caso típico en que se desconoce la varianza poblacional ( σ 2 ), pues la desviación estándar disponible es una estimación calculada sobre la propia muestra. Luego, al ser n < 30, se tiene que trabajar obligatoriamente con la distribución tStudent, para el cálculo de la región crítica. 106
  • 108. Hipótesis:Ho: μ = 10.1H1: μ ≠ 10.1Nivel de significación:α = 0,05 (Cuando no se sugiere ninguno, el nivel de significación lo decide el estadístico.)Región crítica: ⎧ s s ⎫WC = ⎨x : x < μ 0 − t 1−α ó x > μ 0 + t 1−α ⎬ ⎩ 2 ( n −1) n 2 ( n −1) n⎭ ={ x: x > 10.1 - t0.975 (15) (1.1 / 16 ) ó x > 10.1 + t0.975 (15) (1.1 / 16 ) } ={ x: x > 10.1 - 2.13 (0.275) ó x > 10.1 + 2.13 (0.275) } ={ x: x > 10.1 - 0.586 ó x > 10.1 + 0.586 } ={ x: x > 9.514 ó x > 10.686 }Regla de decisión:Rechazar Ho si x < 9.514 ó x > 10.686No rechazar Ho si: 9.514 ≤ x ≤ 10.686Decisión:x = 9.9 > 9.514 y 9.9 < 10.686, o sea: x ∈ WC Por tanto, no se rechaza H0 Entonces se concluye que no hay elementos para asegurar, con un 5% de significación, que la producción promedio diaria de leche por vaca ha variado en la región. El error que se pudo haber cometido al tomar la decisión anterior es de tipo II.Por supuesto, se llegaría a idéntica conclusión si se utilizara la vía interna de análisis, como sedemuestra a continuación:Región crítica:Wc = { t0 : | t0 | > t1-α/2 (n-1) } = { t0 : | t0 | > t0.975 (15) } = { t0 : | t0 | > 2.13 }Decisión: x − μ 0 9.9 − 10.1 − 0.2t0 = = = = −0.727 s/ n 1.1 16 0.275 Como: | t0 | = 0.727 < 2.13 la decisión es, otra vez, no rechazar H0.Ejemplo 3:Se afirma que un lote de piezas contiene menos del 30% de piezas defectuosas. Paracomprobarlo se revisan 50 piezas del lote seleccionadas al azar, entre las cuales se detectan 10defectuosas. ¿Hay razón para mantener la afirmación con una significación del 5%? 107
  • 109. Solución:Esta prueba, evidentemente es de proporciones, ya que lo que se está investigando es sobre laproporción de piezas defectuosas, y se tiene como dato con el conteo de éstas en la muestratomada. La afirmación que se quiere verificar, referente a que menos del 30% de las piezas esdefectuosa, no es algo dado por seguro, luego, es una hipótesis: la hipótesis alternativa; y eldato a tomar como referencia, el 30%, es el equivalente a una proporción histórica.Datos:X: cantidad de piezas defectuosasn = 50 piezas xn = 10 piezas defectuosas α = 0.05 p0 = 0.30Hipótesis:H0: P ≥ 0.30H1: p < 0.30Región crítica: ⎧ ⎪ˆ ˆWC = ⎨p : p < p 0 − Z1−α ⎪ p 0 q0 ⎫ ⎧ n ⎪ ⎪ ⎪ ⎪ˆ ˆ ⎬ = ⎨p : p < 0.30 − Z 0.95 0.30 ⋅ 0.70 ⎫ 50 ⎪ ˆ ˆ { ⎬ = p : p < 0.30 − 1.64 0.0042 ⎪ } ⎩ ⎭ ⎩ ⎭ = {p : p < 0.30 − 1.64 ⋅ 0.064} = {p : p < 0.30 − 0.105} = {p : p < 0.195} ˆ ˆ ˆ ˆ ˆ ˆDecisión: x 10ˆp= n = = 0.20 > 0.195 ˆ O sea, p ∉ WC n 50 Por tanto, no se rechaza Ho. Entonces, bajo el α usado no se puede afirmar que el lote contiene menos del 30% de piezas defectuosas.Utilizando la vía interna se tiene:Región crítica:Wc = { Z0 : Z0 < -Z1-α } = { Z0 : Z0 < -Z0.95 } = { Z0 : Z0 < -1.64}Decisión: ˆ p − p0 0.20 − 0.30 − 0.10Z0 = = = = −1.5625 > -1.64 p 0 q0 0.30 ⋅ 0.70 0.064 n 50 O sea, Z 0 ∉ WC , con lo cual la decisión sigue siendo no rechazar H0.Ejemplo 4:El precio de cierto producto en el mercado mundial exhibió durante el pasado año unavariabilidad expresada en términos de una desviación típica de 0.4 dólares. Una muestra 108
  • 110. aleatoria de 30 días correspondiente al presente año dio como resultado una desviación típicade 0.5 dólares. ¿Hay razón suficiente para creer que el precio del producto es menos estableeste año que el pasado? Considere un α = 0.05.Solución:Ya que lo que se quiere investigar es la estabilidad del precio, es decir su variabilidad, y secuenta dato con desviaciones típicas, queda claro se debe efectuar una prueba de varianzas.Es bueno destacar que un precio menos estable implica mayor varianza, mientras que, por elcontrario, un precio más estable implica menor varianza.Datos:σ0 = 0.4 s = 0.5 n = 30 α = 0.05 Nota: σ0 = 0.4 ⇒ σ02 = 0.16Hipótesis:Ho: σ2 = 0.16 (El precio actual se mantiene con la misma estable.)H1: σ2 > 0.16 (El precio actual es menos estable, o sea, con mayor variabilidad.)Región crítica: ⎧ ⎫ ⎧WC = ⎨s 2 : s 2 > σ2 2 n −1 χ1−α (n−1) ⎬ = ⎨s 2 : s 2 > 0.16 2 29 ⎫ ⎧ χ 0.95 ( 29 ) ⎬ = ⎨s 2 : s 2 > 0.16 29 ⎫ { } 42.6⎬ = s 2 : s 2 > 0.235 ⎩ ⎭ ⎩ ⎭ ⎩ ⎭Decisión:s2 = 0.52 = 0.25 > 0.235 O sea, s 2 ∈ WC Por tanto, se rechaza H0. Esto que implica que se acepte H1, esto es, puede decirse, con una significación del 5% (o una confiabilidad del 95%) que el precio del producto este año es menos estable que en el anterior.Por la vía interna sería:Región crítica:Wc = { χ20 : χ20 > χ21-α } = { χ20 : χ20 > χ20.95 }= { χ20 : χ20 > 42.6}Decisión: 2 (n − 1) s 2 29 ⋅ 0.25 7.25 2χ0 = 2 = = = 45.3 > 42.6 O sea, χ 0 ∈ WC σ0 0.16 0.16 Por tanto, como era de esperar, se rechaza H0, llegándose a las mismas conclusiones.EJERCICIOS DE AUTOEVALUACIÓN.1.- Explique qué significan los términos hipótesis nula e hipótesis alternativa. 109
  • 111. 2.- Explique qué indica el error tipo I y el error tipo II.3.- ¿Cuál es la relación de α con el error de tipo I?4.- ¿Cuál es la relación de β con el error de tipo II?5.- Supóngase que se conocen los resultados de una prueba de aptitud para la admisión aestudios de grado en Administración de Empresas, los cuales tienen una distribución normalcon media de 500 y una desviación típica de 100. Si una muestra aleatoria de 12 solicitantesdel Stephan College tiene una media muestral de 537 ¿existe evidencia de que su resultadomedio sea diferente de la media esperada de todos los solicitantes? Use α = 0.016.- La compañía Acero Valle Verde fabrica barras de acero. Entrega barras de acero con unalongitud promedio de por lo menos 2.8 pies cuando el proceso funciona correctamente. De lalínea de producción se selecciona una muestra de 25 barras. La muestra señala una longitudpromedio de 2,43 pies y una desviación típica de 0.20 pies. La compañía desea determinar si senecesita ajustar el equipo de producción. Utilice un α = 0.05 y diga qué error pudo estarcometiendo con la decisión tomada.7.- La división de inspección del departamento de pesas y medias de la provincia Habana estáinteresada en confirmar la cantidad real de refrescos que se envasa en botellas de 2 litros, seconoce que μ = 2.02. La planta embotelladora ha informado a la división de inspección que sedesconoce la desviación típica de la población, y que al tomar una muestra aleatoria de 100botellas, mostró un promedio de 1.99 litros y una desviación típica de 0.05 litros. ¿Es posibleconcluir que la cantidad promedio en las botellas fuera menos de 2 litros? Utilice un α = 0.018.- Una gran cadena nacional de electrodomésticos tiene una venta especial por fin detemporada de podadoras de césped. A continuación se presenta el número de podadorasvendidas durante esta venta en una muestra de 10 tiendas: 8 11 0 4 7 8 10 5 8 3A un α = 0.05 ¿se puede llegar a la conclusión que se haya vendido un promedio de más de 5podadoras por tienda durante esta venta?¿Qué suposiciones se requiere para realizar esta prueba?¿Qué error se pudiera estar cometiendo con la decisión tomada?9.- ¿En muestras con menos de 30 observaciones se puede considerar que la proporciónmuestral sigue una distribución normal?10.- Se conoce que en una ciudad, la proporción de hombres es de 0.40. Se supone quedespués de la construcción de una gran industria, la proporción de hombres aumentó. Paraverificar este supuesto, se extrajo una muestra aleatoria de tamaño 100, resultando que lamisma está integrada por 45 hombres y 55 mujeres. Se pide hacer la prueba para un α = 0.0511.- La cadena de tiendas Gaviota, recibe de una firma un embarque de cierta marca debolígrafos baratos. El gerente comercial de la cadena desea estimar la proporción de bolígrafosdefectuosos; se toma una muestra aleatoria de 300 bolígrafos y se encuentran que 30 estándefectuosas. Se puede devolver el embarque si más del 5% están defectuosas. ¿Sería probableque la proporción de plumas defectuosas fuera superior a 0.05 y que pudiera devolverse elembarque?. Utilice un α = 0.05 110
  • 112. 12.- Un fabricante de aparatos de televisión ha afirmado en su garantía que en el pasado solo el10% de sus aparatos necesitaron alguna reparación durante sus dos primeros años defuncionamiento. Para comprobar la validez de esta afirmación, el departamento de control de lacalidad del ministerio seleccionó una muestra de 100 aparatos y encuentra que 14 de ellosrequirieron alguna reparación durante sus primeros dos años de funcionamiento. Utilizando unα = 0.01, ¿es válida la afirmación del fabricante o es probable que no lo sea? 111
  • 113. 5.2: Tamaño del error tipo II. Función de potencia. Tamaño de la muestra.Tradicionalmente el estadístico controla el error tipo I estableciendo el nivel de riesgo que estádispuesto a tolerar en términos de rechazar una hipótesis nula verdadera, es decir, fijando el αde la prueba. Una vez especificado el valor de α queda determinado el tamaño de la regióncrítica o de rechazo.Si se procede a la inversa y se establece de antemano la región crítica a usar, se puedecalcular el α a partir de su propia definición: α = P( Rechazar H0 siendo cierta) Entonces: ˆ α = P( θ ∈ Wc / θ = θ0)De la misma forma se puede calcular el valor de β asociado al error de tipo de II: β = P( Aceptar H0 siendo falsa ) Entonces: ˆ β = P( θ ∉ Wc / θ ≠ θ0)El valor de β depende del α escogido –o del valor crítico derivado-, pero también depende dealgún valor específico asociado a la hipótesis alternativa (θk); por ello se suele describir a βcomo función del parámetro en prueba, o sea: β = β(θk).Este error se puede graficar y se obtiene la llamada curva característica de operación ocurva OC (por las iniciales en inglés: Operation Characteristic) de gran utilidad en técnicasestadísticas, pues permitir determinar los riesgos que se derivan de no rechazar una hipótesisnula falsa, es decir muestra la probabilidad de no rechazar una hipótesis nula falsa para cadaposible valor verdadero del parámetro poblacional. Para lograr la curva característica debenelegirse varios valores representativos para dicho parámetro y calcular β para cada uno.En muchas aplicaciones estadísticas el segundo tipo de error (error tipo II), no está controlado,pero aun entonces el que realiza el experimento debe estar enterado de la existencia de esteerror y tener una idea de lo grande que puede ser, ya que, como se dijo, el mismo estáasociado a situaciones como las provocadas por que artículos de mala clase sean aceptadospara la venta, con pérdida para el consumidor. Equivalentemente, se puede calcular lo que sedenomina potencia de la prueba.Se le llama función de potencia a la expresión: П(θk) = 1 - β(θk)En forma directa se puede plantear: ˆ ˆ П(θk) = 1 - β(θk) = 1 - P( θ ∉ Wc / θ = θk) = P( θ ∈ Wc / θ = θk)Si β representa la probabilidad de aceptar una hipótesis nula falsa, П viene a representar laprobabilidad de rechazar dicha hipótesis nula falsa. Se puede decir entonces que la función depotencia permite calcular la probabilidad de descubrir la falsedad de una hipótesis nula, y adicha probabilidad para un θk dado se le llama potencia de la prueba.La función de potencia también se suele graficar. Gráficamente se comporta como una curvacon tendencia asintótica a 1 en la medida en que θk se adentra en la región crítica; por el otroextremo, si la prueba es unilateral, la curva es asintótica a 0: 112
  • 114. Los gráficos anteriores permiten concluir que cuando el valor real de un parámetro sometido aprueba se aleja mucho del valor hipotético, la potencia de la prueba, o sea, la probabilidad dedescubrir un cambio en la situación en estudio –si lo hubo-, será alta, y muy pequeño por tantoel tamaño probabilístico del error tipo II; pero ocurre lo contrario si el verdadero valor está muyalejado del hipotético.En general, se dice que una prueba es potente para un valor alternativo dado si su potencia esmayor del 80 u 85%.La función de potencia cumple además con las dos propiedades siguientes, observables en losgráficos: 1. П(θ0) = α 2. П(θC) = ½ = 0.5 113
  • 115. Una de las principales aplicaciones de la función de potencia es determinar, mediante despeje,el tamaño de muestra necesario para que, una vez fijado el valor de α, el valor de β nosobrepase una determinada cota.Ejemplo ilustrativo:Para ver una aplicación de lo planteado respecto a los valores de α, β y la potencia de unaprueba, conviene analizar una situación concreta, como la que se expone a continuación:El proceso de llenado de los paquetes de cereales en una determinada fábrica está ajustado deforma tal que el peso neto de los paquetes sigue una distribución normal con media de 368gramos y una desviación típica de 15 gramos. La oficina local de protección a los consumidoreshace inspecciones periódicas para conocer si el peso de los paquetes de cereal producidos porla fábrica tienen el peso adecuado; esta vez, para hacer los análisis pertinentes se tomó unamuestra aleatoria de 25 paquetes, calculándose el peso promedio, que resultó igual a 367.5gramos.a) Haga la prueba correspondiente para un α = 0.05, si se desea conocer si el peso promedio de los paquetes ha disminuido. Diga qué error pudiera cometerse, y cuál es su tamaño probabilístico. Calcule la potencia de la prueba.b) Si el gerente plantea que él está sobre todo interesado en detectar disminuciones en el peso medio por encima de los 10 gramos, ¿es potente la prueba para ello?c) ¿Qué pasaría con la prueba si el gerente decide utilizar como valor crítico μC = 367 gramos?d) ¿Qué tamaño debe tener la muestra que se utilice si se quiere una significación del 5% y una potencia del 98% para detectar disminuciones de al menos 5 gramos en el peso promedio?Solución:a) Datos:X: peso neto de las cajas de cereal (gramos)μ0 = 368 σ = 15 n = 25 x = 367.5 α = 0.05Como X ∼ N (μ ;σ ), siendo σ conocida, entonces x ∼ N (μ ;σ/ n ), es decir, se usará ladistribución Z.Hipótesis:Ho: μ = 368H1: μ < 368Región crítica: ⎧ σ ⎫ ⎧ 15 ⎫WC = ⎨x : x < μ 0 − Z1−α ⎬ = ⎨x : x < 368 − Z 0.95 ⎬ = {x : x < 368 − 1.64 ⋅ 3} = {x : x < 368 − 4.92} ⎩ n⎭ ⎩ 25 ⎭Por lo tanto la región de rechazo será: WC = { x : x < 363.08 }Decisión:x = 367.5 > 363.08 O sea: x ∉ WC 114
  • 116. Esto indica que, con la significación escogida (α = 0.05) no hay elementos para asegurar que elpeso medio de los paquetes de cereales es inferior a lo debido; la diferencia observada puededeberse a la aleatoriedad de la propia muestra.A partir de esta decisión, de haberse cometido un error, sería de tipo II. El tamaño probabilísticodel posible error puede determinarse como sigue: β = P ( x ∉ WC / μ = μk) = P ( x > μC / μ = μk)Y luego, la potencia de la prueba será: П(μk) = 1 - β(μk)Dado que β depende de algún valor específico del parámetro, su cálculo y el de la potenciarequieren que se considere algún valor alternativo para el verdadero peso neto medio de lascajas (μk). Pudieran considerarse, dos valores: μk1 = 320, muy alejado de μ0, y μk2 = 367, muycercano de μ0.Así, para una gran disminución, hasta μk1 = 320 se tiene: 363.08 − 320β(μk1) = P ( x > μC / μ = μk1) = P ( x > 363.08 / μ = 320) = P ( Z > ) = P ( Z > 14.36 ) 15 25 = 1 - FZ (14.36) = 1 – 1 = 0Y la potencia correspondiente es: П(μk1) = 1 - β(μk1) = 1 – 0 = 1 Este resultado indica que existe una probabilidad muy pequeña (casi cero) de concluir que el peso promedio no ha disminuido –o sea, de no detectar su disminución- si en realidad ha disminuido mucho. En términos de la potencia, la prueba es muy potente (П=100%) para detectar disminuciones en el peso neto medio si éste realmente ha disminuido mucho.Por su parte, para una mínima disminución, hasta μk2 = 367 se tiene: 363.08 − 367β(μk2) = P ( x > μC / μ = μk2) = P ( x > 363.08 / μ = 367) = P ( Z > ) = P ( Z > -1.31 ) 15 25 = 1 - FZ (-1.31) = 1 – 0.0951 = 0.9049Ahora la potencia correspondiente es: П(μk2) = 1 - β(μk2) = 1 – 0.9049 = 0.0951 Este otro resultado indica que existe una probabilidad alta de concluir que el peso promedio no ha disminuido –o sea, de no detectar su disminución- si en realidad ha disminuido muy poco. En términos de la potencia, la prueba es muy poco potente (П=9.51%) para detectar disminuciones en el peso neto medio si éste ha disminuido levemente.b) Datos:Δμ = -10 (disminución de 10 gramos)μk = μ0 + Δμ = 368 - 10 = 358Lo que se quiere es determinar la potencia de la prueba para μk = 358. Para ello se puedecalcular primero la correspondiente β(μk), o mejor, calcular directamente П(μk): 115
  • 117. 363.08 − 358П (μk) = P ( x < μC / μ = μk) = P ( x < 363.08 / μ = 358) = P ( Z < ) = P ( Z < 1.69 ) 15 25 = FZ (1.69) = 0.9545 Es decir, la prueba es altamente potente, pues existe un 95.45% de probabilidad de detectar una disminución en el peso neto medio de los paquetes si hay una disminución real de 10 gramos o más.c) Datos:μC = 367Si se toma un valor crítico distinto, el nivel de significación de la prueba o probabilidad decometer un error de tipo I cambia. En este caso, al ser mayor el nuevo valor crítico, estandomás cerca de μ0, el nivel de significación debe aumentar, como se ve en la siguiente figura.El nuevo valor de α puede calcularse como sigue: 367 − 368α = P( x < μC / μ = μ0) = P( x < 367 / μ = 368) = P ( Z < ) = P ( Z < -0.33 ) 15 25 = FZ (-0.33) = 0.3707 Se obtiene, pues, una probabilidad alta para el error tipo I, del 33.07%.d) Datos:Δμ = -5 (disminución de 5 gramos)μk = μ0 + Δμ = 368 - 5 = 363α = 0.05П (μk) = 0.98Se quiere determinar n para un nivel de significación y una potencia prefijados, lo cual implicaque se despeje de la función de potencia: ⎛ μ − μk ⎞ ⎛ μ − Z 1−α σ n − μ k ⎞ Π(μ k ) = P( x < μ C / μ = μ k ) = P⎜ Z < C ⎟ = P⎜ Z < 0 ⎟ ⎜ σ n ⎠ ⎟ ⎜ σ n ⎟ ⎝ ⎝ ⎠O sea, la potencia deseada para la prueba es la probabilidad acumulada hasta el valor de Zobtenido en la expresión anterior. Por tanto: 116
  • 118. μ 0 − Z 1−α σ n − μk ZΠ = , donde: ZП = Z0.98 = 2.05 σ nY efectuando los despejes previstos: σ σ ZΠ = μ 0 − Z 1−α − μk n n σ (Z Π + Z1−α ) = μ0 − μk n 2 ⎛ Z + Z 1−α ⎞Siendo, finalmente: n = ⎜ Π ⎜ μ − μ σ⎟ ⎟ ⎝ 0 k ⎠ 2 2 2 ⎛ Z + Z 1−α ⎞ ⎛Z + Z 0.95 ⎞ ⎛ 2.05 + 1.64 ⎞ ⎜n=⎜ Π σ ⎟ = ⎜ 0.98 ⎟ ⎜ 368 − 363 15 ⎟ = ⎜ ⎟ 15 ⎟ = (0.738 ⋅ 15 ) 2 = 11.07 2 = 122.54 ⎝ μ0 − μk ⎠ ⎝ ⎠ ⎝ 5 ⎠Entonces: n = 123 Esto quiere decir que se requiere una muestra de al menos 123 paquetes para garantizar los requerimientos planteados para la prueba.Consideraciones finales:Para un determinado tamaño de muestra, quien deba tomar la decisión tiene que equilibrar losdos tipos de errores, pues siempre que se disminuye α aumenta β, y viceversa. Los valorespara α y β dependen de la importancia de cada riesgo en un problema en particular.El riesgo de un error tipo I en el problema de llenado de los paquetes de cereales implica llegara la conclusión de que el peso promedio ha cambiado cuando en realidad no es así.El riesgo de un error tipo II implica llegar a la conclusión de que el peso promedio de llenadono ha cambiado cuando en realidad sí ha cambiado.Así la selección de los valores que deben tener α y β depende de los costos inherentes acada tipo de error. Por ejemplo si fuera muy costoso hacer cambiar la línea de llenado,entonces se querría estar muy seguro de que un cambio resultaría beneficioso por lo que unerror tipo I pudiera ser lo más atendible y α se mantendría muy bajo. Por otra parte, si se quiereestar seguro de detectar los cambios para una media hipotética, el riesgo de un error tipo II,sería lo más importante y se podría utilizar un nivel más alto de α.No obstante, al aumentar el tamaño de la muestra se pueden controlar tanto α como β,pero puede haber límites en los recursos disponibles, de ahí la necesidad de tomar en cuentalas consecuencias de cada error. Para la determinación del tamaño de muestra necesario serecurre al despeje de la función de potencia. 117
  • 119. EJERCICIOS DE AUTOEVALUCIÓN1.-Para probar que una moneda no está trucada, se adopta la siguiente regla de decisión:Acepte la hipótesis si el número de caras en una muestra simple de 10 lanzamientos está entre40 y 60 inclusive de lo contrario rechace la hipótesis. ¿Cuál es la probabilidad de aceptar lahipótesis de que la moneda no esté trucada cuando la probabilidad real de obtener cara es P =0.7?2.- Una empresa fabrica cordel cuya carga de rotura tiene una media de 300 lbs y unadesviación estándar de 24 lbs. Se cree que mediante un nuevo proceso de fabricación la cargamedia de rotura puede ser aumentada. a) Diseñe una regla de decisión para rechazar el proceso antiguo a un nivel de significación de 0.01 si se está de acuerdo en probar 64 cordeles b) Bajo la regla de decisión adoptada en el inciso (a) ¿cuál es la probabilidad de aceptar el proceso antiguo, cuando en realidad el nuevo proceso ha aumentado la carga media de rotura a 310 lbs.? Suponga que la desviación estándar sigue siendo 24 lbs.3.- Si la probabilidad de cometer un error tipo I disminuye, ¿cómo afecta esto a la probabilidadde cometer un error tipo II?4.- Si la probabilidad de cometer un error tipo II disminuye, ¿afecta esto a la probabilidad decometer un error tipo I?5.- Que es más importante controlar un error tipo I o el error tipo II?6.- Cada semana, la policía del Estado de La Florida intercepta un promedio de $56 millones endrogas que se transportan hacia el norte por una carretera interestatal. Durante 36 semanaselegidas al azar en 1992, la policía interceptó un promedio de $60 millones en drogas porsemana, con una desviación estándar de $20 millones. ¿Indica esta evidencia muestral unaumento en el movimiento de drogas a través de La Florida? Realice una prueba con un nivelde significación de 0.05. Calcule la probabilidad de que ocurra un error tipo II si la mediapoblacional es en realidad $59 millones.7.- ¿Es posible controlar las probabilidades de error tipo I y tipo II en una prueba de hipótesisparticular? Si es así, ¿cómo se logra? 118
  • 120. 5.3: Pruebas no paramétricas: Prueba chi-cuadrado de la bondad de ajuste paraverificar normalidad. Prueba chi-cuadrado para verificar el supuesto deindependencia. Tablas de contingencia.Como se ha dicho, una prueba no paramétrica es aquella que no requiere del conocimiento deparámetros o características de la distribución poblacional. Existen pruebas no paramétricaspara los más variados estudios, incluidos aquellos que también pueden realizarse mediantepruebas paramétricas; no obstante, si se puede escoger para una investigación dada entreefectuar una prueba paramétrica y una no paramétrica, se debe preferir la paramétrica, pueséstas son siempre más potentes que las no paramétricas equivalentes. La ventaja de laspruebas no paramétricas radica precisamente en el hecho de que no se necesita delconocimiento de características poblacionales que en muchos casos son ignoradas.Entre las pruebas no paramétricas más conocidas están las llamadas pruebas chi-cuadrado,que deben su nombre a que el estadígrafo de prueba utilizado sigue la distribución homónima.Las pruebas chi-cuadrado, en general, pretenden decidir sobre si una determinada variable,empírica u observada, cumple una cierta condición teórica. La hipótesis nula en estas pruebassiempre está asociada al cumplimiento de la condición, y la verificación se basa en compararlos valores observados con los valores teóricos esperados bajo dicha condición: Si lasdiferencias entre lo observado y lo esperado son muy grandes, es decir, mayores que un valortomado como crítico, se rechaza la hipótesis nula y se asume que no se cumple la condiciónsupuesta. Dos de las aplicaciones inmediatas de las pruebas chi-cuadrado son las que seconocen como pruebas para la bondad del ajuste y pruebas para independencia.Las pruebas para la bondad del ajuste se utilizan para verificar si un grupo de datos uobservaciones se ajusta bien al comportamiento de alguna distribución probabilística conocida,como la normal o la de Poisson. Existen muchos problemas donde el interés del investigador secentra en contrastar hipótesis sobre cómo se distribuye el número de sucesos que pertenecen aciertas categorías; la prueba chi-cuadrado no es la única aplicable a este tipo de estudios: paraanálisis de normalidad, por ejemplo, se utilizan mucho también la prueba Kolmogorov - Smirnovy la prueba Jarque - Bera, entre otras.Las pruebas de independencia buscan establecer si dos variables son independientes entre sío no. Tampoco son las únicas en este sentido; cabe mencionar las de Cramer y las de Kendall.PRUEBA CHI-CUADRADO PARA NORMALIDAD:Tiene gran importancia el poder conocer si un grupo de datos sigue o no una distribuciónnormal. La prueba χ2 es adecuada para dar solución a este tipo de problema.Las hipótesis correspondientes a esta prueba son:H0: x ∼ N (la variable sigue una distribución normal)H1: x ∼ N (la variable no sigue una distribución normal) /Para verificar la hipótesis de normalidad se toma una muestra aleatoria de tamaño n y seagrupan las observaciones en k clases o categorías, determinando para cada clase lasfrecuencias observadas (oi ó noi). La prueba busca comparar tales frecuencias observadas conlas frecuencias esperadas bajo la condición de normalidad (ei ó nei); las cuales se calculanmultiplicando el total de observaciones (n) por la probabilidad adjudicable a la variable depertenecer a cada clase asumiendo que hay normalidad (Pi), así: nei = n⋅ Pi 119
  • 121. (no − ne ) 2El estadístico de prueba se define cómo: 2 χ0 = ∑ i ne i iY la región crítica correspondiente es: WC = {2 χ0 : 2 χ0 2 > χ1−α (k −3 ) } Nota: De forma general el estadígrafo de prueba en las pruebas chi-cuadrado para la bondad del ajuste tiene k - m -1 grados de libertad, siendo k la cantidad de clases o categorías en que se ha distribuido la variable (garantizando que se cumplan determinados supuestos), y m es la cantidad de parámetros que caracterizan a la distribución bajo análisis: en el caso de una distribución normal, ésta se caracteriza totalmente con μ y σ, luego m = 2, por lo que los grados de libertad resultan k - 3.Para realizar la prueba deben cumplirse los siguientes supuestos o restricciones: Si k = 2, ninguna frecuencia esperada (ei ó nei) debe ser menor que 5 Si k > 2, solo el 20% de las frecuencias esperadas (ei ó nei) puede ser menor que 5 Ninguna frecuencia esperada (ei ó nei) puede ser menor que 1En caso de que se viole algún supuesto, esto se resuelve agrupando clases adyacentes hastaque se logre el cumplimiento. En cualquier caso, es evidente que al final de los cálculos debecumplirse que: ∑ Pi = 1.Procedimientos para el cálculo de las Pi:Como los datos suelen estar en su forma primaria, el primer paso es organizarlos, creandoclases, pues la distribución normal corresponde a una variable continua. Para ello se debedeterminar el recorrido de la variable, decidir cuántas clases conviene usar y calcular el anchode clases necesarios. Una vez hecho esto se deberán estimar los dos parámetros quecaracterizan a la distribución normal: μ y σ. Con las correspondientes estimaciones se pasará acalcular para cada clase la probabilidad de que una variable con distribución normal pertenezcaa la misma; en este cálculo, dado el comportamiento teórico normal, la primera clase seconsidera como originada en menos infinito (-∞), y la última clase como extendida hasta infinito(∞). Con esas probabilidades se calculan las frecuencias esperadas, verificándose que secumplen los supuestos requeridos. Finalmente, se obtiene el valor del estadígrafo de prueba,que permite tomar una decisión.Como se aprecia, el procedimiento es bastante laborioso, sobre todo el cálculo de laprobabilidad correspondiente a cada clase; por eso, si se tiene una muestra relativamentegrande (n mayor que 60 ó 100 observaciones), se puede recurrir a un método alternativo quesimplifica algunos cálculos, y que se basa en la regla de las tres sigmas asociada a ladistribución normal.Vale la pena recordar que la regla de las tres sigmas establece que para toda distribuciónnormal con media μ y desviación típica σ el área bajo la curva de su función de densidad sedistribuye de la siguiente forma: 120
  • 122. Lo cual equivale a decir que: 1. P(μ −σ < X < μ+σ) = 68.27% del área bajo la curva normal 2. P(μ −2σ < X < μ+2σ) = 95.45% del área bajo la curva normal 3. P(μ −3σ < X < μ+3σ) = 99.73% del área bajo la curva normalEl método alternativo propuesto sugiere aprovechar esto para construir los intervalos de clasede manera que las probabilidades correspondientes sean siempre valores fijos, dados por lassecciones en que queda subdividida el área bajo la curva. Entonces, se procederá como sigue: Primeramente se estimarán μ y σ a partir de la totalidad de los datos sin tabular Se crearán 6 clases, partiendo de la estimación para μ en el centro de las clases (o sea, como límite superior de la tercera clase e inferior de la cuarta) y tomando como ancho de clases la estimación para σ. Se adjudicarán las frecuencias observadas correspondientes a cada clase, y las respectivas probabilidades, valores estos últimos que siempre serán: 0.0228, 0.1359, 0.3413, 0.3413, 0.1359 y 0.0228. Finalmente, se calcularán las frecuencias esperadas, y se verificará que se cumplan los supuestos; luego se obtendrá el estadígrafo de prueba.Ejemplo:A partir de la muestra siguiente, se quiere verificar, con un nivel de significación del 5%, si lamisma procede de una población normal. 10 12 13 14 15 22 28 30 30 29 10 11 15 10 15 26 26 28 27 29 16 16 20 17 18 30 28 27 26 30 19 20 17 18 20 29 26 26 28 29 20 19 19 18 17 27 27 26 26 28 17 16 23 24 23 27 31 32 33 33 21 22 22 21 22 29 33 33 32 31 121
  • 123. 24 23 24 23 21 35 32 31 38 39 24 23 20 21 21 34 37 41 39 41 24 24 23 21 22 31 38 36 36 40Solución:En el problema se tiene que: n = 100 y ∑X = 2500 1 2500Por tanto: μ = x = ˆ n ∑X = 100 = 25 1 5420 σ2 = s2 = ˆ n −1 ∑ ( X − x) 2 = 99 = 54.75 y: s = 54.75 = 7.4Es decir, se partirá de x = 25 como valor que cierra la tercera clase y abre la cuarta, y tomandocomo ancho de clase c = s = 7.4, se crearán las clases y la tabla de frecuencias: clases noi Pi nei = n⋅Pi -∞ – 10.2 3 0.0228 2.28 10.2 – 17.6 14 0.1359 13.59 17.6 – 25.0 34 0.3413 34.13 25.0 – 32.4 33 0.3413 34.13 32.4 – 39.8 14 0.1359 13.59 39.8 – ∞ 2 0.0228 2.28 Nota: Puesto que las clases se han creado atendiendo al criterio derivado de la regla de las 3 sigmas, las probabilidades correspondientes son los valores antes listados. No obstante, a continuación se muestra cómo calcularlas, para el caso en que no se quiera o no se pueda seguir este método, o incluso siguiéndolo no se recuerden las probabilidades: P1 = P( x ≤ 10.2 ) = P [ z ≤ (10.2 – 25)/ 7.4 ] = P ( z ≤ -2 ) = Fz (-2) = 0.0228 P2 = P( 10.2 < x ≤ 17.6 ) = P( -2 < z ≤ -1 ) = Fz (-1) - Fz (-2) = 0.1587 - 0.0228 = 0.1359 P3 = P( 17.6 < x ≤ 25 ) = P ( -1 < z ≤ 0 ) = Fz (0) - Fz (-1) = 0.5 - 0.1587 = 0.3413 P4 = P( 25 < x ≤ 32.4 ) = P( 0 < x ≤ 1 ) = Fz (1) - Fz (0) = 0.8413 - 0.5 = 0.3413 P5 = P( 32.4 < x ≤ 39.8 ) = P( 1 < z ≤ 2 ) = Fz (2) - Fz (1) = 0.9772 - 0.8413 = 0.1359 P6 = P( x > 39.8) = P( z > 2 ) = 1 - Fz (2) = 1 - 0.9772 = 0.0228Una vez completada la tabla se debe comprobar el cumplimiento de las restricciones, y severifica que: ∑ Pi = 1 Todas las frecuencias esperadas son mayores que 1 122
  • 124. Dos clases tienen frecuencias esperadas menores que 5, de un total de seis, lo que equivale a decir que el 33% de las frecuencias esperadas (2/6 = 0.33) son menores que 5, por lo que se viola esta restricción.Para remediar el no cumplimiento en la restricción anterior se debe agrupar clases adyacentes;en este caso se pudieran agrupar la primera y la segunda clases, o la quinta y la sexta, y comohay dos posibilidades de agrupamiento se debe preferir aquella en donde inicialmente hay másdiferencias entre las frecuencias esperadas y los observadas, que aquí se corresponde con lasclases primera y segunda. La tabla, después de agrupadas las clases queda: clases noi n ei -∞ – 17.6 17 15.87 17.6 – 25.0 34 34.13 25.0 – 32.4 33 34.13 32.4 – 39.8 14 13.59 39.8 – ∞ 2 2.28Ahora, de cinco clases en total, una tiene la frecuencia esperada menor que 5, lo que haceconstituye el 20%, que es justo el máximo admitido para esta restricción, que se puede dar yaentonces por cumplida. Queda, pues, k = 5.Hipótesis:H0: x ∼ NH1: x ∼ N /Región crítica: { 2 2 2 } { 2 2 2 2 } { 2WC = χ 0 : χ 0 > χ1−α (k −3 ) = χ 0 : χ 0 > χ 0.95 ( 2 ) = χ 0 : χ 0 > 5.99 } (α = 0.05 )Decisión: (no − ne ) 2El estadígrafo de prueba 2 es: χ 0 = ∑ i ne i i 2χ0 = (17 − 15.87) 2 + (34 − 34.13 ) 2 + (33 − 34.13 ) 2 + (14 − 13.59) 2 + (2 − 2.28) 2 = 0.1374 15.87 34.13 34.13 13.59 2.28 χ 0 = 0.1374 < 5.99 O sea: χ 0 ∉ WC , por lo que no se rechaza H0. 2 2Esto quiere decir que puede aceptarse, con una significación del 5%, que los datos siguen unadistribución normal.PRUEBA CHI-CUADRADO PARA INDEPENDENCIA:Otro problema que requiere de una prueba estadística es el de contrastar el supuesto deindependencia estadística entre dos variables aleatorias. La prueba resultante puede seraplicada para variables tanto cualitativas como cuantitativas.Las hipótesis correspondientes son:H0: X y Y son independientes 123
  • 125. H1: X y Y son dependientesPara desarrollar la prueba las dos variables sobre las que se plantean las hipótesis seclasificarán conjuntamente en categorías o clases, en una tabla denominada tabla de dobleentrada o tabla de contingencia, como la mostrada: Y Y1 Y2 … Yk nX X X1 no 11 no 12 … no 1k nX1 X2 no 21 no 22 … no 2k nX2 no i j … … … … … Xr no r1 no r2 … no rk nXr nY nY1 nY2 … nYk nSe denota por k la cantidad de categorías en que se clasifica la variable Y, o sea, la cantidad decolumnas, y por r la cantidad de categorías de la variable X, o lo que es lo mismo, la cantidadde filas; así, en una muestra de n observaciones, los datos serán clasificados en k⋅r grupos.Las frecuencias denotadas por no i j dentro de la tabla son las llamadas frecuencias observadasconjuntas, y representan la cantidad de veces que se observan a la vez el valor Xi de X con elvalor Yj de Y ( Se suele reservar el subíndice i para la X y el subíndice j para la Y ).En los bordes derecho e inferior de la atabla aparecen las llamadas frecuencias marginales deX y de Y respectivamente (nX y nY), que representan el total de observaciones para cada valorde la correspondiente variable, sin tener en cuenta los valores de la otra, siendo: r k nY = j ∑ i=1 no ij y n Xi = ∑ noij j=1Para cada par (Xi ; Yj) deben calcularse las frecuencias esperadas bajo la hipótesis deindependencia, que se denotan por ne i j y suelen ponerse entre paréntesis junto a la frecuenciaobservada correspondiente. Para ello se necesita también calcular la probabilidad (Pi j) de queocurra cada par de valores (Xi ; Yj) siendo las variables independientes.Las frecuencias esperadas se calculan como: ne i j = n Pi jY las probabilidades correspondientes se pueden obtener partiendo de la condición deindependencia, así: n X n Yj n Xi ⋅ n Yj Pi j = Pi j ⋅ Pi j = i ⋅ = n n n2Aquí: Pi j representa la probabilidad de pertenecer a la clase o celda (i, j) Pi representa la probabilidad de pertenecer a la clase i de la variable X Pj representa la probabilidad de pertenecer a la clase j de la variable Y Nota. En función de lo anterior, pudiera encontrarse un equivalente para las hipótesis planteadas; es decir: H0: X y Y son independientes equivale a: H0: Pi j = Pi Pj 124
  • 126. H1: X y Y están relacionadas equivale a: H1: Pi j = Pi PjFinalmente, las frecuencias esperadas quedan: nX ⋅ nY i j ne = ij nDichas frecuencias esperadas deben cumplir con los mismos supuestos o restricciones que enla prueba para verificar normalidad, es decir: Ninguna frecuencia esperada puede ser menor que 1 No más de un 20% de las frecuencias esperadas pueden ser menores que 5El estadígrafo de prueba también se calcula de la misma manera, teniendo en cuenta que lasumatoria incluye ahora dos variables: 2 ⎛n − n ⎞ ⎜ oij eij ⎟ ⎝ ⎠ 2 χ0 = ∑ ij ne ijEn este caso los grados de libertad asociados al estadígrafo son el producto (k-1)(r-1), por loque la región crítica toma la forma: {2 2 2 WC = χ 0 : χ 0 > χ1−α [(k −1)(r −1)] }Ejemplo:Una muestra aleatoria simple de 300 estudiantes universitarios de las carreras de Economía yContabilidad arrojó los siguientes resultados respecto a la distribución de las evaluaciones enEstadística: Evaluación: 2 3 4 5 Total Carrera: Economía 27 85 50 18 180 Contabilidad 24 44 40 12 120 Total 51 129 90 30 300¿Puede afirmarse con base en estos datos, que entre la población de estudiantes universitariosde las carreras de Economía y Contabilidad hay diferencias respecto a sus resultados enEstadística? Utilice un nivel de significación del 5%.Solución:Datos:n = 300 r = 2 (carrera: número de filas) k = 4 (evaluaciones: número de columnas) Nota: Decir que los resultados en Estadística se diferencian para las carreras de Economía y Contabilidad equivale a decir que dichos resultados dependen de la carrera que se estudia, por lo que puede efectuarse la verificación mediante una prueba chi-cuadrado para independencia.Hipótesis:H0: Los resultados en Estadística son independientes de la carrera 125
  • 127. H1: Los resultados en Estadística dependen de la carrera En la tabla de contingencia se tienen las distintas frecuencias observadas; es necesario además calcular las correspondientes frecuencias esperadas, así: nX ⋅ nY i j ne = ij n Por ejemplo, será: nX ⋅ nY 51 ⋅ 180 nX ⋅ nY 30 ⋅ 120 1 1 2 4 ne = = = 30.6 ó ne = = = 12 11 n 300 24 n 300 Y sustituyendo los distintos valores en la tabla de contingencia, queda: Evaluación: 2 3 4 5 Total Carrera: Economía 27 (30.6) 85 (77.4) 50 (54) 18 (18) 180 Contabilidad 24 (20.4) 44 (51.6) 40 (36) 12 (12) 120 Total 51 129 90 30 300 Como se ve, todas las frecuencias esperadas son directamente mayores que 5, por lo que se cumplen los supuestos o restricciones, y se mantiene la cantidad original de filas y columnas (r = 2 y k = 4).Región crítica: 2 { 2 2 2 } { 2 2 } {2 2 2 2 } { 2WC = χ 0 : χ 0 > χ1−α [(k −1)(r −1)] = χ 0 : χ 0 > χ 0.95 [(1)(3 )] = χ 0 : χ 0 > χ 0.95 ( 3 ) = χ 0 : χ 0 > 7.81 }Decisión: 2 (27 − 30.6) 2 (85 − 77.4) 2 (50 − 54) 2 (18 − 18) 2 (24 − 20.4) 2 ( 44 − 51.6) 2 ( 40 − 36) 2 (12 − 12) 2χ0 = + + + + + + + 30.6 77.4 54 18 20.4 51.6 36 12χ 0 = 3.665 < 7.81 2 2 O sea: χ 0 ∉ WC , por lo que no se rechaza H0.Esto quiere decir que, con una significación del 5%, no existen elementos para afirmar que losresultados en Estadística entre los estudiantes de Economía y Contabilidad dependen de lacarrera que estudian; en otras palabras, no hay diferencias significativas en cuanto a losresultados en Estadística entre ambas carreras.EJERCICIOS DE AUTOEVALUACIÓN1.- ¿Para que se utiliza la prueba o dócima de bondad del ajuste? ¿Cuales son las restriccionesque se tiene en cuenta para aplicar la distribución χ2 a esta prueba no paramétrica? ¿Cómo seplantearían las hipótesis en este tipo de prueba? ¿Cómo se calculan las frecuenciasesperadas?2.- ¿Por qué es necesario al calcular las Pi que estas sumen 1? 126
  • 128. 3.- Una muestra aleatoria de 500 acumuladores para automóviles mostró la siguientedistribución: de la duración en años de los acumuladores. Intervalos ni 0 a 2 12 2 a 4 94 4 a 6 170 6 a 8 188 8 a 10 28 10 a 12 8 Pruebe a un α = 0.05, si dicha distribución sigue una distribución normal. Utilice la prueba de χ2.4.- La corporación SIMEX tiene varios miles de trabajadores por hora. La analista de lacorporación quiere determinar si la distribución normal se puede utilizar para describir la escalade salarios por hora de la corporación; para ello seleccionó una muestra aleatoria detrabajadores por hora y se registró sus salarios. La analista encontró que la media y ladesviación típica muestral son $8.00 y $0.78 respectivamente. Realice la prueba deseada paraun α del 5%. Intervalos ni < 5.66 12 5.66 6.44 38 6.44 7.22 104 7.22 8.00 131 8.00 8.78 117 8.78 9.56 98 9.56 10.34 47 > 10.34 13 5605.- El director de mercadotecnia de una compañía de televisión por cable está interesado endeterminar si hay alguna diferencia en la proporción de hogares que contratan el servicio decable por televisión, sobre la base del tipo de residencia (viviendas para una sola familia,viviendas para 2 ó 4 familias y edificios de apartamentos). Una muestra aleatoria de 400hogares mostró lo siguiente: Tipo de casa Casa de una Casa de 2 a 4 Edificio de Total TV cable sola familia familias apartamentos Sí 94 39 77 210 No 56 36 98 190 Total 150 75 175 400 Con un α = 0.01, ¿podría considerar que hay relación entre la contratación de servicios de TV por cable y el tipo de residencia?6.- ¿Por qué no se debe aplicar la prueba chi-cuadrado para la independencia cuando lasfrecuencias esperadas en algunas celdas sean menores que 5? ¿Qué acción se puede llevar acabo en estas circunstancias que permitan analizar esos datos? 127
  • 129. 7.- Una gran corporación esta interesada en determinar si existe asociación entre el tiempo quele toma a sus empleados trasladarse al trabajo, y el nivel de problemas relacionados con elestrés observado en los mismos, con vistas a situarles un ómnibus si esto se comprueba. Unestudio de 116 trabajadores de la línea de montaje reveló lo mostrado en la tabla que sigue.Determine si hay relación entre el tiempo de viaje y el estrés. Estrés Alto Moderado Bajo Total Tiempo Viaje Menos de 15 min 9 5 18 32 De 15 a 45 min 17 8 28 53 Más de 45 min 18 6 7 31 Total 44 19 53 116 128
  • 130. TEMA VI: ANÁLISIS DE VARIANZA6.1: Conceptos básicos del análisis de varianza. Modelo de clasificación simple.Supuestos del método.Se inicia aquí el estudio de una técnica llamada análisis de varianza, de marcada importanciadentro de la Estadística, en particular para el diseño de experimentos. Su fin inmediato esaplicar una prueba de hipótesis para la comparación de medias entre varias poblacionales,sobre la base de datos muestrales. Ejemplos de aplicación son los siguientes: • La decisión acerca de qué método de producción abarata más los costos. • La comparación de la producción media por hectárea de distintas variedades de un cultivo. • La investigación sobre qué tipo de fertilizante da mejores rendimientos. • La evaluación en un laboratorio médico sobre el efecto de diferentes medicamentos en la presión sanguínea. • La verificación de la similar efectividad de tres métodos de enseñanza de una lengua extranjera.El análisis de varianza como técnica es un instrumento estadístico poderoso que trata dedeterminar si el efecto aislado de un factor externo –o de un conjunto de factores externos-incide sobre el comportamiento de una variable o característica en estudio. Para ello se debecontar con observaciones de la variable bajo diferentes influencias del factor externo, demanera que puedan compararse los promedios de la variable correspondientes a los distintosvalores del factor.En casi toda la bibliografía sobre el análisis de varianza utiliza el símbolo Y, en vez de X, paradenotar la variable en estudio, justificado esto por el hecho de que se asume que es unavariable que puede estar dependiendo de otra –u otras-: el factor externo, y los matemáticosprefieren explicitar así una variable dependiente.En cuanto al factor externo, el mismo puede ser considerado como una variable independiente,cuya naturaleza puede ser tanto cualitativa como cuantitativa; pero lo que interesa de él son losdistintos valores que toma, a los que se les llama niveles, y su efecto en los valores de lacaracterística medible o variable dependiente.Esta técnica pretende expresar la variabilidad total del conjunto de datos como una suma detérminos que se pueden atribuir a distintas fuentes o causas específicas de variación. A esadescomposición de la variabilidad total se le denomina identidad fundamental del análisis devarianza. La identidad fundamental da pie a la formación de un estadístico de prueba, y todoello se refleja en una tabla llamada tabla de análisis de varianza o tabla ANOVA, por lassiglas en inglés, que resume los principales aspectos teórico-prácticos de la técnica.ANÁLISIS DE VARIANZA DE CLASIFICACIÓN SIMPLE:Atendiendo a la cantidad de factores externos considerados en el modelo el método de análisisde varianza se clasifica en simple (un único factor), doble (dos factores), y múltiple (más defactores). 129
  • 131. Es común representar con k la cantidad de niveles o valores distintos del factor externo, a loque también se llama cantidad de poblaciones en comparación, y cada una da lugar a unamuestra o grupo de observaciones. La notación en uso tiende además a indicar con unsubíndice i los diferentes niveles o poblaciones a los que da origen (1 ≤ i ≤ k), y con unsubíndice j las distintas observaciones correspondientes a las muestras o grupos tomados paracada población o nivel.En el análisis de varianza de clasificación simple se trata entonces de decidir si undeterminado factor externo influye o no sobre una variable, juzgando –mediante una prueba dehipótesis- si la variabilidad que se observa en la variable es atribuible al azar o si realmente sedebe a la influencia de dicho factor. Ejemplo: Se desea comparar el efecto de tres tipos de pienso para cerdos en el incremento en peso de los animales. La característica medible o variable dependiente es el incremento en peso de los cerdos. El factor externo o variable independiente es el tipo de pienso. Los niveles del factor son cada uno de los tipos de pienso. Las poblaciones en comparación son en este caso tres (k = 3): los posibles cerdos alimentados con cada tipo de pienso; y de cada una de ellas se debe disponer de una muestra aleatoria.Las hipótesis en el análisis de varianza tienen siempre la siguiente forma: H0: μ1 = μ2 = … = μk (las medias de las k poblaciones son todas iguales) H1: Al menos una μi difiere de las demásO sea, la hipótesis nula recoge el hecho de que las medias correspondientes a cada poblaciónen estudio sean todas iguales, lo cual equivale a que el factor externo no incide sobre lavariable. La hipótesis alternativa habla de diferencias entre las medias de algunas poblaciones,lo que está asociado entonces con alguna influencia del factor externo.Fundamentación teórica del método:Ya se ha dicho que la este método se basa en expresar la variabilidad total del conjunto dedatos como una suma de términos que se pueden atribuir a distintas fuentes o causasespecíficas de variación, y para ello se hace uso ve varios teoremas importantes en el campode la Estadística.Hay un teorema que plantea que si se unen k poblaciones, de respectivo tamaño Ni, pero conigual varianza σ2, entonces la varianza total asociada a la nueva megapoblación o poblaciónglobal será: 130
  • 132. k 2 ∑ N (μ i=1 i i − μ) σ2 T =σ + 2 , siendo N = ∑Ni el tamaño de la población global. NPor lo tanto, si todas las medias son iguales será: σ 2 = σ 2 . TPor otra parte, si alguna media poblacional es diferente, se puede concluir que σ 2 > σ 2 . TDe modo que una comparación de varianzas puede conducir a una conclusión sobre laigualdad de medias poblacionales. El método que se utiliza es a través de losestimadores de σ2.Hay otro teorema que plantea que si dos o más muestras proceden de una misma población, ode diferentes poblaciones con igual varianza σ2, entonces podrá obtenerse un estimador de σ2 através de la siguiente expresión: 2 ∑ (y ) ( ) ni 1 2 SD = ij − yi siendo: E S D = σ 2 2 n−k j=1A esta varianza se le da el nombre de varianza dentro del grupo, y dada la forma de su valoresperado se cumple que SD2 siempre es un estimador insesgado de σ2.Conviene destacar que esta varianza, como es insesgada, proporciona una estimación válidade la varianza desconocida de la población sin importar si se acepta o rechaza H0.Un teorema más establece que, bajo la misma condición de que todas las varianzaspoblacionales son iguales a σ2, otro estimador de σ2 es: 2 ∑n ( y ) k k ∑ n (μ − μ) 2 i i −y i i 2 SE = i=1 k −1 siendo: E ( )= σ 2 SE 2 + i=1 k −1A este varianza de le denomina varianza entre grupos, y dada la forma matemática de su valoresperado se ve que SE2 es un estimador sesgado de σ2, que se hace insesgado sólo sitodas las medias poblacionales son iguales, o sea, si se cumple la hipótesis nula planteadapara el análisis de varianza.En el caso del análisis de varianza de clasificación simple, la variación total en los datos sedivide en dos fuentes: variación entre grupos y variación dentro de grupos, y esto se expresamediante las llamadas sumas de cuadrados, que son los denominadores de las varianzas. Así,se tendría una suma de cuadrados total (SCT), una suma de cuadrados entre grupos (SCE) yuna suma de cuadrados dentro de grupos (SCD), quedando la identidad fundamental delanálisis de varianza como sigue: SCT = SCD + SCEDonde: SCE = ∑ (y ij i − y)2 = ∑ n (y i i − y)2 131
  • 133. SCD = ∑ (y ij ij − y i )2 = ∑ (n − 1) s i 2 i SCT = ∑ (y ij ij − y )2La suma de cuadrados entre grupos busca las diferencias de las medias de cada gruporespecto a la media de la muestra conjunta; por tanto, en el caso en que la hipótesis nula delanálisis de varianza sea cierta esta diferencia entre grupos será mínima. La suma de cuadradosdentro de los grupos lo que hace es comparar cada elemento de la muestra con la media de supropio grupo.Una representación gráfica del origen de estas variaciones es siempre útil para comprender susignificado:Es evidente que: ( y ij − y ) = ( y ij − y i ) + ( y i − y )Si se eleva al cuadrado ambos miembros, y se suma sobre todos los grupos (i) y todas lasobservaciones correspondientes (j), tras hacer algunas transformaciones matemáticas se llegaa la identidad fundamental planteada anteriormente: k ni k ni k ∑∑(y i=1 j=1 ij −y = ) ∑∑(y 2 i=1 j=1 ij − yi +) ∑n (y − y ) 2 i=1 i i i 2 (SCT = SCD + SCE)Desarrollo práctico del método:En la simbología usada al definir las sumas de cuadrados se tiene que: Representa el tamaño de muestra correspondiente a la población i- ni ésima. Representa el tamaño de la muestra conjunta, o sea, el total de n = Σni observaciones. 132
  • 134. 1 y= n ∑y ij ij Representa la media de todas las observaciones efectuadas, es decir, de la muestra conjunta. 1 yi = ni ∑y j ij Representa la media de las observaciones correspondientes a la muestra i-ésima. ∑ (y ) 1 2 Representa la estimación de la varianza efectuada a partir de la s i2 = ij − yi ni − 1 j muestra i-ésima.No obstante, como el cálculo manual de las sumas de cuadrados es bastante laborioso, sobretodo si se tienen que estimar previamente las medias y varianzas de cada grupo, y la mediaglobal, cuando estas estimaciones no se tienen de antemano –que es lo común- se suelerecurrir a fórmulas alternativas que simplifican un poco el proceso, y estas son: T i2 T2 SCE = ∑ i ni − n Donde: n = ∑ n es el tamaño de la muestra global, y n el de cada grupo i i i T = ∑ y son los totales (suma de observaciones) de cada grupo i ij j T= ∑ T es el total de la muestra conjunta i i T2 SCT = ∑ij 2 y ij − n Ti2 SCD = ∑ij 2 y ij − ∑ i ni Esta última, dado el carácter aditivo de las sumas de cuadrados, se acostumbra a obtener por diferencia, es decir como: SCD = SCT − SCEDe la misma forma resulta de gran importancia en el análisis de varianza la relación entre losgrados de libertad asociados a cada suma de cuadrados, y que son: GLE = k -1 (grados de libertad entre grupos) GLD = n - k (grados de libertad dentro de grupos) GLT = n - 1 (grados de libertad totales)Para los grados de libertad se cumple también que: GLT = GLD + GLEO explícitamente: (n – 1) = (n – k) + (k – 1) 133
  • 135. Al dividir las sumas de cuadrados entre sus grados de libertad se obtienen los distintoscuadrados medios o estimadores de σ2, es decir la varianza total ST2, la varianza dentro delgrupo SD2, y la varianza entre grupo SE2; siendo los dos últimos los de verdadero interés para laaplicación de la técnica, pues del cociente de estos se obtiene el estadígrafo de prueba F0. Asíse tiene: 2 SCD 2 SCE S D = CMD = y SE = CME = n−k k −1 2 SEY el estadígrafo de prueba es: F0 = 2 SDDebido a que el cálculo de varianzas entre y dentro de grupos conlleva varios pasos, seacostumbra a resumir estos resultados en una tabla conocida como tabla de análisis devarianza (ANOVA). Esta tabla incluye las fuentes de variación, las sumas de los cuadrados (esdecir las variaciones), los grados de libertad, las varianzas o cuadrados medios y el valor delestadístico de prueba F0, obtenido del cociente SE2/SD2: Tabla ANOVA Fuentes de Sumas de Grados de Varianzas o Estadígrafo Variación Cuadrados Libertad Cuadrados Medios entre 2 SCE SCE k-1 sE = 2 grupos n −1 sE F0 = 2 dentro de 2 SC D sD SCD n-k sD = grupos n−k total SCT n-1Al estadígrafo se le llama F porque se ha probado que la razón de dos varianzas tiene asociadauna distribución probabilística F de Fisher, cuyos grados de libertad en este caso coinciden conlos de las sumas de cuadrados en el numerador y en el denominador, es decir: F0 ∼ F(k-1;n-k).Con el fin de determinar si las medias de los diversos grupos son todas iguales, se puedenexaminar dos estimadores diferentes de la varianza de la población. Uno de los estimadores sebasa en la suma de los cuadrados dentro de los grupos (SCD); el otro se basa en la suma de loscuadrados entre los grupos (SCE). Si la hipótesis nula es cierta, estos estimadores deben seraproximadamente iguales; si es falsa el estimador basado en la suma de los cuadrados entregrupos debe ser mayor.El estimado de la varianza entre los grupos no solo toma en cuenta las fluctuaciones aleatoriasde una observación a otra, sino también mide las diferencias de un grupo con otro. Si no haydiferencia de un grupo a otro, cualquier diferencia en la media muestral se explicará por lavariación aleatoria, y la varianza entre grupos, debe estar cerca de la varianza dentro de losgrupos. Sin embargo si en realidad hay una diferencia entre los grupos, la varianza entre gruposserá significativamente mayor que la varianza dentro de los grupos.Por todo lo anterior, la prueba estadística se basa en la razón de las varianzas SE2/SD2. Si lahipótesis nula es cierta, esta razón debe estar cercana a uno; si la hipótesis nula es falsaentonces el numerador debe ser mayor que el denominador y la razón debe ser mayor que uno 134
  • 136. Como se aprecia el problema se reduce a buscar un valor a partir del cuál el estadístico deprueba resulte significativamente mayor que 1, y así se rechazará la hipótesis de que no haydiferencias entre las medias de los grupos cuando la razón entre las varianzas o cuadradosmedios sea mayor que el valor tomado crítico: SE2/SD2 = CME/CMD > F1 − α ( k – 1;n – k)De aquí se infiere que las hipótesis nula y alternativa que se plantearán serán las siguientes:H0: μ1 = μ2 = . . . = μkH1: alguna μi diferenteEs bueno señalar que estas hipótesis son equivalentes a decir: ( ) 2 E SE =1 ( )>1 2 E SE H0 : ( ) 2 E SD H1 : E(S ) 2 DYa que como se vio anteriormente SE2 es un estimador sesgado de la varianza total, y sólo seráinsesgado si se cumple que H0 es cierta, mientras que SD2 es siempre un estimador insesgado.Además ésta es la razón por la cuál la distribución a utilizar es la F de Fisher, pues parte de larelación entre dos varianzas. La región crítica siempre es hacia la derecha ya que el problemase reduce a buscar un valor a partir del cuál el estadístico de prueba resulte significativamentemayor que 1 para rechazar la hipótesis nula.O sea, la región crítica toma la forma: ⎧ S2 ⎫ W C = ⎨F0 = E : F0 > F1− α (k − 1 ; n − k ) ⎬ 2 ⎩ SD ⎭Supuestos del modelo del análisis de varianza:Para aplicar la técnica del análisis de varianza es necesario que se cumplan las siguientessuposiciones sobre los datos investigados: 1. Las varianzas de las k poblaciones son iguales, o sea: σ12 = σ22 = …= σk2 2. Las características medibles se distribuyen normalmente en cada población; esto es: Yi ∼ N(μi ; σi), donde i = 1, 2,…,k. 3. Las características medibles son estadísticamente independientes de una población a otra: Y1, Y2,..., Yk. 4. Las muestras n1, n2,...,nk de los k grupos poblacionales son seleccionadas mediante un muestreo aleatorio simple.De estos supuestos el más importante es el primero citado, bajo el que se asume que lasvarianzas poblacionales son iguales para todos los grupos en comparación, el cual es conocidocomo supuesto de igualdad u homogeneidad de varianzas, o más técnicamente como supuestode homocedasticidad (igual variabilidad). De incumplirse el supuesto de homocedasticidad seinvalida el resultado obtenido al aplicar la prueba del análisis de varianza, por ello resulta útilante la duda verificar antes (o después si se prefiere) su cumplimiento.Verificación del supuesto de homocedasticidad: Prueba de Bartlett 135
  • 137. Para verificar el cumplimiento del supuesto de homocedasticidad se utiliza, entre otras, lallamada prueba o dócima de Bartlett -en honor al matemático que la introdujo-, cuya hipótesisnula habla de la existencia de homocedasticidad y la alternativa de la no existencia, o lo que eslo mismo, de la presencia de heterocedasticidad, como sigue: H0: σ12 = σ22 = …= σk2 (las varianzas de las k poblaciones son todas iguales) H1: Al menos una σi2 difiere de las demásBartlett encontró que, si para cada población se contaba con una muestra de al menos cincoobservaciones (ni ≥ 5), el cociente representado por M/C seguía con muy buena aproximaciónuna distribución chi-cuadrado, y podía ser utilizado como estadígrafo de prueba con la regióncrítica dada por: ⎧M M 2 ⎫ WC = ⎨ : > χ 1− α ( k −1) ⎬ ⎩C C ⎭El valor de M se calcula como: ⎡ 2 ⎤ 2 M = (n − k ) ln( s D ) − ∑ (n − 1)ln(s i i 2 i ) ⎣ 2 ó M = 2,3026 ⎢(n − k ) lg( sD ) − ∑ (n − 1)lg(s i i i )⎥ ⎦En estas expresiones equivalentes ln indica el logaritmo natural y lg el logaritmo decimal. Comoeste último es más sencillo de obtener usando tablas de logaritmos, se suele plantear laexpresión en términos del logaritmo decimal y luego multiplicar por 2.3026, que es el factor deconversión de logaritmos decimales en naturales.A su vez, sD2 (también CMD) es la varianza o cuadrado medio dentro de grupos ya obtenidapreviamente durante el cálculo de F0: 2 SC D sD ≡ CMD = n−kY si2 representa la estimación de la varianza para el i-ésimo grupo: ∑ (y ) 1 2 s i2 = ij − yi ni − 1 jPor su parte, C se calcula como: 1 ⎡ 1 1 ⎤ C = 1+ ⎢ 3(k − 1) ⎣ ∑n i −1 − ⎥ n −k⎦Ejemplo:Los datos tabulados corresponden a muestras aleatorias del costo de Tecnologíasproducción, en centavos, de un producto fabricado bajo tres tecnologías A B Cdiferentes. 7 2 7a) Se quiere realizar una prueba estadística a un 5% de significación para 4 4 8decidir si existen diferencias entre las tecnologías que puedan afectar los 6 5 7costos correspondientes (o lo que es lo mismo, si el costo de producción 4 6 11medio depende o no de la tecnología). 9 3 7b) Se quiere también verificar el cumplimiento del principal de los supuestosasociados al análisis anterior. 136
  • 138. Solución:La variable en estudio (Y) es el costo de producción del producto, y el factor externo en estecaso son las tecnologías.Datos iniciales: n = 15 k=3a) Verificación de la igualdad o no de costos medios entre las tecnologías:Hipótesis:H0: μ1 = μ 2 = μ 3H1: alguna μi diferenteNivel de significación elegido: α = 0.05Región crítica: { } { } W C = F0 : F0 > F1− α (k − 1 ; n − k ) = F0 : F0 > F0.95 (2 ; 12 ) = {F0 : F0 > 3 .89 }Regla de decisión:Rechazar H0 si F0 > 3.89No rechazar H0 si F0 ≤ 3.89Ahora, para calcular el estadígrafo de prueba, F0, se requiere contar con la llamada tablaANOVA, y para llegar a ésta conviene crear una tabla auxiliar a partir de los datos muestrales.Dicha tabla auxiliar se puede preparar atendiendo a lo que se necesita a partir de las fórmulasabreviadas para las sumas de cuadrados; a continuación se muestra la aquí usada, donde setraspuso por comodidad el orden de los datos, quedando ahora las observaciones para losdistintos niveles o poblaciones en filas. Tecnología Yi j ni Ti Ti 2 Ti2/ni Y2i j A 7 4 6 4 9 5 30 900 180 49 16 36 16 81 / 198 B 2 4 5 6 3 5 20 400 80 4 16 25 36 9 / 90 C 7 8 7 11 7 5 40 1600 320 49 64 49 121 49 / 332 Totales: 15 90 580 620 Nota: Debe tenerse en cuenta que el subíndice i representa las muestras (aquí en distintas filas), y el j las observaciones.Resumiendo: n = 15; T = 90; k = 3; n1 = n2 = n3 = 5Luego: k ni T2SC T = ∑∑ i=1 j=1 Yij2 − n = 620 – 902/15 = 620 – 8100/15 = 620 – 540 = 80 137
  • 139. k Ti2 T 2SCE = ∑ i=1 ni − n = 580 – 540 = 40 k ni k Ti2SCD = ∑∑ i=1 j=1 2 y ij − ∑ i=1 ni = 620 – 580 = 40Esta última también se puede calcular utilizando la identidad fundamental y despejando:SCT = SCD + SCE ∴ SCD = SCT – SCE = 80 – 40 = 40Y ya se está en condiciones de completar la tabla de análisis de varianza para el cálculo delestadístico de prueba. Tabla ANOVA Fuente de Sumas de Grados de Cuadrados Estadístico de Variación cuadrado libertad medios prueba Entre grupos 40 2 20 20 F0 = = 6.06 Dentro de grupos 40 12 3.33 3.3 Total 80 14 -Decisión:F0 = 6.06 > 3.89 Por tanto, se rechaza H0, o sea, se acepta H1.Esto indica que existen diferencias significativas entre los costos de producción para al menosuna de las tecnología, a un 5% de significaciónSi se quisiera saber cuál tecnología es diferente se pudiera completar el análisis comparandodos a dos dichas tecnologías.b) Verificación de la igualdad o no de varianzas entre las tres tecnologías:Hipótesis:H0: σ1 = σ 2 = σ 3 2 2 2 2H1: alguna σi diferenteNivel de significación: α = 0.05 (el mismo anterior)Región crítica: ⎧M M 2 ⎫ ⎧M M 2 ⎫ ⎧M M ⎫WC = ⎨ : > χ 1− α ( k −1) ⎬ = ⎨ : > χ 0.95 ( 2 ) ⎬ = ⎨ : > 5 .99 ⎬ ⎩C C ⎭ ⎩C C ⎭ ⎩C C ⎭Regla de decisión:Rechazar H0 si M/C > 5.99No rechazar H0 si M/C ≤ 5.99Para calcular el estadígrafo de Bartlett, M/C, se puede crear otra tabla auxiliar a partir de losdatos muestrales, como la siguiente: 138
  • 140. A B C 7 2 7 4 4 8 6 5 7 4 6 11 9 3 7 ni 5 5 5 n = Σni = 15 1 yi = ni ∑y j ij 6 4 8 ∑ (y ) 1 2 s i2 = ij − yi 4,5 2,5 3 ni − 1 j ln(si2) 1,504 0,916 1,099 (ni -1)ln(si2) 6,016 3,665 4,394 Σ(ni -1)ln(si2) = 14,076 1 1 ni − 1 0,25 0,25 0,25 ni − 1 = 0,75 ∑Entonces queda: 2M = (n − k ) ln( s D ) − ∑ (n − 1)ln(s i i 2 i ) = (15 − 3) ln(3,33 ) − (6,016 + 3,665 + 4,394 ) = 12⋅1,203 – 14,076 = 14,436 – 14,076 = 0,360 1 ⎡ 1 1 ⎤ 1 ⎡ 1 ⎤ 1C = 1+ ⎢ ∑ − ⎥ = 1+ 3(k − 1) ⎣ ni − 1 n − k ⎦ ⎢(0,25 + 0,25 + 0,25 ) − 15 − 3 ⎥ = 1 + 6 (0,75 − 0,083 ) 3⋅2 ⎣ ⎦ = 1+0,667/6 = 1,111Y finalmente: M/C = 0,360/1,111 = 0,324Decisión:M/C = 0.324 < 5.99Por tanto, no se rechaza H0, o sea, se acepta la propia H0.O sea, puede aceptarse que se cumple el supuesto de existencia de homocedasticidad.EJERCICIOS DE AUTOEVALUACIÓNLa siguiente tabla contiene los resultados obtenidos al aplicar cuatro Métodosmétodos diferentes de fabricación de un cierto producto, siendo la A B C Dvariable observada en estudio el costo de producción, en centavos. 5 6 7 7 5 5 5 7 Se quiere: 6 6 6 8 a.- Determinar si el costo depende o no, en general, del método de 7 6 7 7 fabricación. b.- Verificar el supuesto de homocedasticidad necesario para la 5 7 5 8 verificación anterior, conociendo que M/C = 1.05. 5 6 139
  • 141. BIBLIOGRAFÍA BÁSICA:Estadística. Cué Muñiz, Juan; et al. Universidad de La Habana, 1987.Estadística. Guerra Bustillo, Caridad; et al. Pueblo y Educación, La Habana, 1987Estadística: Teoría y Problemas. Murray Spiegel. McGraw Hill de México, 1974.Estadística I, II y III. Calero Vinelo, Arístides. Pueblo y Educación, La Habana, 1983.Estadística elemental moderna. Freund, John. Edición Revolucionaria, La Habana, 1987.Probabilidad y Estadística. Canavos, George. McGraw Hill, España, 1988.Laboratorios de Estadística Matemática I y II: Colectivo de Autores, Dpto. Estadística, Fac.de Economía, Universidad de La Habana. Editorial Félix Varela, La Habana, 2004.Tablas Estadísticas. Selección realizada por el Dpto. de Estadística, Fac. de Economía,Universidad de La Habana. 140