Estadistica ii

1,958
-1

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,958
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
39
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Estadistica ii

  1. 1. ESTADISTICA II LIC. MARIA ADELAIDA CEL: (809)-212-6101 AULA A-1-04 SECCION 029 MIERCOLES MATUTINA B2 RECURSOS DE APRENDIZAJE DE LA ASIGNATURA
  2. 2. UNIDAD I TEORÍA DEL MUESTREO Para una mejor ilustración de los términos, nos vamos a referir a una investigación que pone de manifiesto los aspectos conceptuales, veamos el caso siguiente: Caso I. En cierta comunidad se realizó una encuesta de opinión para determinar la actitud del público hacia una emisión de bonos en vísperas de una elección próxima. El objetivo de la encuesta fue, estimar la proporción de votantes en la comunidad que favorecían la a emisión de bonos. De aquí, podemos definir qué: Un elemento, es un objeto en el cual se tomaran las mediciones, por tanto, en el caso I, un elemento es un votante registrado en la comunidad. Población es una colección de elementos acerca de los cuales deseamos hacer algunas inferencias, en el caso I, la población es el conjunto de todos los votantes de la comunidad, la característica (medición numérica) de interés, para cada miembro de esta población es, su preferencia respecto de la emisión de bonos. Las unidades de muestreo: Son colecciones no traslapadas de elementos de una población que cubren la población completa. En el caso I, la unidad de muestreo, puede ser un espacio de la comunidad objeto a investigación. Marco muestral: Es el límite geográfico que abarca la investigación, ésta contiene una lista de unidades de muestreo. De modo que, si especificamos el votante individual como la unidad de muestreo, pues una lista de todos los votantes registrados puede servir como el Marco Muestral para una encuesta de opinión pública, podemos notar que este marco no incluye todos los elementos en la población.
  3. 3. POBLACION Población estadística, en estadística, también llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan las observaciones. El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal. Una población se precisa como un conjunto finito o infinito de personas u objetos que presentan características comunes. Tipos de población * Población base: es el grupo de personas designadas por las siguientes características: personales, geográficas o temporales, que son elegibles para participar en el estudio. * Población muestreada: es la población base con criterios de viabilidad o posibilidad de realizarse el muestreo. * Muestra estudiada: es el grupo de sujetos en el que se recogen los datos y se realizan las observaciones, siendo realmente un subgrupo de la población muestreada y accesible. El número de muestras que se puede obtener de una población es una o mayor de una. * Población diana: es el grupo de personas a la que va proyectado dicho estudio, la clasificación característica de los mismos, lo cual lo hace modelo de estudio para el proyecto establecido. ¿Qué representa una Población de datos? El análisis estadístico de una población o universo de datos tiene como objetivo final descubrir las características y propiedades de aquello que generó los datos. Por ejemplo, se tiene una población de escolares (Población física, población humana) y se les mide la altura. El conjunto de datos de altura constituye una población o universo estadístico. Es importante destacar que detrás de un universo o población de datos se encuentra una población física subyacente, formada por elementos de la realidad que nos rodea, de la cual, a través de algún tipo de medición, se obtuvieron los datos numéricos. Es esa población física subyacente (Elementos de la realidad, seres humanos, lotes de material, etc.) la que deseamos estudiar y caracterizar por medio del análisis estadístico de los datos obtenidos. La población estadística está representando, entonces, una población física o natural formada por elementos de la realidad, con respecto a una característica o propiedad de esa población física. Es muy importante, al utilizar métodos estadísticos, no confundir la población física, formada por elementos de la realidad que estamos estudiando, con la población o universo de datos generados a partir de la primera. De aquí en adelante, cuando utilicemos los términos población o universo sin otro adjetivo nos estaremos refiriendo a población o universo de datos numéricos (También llamados observaciones, mediciones o valores).
  4. 4. MUESTRA En estadística una muestra estadística (también llamada muestra aleatoria o simplemente muestra) es un subconjunto de casos o individuos de una población estadística. La muestra es una parte de la población a estudiar que sirve para representarla. Una muestra es una colección de algunos elementos de la población, pero no de todos. Una muestra debe ser definida en base de la población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia. La muestra siempre debe ser representativa de la población de la cual se extrae, o sea, que cada uno de los elementos de la población tenga la misma oportunidad de ser seleccionado en la muestra. Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir esta característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. En tales casos, puede obtenerse una información similar a la de un estudio exhaustivo con mayor rapidez y menor coste. La muestra debe obtener toda la información deseada para tener la posibilidad de extraerla, esto sólo se puede lograr con una buena selección de la muestra y un trabajo muy cuidadosos y de alta calidad en la recogida de los datos. Representatividad de la muestra La muestra debe seleccionarse de una forma deliberada a partir de la población, es decir, las características de la muestra se aproximan a las de la población con un margen de error conocido. Por tanto, es preferible una muestra representativa de 200 personas que a una muestra no representativa de 2, 000. ELECCION DEL TAMAÑO DE LA MUESTRA En Estadística el tamaño de la muestra es el número de sujetos que componen la muestra extraída de una población, necesarios para que los datos obtenidos sean representativos de la población. Objetivos de la determinación del tamaño adecuado de una muestra 1. Estimar un parámetro determinado con el nivel de confianza deseado. 2. Detectar una determinada diferencia, si realmente existe, entre los grupos de estudio con un mínimo de garantía.
  5. 5. 3. Reducir costes o aumentar la rapidez del estudio. A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculo del tamaño muestral delimitemos estos factores. Ejemplo: En un estudio de investigación epidemiológico la determinación de un tamaño adecuado de la muestra tendría como objetivo su factibilidad. Así: 1. Si el número de sujetos es insuficiente habría que modificar los criterios de selección, solicitar la colaboración de otros centros o ampliar el periodo de reclutamiento. Los estudios con tamaños muestrales insuficientes, no son capaces de detectar diferencias entre grupos, llegando a la conclusión errónea de que no existe tal diferencia. 2. Si el número de sujetos es excesivo, el estudio se encarece desde el punto de vista económico y humano. Además es poco ético al someter a más individuos a una intervención que puede ser menos eficaz o incluso perjudicial. TIPOS DE MUESTRAS Muestra probabilística
  6. 6. Muestra aleatoria simple: Es cuando la muestra seleccionada se escogió al azar en los elementos que la componen. Muestra estratificada: Implica el uso deliberado de submuestras para cada estrato o categoría que sea importante en la población. Muestra por racimo: Existe una selección en dos etapas, ambas con procedimientos probabilísticos. En la primera se seleccionan los racimos (conjuntos), en la segunda y dentro de los racimos a los sujetos que van a ser medidos. Muestra no probabilística Muestra dirigida: En donde la selección de elementos depende del criterio del investigador. Sus resultados son generalizables a la muestra en sí. No son generalizables a una población. Muestra por cuotas o proporcionales: Consiste en establecer cuotas para las diferentes categorías del universo, que son réplicas del universo, quedando a disposición del investigador la selección de unidades. Muestra intencionada: Este tipo de muestra exige un cierto conocimiento del universo, su técnica consiste en que es el investigador el que escoge intencionalmente sus unidades de estudio. MUESTREO El muestreo es una herramienta de la investigación científica. Su función básica es determinar que parte de una realidad en estudio (población o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha población. El error que se comete debido al hecho de que se obtienen conclusiones sobre cierta realidad a partir de la observación de sólo una parte de ella, se denomina error de muestreo. Obtener una muestra adecuada significa lograr una versión simplificada de la población, que reproduzca de algún modo sus rasgos básicos. En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población. Al elegir una muestra se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio de toda la población. Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance con una probabilidad alta. En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la población, se puede extraer dos o más muestras de la misma población. Al conjunto de muestras que se pueden obtener de la población se denomina Espacio Muestral. La variable que asocia a cada muestra su probabilidad de extracción, sigue la llamada distribución muestral. El muestreo, es ampliamente usado en los negocios, en el gobierno, en la gerencia de producción , aquí, el material que se recibe como insumo regularmente se muestrea para comprobar su calidad antes de que entren en el proceso de producción , en estudio de tiempos y movimientos durante la cual una maquina o trabajador no se encuentra en producción. En la investigación de mercado, para determinar la preferencia del consumidor, para probar nuevos productos, para evaluar nuevas compañías publicitarias, para determinar niveles de consumo de un producto en un mercado real y comercial. TIPOS DE MUESTREO
  7. 7. * Muestreo no Probabilístico: En este tipo de muestreo, puede haber clara influencia de la persona o personas que seleccionan la muestra o simplemente se realiza atendiendo a razones de comodidad. Ejemplo: si hacemos una encuesta telefónica por la mañana, las personas que no tienen teléfono o que están trabajando, no podrán formar parte de la muestra. A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa. * Muestreo probabilístico: En este tipo de muestreo, todos los individuos de la población pueden formar parte de la muestra, tienen probabilidad positiva de formar parte de la muestra. Por lo tanto es el tipo de muestreo que deberemos utilizar en nuestras investigaciones, por ser el riguroso y científico. Forman parte de este tipo de muestreo todos aquellos métodos para los que puede calcular la probabilidad de extracción de cualquiera de las muestras posibles. Este conjunto de técnicas de muestreo es el más aconsejable, aunque en ocasiones no es posible optar por él, como la extracción de muestra sin reposición de los elementos donde cada elemento extraído se descarta para la subsiguiente extracción. Por ejemplo, si se extrae una muestra de una "población" de bombillas para estimar la vida media de las bombillas que la integran, no será posible medir más que una vez la bombilla seleccionada. No obstante con reposición de los elementos: Las observaciones se realizan con reemplazamiento de los individuos, de forma que la población es idéntica en todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse sin reposición aunque, realmente, no lo sea. Con reposición múltiple: En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse sin reposición. Cada elemento extraído se descarta para la subsiguiente extracción. Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la extracción de números aleatorios mediante ordenadores, calculadoras o tablas construidas al efecto. MUESTREO PROBABILISTICO Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. Muestreo estratificado Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos con respecto a alguna característica de las que se van a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra. Dentro de cada estrato se suele usar la técnica de muestreo sistemático, una de las técnicas de selección más usadas en la práctica.
  8. 8. Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado: * Asignación proporcional: el tamaño de la muestra dentro de cada estrato es proporcional al tamaño del estrato dentro de la población. * Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población. Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. Así, si la población está compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra que contenga también esos mismos porcentajes de hombres y mujeres. Muestreo sistemático Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevación K= N/n; donde N es el tamaño del universo y n el tamaño de la muestra. Determinar en qué fecha se producirá la primera extracción, para ello hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno. Esto quiere decir que si tenemos un determinado número de personas que es la población (N) y queremos escoger de esa población un número más pequeño el cual es la muestra (n), dividimos el número de la población por el número de la muestra que queremos tomar y el resultado de esta operación será el intervalo, entonces escogemos un número al azar desde uno hasta el número del intervalo, y a partir de este número escogemos los demás siguiendo el orden del intervalo. Muestreo por estadios múltiples Esta técnica es la única opción cuando no se dispone de lista completa de la población de referencia o bien cuando por medio de la técnica de muestreo simple o estratificado se obtiene una muestra con unidades distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estudios múltiples se subdivide la población en varios niveles ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel. Por ejemplo, si tenemos que construir una muestra de profesores de primaria en un país determinado, éstos pueden subdividirse en unidades primarias representadas por circunscripciones didácticas o áreas y unidades secundarias que serían los propios profesores. En primer lugar extraemos una muestra de las unidades primarias (para lo cual debemos tener la lista completa de estas unidades) y en segundo lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias seleccionadas en la primera extracción. Muestreo por Conglomerados
  9. 9. Técnica similar al muestreo por estadios múltiples, se utiliza cuando la población se encuentra dividida, de manera natural, en grupos que se supone que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio. Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es decir, los miembros del grupo, o sólo se les podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la ventaja de simplificar la recogida de información muestral. Cuando, dentro de cada conglomerado seleccionado, se extraen algunos individuos para integrar la muestra, el diseño se llama muestreo bietápico. Las ideas de estratos y conglomerados son, en cierto sentido, opuestas. El primer método funciona mejor cuanto más homogénea es la población respecto del estrato, aunque más diferentes son éstos entre sí. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí. CARACTERISTICAS VENTAJAS Sencillo y de comprensión. Aleatorio simple Se selecciona una muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N. INCONVENIENTES fácil Requiere que se posea de Cálculo rápido de antemano un listado medias y varianzas. completo de toda la población. Cuando se trabaja con muestras Se basa en la teoría estadística, y por tanto pequeñas es posible que represente a la existen paquetes no informáticos para población adecuadamente. analizar los datos Fácil de aplicar. Conseguir un listado de los N elementos de la población Determinar tamaño muestral n. Sistemático Definir un intervalo k= N/n. Elegir un número aleatorio, r, entre 1 y k (r= arranque aleatorio). Seleccionar los elementos de la lista. No siempre es necesario tener un listado de toda la Si la constante de población. muestreo está asociada con el fenómeno de Cuando la población interés, las estimaciones está ordenada obtenidas a partir de la siguiendo una muestra pueden contener tendencia conocida, sesgo de selección asegura una cobertura de unidades de todos los tipos.
  10. 10. Estratificado En ciertas ocasiones resultará conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población objetivo a hacer un muestreo. Una vez calculado el tamaño muestral apropiado, este se reparte de manera proporcional entre los distintos estratos definidos en la población usando una simple regla de tres. Tiende a asegurar que la muestra represente adecuadamente a la población en función de unas variables seleccionadas. Se obtienen estimaciones más precisa Su objetivo es conseguir una muestra lo más semejante posible a la población en lo que a la o las variables estratificadoras se refiere. Se realizan varias fases de muestreo sucesivas (polietápico) Conglomerados Es muy eficiente cuando la población es muy grande y dispersa. La necesidad de listados de las unidades de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior. No es preciso tener un listado de toda la población, sólo de las unidades primarias de muestreo. Se ha de conocer la distribución en la población de las variables utilizadas para la estratificación. El error estándar es mayor que en el muestreo aleatorio simple o estratificado. El cálculo del error estándar es complejo. MUESTREO NO PROBABILISTICO Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en una comunidad. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. Se aplica en la última fase del muestreo, y consiste en facilitar al entrevistador el perfil de las personas que tiene que entrevistar dejando su criterio, la elección de las mismas, siempre y cuando cumplan con el perfil. Muestreo opinático o intencional: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto.
  11. 11. Se basa en una buena estrategia y el buen juicio del investigador. Se puede elegir las unidades del muestreo. Un caso frecuente es tomar elementos que se juzgan típicos o representativos de la población, y suponer que los errores en la selección se compensarán unos con otros. El problema que plantea es que sin una comprobación de otro tipo, no es posible saber si los casos típicos lo son en realidad, y tampoco se conoce como afecta a esos casos típicos los posibles cambios que se producen. Muestreo casual o incidental: Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Es un muestreo no probabilístico donde el investigador elige a aquellos individuos que están a mano. Por ejemplo, un periodista que va por la calle preguntando a las personas que salen a su paso, sin atender ningún criterio especial de elección. No es probabilístico porque aquellas personas que no pasan por ese sitio no tienen la posibilidad de entrar en la muestra. Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc. Muestreo Discrecional · A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al estudio. Ej. : Muestreo por juicios, cajeros de un banco o un supermercado; etc. Ventajas del Muestreo - Costos reducidos. - Mayor rapidez para obtener resultados. - Mayor exactitud o mejor calidad de la información - Posibilidad de hacerse - Al reducir el volumen de trabajo el personal escogido es menor, puede estar más capacitado y ser sometido a entrenamiento particular. Desventajas del muestreo - El error de muestreo (diferencias entre las medidas muéstrales y los parámetros poblacionales) - Requiere de personal altamente calificado. - No permite hacer proyecciones sobre áreas muy pequeñas de la población o sobre poblaciones sujetas a muchos cambios en un lapso corto de tiempo. - Se debe tener en cuenta siempre la población. - Suelen introducirse errores (sistemáticos) por otras vías: * Imputables al observador * Imputables al método de observación o medición * Imputables a lo observado (unidad de muestreo)
  12. 12. - No es posible utilizar muestreo cuando se necesite información de cada uno de los elementos poblacionales. - El muestreo exige, en comparación, menos trabajo material, pero más preparación y refinamiento. - No es recomendable cuando se requiere la máxima calidad ó exactitud Cálculo del tamaño de la muestra de base El tamaño adecuado de la muestra para una encuesta relativa a la población está determinado en gran medida por tres factores: i) prevalencia estimada de la variable considerada (en este caso, la malnutrición crónica);ii) nivel deseado de fiabilidad; y iii) margen de error aceptable. El tamaño de la muestra para un diseño de encuesta basado en una muestra aleatoria simple, puede calcularse mediante la siguiente Fórmula: n= t² x p(1-p) m² Descripción: n= tamaño de la muestra requerido t= nivel de fiabilidad de 95% (valor estándar de 1,96) p = prevalencia estimada de la malnutrición en la zona del proyecto m = margen de error de 5% (valor estándar de 0,05) Ejemplo1: En la zona sur de la República Dominicana, se ha calculado que cerca del 30% (0,3) de los niños de la zona padecen de malnutrición crónica. Este dato se basa en estadísticas nacionales sobre malnutrición en las zonas rurales. Utilizando los Cálculo: n= 1.96² x0.3(1-0.3) .05² n = 3.8416 x 0.21 0.0025 n = 0.8068 o.0025 n = 322.72 = 323 valores estándar indicados se efectúa el cálculo siguiente:
  13. 13. Ejemplo 2. Un grupo de profesores pertenecen alguna organización magisterial, se desea saber qué proporción de profesores participan a una organización. Calcular el tamaño de la muestra necesario con un nivel de confianza de 95% y errores de estimación no mayores a 3%; además se sabe que solo el 25% de la población pertenece a alguna organización y luego calcular el tamaño de muestra necesario para estimar la proporción de una población de Tamaño N= 300, Veamos: El nivel de confianza o seguridad (1-a). El nivel de confianza prefijado da lugar a un coeficiente (Z a ) Para una seguridad del 95% = 1.96 y para una seguridad del 99% = 2.58. Utilizamos la formula siguiente: 2 2 Z = 1.96 (si la seguridad es del 95%) d = precisión (en este caso deseamos un 3%). d =3% / 100 =0.03 p =0.25 q =1-0.25 =0.75 N = Total de la población 2 Sustituyendo: n =1.96 x 0.25 x 0.75/ 0.0009 =801 n =801 caso Puedes observar que el tamaño de la muestra es grande casi el doble, ya que es consecuencia de un supuesto de poblaciones infinitas. Por lo que no afecta el tamaño de la población, pero cuando este supuesto no se cumple tiene que realizarse una corrección por plenitud, la cual implica la relativización de muestra al tamaño de la población.
  14. 14. Ahora bien, si se desea calcular el tamaño de muestra necesario para estimar la proporción de una población de Tamaño N= 300, como N esmenor n, la corrección debe realizarse con la ecuación siguiente: n = 801/1+ 801/300 =224 casos que sería el tamaño muestra TEORIA DEL MUESTREO Uno de los propósitos de la estadística inferencial es estimar las características poblacionales desconocidas, examinando la información obtenida de una muestra, de una población.El punto de interés es la muestra, la cual debe ser representativa de la población objeto de estudio. Se seguirán ciertos procedimientos de selección para asegurar de que las muestras reflejen observaciones a la población de la que proceden, ya que solo se pueden hacer observaciones probabilísticas sobre una población cuando se usan muestras representativas de la misma. Una población está formada por la totalidad de las observaciones en las cuales se tiene cierto observa. Una muestra es un subconjunto de observaciones seleccionadas de una población.
  15. 15. Muestras Aleatorias Cuando nos interesa estudiar las características de poblaciones grandes, se utilizan muestras por muchas razones; una enumeración completa de la población, llamada censo, puede ser económicamente imposible, o no se cuenta con el tiempo suficiente. A continuación se verá algunos usos del muestreo en diversos campos: 1. Política. Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinión pública y el apoyo en las elecciones. 2. Educación. Las muestras de las calificaciones de los exámenes de estudiantes se usan para determinar la eficiencia de una técnica o programa de enseñanza. 3. Industria. Muestras de los productos de una línea de ensamble sirve para controlar la calidad. 4. Medicina. Muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la eficacia de una técnica o de un fármaco nuevo. 5. Agricultura. Las muestras del maíz cosechado en una parcela proyectan en la producción los efectos de un fertilizante nuevo. 6. Gobierno. Una muestra de opiniones de los votantes se usaría para determinar los criterios del público sobre cuestiones relacionadas con el bienestar y la seguridad nacional. Errores en el Muestreo Cuando se utilizan valores muestrales, o estadísticos para estimar valores poblacionales, o parámetros, pueden ocurrir dos tipos generales de errores: el error muestral y el error no muestral. El error muestral se refiere a la variación natural existente entre muestras tomadas de la misma población. Cuando una muestra no es una copias exacta de la población; aún si se ha tenido gran cuidado para asegurar que dos muestras del mismo tamaño sean representativas de una cierta población, no esperaríamos que las dos sean idénticas en todos sus detalles. El error muestral es un concepto importante que ayudará a entender mejor la naturaleza de la estadística inferencial. Los errores que surgen al tomar las muestras no pueden clasificarse como errores muestrales y se denominan errores no muestrales. El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se refiere a una tendencia sistemática inherente a un método de muestreo que da estimaciones de un parámetro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real. El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorización. La aleatorización se refiere a cualquier proceso de selección de una muestra de la población en el que la selección es imparcial o no está sesgada; una muestra elegida con procedimientos aleatorios se llama muestra aleatoria. Los tipos más comunes de técnicas de muestreo aleatorios son el muestreo aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y el muestreo sistemático. Si una muestra aleatoria se elige de tal forma que todos los elementos de la población tengan la misma probabilidad de ser seleccionados, la llamamos muestra aleatoria simple. Ejemplo 1.1: Suponga que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de estadística de 20 alumnos. 20C5 da el número total de formas de elegir una muestra no ordenada y este resultado es 15,504 maneras diferentes de tomar la muestra. Si listamos las 15,504 en trozos separados de papel, una tarea tremenda, luego los colocamos en un recipiente y después los revolvemos, entonces podremos tener una muestra aleatoria de 5 si seleccionamos un trozo de papel con cinco nombres. Un procedimiento más simple para elegir una muestra aleatoria
  16. 16. sería escribir cada uno de los 20 nombres en pedazos separados de papel, colocarlos en un recipiente, revolverlos y después extraer cinco papeles al mismo tiempo. Otro método parea obtener una muestra aleatoria de 5 estudiantes en un grupo de 20 utiliza una tabla de números aleatorios. Se puede construir la tabla usando una calculadora o una computadora. También se puede prescindir de estas y hacer la tabla escribiendo diez dígitos del 0 al 9 en tiras de papel, las colocamos en un recipiente y los revolvemos, de ahí, la primera tira seleccionada determina el primer número de la tabla, se regresa al recipiente y después de revolver otra vez se selecciona la seguida tira que determina el segundo número de la tabla; el proceso continúa hasta obtener una tabla de dígitos aleatorios con tantos números como se desee. Hay muchas situaciones en las cuales el muestreo aleatorio simple es poco práctico, imposible o no deseado; aunque sería deseable usar muestras aleatorias simples para las encuestas nacionales de opinión sobre productos o sobre elecciones presidenciales, sería muy costoso o tardado. El muestreo estratificado requiere de separar a la población según grupos que no se traslapen llamados estratos, y de elegir después una muestra aleatoria simple en cada estrato. La información de las muestras aleatorias simples de cada estrato constituiría entonces una muestra global. Ejemplo 1.2: Suponga que nos interesa obtener una muestra de las opiniones de los profesores de una gran universidad. Puede ser difícil obtener una muestra con todos los profesores, así que supongamos que elegimos una muestra aleatoria de cada colegio, o departamento académico; los estratos vendrían a ser los colegios, o departamentos académicos. El muestreo por conglomerados requiere de elegir una muestra aleatoria simple de unidades heterogéneas entre sí de la población llamadas conglomerados.Cada elemento de la población pertenece exactamente a un conglomerado, y los elementos dentro de cada conglomerado son usualmente heterogéneos o disímiles. Ejemplo 1.3: Suponga que una compañía de servicio de televisión por cable está pensando en abrir una sucursal en una ciudad grande; la compañía planea realizar un estudio para determinar el porcentaje de familias que utilizarían sus servicios, como no es práctico preguntar en cada casa, la empresa decide seleccionar una parte de la ciudad al azar, la cual forma un conglomerado. En el muestreo por conglomerados, éstos se forman para representar, tan fielmente como sea posible, a toda la población; entonces se usa una muestra aleatoria simple de conglomerados para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo por conglomerados. El muestreo sistemático es una técnica de muestreo que requiere de una selección aleatoria inicial de observaciones seguida de otra selección de observaciones obtenida usando algún sistema o regla. Ejemplo 1.4: Para obtener una muestra de suscriptores telefónicos en una ciudad grande, puede obtenerse primero una muestra aleatoria de los números de las páginas del directorio telefónico; al elegir el vigésimo nombre de cada página obtendríamos un muestreo sistemático, también podemos escoger un nombre de la primera página del directorio y después seleccionar cada nombre del lugar número cien a partir del ya seleccionado. Por ejemplo, podríamos seleccionar un número al azar entre los primeros 100; supongamos que el elegido es el 40, entonces seleccionamos los nombres del directorio que corresponden a los números 40, 140, 240, 340 y así sucesivamente. Error Muestral Cualquier medida conlleva algún error. Si se usa la media para medir, estimar, la media poblacional , entonces la media muestral, como medida, conlleva algún error. Por ejemplo, supongamos que se ha obtenido una muestra aleatoria de tamaño 25 de una población con media observada x- = 15: si la media de la muestra es x=12, entonces a la diferencia = -3 se le denomina el error muestral. Una media muestral x puede pensarse como la suma de dos cantidades, la media poblacional y el error muestral; si e denota el error muestral, entonces:
  17. 17. Ejemplo 1.5: Se toman muestras de tamaño 2 de una población consistente en tres valores, 2, 4 y 6, para simular una población "grande" de manera que el muestreo pueda realizarse un gran número de veces, supondremos que éste se hace con reemplazo, es decir, el número elegido se reemplaza antes de seleccionar el siguiente, además, se seleccionan muestras ordenadas. En una muestra ordenada, el orden en que se seleccionan las observaciones es importante, por tanto, la muestra ordenada (2,4) es distinta de la muestra ordenada (4,2). En la muestra (4,2), se seleccionó primero 4 y después 2. La siguiente tabla contiene una lista de todas las muestras ordenadas de tamaño 2 que es posible seleccionar con reemplazo y también contiene las medioas muestrales y los correspondientes errores muestrales. La media poblacional es igual a = (2+4+6)/3 = 4. Ver la tabla en la siguiente página. Notese las interesantes relaciones siguientes contenidas en la tabla:La media de la colección de medias muestrales es 4, la media de la población de la que se extraen las muestras. Si entonces tenemos: x denota la media de todas las medias muestrales x = (3+4+3+4+5+5+2+4+6)/9 = 4 La suma de los errores muestrales es cero. Muestras ordenadas x Error muestral e = x - (2,2) 2 2 – 4 = -2 (2,4) 3 3 – 4 = -1 (2,6) 4 4–4=0 (4,2) 3 3 – 4 = -1 (4,4) 4 4–4=0 (4,6) 5 5–4=1 (6,2) 4 4–4=0 (6,4) 5 5–4=1 (6,6) 6 6–4=2 e1 + e2 + e3 + . . . + e9 = (-2) + (-1) + 0 + (-1) + 0 + 1 + 0 + 1 + 2 = 0 En consecuencia, si x se usa para medir, estimar, la media poblacional es cero. , el promedio de todos los errores muestrales Distribuciones Muestrales Las muestras aleatorias obtenidas de una población son, por naturaleza propia, impredecibles. No se esperaría que dos muestras aleatorias del mismo tamaño y tomadas de la misma población tenga la misma media muestral o que sean completamente parecidas; puede esperarse que cualquier estadístico, como la media muestral, calculado a partir de las medias en una muestra aleatoria, cambie su valor de una muestra a otra, por ello, se quiere estudiar la distribución de todos los valores posibles de un estadístico. Tales distribuciones serán muy importantes en el estudio de la estadística
  18. 18. inferencial, porque las inferencias sobre las poblaciones se harán usando estadísticas muestrales. Como el análisis de las distribuciones asociadas con los estadísticos muestrales, podremos juzgar la confiabilidad de un estadístico muestral como un instrumento para hacer inferencias sobre un parámetro poblacional desconocido. Como los valores de un estadístico, tal como x, varían de una muestra aleatoria a otra, se le puede considerar como una variable aleatoria con su correspondiente distribución de frecuencias. La distribución de frecuencia de un estadístico muestral se denomina distribución muestral. En general, la distribución muestral de un estadístico es la de todos sus valores posibles calculados a partir de muestras del mismo tamaño. Suponga que se han seleccionado muestras aleatorias de tamaño 20 en una población grande. Se calcula la madia muestral x para cada muestra; la colección de todas estas medias muestrales recibe el nombre de distribución muestral de medias, lo que se puede ilustrar en la siguiente figura: Suponga que se eligen muestras aleatorias de tamaño 20, de una población grande, y se calcula la deviación estándar de cada una. La colección de todas estas desviaciones estándar muestrales se llama distribución muestral de la desviación estándar, y lo podemos ver en la siguiente figura: Ejemplo 1.6: Se eligen muestras ordenadas de tamaño 2, con reemplazo, de la población de valores 0, 2, 4 y 6. Encuentre:
  19. 19. , la media poblaciona. , la desviación estándar poblacional. x, la x, media de la distribución muestral de medias. la desviación estándar de la distribución muestral de medias. Además, grafique las frecuencias para la población y para la distribución muestral de medias. Solución: a. La media poblacional es: b. La desviación estándar de la población es: c. A continuación se listan los elementos de la distribución muestral de la media y la correspondiente distribución de frecuencias. La media de la distribución muestral de medias es:
  20. 20. d) La desviación estándar de la distribución muestral de medias es: De aquí que podamos deducir que: Como para cualquier variable aleatoria, la dsitribución muestral de medias tiene una media o valor esperado, una varianza y una desviación estándar, se puede demostrar que la distribución muestral de medias tiene una media igual a la media poblacional. Esto es: Distribuciones muestrales Después de haber realizado el ejercicio anterior se puede ver que una distribución muestral se genera extrayendo todas las posibles muestras del mismo tamaño de la población y calculándoles a éstas su estadístico. Si la población de la que se extraen las muestras es normal, la distribución muestral de medias será normal sin importar el tamaño de la muestra. Si la población de donde se extraen las muestras no es normal, entonces el tamaño de la muestra debe ser mayor o igual a 30, para que la distribución muestral tenga una forma acampanada. Mientras mayor sea el tamaño de la muestra, más cerca estará la distribución muestral de ser normal.
  21. 21. Para muchos propósitos, la aproximación normal se considera buena si se cumple n=30. La forma de la distribucion muestral de medias sea aproximadamente normal, aún en casos donde la población original es bimodal, es realmente notable.
  22. 22. Unidad II Introducción a la teoría de la probabilidad Laplace, eminente matemático francés de la última mitad del siglo XVIII y principios del XIX, describía la teoría de la probabilidad como “el sentido común reducido al cálculo”. Veamos como la siguiente anécdota justifica esta descripción. Dos estudiantes de Instituto intentan ponerse de acuerdo en como pasar una tarde. Acuerdan que tomarán su decisión lanzando una moneda. Si sale cara irán al cine, si sale cruz saldrán a tomar una coca-cola y si la moneda cae de canto, estudiarán. La historia no es tan trivial como pueda parecer, con ella podemos aprender mucho. El sentido común, basando su juicio en la experiencia, nos indica que los estudiantes quieren saltarse la necesidad de estudiar. En otras palabras sabemos intuitivamente que la moneda no caerá de canto, que lo hará sobre la cara o sobre la cruz. Más aún, si la moneda es legal, tenemos la certeza moral de que las posibilidades de que salga cara o cruz son las mismas. Pues bien la teoría de la probabilidad se basa en la asunción que hacemos de cuestiones tales como estas : ¿Cuál es la probabilidad de que una moneda caiga sobre el borde? ¿Cuál es la probabilidad de que salga cara? ¿Cuál es la probabilidad de que salga cruz? Para poder tratar estas cuestiones desde un punto de vista matemático, es necesario asignar valores numéricos a cada una de la probabilidades involucradas. Supongamos por el momento que denotamos por p el valor numérico de la probabilidad de que al lanzar una moneda, salga cara. Puesto que es igualmente posible que al lanzar la moneda, salga cruz, la probabilidad de que salga cruz también debe tener asignado el valor p. Como tenemos la certeza de que saldrá cara o cruz sigue que 2p debe ser el valor asignado al suceso seguro, el que ocurrirá siempre que lancemos una moneda al aire. Podemos elegir cualquier valor que nos plazca para el suceso seguro.Es costumbre elegir el valor 1. Esto es: asumimos que 2p=1. Entonces la probabilidad de que la moneda muestre cara es :1/2 ; la probabilidad de que muestre cruz es : 1/2; y la probabilidad de que salga cara o cruz es: Si analizamos detalladamente el ejemplo, podemos apreciar : Un experimento aleatorio, lanzar una moneda al aire Unos resultados puntuales, sale cara o sale cruz y no podemos tener la certeza de antemano de que sea cara o sea cruz. Unas asignaciones de probabilidad a cada uno de los resultados, que se basan en el sentido común y en nuestra experiencia previa. Vamos a definir de manera más precisa cada uno de los elementos que intervienen: Experimento aleatorio Es el experimento que se caracteriza porque su desarrollo no es previsible con certidumbre. Espacio muestral Asociado a un experimento aleatorio es el conjunto de todos los resultados que se pueden obtener al realizar el
  23. 23. experimento. Lo designamos con la letra E y colocamos sus elementos entre llaves y separados por comas. Suceso De un experimento aleatorio es cada uno de los subconjuntos del espacio muestral E. Los designamos por letras mayúsculas: A,B,C,..., ponemos sus elementos entre llaves y separados por comas. Observación : Un resultado concreto de un experimento es un elemento del espacio muestral asociado al experimento, conceptualmente suceso y resultado son dos cosas distintas. Los resultados de un experimento aleatorio se suelen representar con letras minúsculas, los sucesos con letras mayúsculas. En el ejemplo anterior, el suceso A ocurre siempre que el resultado del experimento sea el elemento 2, el elemento 4 o el elemento 6. La confusión entre suceso y resultado se debe a que cuando el suceso es : " que al lanzar un dado salga 2" y el resultado :"sale un dos al lanzar el dado", sólo ocurre el suceso cuando el resultado es 2. Suceso : "Sale un dos" es el subconjunto {2} del espacio muestral Resultado : "Sale un dos" es el elemento 2 del espacio muestral Funciones de distribución El paso siguiente es asignar (distribuir) probabilidades. Las definiciones que siguen están motivadas por el ejemplo del lanzamiento de una moneda, recordamos que en ese ejemplo a cada resultado del espacio muestral le asignábamos un número no negativo tal que la suma de todos los números asignados a cada resultado deberá ser 1. Definición
  24. 24. Sea X una variable que representa a los posibles resultados de un experimento aleatorio, en principio vamos a asumir que este experimento tiene sólo un número finito de posibles resultados. Sea E, el espacio muestral del experimento. Una función de distribución para X es una función real f cuyo dominio es E y que satisface: Ejemplo: Sean tres equipos de futbol, a, b y c que se presentan a un torneo de verano, sólo uno ganará el torneo. El espacio muestral es el conjunto de tres elementos, E={a,b,c}, donde cada elemento corresponde al triunfo de cada uno de los equipos. Suponemos que a y b tienen las mismas posibilidades de ganar y c tiene solamente la mitad de las posibilidades de ganar que a. Debemos asignar probabilidades de modo que : Sea el suceso A, "gana el trofeo el equipo a" ; el suceso B, "gana el trofeo el equipo b" y el suceso C, "gana el trofeo el equipo c". En el lenguaje de la teoría de conjuntos:
  25. 25. En este último caso se puede apreciar como un suceso se puede describir en términos de otros sucesos utilizando las construcciones estándar de la teoría de conjuntos. Las representaciones gráficas de las construcciones de la teoría de conjuntos se llaman diagramas de Venn. En ocasiones es muy conveniente para resolver un problema de probabilidad hacer la representación gráfica del espacio muestral y de los sucesos (subconjuntos del espacio muestral) que intervienen en el problema. Operaciones con sucesos:
  26. 26. Sucesos compatibles e incompatibles
  27. 27. Suceso contrario Dado un suceso A, se llama suceso contrario de A a un suceso que se verifica cuando no se verifica A.
  28. 28. Diferencia de sucesos
  29. 29. Leyes de De Morgan Se pueden comprobar gráficamente.
  30. 30. Teorema 1. Propiedades básicas Las probabilidades asignadas a cada suceso por una función de distribución definida sobre un espacio muestral E de un experimento aleatorio, verifican las siguientes propiedades: Teorema 2. Si A y B son subconjuntos de E, entonces: Sistema completo de sucesos. Regla de Laplace. Si en un experimento aleatorio todos los sucesos elementales son equiprobables, la probabilidad de un suceso A se obtiene dividiendo el número de resultados que forman el suceso A entre el número de resultados posibles. Si llamamos casos favorables a los resultados que forman el suceso A y casos posibles a los resultados posibles del experimento, tenemos:
  31. 31. Probabilidad condicionada En un concurso de televisión, se dispone de 20 coches, para premiar al concursante, de las marcas y colores que se indican en la siguiente tabla: Rojo Azul Totales SeatPanda 2 8 10 SeatToledo 7 3 10 Totales 11 20 9 Los coches están colocados aleatoriamente, tras 20 puertas, de forma que el concursante no ve el coche que hay detrás de cada puerta. El concursante elige un número, entre 1 y 20, y si acierta la marca y el color del coche que hay en la puerta elegida, gana, en caso contrario pierde. El concurso lo podemos considerar como un experimento aleatorio. Cada resultado es el coche elegido. Para describir fácilmente todo el proceso vamos a considerar: Suceso P : Suceso T : Suceso R : Suceso A : El coche es un Seat Panda El coche es un Seat Toledo El coche es de color rojo El coche es de color azul Así el suceso : "Seat Toledo de color rojo" lo representamos por : T ∩ R y la probabilidad de este suceso, sigue de la tabla : Rojo Azul Totales SeatPanda 2 8 10 SeatToledo 7 3 10 Totales 11 20 9 P( T ∩ R ) = 7/20 La probabilidad de que el coche sea un Seat Toledo es : Rojo Azul Totales SeatPanda 2 8 10 SeatToledo 7 3 10 Totales 11 20 9
  32. 32. P(T)=10/20 = 1/2 ¿Qué ocurre si, una vez que el concursante ha elegido puerta, el presentador, le da la pista de que el coche que hay tras la puerta es rojo?.Tendremos que cambiar la probabilidad al suceso T y al suceso P. A la probabilidad del suceso T cuando se sabe que ha ocurrido R, le llamamos probabilidad condicionada de T, sabiendo que ha ocurrido R y escribimos: P(T/R) Para asignar las nuevas probabilidades hemos de ser consecuentes con las propiedades que debe cumplir toda asignación de probabilidades. El nuevo espacio muestral es el señalado en rojo en la tabla siguiente. Por tanto asignamos así las probabilidades: Rojo Azul Totales SeatPanda 2 8 10 SeatToledo 7 3 10 Totales 11 20 9 P(T/R) = 7/9 ; P(P/R) = 2/9 De la tabla anterior, siguen fácilmente las siguientes relaciones : Consideremos ahora el siguiente experimento : Dos urnas, A y B ,la urna A, contiene 3 bolas verdes y 2 bolas rojas, la urna B contiene 2 bolas verdes y 3 bolas rojas. Se realiza el experimento en dos tiempos, primero se selecciona urna por un procedimiento aleatorio y posteriormente de la urna elegida se extrae una bola. Para representar, de forma muy adecuada, este tipo de experimentos, se realiza un esquema, llamado : árbol de probabilidades
  33. 33. Cada flecha del diagrama se denomina rama del árbol; a cada rama, asignamos la probabilidad que le corresponde. Un recorrido, desde el comienzo del experimento hasta el final, se llama un camino. Si sabemos que ha ocurrido el suceso A, tenemos que volver a asignar probabilidades a los distintos caminos; todos los caminos que comienzan por el suceso B, tendrán probabilidad 0 y los que empiezan por el suceso A : Hay que aceptar por tanto las mismas relaciones entre probabilidades a las que habíamos llegado en el experimento anterior : Para concretar tenemos que admitir la siguiente definición:
  34. 34. Definición 1. Probabilidad condicionada De un suceso R sabiendo que ha ocurrido otro A Y dos teoremas: Teorema 1. Regla del producto De la definicion 1, despejando, sigue que: Teorema 2. Probabilidad total Si A y B forman un sistema completo de sucesos , la probabilidad de cualquier otro suceso R es: Sucesos dependientes Dos sucesos son dependientes si el resultado de uno influye en el otro. Los sucesos A y B son dependientes si y sólo si P(A) es distinto de P(A/B) y P(B) es distinto de P(B/A) Sucesos independientes Dos sucesos son independientes si el resultado de uno no influye en el resultado del otro. Los sucesos A y B son independientes si y sólo si P(A)=P(A/B) y P(B)=P(B/A). Probabilidades a posteriori. Teorema de Bayes. Vamos a considerar de nuevo, el experimento de las urnas A y B, que contienen bolas verdes y rojas:
  35. 35. Si sabemos que ha salido una bola roja, los caminos posibles en el árbol de probabilidades, quedan reducidos a dos, los señalados en rojo en la imagen anterior; tenemos que reasignar probabilidades, todos los caminos que terminan en bola verde, deberán tener probabilidad 0. ¿Cómo asignamos probabilidades a los caminos que conducen a bola roja? En resumen podemos enunciar el siguiente resultado : Teorema de Bayes o de las probabilidades a posteriori GENERALIDADES PROBABILIDADADES Para el desarrollo de esa unidad, es importante definir con claridad algunos conceptos, ya que no se tiene una definición precisa sobre probabilidad, observemos algunas ideas del término como por ejemplo: Las probabilidades de que hoy llueva, es poco probable que ganen Las águilas el campeonato este año, es casi seguro que me compre un carro en este año, entre otros. Siempre que tenga alguna experiencia en la que interviene la duda, incertidumbre, se está hablando de probabilidad, que en realidad es un valor numérico que debe cumplir con ciertas condiciones o propiedades matemáticas. Experimentos: Es cualquier proceso que se somete a ensayo u observación del cual no se está seguro. Ejemplos: *Lanzamiento de un dado para observar que número o lado aparece. *Extraer una letra de una bolsa que contiene el abecedario. *Examinar la producción de una fabrica etc.
  36. 36. En los experimentos anteriores no se sabe, cuáles serán los resultados. El hecho de no tener certeza del resultado que se va a obtener se le llama Azar. Ahora, en la realización de cada experimento se pueden dar varios resultados, cuando esta sucede se le llama Aleatoria. Por ejemplo: En el lanzamiento de un dado, en este experimento no hay seguridad qué número se va a obtener, pero sí sabemos que existen 6 posibles resultados que son 1, 2, 3, 4,5 y 6, por lo que decimos que un Experimento Aleatorio es aquel en el que no se puede predecir su resultado. Ahora bien, al caer el dado, se tiene un resultado que puede ser un número cualquiera de los que tiene el dado. El resultado de un experimento aleatorio se le llama Suceso o Evento y al conjunto de todos los resultados posibles se le llama Espacio Muestral, y lo vamos a simbolizar por la letra S Ejemplo, En la tirada de un dado, el espacio muestral es: S= (1, 2, 3, 4, 5, 6) Ejemplo 2.Se tira una moneda al aire. El espacio muestral es: S=(C, E) El suceso es Cara o Escudo una de las dos Espacio Muestral : es un conjunto de sucesos o eventos, elementos, puntos o resultados posibles al realizar un experimento. Suceso o Evento : es un subconjunto del espacio muestral , es el resultado de un experimento. Probabilidad Clásica es el cociente al dividir el número de resultado o sucesos favorables y el total de sucesos posiblesP(A)=Numero Sucesos favorables/Total de sucesos posibles P(A)= NA/N Ejemplo 3.Se lanzan tres monedas al aire al mismo tiempo. Cuál es la probabilidad de que al caer estas sean: a) Las tres caras b) Las dos primeras sean escudo. a) las tres sean caras. Experimento: lanzar tres monedas al aire Espacio muestral: n1, n2, n3 S=n1. n2.n3 n1, n2 y n3 representan las tres monedas y cada una tiene 2 lados por lo tanto S= 2 x 2 x 2=8 es decir, que se va a tener 8 combinaciones o sucesos posibles) S= CCC, CCE, CEC, CEE EEE, EEC, ECE, ECC
  37. 37. Para la pregunta a), se observa que el suceso favorable es CCC (un solo caso) Y que en esa P(A)=NA/N sola combinación hay tres caras, por lo tanto la probabilidad de que se obtengan tres caras es 1/8. implica P(A)=1/8 Donde: 1=suceso favorable 8= total de sucesos posibles P(A)= 1/8 = 0.125 x 100 = 12.5% Quiere decir que existe un 12.5% de probabilidad de que cuando caigan, las tres sean cara. b) Las dos primeras sean escudo: Sucesos favorables: E E E, E E C P(A)= sucesos favorables 2/ Total de sucesos posibles 8 P(A)=NA/N P(A)=2/8 = 0.25 x 100 =25% Es decir, se tiene un 25% de probabilidad de que al caer las dos primeras sean escudo Ejemplo 4: Se tienen en una bolsa las letras del alfabeto español, si se extrae una letra .Cual es la probabilidad de que esta sea: a) Una vocal Espacio muestral: a, b,c,d,e, ……z (29) Suceso o evento favorables: 5 (a, e,i,o,u) P(A) =5/29 =0.1724 x 100 =17.24 % Es decir, hay 17.24 % de probabilidad de que al extraer una letra esta sea una vocal b) Un dígrafo Suceso; CH, LL P(A) =2/29 = 0.0689 x 100 =6.89 %En las probabilidades obtenidas en cada experimento, se observan varios aspectos: 1) La probabilidad de un experimento está comprendido entre cero y uno. P(A)= 0 < P<1 La probabilidad es uno (1) cuando el suceso es seguro y será cero (0) si el suceso es imposible. Por ejemplo: Se tienen tres bolas blancas en una canasta, cual es la probabilidad de que al extraer una bola, esta sea. a) Blanca b) roja a) La probabilidad de que sea blanca es: P(A)=3/3 =1 x 100= 100% es decir, un suceso seguro b) La probabilidad de que sea roja es: P(A) = 0/3 = 0 es decir, un suceso imposible 2. La suma de las probabilidades de cada suceso o evento que constituye el espacio muestral es igual a la unidad.
  38. 38. Ejemplo: -Se lanza una moneda, se comprueba que: P(C) = ½ =0.5 P(E) = ½ =0.5 , por lo tanto, P(C) + P (E) = 0.5 + 0.5 , donde; P(C) ´+ P(E) = 1 PROBA BILIDAD CONDICIONAL Para la mejor comprensión, veremos los siguientes ejemplos: a) Se lanzan tres monedas al aire. Hallar la probabilidad de obtener tres caras dado que salió por lo menos una cara. El espacio muestral es: S = CCC, CCB, CEC, ECC, EEE, EEC, ECE, CEE. Como la condición es dado que salió por lo menos una cara, entonces: El espacio muestral son todas las combinaciones que tengan cara (CCC, CCE, CEC, ECC, EEC, ECE, CEE), ahora de estas en solo una (1) hay tres cara, por lo tanto la probabilidad de obtener tres caras, dada que salió por lo menos, una cara, es: P(F/E) = 1/7 = 0.1428 x 100 = 14.28%. P (F/E) se lee la probabilidad de F dada E Ejemplo 2: Se tiran 2 dados al mismo tiempo. Hallar la probabilidad de que al caer la suma de ambos lados sea 7 ò más, si se sabe que: a) Aparece el 3 en el primer dado. Recuerde siempre determinar el espacio muestral (S) como son dos dados: S = n1 x n2 Como cada dado tiene 6 lados: n1 = 6, n2 = 6 entonces el n1 = 1, 2, 3, 4, 5, 6 S = 6 x 6 = 36 n2 = 1, 2, 3, 4, 5, 6, Por lo que las combinaciones son: Espacio Muestral (1,1), (1,2), (1,3), (1,4). (1,5), (1,6) (2,1), (2,2). (2,3). (2,4), (2,5), (2,6) (3,1), (3,2), (3,3), (3,4), (3,5), (3,6) (4,1), (4,2), (4,3), (4,4),(4,5).(4,6) (5,1), (5,2), (5,3) (5,4), (5,5), (5,6) (6,1), (6,2), (6,3), (6,4), (6,5), (6,6) Ahora bien, la condición es que aparezca el 3 en el primer dado, como en la tercera fila es que aparece el 3 en el primer dado, entonces el espacio muestral es: S = (3,1), (3,2), (3,3), (3,4) (3,5), (3,6) De estas 6 combinaciones los Sucesos favorables son (3,4) (3,5) (3,6) es donde ocurre que la suma se a 7 ò más,
  39. 39. Por lo tanto: La P (F/E) = 3/6 =0.5 x 100 =50% es decir que existe un 50% de probabilidad de que al caer los dos dados ambos sumen 7 ò mas si se sabe que aparece el 3 en el primer dado. LA PROBABILIDAD CONDICIONAL Si F y E son sucesos, entonces la probabilidad de F dado E se define como: P (F/E) = P (FINTERSECCION E)/P (E) P (F/E) = P (F/E)= se lee probabilidad de F dado que E ya ocurrió P (F INTERSECCION E) = probabilidad que ocurra F y E al mismo tiempo P (E) probabilidad de que ocurra E SUCESOS INDEPENDIENTES Es cuando en dos o más sucesos la probabilidad de ocurrencia del primero no afecta el resultado del segundo u otros sucesos. Ejemplo: Si en una bolsa se tienen tres bolas azules y dos verdes. Halla la probabilidad de sacar una bola azul. Como son 5 bolas y de estas hay tres azules, entonces, P(X) = =0.6. Ahora bien, si se realiza un segundo intento se tiene la misma probabilidad de que sea azul, independientemente de lo que salió en el primer intento, ya que se regresó la bola a la bolsa para el segundo intento (con reemplazo). SUCESOS DEPENDIENTES Se dice que dos sucesos son dependientes cuando la probabilidad de ocurrencia del primero afecta la del segundo u otros sucesos. En el ejemplo anterior, la probabilidad de que al sacar la bola esta sea azul es P(A) =3/5, ahora bien, si la bola extraída fue azul y se deja afuera (sin reemplazo), entonces, para el segundo intento la probabilidad de que sea azul es de: 2/4 =0.5 x 100 = 50% quiere decir que se tiene un 50% de que en el segundo intento, esta sea azul. REGLAS DE LA PROBABILIDAD Recordamos que un espacio muestral es el conjunto de todos los resultados posibles de un experimento o ensayo. Y un ensayo es un experimento cuyos resultados no tienen que ser necesariamente los mismos cada vez que se repita un ensayo y que los resultados individuales que constituyen el Espacio Muestral se le llaman sucesos o puntos muestrales. Además que la probabilidad de un evento cualquiera es un valor comprendido entre 0 y 1 es decir 0 ≤ P(A) ≤ 1 Ejemplo (1) Experimento: Lanzar un dado Espacio muestral será S= (1, 2, 3, 4, 5, 6) es decir, 6 sucesos o puntos muestrales, ahora preguntamos, cuál es la probabilidad de que al caer el dado aparezca el 2. Observamos que hay un sólo dos (2) por lo tanto la P(A)=1/6 y los cinco eventos restantes se denominan complementarios, estos son: 1, 3, 4 y 5.
  40. 40. Otra pregunta sería, cuál es la probabilidad de que al caer el dado este sea un número par o impar? Como solo debe ocurrir uno de los dos eventos, se tiene: 1ro. Probabilidad que sea un número par (P(A)), como el dado tiene 3 números pares, decimos que P(A) =3/6. 2do. Probabilidad de que sea un número impar (P (B)), como el dado tiene tres números impares decimos que P (B) = 3/6. Observa que no existe un número que sea par e impar a la vez, es decir, estos dos sucesos no tienen elementos comunes o sea que los que pertenecen al grupo de los pares se excluyen automáticamente los impares. Hay dos sucesos A y B, de manera que, si A ocurre, no puede ocurrir B y viceversa, puede decirse que A ΩB = ϴ ó P(AΩB) = 0 a estos sucesos se le llaman Sucesos Mutuamente Excluyentes y cuando esto ocurre la P(AoB) = P(A) + P(B) entonces, la P(AoB) = 3/6 + 3/6 =6/6 = 1 x 100 = 100% P (AoB): se lee probabilidad de AoB Ejemplo 2 En una bolsa se tienen 15 fichas numeradas con los números del probabilidad de que éste sea: a) Múltiplo de 4 ò múltiplo de 5 3 al 17, si se extrae una ficha, cual es la b) Múltiplo de 3 ó múltiplo de 4 S = (3, 4, 5, 6, 7, 8, 0, 10, 11, 12, 13, 14, 15, 16, 17 ) a) Múltiplo de 4 ò múltiplo de 5 Sea A los múltiplos de 4 = (4, 8, 12, 16) y B los múltiplos de 5= (5, 10, 15) observara que no hay sucesos comunes, no existen fichas de A que también estén en B, por lo tanto, estos sucesos son Mutuamente Excluyente. Entonces la P (AoB) = P(A) + P (B) P(A)= 4/15 , P (B) = 3/15 sustituyendo, se tiene que: P (AoB)= 4/15 + 3/15 = 7/15 = 0.47 x 100 =47%. Quiere decir que hay un 47% de probabilidad de que al extraer una ficha, esta sea múltiplo de 4 ó de 5. b) Múltiplo de 3 ó múltiplo de 4 Sea A los múltiplos de 3 es decir (A) = (3, 6, 9, 12, 15) Sea B los múltiplos de 4, es decir (B) = (4, 8, 12, 16) Observa que el 12 es múltiplo de 3 y de 4 es decir, que (AΩB)= (12) por lo tanto, estos sucesos no son Mutuamente Excluyentes Y cuando esto sucede, La P (AoB) = P(A) + P (B) – P (AΩB), P (A) =5/15 P (B) =4/15 P (AΩB) = 1/15
  41. 41. P (AoB) = 5/15 + 4/15 – 1/15 = 8/15 = 0.53 P (AoB)= 0.53 x 100 = 53%. Quiere decir que hay un 53% de probabilidad de que al extraer una ficha, esta sea múltiplo de 3 ó de 4. Esperanza MatemáticaoValor Esperado Esperanza MatemáticaoValor Esperado de una variable aleatoria surge con los juegos de azar, por lo que podemos decir que: Es el valor medio de un fenómeno aleatorio. Es el producto de la cantidad que un jugador puede ganar y la probabilidad de ganar en el juego. Por ejemplo: Un jugador de lotería nacional juega un número cuyo premio es 1,500 pesos., como son 100 números, la probabilidad de ganar es de 1/100, entonces La Esperanza Matemática es 1500×1/100=15 pesos, esto quiere decir que el jugador sólo deberá pagar 15 pesos por cada número jugado. Pero si es 1,500.00 en el primer premio, 300.00 en el segundo y 100.00 en el tercer premio, entonces decimos que la Esperanza Matemática es 1500+300+100=1900x1/100=19.00 es decir, debe pagar 19.00 por cada número jugado. La Esperanza Matemática o Valor Esperadotambién la podemos definir como la sumatoria de los productos obtenidos al multiplicar la cantidad que se gana en cada jugada (variable aleatoria) por la probabilidad correspondiente. Veamos: Si X es la variable aleatoria (la cantidad ganada) y P(x) el valor de la probabilidad de X, entonces la Esperanza Matemática E(x) es: E(x) y si el juego se repite varias veces, la Esperanza Matemática es: E(x) Veamos otros ejemplos: 1.- En una tómbola se tienen 1,000 boletos con los números del 1 al 1,000, para rifar una computadora valorada en 25,800.00 pesos en el primer premio, en el segundo premio un celular de 5,500.00 y en el tercer premio una calculadora con un valor de 1,500.00. Cuál es la Esperanza Matemática o Valor Esperado. Las variables aleatorias son: , , Como los sucesos son dependientes, para el primer intento es con el total de boletos (1000), ya para el segundo es 999 y para el tercero solo quedan 998 boletos, por lo tanto la probabilidad de las variables aleatorias es: P( = ; P( = y para P( = E(x) E(x)=25,800x1/1000 + 5,500x1/999 + 1,500x1/998 E(x) = 25.8 +5.5+1.5 =$32.80 E(x)= $ 32.80 quiere decir, que se deben pagar $32.80 por cada boleto 2.- En una canasta se tiene 10 bolas; 5 verdes, 3 azules y 2 blanca. El juego consiste en sacar una bola que paga $85 si es verde, $180.00 si es azul y $500.00 si es la blanca. ¿Cuál es la Esperanza Matemática? E(x)
  42. 42. X1=85.00, lo que se paga por si sale verde y la probabilidad de que salga verde es: P(X1)=5/10; X2= 180.00, lo que se paga por si sale azul y la probabilidad de que salga azul es: X3= 500.00 lo que se paga si sale blanca la probabilidad de que salga blanca es: quela Esperanza Matemática será: P(X2)=3/10; P(X3)=2/10; P(X1)=0.5 P(X2)=0.3 P(X1)=0.2, por lo E(x)=85x0.5+180x0.3+500x0.2 E(x) =42.5 + 54 + 100 E(x)=196.5 Quiere decir, que el jugador sólo debe pagar $196.5 por cada jugada, gana si sale la bola blanca, no le favorece si sale la bola verde o la azul. Otra forma, es construir una distribución de probabilidades discretas Xi 85.00 180.00 500.00 P(Xi) 5/10 =0.5 3/10 =0.3 2/10 =0.2 Xi P(Xi) 42.5 54 100 196.5 E(x) =196.5 Puedes notar que el denominador de P(x) es fijo, esto sucede porque se va a sacar sólo una del total de las bolas(10). 3.- En una canasta se tiene 8 canicas, 6 rojas y 2 negras. El juego consiste en sacar una canica que pierde 50 pesos si es roja y gana 285 pesos si sale negra.¿Cuál es la Esperanza Matemática? E(x) X1=-50; P(X1) =6/8; X2=285; P(X2) =2/8; Xi -50 285 P(X1) =0.75 P(X2) =0.25 P(Xi) 6/8=0.75 2/8=0.25 Xi P(Xi) -37.75 71.25 33.5 E(x) =33.5 UNIDAD III Distribución de probabilidad (variables discretas) Variable aleatoria En un experimento aleatorio se observan resultados y a cada uno se le asigna el valor numérico de la variable aleatoria. Veamos los siguientes ejemplos:
  43. 43. 1. Se utilizan tres monedas y se observa el número de cara al caer. La variable aleatoria x es el número de caras y puede adoptar valores enteros de 0 a 3 porque son tres moneda 2. Se extraen tres bolas de una canasta que tiene 3 azules y 4 rojas. Se observa el número de las rojas. La variable aleatoria x es el número de las bolas rojas y puede adoptar valores enteros de 0 a 4. Por lo que se observa que una variable es aleatoria cuando los valores que toma la variable correspondiente a los distintos resultados posibles de un experimento. Es decir es la variable que asume un valor numérico único para cada uno de los posibles resultados de un experimento aleatorio. Las variables aleatorias se clasifican en discretas y continuas. La variable aleatoria discreta es aquella que toma una cantidad numerable de valores distintos (ver ejemplo 1 y 2). La variable aleatoria continua es la variable que puede adoptar una cantidad inmensurable de valores de valores dentro de un intervalo. Ejemplos: Tiempo necesario en hacer una transacción en un banco Longitud de un cable de teléfono Distribución de Probabilidad es una descripción del conjunto de valores posibles de la variable junto con la probabilidad asociada con cada uno de los valores. Ejemplo. Se lanzan tres monedas al aire, y se observan las ocurrencias de cero caras, una cara, dos caras o tres caras, la variable aleatoria X adopta los valores 0, 1,2 ó 3 y la probabilidad de cada una es: P(x=0)=1/8 P(x=1)= 3/8 P(x=2)=3/8 P(x=3)=1/8 Estas probabilidades se pueden expresar en una tabla denominada distribución de probabilidad. XP(x) 0 0.125 1 0.375 2 0.375 3 0.125 Varianza y La desviación estándar de una distribución de probabilidad discreta. La varianza de una variable aleatoria discreta x se encuentra al multiplicar el cuadrado de cada diferencia del valor de la variable x y la Esperanza Matemática (media de una variable aleatoria) por la probabilidad de la variable x y luego sumando estos productos.
  44. 44. 2 2 = ∑ [(X-E(x)) P(x)] Donde: 2 =varianza X= variable aleatoria E(x)= Esperanza Matemática P(X)= probabilidad de la variable aleatoria ∑= sumatoria Desviación estándar de una variable aleatoria discreta. La desviación estándar no es más que la raíz cuadrada de la varianza. 2 = desviación estándar Ejemplo Hallar la varianza y la desviación estándar del valor correspondiente al lanzar 3 monedas al aire y obtener el número de caras. 1. Calculamos la Esperanza Matemática E(x) E(x)= Donde: X1=0 X2=1 X3=2 X4=3 En el ejemplo anterior se determinó la probabilidad de X E(x)= 0(0.125)+1(0.375)+2(0.375)+3(0.125)=1.5 2. Hacer una distribución de probabilidad para calcular la varianza 2 2 P (xi) [Xi- E (xi)] (X-E(x)) [(X-E(x)) P (xi)] 0.125 -1.5 2.25 0.281 1 0.375 -0.5 0.25 0.094 2 0.375 0.5 0.25 0.094
  45. 45. 3 0.125 1.5 2.25 0.281 ∑=0.75 Puedes observar que, en la primera columna están los valores que puede adoptar la variable aleatoria Xi: 0, 1, 2, 3 , en la segunda esta la probabilidad de cada la variable, en la tercera está la diferencia de cada valor de la variable y la esperanza matemática (1.5), esta diferencia se eleva al cuadrado como se observa en la cuarta columna y en la quinta columna están los productos de multiplicar cada probabilidad de la segunda columna con el cuadrado de la diferencia 2 de la cuarta columna. La sumatoria de estos productos es el valor de la varianza. ( 0.75) La desviación estándar es la raíz cuadrada de la varianza: 2 , significa el grado de depreciación o variación de la variable aleatoria X con respecto a la esperanza Matemática (media). Distribución Binomial es una distribución de probabilidad discreta que mide el número de éxito en una secuencia de n ensayos independientes de Bernoulli con una probabilidad fija de ocurrencia de éxito entre los ensayos. En una Distribución Binomial se debe cumplir las propiedades siguientes: 1. 2. 3. 4. 5. Un experimento se efectúan n veces (ensayos repetidos) Cada ensayo tiene dos posibles resultados: éxito (p) o fracaso(q) tal que p + q=1 El resultado de cada suceso es independiente de otro resultado Los datos recopilados son variables discretas. Los sucesos son mutuamente excluyentes. La Distribución Binomial es también llamada Distribución de Bernoulli. Para su cálculo se utiliza la formula siguiente: P(x)=probabilidad de ocurrencia n= número de veces que se realiza el ensayo x= éxitos deseados p= probabilidad de éxitos q= probabilidad de fracaso (1-p) =n P(x)= n!= n(n-1)(n-2)(n-3)……(n-(n-1)) n! se lee n factorial Ejemplo: el factorial de 5!= 5x4x3x2x1=120 Además, El factorial de cualquier número se busca en la calculadora.
  46. 46. Ejemplo 1. Hallar la probabilidad de obtener 4 caras al lanzar una moneda 7 veces. Primero veamos si cumple con las propiedades: Es de ensayos repetitivos ya que la moneda se tira 7 veces o sea n=7; tiene dos posibles resultados éxito o fracaso, probabilidad de éxito es ½ y de fracaso ½ porque al tirar la moneda, la probabilidad de caer cara en cada ensayo es ½ por lo que son sucesos independientes y mutuamente excluyentes. La probabilidad de fracaso es de ½ también ya que q=1-p de donde q=1-0.5= 0.5 P(x) = n= 7 x=4 p=0.5 q=0.5 P (4) = P (4) = 7! = 7x6x5x4x3x2x1 =5,040 4! = 4x3x2x1 =24 3! = 3x2x1 = 6 P (4) = P (4) = P (4)= 34x0.00781 P (4)= 0.2734 x 100 P (4)= 27.34% P (4)=27.34%; quiere decir que la probabilidad de obtener 4 caras de los 7 ensayos es de un 27.34%. zEjemplo 2. En una fábrica de zapatos, se ha encontrado que el 12% de la mercancía sale defectuosa, si se seleccionan 6 al azar.¿Cuál es la probabilidad de que 2 estén defectuosas? P(x)= n=6 x=2
  47. 47. p= 12% = 12 entre 100 = 0.12 q=1-0.12=0.88 P(2)= P(2)= 15 (0.0144)(0.5997) P(2)= 0.1295 P (2)= 0.1295x100 P (2)= 12.95 % La probabilidad de que hayan 2 defectuosas en la selección es de un 12.95% Distribución de Poisson Es una distribución de probabilidad discreta que mide la probabilidad de un evento aleatorio sobre algún intervalo de tiempo o espacio. La distribución de Poisson es de gran utilidad, en situaciones como: Número de llegada de cliente por hora en una empresa o institución. Número de accidentes en una fábrica durante 5 minutos. Número de maquinas dañadas durante un día. Número de llamadas durante 10 minutos en una central telefónica. Número de enfermos con fiebre que llegan a un hospital durante un intervalo de tiempo etc. Una distribución de Poisson se observan: 1. La probabilidad de observar exactamente un éxito en el intervalo es constante. 2. La probabilidad de obtener más de un evento en el intervalo es cero. 3. El evento debe ser un suceso raro. 4. La probabilidad de observar un éxito en cualquier intervalo es independiente de cualquier otro intervalo. Esta distribución se utiliza cuando la muestra es muy grande y la probabilidad de éxito p es muy pequeña en función del tiempo dado, debido a que el cálculo usado en la binomial se hace tedioso, por lo que se debe cumplir que: P<0.1 Y p.n<10 La distribución de probabilidad de la variable de Poisson X, representa el número de resultados que ocurre en un intervalo de tiempo dado. Para su cálculo utilizamos la fórmula siguiente: Para x=0,1,2,3…………. λ (lambda) es la ocurrencia promedio por unidad de tiempo, volumen, área etc.. λ=n.p x: es el numero de éxito por unidad e= es una constante que tiene un valor aproximado de 2.71828
  48. 48. P(x) = es la probabilidad de ocurrencia cuando la variable descrita x toma valor. Ejemplo 1. El número de partículas radioactivas que pasan a través de un contador durante una milésima de segundo en un experimento es 6. ¿Cuál es la probabilidad de que entren 4 partículas al contador en una milésima de segundo determinado? Como puedes observar es imposible utilizar la distribución binomial. Entonces se realiza el cálculo con Poisson. λ= 6 ya que es la ocurrencia en el tiempo establecido x=4 los éxitos deseados en esa unidad de tiempo e= 2.71828 (es una constante) Sustituyendo en la formula: Realizando los cálculos en la calculadora tenemos que: Quiere decir que hay un 13.34% de probabilidad que entran 4 partículas al contador en una milésima de segundo. Ejemplo 2. En una fábrica de camisas se ha encontrado que el 2% de estas salen defectuosos. Calcule la probabilidad de que 3 de 400 camisas estén defectuosas. Observa que: p=0.02: p<1 λ=n.p=400x0.02=8 λ<10 por lo que se puede notar que este problema es una distribución de Poisson: λ= 8 x= 3
  49. 49. de que 3 de 400 camisas estén defectuosas. Distribución Hipergeométrica Es la distribución de probabilidad discreta relacionada con muestreos sin reemplazo. Hemos realizado distribuciones de situaciones que involucra la distribución Binomial o de Bernoulli, que consistía en extracción de muestra con reemplazo o sea que implicaba la reposición de cada extracción o selección y cada uno de los posibles resultados se mantenían constantes, es decir, que se requiere la independencia entre intentos, a diferencia de la distribución Hipergeometrica que no requiere independencia, y se basa en muestreo sin reemplazo. Además es útil en aquellos casos en lo que se extraigan muestras de poblaciones muy pequeños o se realicen ensayos repetidos sin devolución del elemento extraído o sin retornar a la situación experimental inicial; por lo que es una distribución fundamental en el estudio de muestras pequeñas de poblaciones pequeñas. Las aplicaciones de la distribución Hipergeometrica se encuentran en muchas áreas, con un uso considerable en el muestreo de aceptación como pruebas electrónicas, aseguramiento de la calidad entre otras cosa. N= tamaño de la población n= tamaño de la muestra k= número de éxito de la población x= número de éxito de la muestra N-k: número de fracaso de la población n-x: número de fracaso de la muestra Ejemplo 1.En un lote de 40 componentes, cada uno se considera aceptable si no tiene más de 3 defectuosos. El procedimiento de muestreo del lote consiste en seleccionar 5 componentes aleatoriamente y rechazar el lote sin más de un artículo defectuoso. ¿Cuál es la probabilidad de que 2 estén defectuosos? Como la muestra es sin reemplazo y muestra pequeña de una población pequeña, entonces es de distribución Hipergeométrica. Veamos: Sabiendo que N= 40 tamaño de la población n=5 tamaño de la muestra k=3 número de éxito x=2 número de éxito de la muestra
  50. 50. (N-K)= (40-3)=37 número de fracaso de la población (n-x)= (5-2)= 3 número de fracaso de la muestra Sustituyéndola en la fórmula tenemos: = =3 = = 658,008 : La probabilidad de que 2 de los 5 componentes seleccionados estén defectuosos es de 3.54% Distribución Geométrica Es un modelo adecuado para aquellos procesos en los que se repiten pruebas hasta la obtención del éxito o resultado deseado. Además es un caso especial de la distribución Binomial, ya que se desea que ocurra un éxito por primera y única vez en el último ensayo que se realiza el experimento. Características: El experimento es de ensayo repetido y concluye cuando se obtenga por primera vez el resultado deseado. Los sucesos son mutuamente excluyentes con dos posibles resultados éxito (P) o fracaso (q) donde P+q=1. Ejemplo 1. Se lanza una moneda 7 veces, de tal manera que la probabilidad de que aparezca cara es ¾. Determine la probabilidad de que aparezca cara en último lanzamiento. Para este tipo de distribución utilizamos la siguiente fórmula: Donde: P(x): probabilidad que aparezca un éxito en el ensayo x por primera y única vez. X: el número de veces necesario que se repite el experimento para que ocurra un éxito por primera y única vez. P: probabilidad de éxito q: probabilidad de fracaso (1-P) Entonces: x= 7; P= ¾=0.75; q=1-3/4=1/4= 0.25 Sustituyendo tenemos:
  51. 51. Ejemplo 2.El 5% de los instrumentos de medición sufren una desviación excesiva.¿Cuál es la probabilidad de que el quinto instrumento probado sea el primero en no mostrar desviación? X=5 lanzamientos necesarios P= 95% 100= 0.95probabilidad de que los instrumentos no muestren desviación. q=1-0.95=0.05 probabilidad de que los instrumentos sufran desviación. Sustituyendo tenemos: Distribuciones de Probabilidad 1. Introducción 2. Distribuciones de probabilidad para variables discretas Recordemos inicialmente que existen las variables aleatorias, siendo aquellas que se asocian a la ocurrencia de un fenómeno aleatorio. Cuando una de estas variables aleatorias toma diversos valores, la probabilidad asociada a cada uno de tales valores puede ser organizada como una distribución de probabilidad, la cual es la distribución de las probabilidades asociadas a cada uno de los valores de la variable aleatoria. Las distribuciones de probabilidad pueden representarse a través de una tabla, una gráfica o una fórmula, en cuyo caso tal regla de correspondencia se le denomina función de probabilidad. Consideraremos primero las distribuciones de probabilidad para variables discretas. Por ejemplo: Consideremos a la variable aleatoria X como la cantidad de águilas observadas cuando se lanzan dos volados. El espacio muestral es el conjunto {AA, AS, SA, SS} y se puede ver que la variable X puede tomar como valores 0, 1 y 2. Calculando las probabilidades tenemos: P(de no observar águilas) = P(SS) = P(X=0) = ¼ P(de observar una águila) = P(SA AS) = P(X=1) = 2 P(de observar dos águilas) = P(AA) = P(X=2) = ¼ Si ahora se organizan estos resultados con el siguiente formato X P(X=x) 0 ¼ 1 2 2 ¼ /4 /4
  52. 52. se podrá explicar por qué se usa el nombre "distribución de probabilidad". E, incluso, con esta información se puede construir una gráfica de barras o un histograma como el que sigue: Las propiedades de las distribuciones de variables discretas son dos, y que posteriormente, al hablar de las distribuciones de variables continuas, se repetirán de manera muy similar: 1. 0  P(X=x)  1. 2.  P(X=x) = 1, o que es lo mismo: la suma de todas las probabilidades de los eventos posibles de una variable aleatoria es igual a la unidad. Hay que hacer notar que estas propiedades se enuncian suponiendo que conocemos el valor de la probabilidad, pero en la realidad ésto no ocurre, es decir que no sabemos la probabilidad y lo que se hace es trabajar con estimaciones. Precisamente esto nos lleva a modelos teóricos que estiman los resultados, los principales son los que a continuación se presentan. 7.2 Modelos de distribuciones de probabilidad de variables discretas Uniforme. Es la distribución donde todos los eventos elementales tienen la misma probabilidad. Por ejemplo: 1 tirar un dado, donde la función P(X=x)= /6 para valores de x=1,2,3,4,5,6. Binomial. Es la que maneja la distribución de la probabilidad de obtener cierta cantidad de éxitos al realizar una cantidad de experimentos con probabilidad de éxito constante y con ensayos independientes. Geométrica. Es la distribución de la probabilidad de realizar cierto número de experimentos antes de obtener un éxito. Hipergeométrica. Es similar a la binomial, pero con un tamaño de muestra grande en relación al tamaño de la población. La función de Excel que proporciona sus valores es DISTR.HIPERGEOM De Poisson. Es la distribución de la probabilidad de que ocurra un evento raro en un periodo de tiempo, un espacio o un lugar. La función de Excel que da los valores de la distribución es POISSON La que más nos interesará de estas será la distribución binomial que comentaremos un poco más adelante. 7.3 Media y desviación estándar de una distribución de probabilidad para variables discretas En una *a href*distribución de frecuencias para datos agrupados se calculaba la media utilizando la fórmula la cual puede expresarse como ,
  53. 53. Considerando la definición de probabilidad de un evento, P(X) es el cociente de la frecuencia entre el número total de eventos (probabilidad frecuencial de ocurrencia), por lo que la media de una distribución de probabilidad de una variable discreta es: Por ejemplo: Consideremos la variable X del ejemplo de águilas observadas en dos lanzamientos de monedas. Es decir, X tal que su distribución de probabilidad sea: X P(X=x) 0 ¼ 1 ½ 2 ¼ Entonces, para calcular su media  se realiza: Similarmente, la *a href*varianza se definió como tenemos que , y haciendo un tratamiento análogo anterior para que, finalmente, la varianza de una distribución de probabilidad de una variable discreta sea: Consecuentemente, la desviación estándar de una distribución de probabilidad de una variable discreta es: Por ejemplo: Considerando la misma distribución de probabilidad que en el ejemplo anterior, su desviación estándar se calcula: 3. La distribución binomial Consideremos los llamados ensayos Bernoulli, éstos son aquellos experimentos cuyo resultado es uno de dos posibles y mutuamente excluyentes, a los que se denominarán éxito y fracaso.
  54. 54. Por ejemplo: Los siguientes son ensayos Bernoulli. Un tornillo, puede estar defectuoso o no defectuoso. El sexo de un bebé al nacer: niño o niña. La respuesta correcta o incorrecta en un examen. Si consideramos una serie de ensayos Bernoulli que tiene como características: 1. la probabilidad de éxito permanece constante, ensayo tras ensayo; y 2. los ensayos son independientes entre sí; Entonces se tiene lo que se denomina experimento binomial, donde el número de ensayos se denota con n, la probabilidad de éxito con p y la de fracaso con q. Hay que notar que las probabilidades de éxito y de fracaso están relacionadas de la siguiente manera: p+q=1. Por ejemplo: Consideremos un examen con tres preguntas de opción múltiple, con cuatro opciones, y que será contestado al azar. Podemos utilizar el siguiente ejemplo < Lydia Lic. la por proporcionadas fueron preguntas>: 1.Las flores a) rojas b) 2.Don Luis Inocuo a) 1518 b) 3.El significado a) lápiz b) árbol c) miedo d) fiera de la azules c) descubrió el 1635 c) de la carrastrana amarillas d) trideralto de 1457 d) palabra frisólea son: naranjas magnesio en: 1706  es Con esto contamos con un experimento binomial, ya que la probabilidad de éxito permanece constante en las tres preguntas (p=¼) y las respuestas de una a otra pregunta son independientes entre sí. Se cuenta con una cantidad n=3 3 de ensayos y q=1-p= /4. Hay que decir que n y p son los llamados parámetros de la distribución. Tenemos ahora la variable aleatoria X que representará el número de respuestas correctas, siendo sus posibles valores: 0, 1, 2, y 3. Para calcular la distribución de probabilidad correspondiente, consideraremos como E los éxitos y como F los fracasos (el subíndice indica el número de pregunta). Así pues, tenemos que: 3 3 27 3 3 1 0 3 2 1 1 3 1 1 2 3 0 1 3 P(X=0) = P(F1F F ) 2 3 P(X=1) = P[(E1F F )(F E F ) 2 3 1 2 3 (F F E )] 1 2 3 = 81 = 3·( /4) ·( /4) P(X=2) = P[(E1E F )(E F E ) 2 3 1 2 3 (F E E )] 1 2 3 = 9 = 3·( /4) ·( /4) P(X=3) = P(E1E E ) 2 3 = P(F1)·P(F2)·P(F3) = P(E1)·P(E2)·P(E3) = ( /4) = /64 /256 /64 1 3 1 = ( /4) = /64 Al presentar esta información como tabla y su respectivo histograma se obtiene: = 1·( /4) ·( /4) = 1·( /4) ·( /4)
  55. 55. X P(X=x) 0 0.422 1 0.422 2 0.141 3 0.016 En general, si se tienen n ensayos Bernoulli con probabilidad de éxito p y de fracaso q, entonces la distribución de probabilidad que la modela es la distribución de probabilidad binomial y su regla de correspondencia es: , para x=0,1,2,…,n. Utilizando la función DISTR.BINOM de Excel, o bien las tablas, se pueden obtener los valores que toma esta distribución. 8.2 La media y la desviación estándar de la distribución binomial La media de una distribución probabilística binomial con parámetros n y p es:  = np Por otro lado, la desviación estándar de una distribución probabilística binomial con parámetros n y p es: Por ejemplo: Consideremos la distribución resultante de aplicar los exámenes del ejemplo anterior. Sus parámetros son n=3 y p=0.25, entonces la media de la distribución es:  = (3)·(0.25) = 0.75 Y la desviación estándar es: Esto quiere decir que si se aplicara este examen, en teoría, el promedio de aciertos sería de 0.75 (casi de un acierto) con una dispersión de 0.75. 4. Distribuciones de probabilidad para variables continuas
  56. 56. Hasta el momento se han considerado las distribuciones de probabilidad para variables discretas, donde se podía asignar el valor que toma la función de probabilidad cuando la variable aleatoria tomaba un valor en concreto. Sin embargo, al considerar las variables continuas se encuentra uno el problema de que, lo más probable, los datos que se puedan recabar no sean completamente exactos, o dos o más de ellos no coincidan, por lo que se tienen que trabajar en intervalos y, en ese momento, modelar una función se convierte en un problema serio. Sin embargo, se pueden realizar aproximaciones y describir la probabilidad a través de modelos teóricos de probabilidad cuya gráfica es una línea continua, a diferencia de las variables discretas que le corresponde un histograma. Para clarificar cómo se realiza esta aproximación al modelo teórico consideremos el siguiente caso: Se han registrado los tiempos que le tomó a una empresa de mensajería entregar 190 paquetes con destinatarios diferentes dentro de una misma ciudad. Los datos se han agrupado en una distribución de frecuencias considerando intervalos de cinco días como sigue: Tiempo de No. de entrega paquetes (días) [0,5) 115 [5,10) 31 [10,15) 17 [15,20) 12 [20,25) 10 [25,30) 5 Supongamos que un posible cliente, conociendo esta información, quisiera saber qué probabilidad tiene de que su paquete sea entregado en dos días. El problema es que al manejar intervalos de cinco días estamos suponiendo que dentro de cada intervalo los datos se distribuyen uniformemente, cosa que no es real. Podríamos aumentar la muestra y seguir recogiendo información para hacer una distribución de frecuencias similar a la anterior, pero se tendría el mismo problema: dentro de cada intervalo se está presuponiendo que los datos se distribuyen uniformemente. Otra posible solución es reducir la amplitud de los intervalos, de tal suerte que podríamos tomar una amplitud de tres días por intervalo y hacer la siguiente distribución de frecuencias: Tiempo de No. de entrega paquetes (días) (frec.) [0,3) 93 [3,6) 30 [6,9) 18 [9,12) 13 [12,15) 9 [15,18) 8 [18,21) 6 [21,24) 6
  57. 57. [24,27) 4 [27,30) 3 Al seguir reduciendo la amplitud a dos días se obtiene la distribución: Tiempo de No. de entrega paquetes (días) (frec.) [0,2) 76 [2,4) 29 [4,6) 18 [6,8) 13 [8,10) 10 [10,12) 8 [12,14) 6 [14,16) 6 [16,18) 5 [18,20) 4 [20,22) 4 [22,24) 4 [24,26) 3 [26,28) 2 [28,30) 2 Y al reducirla a intervalos de un día se tiene la distribución: Tiempo de No. de entrega paquetes (días) (frec.) [0,1) 51 [1,2) 25 [2,3) 17 [3,4) 12 [4,5) 10 [5,6) 8 [6,7) 7 [7,8) 6 [8,9) 5 [9,10) 5 [10,11) 4
  58. 58. [11,12) 4 [12,13) 3 [13,14) 3 [14,15) 3 [15,16) 3 [16,17) 3 [17,18) 2 [18,19) 2 [19,20) 2 [20,21) 2 [21,22) 2 [22,23) 2 [23,24) 2 [24,25) 2 [25,26) 1 [26,27) 1 [27,28) 1 [28,29) 1 [29,30) 1 Ahora, veamos. Lo que le interesa al futuro cliente es la probabilidad de que se haga una entrega en un cierto tiempo, por lo que habría que considerar las frecuencias relativas y, como antes, reducir la amplitud de los intervalos. Con esto se obtendrían las siguientes distribuciones de frecuencias: Intervalos de tres días Intervalo frec. frec. rel. Intervalos de cinco días Intervalo frec. frec. rel. [0,3) 93 0.489 [3,6) 30 0.158 [0,5) 115 0.605 [6,9) 18 0.095 [5,10) 31 0.163 [9,12) 13 0.068 [10,15) 17 0.089 [12,15) 9 0.047 [15,20) 12 0.063 [15,18) 8 0.042 [20,25) 10 0.053 [18,21) 6 0.032 [25,30) 5 0.026 [21,24) 6 0.032 [24,27) 4 0.021 [27,30) 3 0.016
  59. 59. Intervalos de dos días Intervalo frec. frec. rel. [0,2) 76 0.400 [2,4) 29 0.153 [4,6) 18 0.095 [6,8) 13 0.068 [8,10) 10 0.053 [10,12) 8 0.042 [12,14) 6 0.032 [14,16) 6 Intervalo frec. frec. rel. 0.032 [16,18) 5 0.026 [18,20) 4 0.021 [20,22) 4 0.021 [22,24) 4 0.021 [24,26) 3 0.016 [26,28) 2 0.011 [28,30) 2 0.011 Intervalos de un día Intervalo frec. frec. rel. Intervalo frec. frec. rel. Intervalo frec. frec. rel. [0,1) 51 0.268 [10,11) 4 0.021 [20,21) 2 0.011 [1,2) 25 0.132 [11,12) 4 0.021 [21,22) 2 0.011 [2,3) 17 0.089 [12,13) 3 0.016 [22,23) 2 0.011 [3,4) 12 0.063 [13,14) 3 0.016 [23,24) 2 0.011 [4,5) 10 0.053 [14,15) 3 0.016 [24,25) 2 0.011 [5,6) 8 0.042 [15,16) 3 0.016 [25,26) 1 0.005 [6,7) 7 0.037 [16,17) 3 0.016 [26,27) 1 0.005 [7,8) 6 0.032 [17,18) 2 0.011 [27,28) 1 0.005 [8,9) 5 0.026 [18,19) 2 0.011 [28,29) 1 0.005 [9,10) 5 0.026 [19,20) 2 0.011 [29,30) 1 0.005
  60. 60. Y podríamos graficar tal información en histogramas para poder ver cómo se aproximan, si es que ocurre, los valores a una curva continua: donde las barras rosas (y la línea roja) corresponden a los intervalos de cinco días; las barras y línea azules, a los intervalos de tres días; las barras y línea amarillas, a los intervalos de dos días; y las barras y líneas verdes, a los intervalos de un día. (Para ver una graficación animada de los histogramas haz unclick aquí.) Se han incluido de una vez las líneas que unen los puntos medios de las barras del histograma porque se puede ver que las barras de las frecuencias relativas se "achaparran" y las líneas graficadas están tan separadas del lado izquierdo (en este caso) que no se puede hablar de una aproximación continua a una sóla línea. Una posible solución es utilizando la densidad del intervalo, que se va a definir como el cociente de la frecuencia relativa entre la amplitud del intervalo: (De hecho, existe la función de densidad de una distribución de probabilidad, de donde se deriva esta definición de densidad del intervalo.)
  61. 61. De esta manera, a las distribuciones de frecuencias anteriores se les puede añadir la columna correspondiente a la densidad: Intervalos de tres días Intervalos de cinco días 0.605 0.121 [5,10) 31 0.163 0.033 [10,15) 17 0.089 0.018 [15,20) 12 0.063 0.013 [20,25) 10 0.053 0.011 [25,30) 5 0.026 0.005 0.489 0.163 [3,6) 30 0.158 0.053 [6,9) 18 0.095 0.032 [9,12) 13 0.068 0.023 [12,15) 9 0.047 0.016 [15,18) 8 0.042 0.014 [18,21) 6 0.032 0.011 6 0.032 0.011 4 0.021 0.007 [27,30) 115 93 [24,27) [0,5) densidad [21,24) densidad Intervalo frec. frec. rel. [0,3) Intervalo frec. frec. rel. 3 0.016 0.005 Intervalos de dos días Intervalo frec. frec. rel. densidad [0,2) 76 0.400 0.200 [2,4) 29 0.153 0.076 [4,6) 18 0.095 0.047 [6,8) 13 0.068 0.034 [8,10) 10 0.053 0.026 [10,12) 8 0.042 0.021 [12,14) 6 0.032 0.016 [14,16) 6 0.032 0.016 Intervalo frec. frec. rel. densidad [16,18) 5 0.026 0.013 [18,20) 4 0.021 0.011 [20,22) 4 0.021 0.011 [22,24) 4 0.021 0.011 [24,26) 3 0.016 0.008 [26,28) 2 0.011 0.005 [28,30) 2 0.011 0.005
  62. 62. Intervalos de un día Intervalo frec. frec. rel. densidad Intervalo frec. frec. rel. densidad Intervalo frec. frec. rel. densidad [0,1) 51 0.268 0.268 [10,11) 4 0.021 0.021 [20,21) 2 0.011 0.011 [1,2) 25 0.132 0.132 [11,12) 4 0.021 0.021 [21,22) 2 0.011 0.011 [2,3) 17 0.089 0.089 [12,13) 3 0.016 0.016 [22,23) 2 0.011 0.011 [3,4) 12 0.063 0.063 [13,14) 3 0.016 0.016 [23,24) 2 0.011 0.011 [4,5) 10 0.053 0.053 [14,15) 3 0.016 0.016 [24,25) 2 0.011 0.011 [5,6) 8 0.042 0.042 [15,16) 3 0.016 0.016 [25,26) 1 0.005 0.005 [6,7) 7 0.037 0.037 [16,17) 3 0.016 0.016 [26,27) 1 0.005 0.005 [7,8) 6 0.032 0.032 [17,18) 2 0.011 0.011 [27,28) 1 0.005 0.005 [8,9) 5 0.026 0.026 [18,19) 2 0.011 0.011 [28,29) 1 0.005 0.005 [9,10) 5 0.026 0.026 [19,20) 2 0.011 0.011 [29,30) 1 0.005 0.005 y realizar los histogramas correspondientes, que quedan como sigue: donde las barras rosas, y la línea roja, corresponden a los intervalos de cinco días; las barras y línea verdes, a los intervalos de tres días; las barra y línea amarillas, a los intervalos de dos días; y las barras y línea azules, a los intervalos de un día. (Para ver una graficación animada de los histogramas haz unclick aquí.) Igual que en el caso anterior, se han graficado simultáneamente las barras y las líneas que unen los puntos medios de éstas para observar que con la densidad sí se aproximan los histogramas a una línea continua (que la mejor aproximación presentada es la línea azul) cuando los intervalos se reducen continuamente. El resultado es una línea continua que es la gráfica de una cierta función denominada función de densidad de la distribución probabilística.
  63. 63. Ahora, considerando la manera en que se definió la densidad de un intervalo como: y recordando que la frecuencia relativa es la probabilidad de un evento (en el ejemplo de la mensajería sería la probabilidad de entregar un paquete dentro de un intervalo dado de tiempo): Entonces, despejando en el primer cociente la frecuencia relativa e igualando con esta segunda expresión obtenemos que probabilidad del evento = (densidad del intervalo) · (amplitud del intervalo) Es decir, que la probabilidad de que ocurra un evento corresponde al área de las barras del histograma hecho tomando en cuenta la densidad de los intervalos; y que cuando tales intervalos tienen una amplitud que tiende a cero, y la gráfica se convierte en la curva continua de la función de densidad, entonces la probabillidad de que un evento ocurra en un intervalo (a,b) es el área bajo la curva de la función en ese intervalo: y, por tanto, el cálculo de tal probabilidad se realiza utilizando cálculo integral: dondef(x) es la función de densidad de la distribución probabilística correspondiente. Hay que estar conscientes de que en el caso de las variables continuas sólo se puede calcular la probabilidad de que un evento caiga dentro de un intervalo, debido a que la exactitud de los instrumentos de medición siempre es relativa y muy lejana a la "exactitud" de los cálculos matemáticos. Por esto, la probabilidad de que la variable aleatoria tome un valor exacto es nula:

×