CURSO BREVE DE ESTADÍSTICACOLECTIVO DE AUTORES:MSc. Manuel Ernesto Acosta Aguilera       Prof. Asistente     mernesto@fec....
ÍNDICEINTRODUCCIÓN A LA ESTADÍSTICA ..................................................................................... ...
PRESENTACIÓNA los estudiantes:Este texto ha sido elaborado por un colectivo de profesores de Estadística de la Facultad de...
INTRODUCCIÓN A LA ESTADÍSTICAEl vocablo “estadística” (con minúscula) se utiliza para denominar cualquier colecciónsistemá...
OBJETIVOS DEL CURSO 1. Clasificar las variables en cualitativas, cuantitativas discretas y cuantitativas continuas.    Org...
TEMA I: MÉTODOS DESCRIPTIVOSCon este tema se inicia el estudio de la parte de la estadística que se ocupa de la recolecció...
•   Variables Continuas: Son aquellas que pueden tomar cualquier valor dentro de su        intervalo de definición. Genera...
Los símbolos y definiciones correspondientes son:Xi : representa los valores individuales de la variable (en datos no agru...
PROPIEDADES DE LAS FRECUENCIAS:De la definición de las distintas frecuencias se deduce que éstas son siempre números noneg...
Abierto en la             Abierto en la               Abierto en la                                                       ...
donde se representan las frecuencias absolutas (ni) o relativas (fi) correspondientes. En el    punto correspondiente a ca...
Interpretación de las distintas frecuencias:•   ni indica las veces que se repite el valor de la variable, así:    n1 = 4 ...
EJEMPLO 2 (Datos agrupados):Los siguientes valores corresponden al registro del consumo de gasolina de una flota de 50taxi...
todos los taxis que consumieron 30 litros de gasolina se incluyen en la clase de 25 a 30, no         en la que va de 30 a ...
4.- A partir de los siguientes datos, que representan el número de habitaciones de 50 viviendasdel municipio Plaza, que se...
400   500          21                                500   600          13                                600   700       ...
1.2: Medidas descriptivas o estadígrafos. Estadígrafos de posición más usados:media, mediana y moda. Estadígrafos de dispe...
∑ xi                    1                                 x=               ó    x=       ∑ xi                      (defini...
datos no están agrupados. Algo a tener en cuenta en este sentido es que si existen intervalosabiertos, como a veces se pre...
Para determinar la moda a partir de datos primarios suele ser conveniente organizar primeroestos, conformando lo que se ll...
nmod+1: la frecuencia absoluta de la clase siguiente a laEJEMPLO 2 (caso de datos agrupados, continuación):Calcular el val...
Regla 2: Si el tamaño de la muestra es un número par, entonces el valor mediano,         será la semisuma o promedio de lo...
En el caso de datos agrupados en clases, se determina ante todo una clase mediana, comoaquella cuya frecuencia absoluta ac...
Precisamente, los estadígrafos de dispersión son medidas que describen cómo se distribuyenlos datos alrededor de alguno de...
∑ (x i − x ) n i                      2                                          1                                        ...
No obstante, la varianza, por la misma forma en que se define y calcula, indica el grado dedispersión de los datos; se dic...
Sx                                                                    CV( x ) =                                           ...
8.- ¿Qué indican las medidas de dispersión?9.- ¿Cómo se define la varianza? Mencione algunas de sus propiedades.10.- ¿Cómo...
TEMA II: PROBABILIDADES.2.1: Introducción a los fenómenos y experimentos aleatorios. Espacio muestral ysucesos. Clasificac...
N(S) = 2       Ej. 2: Lanzamiento de un dado...              S: { 1, 2, 3, 4, 5, 6 }                                      ...
Los sucesos pueden clasificarse atendiendo a diferentes criterios; así, en dependencia de lacantidad de puntos muestrales ...
Nota: Un caso particular de sucesos excluyentes son los complementarios. Todos los       sucesos complementarios son exclu...
•    Unión o suma: La unión de dos sucesos A y B da como resultado un suceso que        consiste en la ocurrencia de al me...
La definición clásica también se conoce como definición a “priori” de probabilidad, porque no esnecesario realizar el expe...
Lo anterior implica que: 0 ≤ P(A) ≤ 1Nota: Es común multiplicar las probabilidades por 100 para expresarlas porcentualment...
2.2: Axiomatización de la Probabilidad. Reglas de cálculo de probabilidades.Probabilidad condicional. Independencia de suc...
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)Teorema 6:     La probabilidad de que no ocurra ninguno ...
P( AB)                                          P( A / B) =                                                         P(B)Ta...
= 4/5 . 1/4 + 1/5 . 4/4                    = 4/20 + 4/20 = 8/20 = 4/10 = 0.4INDEPENDENCIA DE SUCESOS:Dos sucesos A y B se ...
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Curso breve de estadística
Upcoming SlideShare
Loading in …5
×

Curso breve de estadística

2,001
-1

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,001
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
78
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Curso breve de estadística

  1. 1. CURSO BREVE DE ESTADÍSTICACOLECTIVO DE AUTORES:MSc. Manuel Ernesto Acosta Aguilera Prof. Asistente mernesto@fec.uh.cuMSc. Luis Piña León Prof. Auxiliar luisp@fec.uh.cuMSc. Daysi Espallargas Ibarra Prof. Auxiliar daysi@fec.uh.cu DPTO. ESTADÍSTICA - INFORMÁTICA FACULTAD DE ECONOMÍA UNIVERSIDAD DE LA HABANA 2008
  2. 2. ÍNDICEINTRODUCCIÓN A LA ESTADÍSTICA ..................................................................................... 3OBJETIVOS DEL CURSO ............................................................................................................ 4TEMA I: MÉTODOS DESCRIPTIVOS......................................................................................... 51.1: Definición de población y muestra. Clasificación de las variables. Organización de los datos.Tablas de frecuencias. Gráficos...............................................................................................................51.2: Medidas descriptivas o estadígrafos. Estadígrafos de posición más usados: media, medianay moda. Estadígrafos de dispersión más usados: varianza, desviación típica y coeficiente devariación.....................................................................................................................................................16TEMA II: PROBABILIDADES. .................................................................................................. 282.1: Introducción a los fenómenos y experimentos aleatorios. Espacio muestral y sucesos.Clasificación de sucesos. Definición clásica de Probabilidad. Definición estadística deProbabilidad...............................................................................................................................................282.2: Axiomatización de la Probabilidad. Reglas de cálculo de probabilidades. Probabilidadcondicional. Independencia de sucesos. ..............................................................................................35TEMA III: DISTRIBUCIONES TEÓRICAS DE PROBABILIDAD.......................................... 413.1: Definición de variable aleatoria. Función de probabilidad univariada: casos discreto ycontinuo. Función de distribución. Media y varianza de variables aleatorias. ................................413.2: Distribución binomial: características y uso. Distribución de Poisson: características y uso......................................................................................................................................................................493.3: Distribución normal o de Gauss. Distribución chi-cuadrado. Distribución t de Student.Distribución F de Fisher...........................................................................................................................58TEMA IV: MUESTREO Y ESTIMACIÓN ................................................................................. 744.1. Conceptos básicos: Población y Muestra. Muestreos aleatorios: Muestreo Aleatorio Simple.Uso de la tabla de números aleatorios para efectuar un muestreo aleatorio. ................................744.2 Estimadores. Propiedades deseables para un buen estimador. Estimación puntual.Distribución muestral. Distribución muestral de la media tanto con varianza (σ2) conocida comodesconocida. Distribución muestral de las proporciones y de la varianza. .....................................804.3: Error máximo permisible y tamaño de muestra necesario para la estimación de μ y p.Estimación por intervalos de confianza. ...............................................................................................89TEMA V: PRUEBAS DE HIPÓTESIS ........................................................................................ 985.1. Conceptos básicos. Desarrollo general de pruebas de hipótesis. Pruebas para medias enuna población............................................................................................................................................985.2: Tamaño del error tipo II. Función de potencia. Tamaño de la muestra. ................................1125.3: Pruebas no paramétricas: Prueba chi-cuadrado de la bondad de ajuste para verificarnormalidad. Prueba chi-cuadrado para verificar el supuesto de independencia. Tablas decontingencia. ...........................................................................................................................................119TEMA VI: ANÁLISIS DE VARIANZA.................................................................................... 1296.1: Conceptos básicos del análisis de varianza. Modelo de clasificación simple. Supuestos delmétodo. ....................................................................................................................................................129BIBLIOGRAFÍA BÁSICA:........................................................................................................ 140 1
  3. 3. PRESENTACIÓNA los estudiantes:Este texto ha sido elaborado por un colectivo de profesores de Estadística de la Facultad de Economía dela Universidad de La Habana, para contribuir a un mejor estudio de los temas correspondientes a estaasignatura en las carreras de perfil económico y social, en general, particularmente en la Licenciatura enEconomía.El objetivo del estudio de la Estadística en cualquier carrera es dotar al alumno de algunos elementos quele servirán para trabajar con conjuntos de datos, describir situaciones de interés, hacer inferencias sobrela base de observaciones y evaluar hipótesis relacionadas con alguna circunstancia práctica; además,pueden iniciarse en el estudio de los fenómenos y experimentos aleatorios, estableciendo el vínculo entrelos conocimientos y habilidades de los contenidos de la Estadística Descriptiva, la Teoría de lasProbabilidades y la Estadística Inferencial.Debe señalarse que la Estadística es eminentemente práctica, sin embargo, se necesita del conocimientode la teoría que la sustenta para la correcta aplicación de las fórmulas de cálculo y los modelos queintentan representar la realidad existente.En el texto se detallan los objetivos generales del curso y la distribución del mismo en los seis temas enque está subdividido. También se incluyen los objetivos específicos de cada una de las unidadesdidácticas que conforman los distintos temas. Además, se desarrolla sucintamente el contenido de laasignatura, el cual aparece disperso en otros textos que se refieren en la bibliografía básica. Finalmente,se brindan ejemplos demostrativos de todos los aspectos abrdados, y se han añadido ejercicios para quesirvan de autoevaluación.Es aspiración de los autores que estos apuntes para el estudio de Estadística sean de utilidad tanto parasus destinatarios iniciales como para estudiantes de otras carreras y modalidades de estudio. Los Autores. La Habana, 2008 2
  4. 4. INTRODUCCIÓN A LA ESTADÍSTICAEl vocablo “estadística” (con minúscula) se utiliza para denominar cualquier colecciónsistemática de datos, por ejemplo: natalidad o mortalidad en un país o provincia, resultadosperiódicos en cierto deporte, cifras de producción de una empresa, pasajeros transportadosdurante un período, enfermos recuperados con ciertos medicamentosLas estadísticas son tan antiguas como las sociedades humanas, pero la Estadística comociencia (con mayúscula) surge en el siglo XVI paralelo al desarrollo de las probabilidades.La Estadística como ciencia puede definirse como un conjunto de principios y métodos quese han desarrollado para analizar datos numéricos, utilizando las probabilidades; susmétodos se clasifican en:• Métodos descriptivos (Estadística Descriptiva) Describen el comportamiento de los datos estadísticos, se ocupan de la recolección, organización, reducción, tabulación y presentación de la información.• Inferencia estadística (Estadística Inferencial) Estudia y concluye sobre un fenómeno basándose en el análisis e investigación de una parte del mismo, por lo que constituye una poderosa herramienta para la investigación científica. 3
  5. 5. OBJETIVOS DEL CURSO 1. Clasificar las variables en cualitativas, cuantitativas discretas y cuantitativas continuas. Organizar los datos u observaciones de diferentes variables (discretas y continuas) en tablas de frecuencias. Construir gráficos de barras (histogramas) y polígonos de frecuencias. Calcular e interpretar los principales estadígrafos o medidas de posición y de dispersión. Aplicar e interpretar resultados obtenidos mediante algún paquete de cómputo estadístico. 2. Diferenciar entre determinismo y aleatoriedad. Definir el espacio muestral de un experimento o fenómeno aleatorio. Calcular la probabilidad de ocurrencia de un suceso utilizando la definición clásica y la estadística. Aplicar las propiedades o teoremas derivados de la definición axiomática de probabilidad. Aplicar las definiciones de probabilidad condicional e independencia. Aplicar e interpretar los fundamentos de la teoría de probabilidades en la solución de problemas. 3. Asociar a la noción de variable aleatoria (tanto discreta como continua), los conceptos de función de probabilidad, función de distribución o acumulación, y caracterizar estas funciones mediante la esperanza, valor esperado o media teórica, y la varianza teórica. Identificar y caracterizar las distribuciones probabilísticas: Binomial, Poisson, Normal, Chi-Cuadrado, t’ Student y F de Fisher. Calcular probabilidades asociadas a las distribuciones anteriores haciendo uso de las tablas correspondientes. 4. Identificar los conceptos básicos de población, muestra, muestreo, parámetro y estimador. Caracterizar el Muestreo Aleatorio Simple (MAS) y el Muestreo Irrestricto Aleatorio (MIA). Obtener muestras aleatorias simples mediante la tabla de números aleatorios. Aplicar la distribución muestral de la media, la varianza y la proporción en la estimación puntual y por intervalos de los parámetros correspondientes (μ, σ2 y p), así como también a la obtención de una medida probabilística del error y del tamaño de la muestra requerido para la estimación de los mismos. 5. Identificar los conceptos básicos asociados a las pruebas de hipótesis: hipótesis nula e hipótesis alternativa, región crítica o de rechazo y nivel de significación. Diferenciar entre los errores de tipo I y tipo II. Identificar y emplear distintas pruebas paramétricas para una población: de media (con varianza conocida y desconocida), de proporciones, y de varianza. Identificar y emplear las pruebas no paramétricas chi- cuadrado, tanto para probar normalidad, como para verificar independencia entre variables o criterios de clasificación. Verificar el supuesto de normalidad a través de la prueba Jarque-Bera, a partir de salidas del programa de cómputo EViews. 6. Aplicar el análisis estadístico para verificar la igualdad de tres o más medias poblacionales a través del análisis de varianza. Establecer los supuestos del análisis de varianza. 4
  6. 6. TEMA I: MÉTODOS DESCRIPTIVOSCon este tema se inicia el estudio de la parte de la estadística que se ocupa de la recolección,organización, resumen y presentación de la información; cuestión esencial para cualquierinvestigación. El buen uso de los métodos descriptivos ahorra tiempo y esfuerzo, facilita lainterpretación de resultados y sirve de base incuestionable para el desarrollo de métodos deinferencia y predicción: La información recogida durante el proceso de observación, medición,entrevista, etc., suele ser dispersa, y no es hasta que la misma se organiza, procesa y presentaadecuadamente que cobra real dimensión la misma y puede considerarse, más allá de unconjunto de datos, verdadera información.1.1: Definición de población y muestra. Clasificación de las variables.Organización de los datos. Tablas de frecuencias. Gráficos.Ya se ha dicho que los métodos descriptivos se ocupan de la recolección, organización,reducción, tabulación y presentación de la información en un estudio o investigación dados.Durante este proceso siempre se hace referencia de alguna manera a conceptos básicos en elcontexto de la Estadística, como son:Población: Colección de individuos o elementos que representan el objeto de interés (seresvivos o inanimados).Tamaño de la población: Cantidad de elementos que abarca la población. En casi todos lostextos se representa con el símbolo “N”.Censo: Observación y estudio de todos los elementos que componen la población.Muestra: Cualquier subconjunto de la población tomado para su estudio.Muestreo: Procedimiento mediante el cuál se extrae una muestra.Tamaño de muestra: Cantidad de elementos contenidos en la muestra. En casi todos lostextos se representa con el símbolo “n”.Variable o característica: Es el signo o detalle que interesa caracterizar en la población.Para organizar los datos muchas veces es útil conocer qué tipo de variables éstos miden. Coneste fin, las variables pueden clasificarse en:Cualitativas: También llamadas atributos, y se refieren a cualidades tales como: calidad(bueno, regular, malo), sexo, color del pelo o de los ojos, estado civil, nivel escolaridad, etc.Cuantitativas: Se refieren a cantidades tales como costos, estaturas, pesos, ingresos, númerode hijos, etc. A la vez, se distinguen dos tipos de datos o variables cuantitativos: • Variables Discretas: Son aquellas que tienen valores prohibidos dentro de su intervalo de definición, o sea, toman valores determinados, predefinido. Generalmente representan valores enteros asociados a observaciones susceptibles de conteo. 5
  7. 7. • Variables Continuas: Son aquellas que pueden tomar cualquier valor dentro de su intervalo de definición. Generalmente representan observaciones susceptibles de medición. Es importante tener en cuenta que la continuidad está dada por la propia naturaleza de variable, no porque ésta se exprese con valores decimales o no, pues esto es algo que depende de las unidades de medida utilizadas, de la precisión deseada o de costumbres al expresar una magnitud.TABULACIÓN DE DATOS (TABLAS DE FRECUENCIAS):Según la forma en que se presenta la información, se habla de:• Recolección simple o no organizada (datos no organizados): Es el listado de los datos presentados en su forma primaria, es decir, tal como fueron obtenidos durante el proceso observación o medición en la muestra o población.• Recolección organizada o tabulación (datos organizados): Es el ordenamiento de la información en tablas, denominadas tablas de frecuencias o distribuciones de frecuencias, a partir de los datos primarios. Cuando los datos se tabulan, o se organizan en las tablas de frecuencias, pueden estar no agrupados, es decir, de manera que se leen directamente los valores observados, o agrupados, esto es, se construyen intervalos para resumir la información observada.Se dice que los datos están organizados, pero no agrupados, cuando en las tablas defrecuencias se ponen, organizados, todos y cada uno de los valores que toma la variable; estoes, se colocan los datos en columnas que recogen los distintos valores de la variable y lasfrecuencias (las veces) con que han aparecido tales valores.Por su parte, se dice que los datos están organizados y agrupados cuando en la tabla sepresentan éstos no con sus valores individuales, sino en agrupaciones parciales del recorridode la variable, denominadas “clases” o “intervalos de clases”.Una clase se caracteriza por un valor que es su límite inferior y otro que es su límite superior. Elpromedio de los dos límites, que muchas veces se toma como el valor representativo de laclase, es llamado marca de clase. Y a la diferencia o distancia entre los límites de la clase se lellama ancho de clase: aunque no es obligatorio, es usual utilizar clases del mismo anchosiempre que es posible. (Si las clases no tienen el mismo ancho, no es la altura de las barras orectángulos la que debe ser proporcional a las frecuencias representadas, sino su área.)La forma general de una tabla de frecuencias es la siguiente: Li-1 - Li Xi ni fi Ni Fi L0 - L1 X1 n1 f1 N1 F1 L1 - L2 X2 n2 f2 N2 F2 … … … … … … Lk-1 - Lk Xk nk fk Nk Fk ↑ ↑ ↑ ↑ sólo si hay clases frecuencias (datos agrupados) complementarias 6
  8. 8. Los símbolos y definiciones correspondientes son:Xi : representa los valores individuales de la variable (en datos no agrupados) o las marcas declase (en datos agrupados en clases)Li-1 - Li : representan las clases (si los datos se agruparon), delimitadas por los límites de clase,el inferior (Li-1) y el superior (Li)ni ( frecuencia absoluta ): número de veces que se repite el i-ésimo valor de la variable;donde ∑ ni = nn ( tamaño de la muestra ): cantidad de observaciones efectuadas, es decir, número deelementos contenidos en la muestrak: representa el número de valores diferentes observados (datos no agrupados) o la cantidadde clases creadas (datos agrupados)También pueden incorporarse a la tabla otras frecuencias, como:fi ( frecuencia relativa ): proporción de veces que se repite el i-ésimo valor de la variable (si semultiplica por cien constituye un porciento); se cumple que: fi = ni/n y donde ∑ fi = 1Ni ( frecuencia absoluta acumulada ): Es el número de observaciones menores o iguales al i-ésimo valor de la variable, donde N1 = n1, N2 = n1 + n2, N3 = n1 + n2 + n3, y así sucesivamentehasta Nk = n. Así, se interpreta como el número de observaciones menores o iguales al i-ésimovalor de la variable.Fi ( frecuencia relativa acumulada ): es la proporción (o porciento) de observaciones menoreso iguales al i-ésimo valor de la variable, siendo F1 = f1, F2 = f1 + f2, F3 = f1 + f2 + f3, y asísucesivamente hasta Fk = 1.Generalmente se agrupan las observaciones correspondientes a variables continuas, ya queestas son las que pueden tomar cualquier valor en un intervalo, y prácticamente es imposibleconsiderar todos y cada uno de los valores que toma la variable, como sí ocurre con lasvariables discretas.No obstante no se puede decir rotundamente que no se agrupan en clases las variablesdiscretas y sí las continuas, porque esto depende de la cantidad de datos que se tiene y del tipode análisis que se va a hacer. Así, se podría presentar la situación de que se tiene una variablediscreta que toma tantos valores diferentes que es necesario agruparla; o el caso de que setiene una variable continua para la cual todas las observaciones constituyen valores enteros yse pueden recoger entonces en una tabla de frecuencia con datos no agrupados.Por todo ello, cuando se insiste en que las variables discretas se presentan en tablas defrecuencia sin agrupar, y las variables continuas en tablas de frecuencias agrupadas, esto esante todo con fines metodológicos. 7
  9. 9. PROPIEDADES DE LAS FRECUENCIAS:De la definición de las distintas frecuencias se deduce que éstas son siempre números nonegativos, y pueden considerarse como propiedades de las mismas las siguientes: 1. ni ≥ 0 / Ni ≥ 0 6. Fk = 1 2. ∑ni = n 7. N1 = n1 3. ∑ fi = 1 8. F1 = f1 4. 0 ≤ fi ≤ 1 / 0 ≤ Fi ≤ 1 9. n1 = N1 ≤ N2 ≤ N3 ≤ ... ≤ Nk 5. Nk = n 10. f1 = F1 ≤ F2 ≤ F3 ≤ ... ≤ FkAGRUPACIÓN DE LOS DATOS EN CLASES:La agrupación de datos en clases incluye muchas cuestiones subjetivas, como facilidad oconveniencias de agrupación, diversidad de criterios o necesidades de la investigación; eincluso puede depender de la propia naturaleza de los datos.Se debe considerar también que la agrupación de datos siempre conlleva un grado depérdida de información, pues ya no se cuenta con todos y cada uno de los valores de lavariable sino con los intervalos creados; no obstante, esta pérdida de información en general noes significativa para el análisis global.Algunas de las formas en que se presentan los intervalos de clases son: Caso A Caso B Caso C 10 14,9 10 15 10 15 15 19,9 15,1 20 15 20 20 24,9 20,1 25 20 25Las variantes A y B se utilizan con el objetivo de que no se repita el mismo valor de un límite declase, de manera que para una observación dada sea inequívoca (única) la pertenencia a unaclase; pero en cualquiera de los dos casos hay infinitos valores posibles entre el cierre de unaclase y el inicio de la otra, es decir, entre 14,9 y 15 (caso A) y lo mismo entre 15 y 15,1 (casoB). Por ello muchos autores e investigadores prefieren la variante C, donde el valor que cierrauna clase es el mismo que abre la siguiente, y se suele recurrir al siguiente convenio: cuandouna observación coincide con un límite de clase se incluye en la clase donde dicho límitees el límite superior, es decir, se consideran los intervalos de clase como abiertos al inicio ycerrados al final, así: ( Li-1 ; Li ]También existen los intervalos abiertos atendiendo al tipo de información que se puedepresentar: 8
  10. 10. Abierto en la Abierto en la Abierto en la primera y en la primera clase última clase última clase menos de 10 0 10 menos de 10 10 20 10 20 10 20 20 30 20 30 20 30 30 40 30 40 30 40 40 50 más de 50 más de 50Es útil tener en cuenta además que no siempre los intervalos podrán ser de igual amplitud, sinembargo es recomendable que estos tengan el mismo ancho si es posible ello, para lograrmayor facilidad en las interpretaciones, representaciones y cálculos.Entre los métodos seguidos para crear las clases, dos son los más utilizados:1. Definir, a partir del uso que se hará de la información, el ancho de clases que se empleará, y con esto ver cuántas clases surgen.2. Definir, a partir de la cantidad de datos disponibles, la cantidad de clases que se crearán, y a partir de ahí calcular el ancho que deberán tener las mismas.Los pasos que se deben dar para agrupar los valores observados según el segundo métodopueden resumirse como sigue:1. Determinar el recorrido de la variable (R), definido como la diferencia entre el valor máximo y el mínimo de la variable: R = Xmax - Xmin2. Definir el número de intervalos o clases (k): La práctica indica que menos de 4 ó 5 clases suele ser muy poco y que en general más de 20 clases puede ser excesivo, es decir, ni tan pocos, que se pierda demasiada información, ni tantos que parezca que no se han agrupados los datos ( 4 ≤ k ≤ 20 )3. Determinar la amplitud o ancho de estos intervalos (c), como el cociente del recorrido de los datos entre la cantidad de clases que se decidió usar, aproximado convenientemente y siempre por exceso: c ≈ R/k4. Crear las clases, partiendo del valor mínimo observado (xmin) o un valor inferior, y sumando sucesivamente el ancho de clases (c) determinado.5. Clasificar la variable en las distintas clases, para lo cual se puede hacer un tarjado, obteniendo las frecuencias absolutas correspondiente (ni).6. Calcular las restantes frecuencias deseadas: relativas (fi), absolutas acumuladas (Ni) y relativas acumuladas (Fi).7. Determinar las marcas de clases (Xi), valores que representarán a sus respectivas clases.REPRESENTACIÓN GRÁFICA DE LOS DATOS:Otra manera de presentar los datos de manera de que brinden información a primera vista esuna representación gráfica de los mismos, y entre los gráficos más usados se encuentran:• Gráficos de barras o histogramas Constan de dos ejes; un eje horizontal, donde se distribuyen los valores observados de la variable (datos no agrupados) o sus límites de clases (datos agrupados), y un eje vertical 9
  11. 11. donde se representan las frecuencias absolutas (ni) o relativas (fi) correspondientes. En el punto correspondiente a cada observación o clase se levanta una barra cuya altura indica el valor de la frecuencia observada. Si los datos están agrupados en clases las barras conforman rectángulos contiguos, y el gráfico suele ser denominado histograma.• Polígonos de frecuencias Son similares a los gráficos de barras, y tienen la misma función, aunque actualmente se utilizan menos que aquellos. Constan de también de dos ejes, con la diferencia de que en el eje horizontal, si los datos están agrupados en clases se distribuyen no sus límites de clase sino sus marcas de clase. En cualquier caso, sobre el punto correspondiente a cada observación o marca de clase se hace una marca a la altura de la frecuencia observada, y posteriormente estas marcas se unen con trazos rectos, formando una línea poligonal.• Gráficos circulares o de pastel Parten de subdividir un círculo en tantos sectores como valores distintos (datos no agrupados) o clases (datos agrupados en clases) se tiene, de manera que la amplitud angular del sector, y por tanto su área, es proporcional a la frecuencia absoluta correspondiente (y consecuentemente también a la relativa).EJEMPLO 1 (Datos no agrupados):Se tiene los datos recopilados acerca de la variable X: número de ausencias a clase que tienenlos estudiantes de un grupo. 0 1 2 2 1 3 2 1 4 2 4 3 2 0 0 2 2 3 0 3 Datos en su forma primaria (sin organizar)¿Qué tipo de variable es esta?: Variable cuantitativa discreta.Construcción de la tabla o distribución de frecuencias:Al tratarse de una variable discreta (un conteo siempre tomará valores enteros) y con pocosvalores diferentes, no parece necesario crear clases para agrupar los datos.En este caso k = 5 (son cinco los valores distintos de X: 0, 1, 2, 3 y 4).Para facilitar el conteo de las observaciones se suele hacer algún tipo de marcas, a lo cual se lellama tarjado. número de cantidad de proporción de ausencias tarjado estudiantes estudiantes Xi ni fi Ni Fi 0 //// 4 0,20 4 0,20 1 /// 3 0,15 7 0,35 2 /////// 7 0,35 14 0,70 3 //// 4 0,20 18 0,90 4 // 2 0,10 20 1,00 n = 20 10
  12. 12. Interpretación de las distintas frecuencias:• ni indica las veces que se repite el valor de la variable, así: n1 = 4 indica que hay 4 alumnos del grupo que no tienen ausencias. n3 = 7 indica que hay 7 estudiantes del grupo que tienen 2 ausencias.• fi indica el porciento de veces que se repite el valor de la variable, así: f4 = 0.20 indica que el 20% de los estudiantes tienen 3 ausencias f5= 0.10 indica que el 10% de los estudiantes tienen 4 ausencias• Ni indica el número de observaciones menores o iguales al valor de la variable, así: N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como máximo) 1 ausencia N3 = 18 indica que hay 18 estudiantes que tienen hasta 3 ausencias• Fi indica el porciento de observaciones menores o iguales al valor de la variable, así: F2 = 0.35 indica que el 35% de los estudiantes tienen hasta 1 ausencia. F3 = 0.70 indica que el 70% de los estudiantes tienen hasta 2 ausencias.Representación gráfica:A partir de la tabla de frecuencias se puede construir cualquiera de los gráficos siguientes: gráfico de barras polígono de frecuencias ni ni 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 0 0 0 1 2 3 4 xi 0 1 2 3 4 xi diagrama circular 4 0 10% 20% 3 20% 1 2 15% 35% 11
  13. 13. EJEMPLO 2 (Datos agrupados):Los siguientes valores corresponden al registro del consumo de gasolina de una flota de 50taxis, en litros, un día dado: 46 39 34 33 32 36 41 26 32 36 43 28 30 27 32 42 30 31 34 41 28 30 26 21 37 39 25 33 47 28 26 23 30 43 40 36 21 38 31 38 29 30 48 47 23 31 24 38 35 36¿Qué tipo de variable es ésta?Aunque los datos observados son todos enteros la variable es continua, por su propianaturaleza (de hecho, un taxi podría haber consumido 24,75 litros de gasolina).• Se tiene n = 50 taxis (tamaño de la muestra).• Determinación del recorrido: R = Xmax - Xmin = 48 - 21 = 27• Definición del número de clases a usar: Para 50 observaciones podrían usarse 5, 6, 7 u 8 clases, según decisión de quien va a organizar los datos. Sea en este caso k = 6.• Determinación del ancho de clases: c ≈ R/k R/k = 27/6 = 4,5 ≈ 5 c=5 (El valor R/k = 4,5 se redondea a 5 porque no tendría sentido en este caso hacer los intervalos de amplitud decimal, ya que complicaría, en vez de facilitar, la interpretación y el trabajo con la información; nótese que esta aproximación fue a un valor superior al verdadero cociente, es decir, por exceso.)• Creación de las clases: Se podría partir del valor Xmin = 21, pero resulta más cómodo comenzar ligeramente por debajo de él, en 20, de manera que la primera clase sea desde 20 a 20 + c (ya se tiene c = 5), o sea, de 20 a 25; la segunda de 25 a 30, sin incluir el 25 (límite inferior y extremo abierto) e incluyendo el 30 (límite superior y extremo cerrado), y así sucesivamente hasta la sexta clase (k = 6), que sería desde 45 (extremo abierto) a 50 (extremo cerrado).• Determinación de las marcas de clases (Xi): Siendo el promedio de los límites de clase se tiene que: Xi = (Li – Li-1)/2 Así: X1 = (20 + 25)/2 = 45/2 = 22,5 X2 = (25 + 30)/2 = 55/2 = 25,5 ó X2 = X1 + c Y así sucesivamente…• Clasificación de la variable y cálculo de las distintas frecuencias: Para ello se puede hacer previamente un tarjado… Se debe tener en cuenta, además, el convenio de que si una observación coincide con un límite de clase, se incluye en la clase donde dicho límite está como límite superior; así, 12
  14. 14. todos los taxis que consumieron 30 litros de gasolina se incluyen en la clase de 25 a 30, no en la que va de 30 a 35. clases tarjado (Li-1; Li] Xi ni fi Ni Fi 20 - 25 22,5 ///// / 6 0,12 6 0,12 25 - 30 27,5 ///// ///// /// 13 0,26 19 0,38 30 - 35 32,5 ///// ///// / 11 0,22 30 0,60 35 - 40 37,5 ///// ///// / 11 0,22 41 0,82 40 - 45 42,5 ///// 5 0,10 46 0,92 45 - 50 47,5 //// 4 0,08 50 1,00 n = 50 1,00Interpretación de las distintas frecuencias:• n2 = 13: indica que hay 13 taxis que consumieron entre 25 y 30 litros de gasolina, o que consumieron como promedio 27,5 litros (utilizando la marca de clases)• f3 = 0,22: indica que el 22% de los taxis consumieron entre 30 y 35 litros de gasolina, o que consumieron 32,5 litros como promedio.• N4 = 41: indica que 41 taxis consumieron HASTA 40 litros de gasolina, o un máximo de 40 litros. (Las frecuencias acumuladas se interpretan utilizando el límite superior del intervalo, nunca con la marca de clases.)• F5 = 0,92: indica que el 92% de los taxis consumió HASTA 45 litros de gasolina, o un máximo de 45 litros.Representación gráfica: ni histograma ni polígono de frecuencias 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 0 20 25 30 35 40 45 50 22,5 27,5 32,5 37,5 42,5 47,5 i X (clases) XEJERCICIOS DE AUTOEVALUACIÓN1.- Ponga 3 ejemplos de variables discretas y 3 de variables continuas2.- ¿Qué quiere decir organizar los datos?3.- ¿Cómo se forma una tabla de frecuencias? 13
  15. 15. 4.- A partir de los siguientes datos, que representan el número de habitaciones de 50 viviendasdel municipio Plaza, que se están visitando para estudiar el grado de hacinamiento, construyauna distribución de frecuencias e interprete 3 frecuencias absolutas y relativas simples y 3frecuencias absolutas y relativas acumuladas. 3 2 3 4 3 5 2 1 3 2 4 3 2 1 1 2 5 2 3 1 2 3 2 1 2 2 2 3 3 4 3 2 2 3 4 1 1 5 2 3 4 4 3 3 2 2 2 1 1 25.- ¿Es absolutamente privativo de las variables discretas la organización de los datosdirectamente a partir de los valores observados, o considera que una variable continua tambiénpodría organizarse de esta forma? Explique.6.- ¿Qué pasos se deben dar para conformar una tabla de frecuencia?7.- ¿En casos de datos agrupados se cumple que: ∑ni = n y ∑fi = 1? Fundamente su respuesta.8.- ¿Cómo se determina el recorrido de la variable?9.- ¿Se agrupan en intervalos de clase sólo las variables continuas?10.- ¿Cómo determinaría el número de intervalos o clases a considerar en una tabla defrecuencias?11.- ¿En que casos utilizaría intervalos de amplitud diferentes?12.- Si una observación le coincide con un límite de clases, ¿dónde la pondría y por qué?13.- Investigados los precios por habitación de 50 hoteles del país se ha obtenido los siguientesresultados (en cientos de pesos): 7 3 5 4 5 7 4 7.5 8 5 5 7.5 3 7 10 15 5 7.5 12 8 4 5 3 5 10 3 4 5 7 5 3 4 7 4 7 5 4 7 10 7.5 7 8 7.5 7 7.5 8 7 7 12 8 a) Diga qué tipo de variable es. b) Construya la distribución de frecuencias para esta variable.14.- Realizada una encuesta en una región del país, se han agrupados los establecimientoshoteleros por el número de cuartos, obteniéndose la siguiente distribución: cuartos # de hoteles 0 100 25 100 200 37 200 300 12 300 400 22 14
  16. 16. 400 500 21 500 600 13 600 700 5 700 800 3a.- Determine el número de establecimientos hoteleros con más de 300 cuartos.b.- Determine el porcentaje de establecimientos que tienen más de 100 cuartos y hasta 400.c.- Represente gráficamente la distribución.d.- ¿Que tipo de variable es ésta?e.- ¿Por qué, siendo ese el tipo de variable, la tabla de frecuencia es de esta forma? 15
  17. 17. 1.2: Medidas descriptivas o estadígrafos. Estadígrafos de posición más usados:media, mediana y moda. Estadígrafos de dispersión más usados: varianza,desviación típica y coeficiente de variación.La organización de los datos y el análisis del comportamiento de los mismos mediante tablas ográficos, aportan una información inicial sobre la población en estudio, pero no suelen sersuficiente para describir a la misma. Sin embargo, es posible la obtención de ciertas cantidadesnuméricas, denominadas estadígrafos o estadísticos, que caracterizan mejor el conjunto dedatos.Un estadígrafo o estadístico es una medida descriptiva que resume alguna de las principalescaracterísticas de un conjunto de datos, como puede ser la tendencia central, la dispersión o laforma. Precisamente atendiendo al tipo de resumen que brindan los estadígrafos, éstos suelenclasificarse.Cuando un estadígrafo es calculado a partir de todos los datos poblacionales, es decir, no enuna muestra sino en toda la población, se dice que es un parámetro poblacional.1.2.1- ESTADÍGRAFOS O MEDIDAS DE POSICIÓN O TENDENCIALos llamados estadígrafos de posición son medidas que informan sobre el centro de ladistribución (tendencia central) o sobre valores significativos de ésta.La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de unpunto central y por lo general es posible encontrar algún tipo de valor promedio que describatodo el conjunto. Un valor típico descriptivo como ese, es una medida de tendencia central. Confrecuencia se utilizan, como las más importantes medidas de tendencia central, la mediaaritmética, la mediana, la moda y la media geométrica.No obstante, aunque menos usadas, también se recurre en muchos casos a otras estadígrafosde posición que no son medidas de tendencia central, como las cuantilas, entre las que seencuentran las cuartilas, las decilas y los percentiles, que son aquellos valores que dividen elconjunto de datos en cuatro, diez y cien partes iguales, respectivamente.MEDIA ARITMÉTICA (O MEDIA)La media aritmética, más frecuentemente denominada sólo media, es el promedio o medidade tendencia central que se utiliza con mayor frecuencia. Se define como la suma de todos losvalores de la variable dividida entre el número de elementos, dicho en otras palabras, es lo quecomúnmente se conoce como promedio.La media se representa: • en la muestra, por x • en la población, por μ (la letra griega miu) • en definiciones y demostraciones, por M(x)A partir de la propia definición se deduce que la media en una muestra puede calcularse como: 16
  18. 18. ∑ xi 1 x= ó x= ∑ xi (definición) n n EJEMPLO: Sea X las calificaciones de un estudiante: X: 5 4 3 4 5 3 5 5 Su promedio es, por tanto: 1 1 34 x = ∑ x i = (5 + 4 + 3 + 4 + 5 + 3 + 5 + 5 ) = = 4,25 n 8 8Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable (Xi) serepite una determinada cantidad de veces (ni), y por tanto, la expresión matemática derivada dela definición de la media debe modificarse, como se muestra, multiplicando cada valor por surespectiva frecuencia. ∑ x in i 1 x= ó x = n ∑ x in i ó x = ∑ x i f i (en datos tabulados) nEJEMPLO 1 (caso de datos no agrupados, continuación):Calcular el promedio de inasistencias para los 20 estudiantes del grupo analizado: Xi ni fi Ni Fi Xini 1 37 0 4 0,20 4 0,20 0 x= ∑ x in i = = 1,85 n 20 1 3 0,15 7 0,35 3 2 7 0,35 14 0,70 14 3 4 0,20 18 0,90 12 Nota: Es usual, cuando se efectúan cálculos utilizar 4 2 0,10 20 1,00 8 la propia tabla de frecuencia, creando columnas 37 auxiliares, como se ve, para facilitar los mismos.EJEMPLO 2 (caso de datos agrupados, continuación):Calcular el consumo promedio diario de gasolina de los 50 taxis de la flota. clases Xi ni fi Xini 20 - 25 22,5 6 0,12 135,0 25 - 30 27,5 13 0,26 357,5 1 1665 x= ∑ x in i = = 33,3 30 - 35 32,5 11 0,22 357,5 n 50 35 - 40 37,5 11 0,22 412,5 40 - 45 42,5 5 0,10 212,5 (O sea, el consumo promedio en el día fue 45 - 50 47,5 4 0,08 190,0 de 33,3 litros por auto.) 1665,0Nota: Para los cálculos de la media en datos agrupados en clases se utilizan las marcas declase, y salvo eso, la expresión matemática empleada no se diferencia del caso en que los 17
  19. 19. datos no están agrupados. Algo a tener en cuenta en este sentido es que si existen intervalosabiertos, como a veces se presenta la primera o la última clase, la media no se puede calculara menos que se modifiquen los mismos.PROPIEDADES Y CARACTERÍSTICAS DE LA MEDIA:Algunas propiedades importantes y con utilidad práctica de la media son: 1. M(k) = k (La media de una constante es igual a la propia constante.) 2. M(kx) = k M(x) (La media de una constante por una variable es igual a la constante por la media de la variable.) 3. M(k + x) = k + M(x) (La media de una constante más una variable es igual a la constante más la media de la variable.) 4. M(x1 + x2) = M(x1) + M(x2) (La media de la suma de dos variables es igual a la suma de las medias de ambas variables.) 5. M(x - x ) = 0 (La media de las desviaciones con respecto a la media es igual a cero.) 6. M(x - x )2 = mínimo. (La media del cuadrado de las desviaciones con respecto a la media al cuadrado es un mínimo.)Cabe especificar que se le llama desviaciones a la diferencia entre los valores de una variable yun valor fijo; cuando este valor fijo es la propia media de la variable, se le llama desviacionescon respecto a la media.De la quinta propiedad citada se deduce que la media es el centro de gravedad o el punto deequilibrio de la distribución, o sea, el valor que correspondería a una distribución equitativa paratodas las observaciones.Una característica notable en la media es que ésta se ve afectada por la ocurrencia devalores extremos, esto quiere decir que si hay algunos valores atípicos en el conjunto, estosarrastran consigo el valor de la media; así, valores atípicos muy grandes conducirán a unamedia mayor que la real del conjunto, mientras que valores muy pequeños provocarán que lamedia sea menor que la real.MODALa moda se define como el valor mas frecuente en un conjunto de datos, es decir, el valormodal es el de mayor frecuencia. Se denota por Mo(x) y puede no existir en una distribución(distribución amodal), o existir más de una (distribución multimodal).La moda cobra especial importancia en datos de tipo cualitativo, pues en ellos es imposiblecalcular otros estadígrafos de posición, como la media. Esto no quita que también para datoscuantitativos suele ser de interés conocer el valor modal, que se utiliza en ocasiones comomedida de tendencia central. 18
  20. 20. Para determinar la moda a partir de datos primarios suele ser conveniente organizar primeroestos, conformando lo que se llama un arreglo ordenado. EJEMPLO: Sean las calificaciones de tres estudiantes: A: 3 4 3 4 5 4 5 4 4 B: 3 4 5 4 5 4 5 5 4 C: 3 4 3 4 5 4 5 5 3 Organizando primeramente los datos se tiene: A: 3 3 4 4 4 4 4 5 5 Mo(A) = 4 (conjunto unimodal) B: 3 4 4 4 4 5 5 5 5 Mo(B) = { 4 ; 5 } (conjunto bimodal) C: 3 3 3 4 4 4 5 5 5 Mo(C) = Ø (conjunto amodal) Nota: Para el estudiante C ninguna nota es más frecuente que las demás, por eso no tiene valor modal.En datos tabulados es muy sencillo encontrar el valor o valores modales, pues son aquellos quepresentan la máxima frecuencia absoluta.EJEMPLO 1 (caso de datos no agrupados, continuación):Determinar la moda de inasistencias para los 20 estudiantes del grupo analizado: Xi ni fi Ni Fi 0 4 0,20 4 0,20 nmod = 7 (frecuencia modal) 1 3 0,15 7 0,35 2 7 0,35 14 0,70 Mo(X) = 2 3 4 0,20 18 0,90 4 2 0,10 20 1,00Nota: La frecuencia modal es 7, porque la cantidad de inasistencias que más ocurre, que sondos, se repite 7 veces en la muestra (o un 35% de las veces).Cuando se trabaja con datos agrupados en clases, es sencillo determinar la clase o clasesmodales existentes, y para muchos fines esto es suficiente. Pero si se quiere indicar un valormodal dentro de la clase modal, se ha determinado, atendiendo a cuestiones geométricas, queel mismo puede obtenerse a partir de la expresión: n mod − n mod −1 Mo ( x ) = L mod −1 + c ⋅ (n mod − n mod −1 ) + (n mod − n mod +1 )Siendo: Lmod-1: el límite inferior de la clase modal c: el ancho de la clase modal (que en general es el de todas las clases) nmod: la frecuencia absoluta de la clase modal nmod-1: la frecuencia absoluta de la clase anterior a la modal 19
  21. 21. nmod+1: la frecuencia absoluta de la clase siguiente a laEJEMPLO 2 (caso de datos agrupados, continuación):Calcular el valor modal para el consumo diario de gasolina de los 50 taxis de la flota. clases Xi ni fi 20 - 25 22,5 6 0,12 25 - 30 27,5 13 0,26 30 - 35 32,5 11 0,22 35 - 40 37,5 11 0,22 40 - 45 42,5 5 0,10 nmod = 13 45 - 50 47,5 4 0,08 clase modal: 25 - 30Para determinar un valor modal puntual se parte de la clase modal: n mod − n mod −1 13 − 6Mo ( x ) = L mod −1 + c ⋅ = 25 + 5 ⋅ (n mod − n mod −1 ) + (n mod − n mod +1 ) (13 − 6 ) + (13 − 11) 7Mo ( x ) = 25 + 5 ⋅ = 25 + 3,89 = 28,89 9CARACTERÍSTICAS DE LA MODA:A diferencia de la media, la moda no se afecta ante la presencia de valores extremos.La moda, como se ha visto, no tiene necesariamente que existir, ni tiene que ser única.Además, la moda puede ser definida en forma relativa, aunque es menos frecuente este uso,llamando valor modal a aquel donde exista un máximo relativo en la distribución de frecuencias,esto es, donde: ni – 1 < ni >ni + 1MEDIANALa mediana se define como el valor central de un grupo de datos ordenados, o sea, como aquelvalor que supera hasta un 50% de las observaciones y a la vez es superado por hasta un 50 %de las observaciones. Se denota por Me(x).Para calcular la mediana a partir de un conjunto de datos en su forma primaria, es necesarioantes ordenarlos; después, se puede buscar la posición del valor mediano en el arregloordenado, atendiendo al número de observaciones, según las dos siguientes reglas: Regla 1: Si el tamaño de la muestra es un número impar, la mediana está representada por el valor numérico correspondiente a la posición del centro de las observaciones ordenadas. 20
  22. 22. Regla 2: Si el tamaño de la muestra es un número par, entonces el valor mediano, será la semisuma o promedio de los dos valores centrales de las observaciones ordenadas. (Esto, estrictamente hablando, es un convenio adoptado, pues cualquier valor entre los dos valores centrales podría ser considerado como un valor mediano) EJEMPLO: Sean las calificaciones de un estudiante en dos semestres: SI: 5 3 5 4 4 5 5 SII: 5 3 5 4 4 5 5 4 Ordenando los datos, se tiene: SI: 3 4 4 5 5 5 5 Me(x) = 5 SII: 3 4 4 4 5 5 5 5 Me(x) = (4 + 5)/2 = 4,5Para determinar la mediana en datos tabulados pero sin agrupar en clases se puede procederde la siguiente manera: 1. Determinar la fracción n/2, que ubica el centro de la distribución. 2. Encontrar la denominada frecuencia mediana, que es la primera frecuencia absoluta acumulada que iguala o supera a n/2 (representada por Nmed); y entonces: • Si Nmed > n/2, Me(x) = Xmed (Es decir, si la frecuencia mediana encontrada supera a n/2, la mediana es el valor de X al que le corresponde dicha frecuencia en la tabla) • Si Nmed = n/2, Me(x) = (Xmed + Xmed+1)/2 (Es decir, si la frecuencia mediana encontrada coincide con n/2, la mediana es el promedio del valor de X al que le corresponde dicha frecuencia en la tabla con el valor de X siguiente)EJEMPLO 1 (caso de datos no agrupados, continuación):Determinar la mediana para las inasistencias de los 20 estudiantes del grupo analizado: Xi ni fi Ni Fi n/2 = 10 0 4 0,20 4 0,20 Nmed = 14 ( >10 ) 1 3 0,15 7 0,35 Me(X) = 2 2 7 0,35 14 0,70 3 4 0,20 18 0,90 Nota: La frecuencia mediana es 14, porque es la primera 4 2 0,10 20 1,00 frecuencia absoluta acumulada que sobrepasa a n/2 = 10. 21
  23. 23. En el caso de datos agrupados en clases, se determina ante todo una clase mediana, comoaquella cuya frecuencia absoluta acumulada sobrepasa a n/2; y si quiere un valor mediano,sobre esa clase se aplica la siguiente expresión: n −N med−1 Me( x ) = L med−1 + c ⋅ 2 nmedSiendo: Lmed-1: el límite inferior de la clase mediana c: el ancho de la clase modal (que en general es el de todas las clases) Nmed-1: la frecuencia absoluta acumulada hasta la clase anterior a la mediana nmed: la frecuencia absoluta de la clase medianaEJEMPLO 2 (caso de datos agrupados, continuación):Calcular el valor mediano para el consumo diario de gasolina de los 50 taxis de la flota. clases Xi ni Ni 20 - 25 22,5 6 6 25 - 30 27,5 13 19 30 - 35 32,5 11 30 35 - 40 37,5 11 41 Nmed = 30 40 - 45 42,5 5 46 clase mediana: 30 - 35 45 - 50 47,5 4 50 n − Nmed−1 25 − 19 6 Me( x ) = Lmed−1 + c ⋅ 2 = 30 + 5 ⋅ = 30 + 5 ⋅ = 30 + 2,73 = 32,73 nmed 11 11CARACTERÍSTICAS DE LA MEDIANA:La mediana no se ve afectada por datos extremos, es por ello que cuando éstos existen ellaes más representativa que la media como medida de tendencia central.1.2.2- ESTADÍGRAFOS O MEDIDAS DE DISPERSIÓNA pesar de toda la información que brindan los estadígrafos de posición, no basta con ellos paracaracterizar un conjunto de datos:Téngase por caso dos empresas que reportan el mismo promedio de recaudacionesmensuales, siendo que una de ellas esto se debe a que todos los meses ha recaudado esamisma cantidad, mientras que la otra ha oscilado bastante en sus recaudaciones alrededor deese valor medio, habiendo recaudado unos meses mucho más que dicho valor, pero otros,mucho menos; de esta manera, no puede decirse que ambas empresas tiene el mismocomportamiento, a pesar de que han coincidido en el valor de la recaudación media mensual: laprimera de ellas es mucho más estable en su comportamiento que la segunda… Esto sería útilconocerlo a través de alguna medida resumen, junto con el valor de la media. 22
  24. 24. Precisamente, los estadígrafos de dispersión son medidas que describen cómo se distribuyenlos datos alrededor de alguno de sus valores representativos, principalmente alrededor de sumedia.Por tanto, las medidas de posición no dicen mucho si no están acompañadas de medidas dedispersión o variabilidad, porque a través de estas últimas es que se puede determinar si lamedida de posición es significativa o representativa de la distribución.Entre las medidas de dispersión más empleadas destacan la varianza, la desviación típica y elcoeficiente de variación.VARIANZALa varianza de un conjunto de datos se define como la media o promedio del cuadrado de lasdesviaciones de la variable respecto a su media. Por sus propiedades, es la medida dedispersión más usada, y base para el cálculo de otras.La varianza se representa: • en la muestra, por S2 • en la población, por σ2 (la letra griega sigma, al cuadrado) • en definiciones y demostraciones, por V(x)De la definición de la varianza se desprende que ésta, en una muestra, puede calcularse como: ∑ (x i − x ) 2 1 ∑ (x i − x ) 2 S2 = ó S2 = (definición) n n EJEMPLO: Sea X las calificaciones de un estudiante: X: 5 4 3 4 5 3 El promedio es: x = 4 Por tanto, la varianza es: S2 = 1 n 2 1 6 [ ∑ (x i − x ) = (5 − 4 ) + (4 − 4 ) + (3 − 4 ) + (4 − 4 ) + (5 − 4 ) + (3 − 4 ) 2 2 2 2 2 2 ] 1 [ ] 4 S 2 = 12 + 0 2 + (− 1) + 0 2 + 12 + (− 1) = = 0,67 6 2 2 6Al trabajar con datos tabulados debe tenerse en cuenta, al igual que en los cálculos de lamedia, que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni), y portanto, la expresión matemática derivada de la definición debe modificarse, como se muestra: 23
  25. 25. ∑ (x i − x ) n i 2 1 ∑ (x i − x ) n i ó S 2 = ∑ (x i − x ) fi 2 2 2S = ó S2 = (en datos tabulados) n nEJEMPLO 1 (caso de datos no agrupados, continuación):Calcular la varianza en las inasistencias para los 20 estudiantes del grupo analizado:Xi ni fi Ni Fi (x i − x )2 ni Se tiene que: x = 1,850 4 0,20 4 0,2013,6900 Por tanto:1 3 0,15 7 0,35 2,16752 7 0,35 14 0,70 0,1575 1 30,55 5,2900 S = n ∑ (x i − x ) n i = 20 = 1,53 2 23 4 0,20 18 0,904 2 0,10 20 1,00 9,2450 30,5500Nota: Algunos cálculos se han organizado utilizando la propia tabla de frecuencias.EJEMPLO 2 (caso de datos agrupados, continuación):Calcularla varianza para el consumo diario de gasolina de los 50 taxis de la flota.clases Xi ni (x i − x )2 ni20 - 25 22,5 6 703,7334 Se tiene que: x = 33,325 - 30 27,5 13 441,855730 - 35 32,5 11 7,5779 Por tanto:35 - 40 37,5 11 191,2779 1 2568 ,045 ∑ (x i − x ) n i =40 - 45 42,5 5 420,4445 S2 = 2 = 128 ,445 - 50 47,5 4 803,1556 n 50 n=50 2568,0450PROPIEDADES Y CARACTERÍSTICAS DE LA VARIANZA:Algunas propiedades importantes y con utilidad práctica de la varianza son: 1. V(x) ≥ 0 (La varianza es un número no negativo.) 2. V(k) = 0 (La varianza de un grupo de datos constante es igual a cero.) 3. V(x ± k) = V(x) (La varianza de la suma de los valores de una variable más una constante es igual a la varianza de la variable.) 4. V(kx) = k2 V(x) (La varianza del producto de los valores de una variable por una constante es igual a la constante al cuadrado por la varianza de la variable.)La varianza, dada la manera en que se define y calcula, se expresa en unidades cuadráticasrespecto a la variable de la que procede, y esto hace que no se le pueda dar una interpretaciónrealista a dicho estadígrafo. 24
  26. 26. No obstante, la varianza, por la misma forma en que se define y calcula, indica el grado dedispersión de los datos; se dice que es una medida de dispersión absoluta: mientras mayor esla varianza en un conjunto de observaciones, mayor es su dispersión; por el contrario, si unavarianza nula indica que todas las observaciones coinciden en un mismo valor.DESVIACIÓN TÍPICA O ESTÁNDARPuesto que la varianza pierde interpretación por estar su resultado en unidades cuadráticas,resulta conveniente contar con otro estadístico que basado en el valor de la varianza sirva paradar una medida de la dispersión en las mismas unidades o dimensiones en que estánexpresados los datos y este estadístico es la desviación típica.La desviación típica o desviación estándar se define como la raíz cuadrada positiva de lavarianza. Se denota por S en la muestra y por σ en la población: S = S2 EJEMPLO: Sea X el precio de venta, en centavos, los distintos jabones de una marca dada: X: 40 35 45 50 40 1 40 + 35 + 45 + 50 + 40 El precio promedio para la marca es: x = ∑ xi = = 42 ¢ n 5 1 130 ∑ (x i − x ) = 2 La varianza es: S 2 = = 26 ¢ 2 n 5 Por tanto, la desviación estándar es: S = S 2 = 26 = 5,1¢La desviación típica es una magnitud no negativa, y con el misma interpretación que la varianzaen cuanto a medida de dispersión absoluta, pero no cumple las restantes propiedadesmatemáticas de aquella, pues la extracción de la raíz no lo permite.COEFICIENTE DE VARIACIÓNEn ocasiones resulta necesario contar con un estadígrafo que refleje la dispersión sin dependerde la magnitud de las observaciones, esto es que sea un valor relativo. Esta necesidad surgegeneralmente cuando se comparan las dispersiones entre varios conjuntos expresados enunidades diferentes, o incluso entre variables expresadas en las mismas unidades pero condiferencias significativas en sus valores medios. Este estadístico es el denominado coeficientede variación.El coeficiente de variación se define como el cociente de la desviación típica entre la media. Sedenota por CV(x), y en forma matemática puede expresarse: 25
  27. 27. Sx CV( x ) = xDel coeficiente de variación se dice que es una medida de dispersión relativa, por carecer deunidades, o una medida de la variabilidad de los datos. Muchas veces su valor se multiplica por100, para expresar el resultado en porciento. EJEMPLO: Sea cuenta con datos del peso y la estatura de un grupo de 20 niños entre 8 y 10 años, y se desea saber cuál de las dos variables tiene mayor variabilidad. X: estatura (cm) Y: peso (kg) X = 155 cm Y = 42 kg S2 X = 110 cm 2 S 2 = 20 kg2 Y S X = 10,5 cm S Y = 4,5 kg En este caso no tiene sentido decir que hay mayor dispersión en términos absolutos en la estatura, por el hecho de que la desviación estándar para dicha variable es 10,5 mientras que para el peso es 4,5, pues las unidades en que están expresadas ambas no son comparables. Aquí cobran especial importancia los coeficientes de variación, que quedan: 10,5 4,5 CV( X) = = 0,068 = 6,8% CV( Y ) = = 0,107 = 10,7% 155 42 De ello resulta que hay mayor variabilidad en el peso (10,7%) que en la estatura de los niños (6,8%).EJERCICIOS DE AUTOEVALUACIÓN1.- ¿Qué indican las medidas de tendencia central?2.- ¿Cómo se define la media aritmética? ¿Cuáles son sus propiedades?3.- ¿Qué desventajas se le pudiera atribuir a la media?4.- ¿Cómo se define la mediana?5.- ¿Cuál de los dos estadísticos, media y mediana, considera que es mejor para representar elpromedio? Explique su respuesta.6.- ¿Cómo se define la moda?7.- ¿En que casos considera útil utilizar la moda? 26
  28. 28. 8.- ¿Qué indican las medidas de dispersión?9.- ¿Cómo se define la varianza? Mencione algunas de sus propiedades.10.- ¿Cómo interpretaría el resultado de la varianza?11.- ¿Cómo se define la desviación típica? ¿Cómo la interpretaría en general?12.- ¿Cuándo y porqué utilizaría la desviación típica en vez de la varianza?13.- ¿Cómo se define el coeficiente de variación? ¿Cómo se interpreta este coeficiente?14.- ¿Cuáles son las ventajas del coeficiente de variación sobre la desviación típica?15.- Un fabricante de pilas para linternas tomó una muestra de 13 piezas de la producción de undía y las utilizó de forma continua hasta que comenzaron a fallar. El resultado en horas defuncionamiento fue: 342, 426, 317, 545, 264, 451, 1049, 631, 512, 266, 492, 562, 298a.- Calcule la media, la mediana y la moda. ¿Qué medidas descriptivas parecen ser las mejoresy cuales las peores? ¿Por que?b.- Calcule la varianza, la desviación típica y el coeficiente de variación.c.- Utilizando la información anterior ¿qué se aconsejaría al fabricante si él deseara anunciarque sus baterías duran 400 horas?16.- Examinando los registros de cuentas mensuales de una empresa que vende Li-1 Li nilibros por correo, el auditor toma una muestra de 20 de esas cuentas no pagadas 10 15 4(dadas en cientos de pesos). Los adeudos de la empresa eran: 15 20 6a.- Calcule la media, la mediana y la moda.b.- Calcule la varianza y el coeficiente de variación e interprete los resultados. 20 25 7c.- A que conclusión llegaría acerca de la empresa conociendo que tiene 370 25 30 2facturas pendientes de pago. 30 35 1 27
  29. 29. TEMA II: PROBABILIDADES.2.1: Introducción a los fenómenos y experimentos aleatorios. Espacio muestral ysucesos. Clasificación de sucesos. Definición clásica de Probabilidad. Definiciónestadística de Probabilidad.La Teoría de las Probabilidades surge en el siglo XVII, relacionada con problemas de los juegosde azar, y entre sus principales precursores estuvo el matemático Pascal, junto con Fermat,Huygens y Bernoulli; algo después se sumó la importante contribución de De Moivre, Gauss,Laplace y Poisson. Esta teoría se encarga del estudio de las leyes que rigen el comportamientode los fenómenos aleatorios, y es la base de la inferencia estadística, de ahí la necesidad de suestudio si se quiere pasar de la mera descripción al trazado de predicciones.Para desarrollar la teoría de las probabilidades es preciso establecer la barrera entre eldeterminismo y la necesario aleatoriedad o azar:Un fenómeno o experimento es determinista cuando se puede predecir con total exactitud elresultado del mismo a partir del conocimiento de las condiciones iniciales; así, los fenómenos yexperimentos de que se ocupan ciencias exactas como la física y la química son deterministas.Un fenómeno o experimento es, por el contrario, aleatorio cuando no se puede predecir conexactitud el resultado del mismo aunque se conozcan las condiciones iniciales; esto es lo quepor lo general ocurre en el campo de las ciencias económicas y sociales.Según lo dicho, si se va a dejar caer un dado desde una altura determinada, el hecho de que seconozca cuál es la altura permitiría determinar antes y con exactitud, sobre la base de leyesfísicas, con qué velocidad llegará el dado al suelo, lo que hace de ésta una observacióndeterminista; sin embargo, no sería posible predecir con total certeza qué cara del dadoquedará hacia arriba, siendo esta otra una observación aleatoria.Se plantea que la estadística es la tecnología del método científico que proporcionainstrumentos para la toma de decisiones, cuando estas se adoptan en ambiente deincertidumbre y siempre que pueda ser medida en términos de probabilidad. Luego es unaciencia que estudia los fenómenos aleatorios.La probabilidad, en una aproximación intuitiva, puede definirse como una medida cuantitativa deque las posibilidades pueden llegar a ser realidades.TERMINOLOGÍA ASOCIADA A LOS EXPERIMENTOS ALEATORIOS:Para llegar a una definición más rigurosa de lo que lo que es probabilidad resulta útil dominaralgunos conceptos vinculados justamente con lo no medible con exactitud, con lo aleatorio:Espacio muestral: Es el conjunto formado por todos los posibles resultados de unexperimento o fenómeno aleatorio. Se suele representar con “S”, mayúscula, y utilizando lanotación de la Teoría de Conjuntos. La cantidad de elementos (puntos muestrales) queconforman el especio muestral es denominada “tamaño del espacio muestral”, y serepresenta como N(S). Ej. 1: Lanzamiento de una moneda... S: { C ; E } donde C: Cara E: Escudo 28
  30. 30. N(S) = 2 Ej. 2: Lanzamiento de un dado... S: { 1, 2, 3, 4, 5, 6 } N(S) = 6Cuando el experimento consta de observaciones sucesivas (a esto se le denomina experimentode muestreo), el espacio muestral es la combinación de los posibles resultados en cada una delas observaciones, y para determinar el mismo se pueden utilizar los llamados diagramas deárbol. En un diagrama de árbol se ordenan las diferentes observaciones y se establecen losposibles resultados para cada observación atendiendo a las observaciones anteriores. Ej. 3: Lanzamiento de dos monedas S: { CC ; CE ; EC ; CC } N(S) = 4El espacio muestral puede ser finito o infinito según el conjunto tenga un número finito o infinitode elementos (puntos muestrales).Punto muestral: Es cada uno de los resultados posibles de un experimento o fenómenoaleatorio.Suceso o evento: Cualquier característica observada como resultado de un experimento ofenómeno, y es aleatorio si tiene tanto posibilidad de ocurrir o como de no ocurrir; o sea, es unacolección cualquiera de puntos muestrales. Se utilizan letras mayúsculas para representarlos,exceptuando la S.Para establecer relaciones de sucesos con el espacio muestral o entre ellos mismos se utilizanlos diagramas de Venn. En un diagrama de Venn se suele representar el espacio muestralcomo un rectángulo, y dentro de este, con círculos u otras formas geométricas los diferentessucesos de interés, así: S AEjemplos de sucesos, en el experimento del lanzamiento de un dado son: A: Que salga el 6. A={6} B: Que salga un número > 3 B = { 4; 5; 6 } C: Que salga un número ≤ 2 C = { 1; 2 } D: Que salga un número par D = { 2; 4; 6 } E: Que salga un número impar E = { 1; 3; 5 } F: Que salga un número primo F = { 1; 2; 3; 5 } G: Que salga un número < 10 G = { 1; 2; 3; 4; 5; 6 } (= S ) H: Que salga un número > 6 H = ø (conjunto vacío) 29
  31. 31. Los sucesos pueden clasificarse atendiendo a diferentes criterios; así, en dependencia de lacantidad de puntos muestrales que lo constituyen se habla de sucesos simples y compuestos: Suceso simple: Es aquel que consta de un solo punto muestral. (En el ejemplo anterior, el suceso A.) Suceso compuesto: Es aquel que tiene dos o más puntos muestrales. (En el ejemplo anterior, los sucesos del B al G.)Atendiendo a su ocurrencia, se puede hablar de sucesos seguros o ciertos y de sucesosimposibles o nulos: Suceso seguro o cierto: Es aquel cuya ocurrencia es inevitable, que siempre va a ocurrir. (En el ejemplo anterior, el suceso G: al lanzar un dado siempre saldrá un número del 1 al 6.) Los sucesos seguros coinciden con el espacio muestral. Suceso imposible o nulo. Es aquel que nunca ocurrirá. (En el ejemplo anterior, el suceso H.) Los sucesos imposibles constituyen conjuntos vacíos.Además, en función del vínculo de un suceso o evento con otros existen las siguientesdenominaciones: Subevento: A es un subevento o subsuceso de B si todos los puntos muestrales de A están incluidos en B, o sea, A ⊂ B. (En el ejemplo anterior: A ⊂ B, A ⊂ D, C ⊂ F, E ⊂ F.) A⊂B Sucesos complementarios: Un suceso es complementario de otro suceso A, si está formado por todos los puntos del espacio muestral que no están incluidos en A; se dice entonces que ese suceso es el complemento de A, y se denota por A o Ac. (En el ejemplo anterior se tiene para A = { 6 } que el complemento es A’ = { 1; 2; 3; 4; 5}.) Sucesos excluyentes: Dos sucesos se dice que son mutuamente excluyentes si la ocurrencia de uno excluye la ocurrencia del otro, por lo tanto dichos sucesos no tienen puntos en común. (En el ejemplo anterior son excluyentes A y C, B y C, D y E.) 30
  32. 32. Nota: Un caso particular de sucesos excluyentes son los complementarios. Todos los sucesos complementarios son excluyentes; lo contrario no necesariamente ocurre. Sucesos no excluyentes: Dos sucesos son no excluyentes si pueden ocurrir simultáneamente, es decir, si tienen puntos en común. (En el ejemplo anterior son no excluyentes A y B, C y D, B y D, C y E, etc.) Sucesos exhaustivos: Se dice que dos sucesos son colectivamente exhaustivos cuando la ocurrencia de ambos abarca el espacio muestral. (En el ejemplo anterior son no exhaustivos: D y E, D y F.) Nota: Un caso particular de sucesos exhaustivos son los complementarios. Todos los sucesos complementarios son exhaustivos; lo contrario no necesariamente ocurre.OPERACIONES ENTRE SUCESOS:Para establecer la relación entre diferentes sucesos se recurre a las operaciones definidas porel álgebra booleana en la propia Teoría de Conjuntos, entre ellas, las más usadas son: • Intersección o producto: La intersección de los sucesos A y B da como resultado un suceso que consiste en la ocurrencia simultánea de ambos, es decir, que contiene los puntos muestrales contenidos a la vez en A y en B. Se denota por A ∩ B ó AB. Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un número mayor que 3) y D = { 2; 4; 6 } (que salga un número par), la intersección es el suceso dado por que salga un número par y mayor que tres, es decir: B ∩ D ≡ BD = { 4; 6 } B ∩ D ≡ BD 31
  33. 33. • Unión o suma: La unión de dos sucesos A y B da como resultado un suceso que consiste en la ocurrencia de al menos uno de los dos sucesos, es decir que contiene todos los puntos muestrales contenidos en A o en B (o en ambos). Se denota por A ∪ B ó A + B. Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un número mayor que 3) y D = { 2; 4; 6 } (que salga un número par), la unión es el suceso dado por que salga un número par o mayor que tres, es decir: B ∪ D = { 2; 4; 5; 6 } B∪D • Complemento o negación: El complemento de un suceso A da como resultado su suceso complementario, es decir, que no ocurra A. Se denota como A’ ó Ac. Ej.: En el lanzamiento del dado, siendo C = { 1; 2 } (que salga un número menor o igual que 2), el complemento unión es el suceso dado por que salga un número mayor que 2, es decir: C’ = { 3; 4; 5; 6 } C’ ≡ CcDEFINICIÓN CLÁSICA DE PROBABILIDAD:En el siglo XIX, concretamente en el año 1812, Laplace formula la que es conocida comodefinición clásica de probabilidad, que establece que:Si S es un espacio muestral finito y todos los puntos muestrales son equivalentes o igualmenterepresentativos, entonces la probabilidad de ocurrencia de cualquier suceso A definido en Spuede calcularse como el cociente del número de resultados favorables al suceso A (tamañodel suceso) entre el número de resultados posibles (tamaño del espacio muestral), así: N( A ) P( A ) = N(S) Ejemplos: La probabilidad de obtener el número 6 al lanzar un dado será: A: Que salga el 6. N(A) = 1 P(A) = 1/6 = 0,167 La probabilidad de obtener un número par será: D: Que salga un número par N(D) = 3 P(D) = 3/6 = 0,5 32
  34. 34. La definición clásica también se conoce como definición a “priori” de probabilidad, porque no esnecesario realizar el experimento para calcular la probabilidad de ocurrencia. Esta definicióntiene las siguientes limitaciones: 1. No puede ser aplicada a espacios muestrales infinitos. 2. No puede ser aplicada cuando los puntos muestrales no son equiprobables, o lo que es lo mismo, igualmente probables.DEFINICIÓN ESTADÍSTICA DE PROBABILIDAD:Debido a las limitaciones que confronta la definición clásica de probabilidad, se comenzaron arealizar experimentos con los juegos de azar, surgiendo el concepto de regularidadestadística. Se le llama regularidad estadística a la estabilidad que presentan las frecuenciasrelativas asociadas a un suceso al considerar un gran número de veces un experimento bajo lasmismas condiciones; por ejemplo, si una moneda se lanza un gran número de veces (500, 1000veces), se observará que aproximadamente el 50% de estas veces sale cara, y mientras máslanzamientos se haga más tenderá este valor al 50%.A partir de la regularidad estadística, surge la definición estadística de probabilidad que plantea:Si el número de observaciones (n) tiende a infinito, la frecuencia relativa asociada a un sucesoA (fA), alcanza un cierto valor límite o ideal, y entonces puede asociarse a un número P(A)equivalente a la probabilidad de ocurrencia de A, así: nA P( A ) = lim = lim f A n→ ∞ n n→ ∞ Ejemplo: Un arquero ha acertado 70 veces en un blanco de un total de 100 intentos, y se quiere conocer la probabilidad de que haga blanco en un nuevo tiro. Sea A: acertar en el blanco Se tiene que n = 100 y nA = 70. Entonces: P(A) = 70/100 = 0,70 O sea, se espera que el arquero haga blanco un 70% de las veces que tire.La definición estadística o frecuencial además se conoce como definición “a posteriori” deprobabilidad, porque si no se realiza el experimento no se puede calcular la misma. Estadefinición también tiene limitaciones, dadas por lo siguiente: No siempre es posible repetir un experimento un mismo número de veces bajo las mismas condiciones.PROPIEDADES DE LA PROBABILIDAD:La probabilidad, como medida de la posibilidad de ocurrencia de un suceso, cumple lassiguientes propiedades: • P(A) ≥ 0 • P(S) = 1 33
  35. 35. Lo anterior implica que: 0 ≤ P(A) ≤ 1Nota: Es común multiplicar las probabilidades por 100 para expresarlas porcentualmente, y de esta forma, lógicamente, resultará un número (un valor porcentual) entre 0 y 100.EJERCICIOS DE AUTOEVALUACIÓN1.- ¿Qué es un experimento aleatorio?2.- ¿Puede calcularse probabilidad a partir de un experimento determinista?. Explique.3.- ¿Cuáles son los sucesos mutuamente excluyentes?4.- ¿Cuáles son los sucesos complementarios?5.- Explique la diferencia entre unión e intersección y proporcione un ejemplo de cada uno.6.- ¿Cómo se define la probabilidad clásicamente? ¿Bajo que condiciones puede aplicarse?7.- ¿Cómo se define la probabilidad estadística o frecuencialmente?8.- ¿Cuáles son las limitaciones de ambas definiciones?9.- En una amplia red metropolitana se seleccionó una muestra de 500 entrevistados para determinar diversas informaciones relacionadas con el comportamiento del consumidor. Entre las preguntas hechas se encontraba: “¿disfruta ir de compras?”. De 240 hombres 136 contestaron que sí; de 260 mujeres 224 contestaron que sí. a.- De un ejemplo de un evento simple. b.- ¿Cuál es el complemento de disfrutar ir de compras? c.- ¿Cual es la probabilidad de que el entrevistado seleccionado en forma aleatoria ... c.1 sea hombre? c.2 disfrute ir de compras? c.3 sea mujer? c.4 no disfrute ir de compras? c.5 sea mujer y disfrute ir de compras? c.6 sea hombre y no disfrute ir de compras? c.7 sea hombre y disfrute ir de compras? c.8 sea mujer o disfrute ir de compras? c.9 sea hombre o no disfrute ir de compras? 34
  36. 36. 2.2: Axiomatización de la Probabilidad. Reglas de cálculo de probabilidades.Probabilidad condicional. Independencia de sucesos.Existen múltiples situaciones complejas en las que es necesario o deseable conocer laprobabilidad de ocurrencia de un determinado suceso, y donde la aplicación directa de algunade las definiciones de este concepto parece prácticamente imposible; de ahí que la teoría entorno a las probabilidades continuase desarrollándose para encontrar solución a estos casos,dando lugar a numerosos teoremas y reglas.Dadas las limitaciones que presentan las dos definiciones previas, en 1933 se axiomatiza laprobabilidad a partir de la formulación de tres axiomas básicos. Entonces, si S es un espaciomuestral y A un suceso definido en S, se dirá, que todo suceso A definido en S está asociado aun numero real P(A), llamado probabilidad de A, el cual cumplirá con los siguientes axiomas: 1. P(A) ≥ 0 2. P(S) = 1 3. P(A1 ∪ A2 ∪ A3 ∪ ... ∪ Ak) = P(A1) + P(A2) + ... + P(Ak) si los k sucesos son excluyentes o lo que es lo mismo si para cada par Ai y Aj se tiene que AiAj = ø siendo i ≠ j.TEOREMAS ASOCIADOS AL CÁLCULO DE PROBABILIDADES:De los axiomas establecidos para la probabilidad se derivan algunos teoremas que encuentranaplicación directa en el cálculo de probabilidades, entre los más usados están:Teorema 1: La probabilidad de un suceso imposible o nulo es cero: P(∅) = 0Teorema 2: Si A es un subconjunto de B entonces P(A) ≤ P(B)Teorema 3: La probabilidad del suceso complementario al suceso A es igual a la probabilidad del espacio muestral, que es igual a 1 ( P(S) = 1 ), menos la probabilidad de A. P(A) = 1 - P (A)Teorema 4: La probabilidad de que ocurra A y no ocurra B será: P(AB) = P(A) - P(AB)Teorema 5: La probabilidad de que ocurra la unión de dos sucesos, A y B, será: P(A ∪ B) = P(A) + P(B) - P(AB) Este teorema es conocido como “regla de la unión”. El mismo puede generalizarse para más de dos sucesos; por ejemplo, la regla de la unión referida a tres sucesos queda: 35
  37. 37. P(A ∪ B ∪ C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)Teorema 6: La probabilidad de que no ocurra ninguno de dos sucesos, A y B, será: P(A’B’) = 1 - P(A ∪ B) Ejemplo: De un grupo de 1000 habaneros: 420 leen Granma, 105 leen Juventud Rebelde y 45 leen ambos periódicos. a.- ¿Cuál es la probabilidad de seleccionar aleatoriamente un habanero del grupo y lea Granma o Juventud Rebelde. b.- ¿Qué probabilidad hay de que el habanero seleccionado no lea ninguno de los periódicos? c.- ¿Qué probabilidad hay de que lea sólo Granma? Sean los sucesos: G: leer Granma J: leer Juventud Rebelde. Se tiene: N(S) = 1000 N(G) = 420, por tanto: P(G) = 0,42 N(J) = 105, por tanto: P(J) = 0,105 N(GJ) = 45, por tanto: P(GJ) = 0,045 a.- P(G ∪ J) = P(G) + P(J) + P(GJ) = 0,42 + 0,105 - 0,045 = 0,48 b.- P(G ∪ J) = 1 - P(G ∪ J) = 1 - 0,48 = 0,52 c.- P(GJ) = P(G) - P(GJ) = 0,42 - 0,045 = 0,385PROBABILIDAD CONDICIONAL:Muchas veces surge la necesidad de calcular la probabilidad de ocurrencia de un sucesoasumiendo la ocurrencia de otro, que puede ser llamado condicionante; esto quiere decir que yano interesa la totalidad del espacio muestral, sino sólo aquella parte o subconjunto de aquel quecoincide con la realización del suceso condicionante. La probabilidad así calculada se le llamaprobabilidad condicional.Para representar la probabilidad condicional de un suceso A respecto a otro B (condicionante ocondición) se utiliza la el símbolo P(A/B), que se lee “probabilidad de A dado B”, o “probabilidadde A si ocurre B”.Matemáticamente se puede calcular la probabilidad condicional como el cociente de laprobabilidad de intersección de los dos sucesos entre la probabilidad del suceso condicionante: 36
  38. 38. P( AB) P( A / B) = P(B)También se puede calcular la probabilidad condicional directamente a partir del tamaño de lossucesos: N( AB) P( A / B) = N(B) Ejemplo: En una escuela de idiomas se ha visto que el 70% de los estudiantes termina bien el primer año de Inglés, y que un 59,5% termina bien los dos años de estudio. Se quiere determinar la probabilidad de que un estudiante termine bien el segundo año. Sean los sucesos: Se sabe que: A: terminar bien el 1er año de Inglés P(A)=0,70 B: terminar bien el 2do año de Inglés P(AB)=0,595 P( AB) 0,595 Entonces: P(B / A ) = = = 0,85 P( A ) 0,70REGLA DEL PRODUCTO:Si A y B son sucesos definidos en S, la probabilidad de AB, de acuerdo a la definición deprobabilidad condicional, se puede expresar como: P(AB) = P(A) P(B/A) P(AB) = P(B) P(A/B)De la misma forma: P(ABC) = P(A)P(B/A)P(C/AB)Luego la regla del producto expresa la probabilidad de que ocurran A y B en un ordendeterminado: P(AB)=P(A)P(B/A) que primero salga A y en segundo lugar salga B óP(AB)=P(B)P(A/B) que primero salga B y en segundo lugar ASi no interesa el orden, sino que salga una vez A y una vez B, entonces se tienen que expresarlas dos combinaciones posibles que hay: P(AB) = P(A1 B2 ) + P(B1 A2 )Ejemplo. De una urna que contiene 4 esmeraldas y 1 brillante, se extraen 2 piedras, una a una,sin reposición. Calcule la siguiente probabilidad.a.- Que la 1ra piedra sea esmeralda y la 2da brillante.b.- Que las dos piedras sean esmeraldasc.- Solo una sea esmeralda.Solución: como es sin reposición las extracciones, entonces los sucesos son dependientes,además que piden orden.a.- P(E1 B2 )= P(E)P(B/E) = 4/5 . 1/4 = 4/20 = 1/5 = 0.20b.- P(E1 E2)= 4/5 . 3/4 = 16/20 = 6/10 = 0.6c.- P(E1 B2 ∪ B1 E2) = P(E)P(B/E) + P(B)P(E/B) 37
  39. 39. = 4/5 . 1/4 + 1/5 . 4/4 = 4/20 + 4/20 = 8/20 = 4/10 = 0.4INDEPENDENCIA DE SUCESOS:Dos sucesos A y B se llaman independientes, cuando la probabilidad de ocurrencia de uno deellos, no depende de la ocurrencia o no del otro.Dos sucesos son independientes si se cumple alguna de las siguientes igualdades: 1. P(A/B) = P(A) 2. P(B/A) = P(B) 3. P(AB) = P(A) P(B)Se debe aclarar que sólo se puede comprobar independencia a través de esta última fórmula sise tienen las 3 probabilidades y comprobar si la intersección es igual al producto de laprobabilidad de ambos sucesos.Un ejemplo de independencia es el siguiente: Si se lanza una moneda dos veces, laprobabilidad de que salga cara en el primer lanzamiento, no depende de que salga cara o no enel segundo lanzamiento.Ejemplo:Si una caja contiene 100 piezas de las cuáles 20 son defectuosas y se extraen aleatoriamente 2piezas una a una (con reposición). ¿Cuál será la probabilidad de obtener una pieza defectuosaen la primera extracción?:P=20/100=0.20¿Y cuál será la probabilidad, en la segunda extracción, de obtener también una piezadefectuosa?P=20/100=0.20, es decir exactamente igual, esto es debido a que se repuso la primera pieza.Por tanto, cuando las observaciones son con reposición se puede considerar que sonindependientes, pues lo que ocurre en la segunda extracción es independiente de lo queocurre en la primera (y así con las sucesivas, si hay más). Pero si no se repone, es decir,se hacen las observaciones “sin reposición” la probabilidad de cada observacióndepende de las anteriores.Si de la caja de 100 piezas en la primera extracción sale una pieza defectuosa, la probabilidadde pieza defectuosa en la segunda extracción, sin reponer la primera pieza tomada, será 19/99;pero si lo que sale en la primera extracción es una pieza en buen estado, entonces laprobabilidad de pieza defectuosa en la segunda extracción será 20/99.Generalmente para los juegos de azar, es fácil decidir si dos sucesos son independientes o no.Para otros experimentos aleatorios, se debe tener más cuidado.Ejemplo. Si se tienen 3 sucesos definidos en un espacio muestral S y se conoce que:P(A)=0.40 P(B)=0.42 P(C)=0.15 P(A/B)=0 P(A/C)=0 P(C/B)=0 38

×