Antologia de probabilidad y estadistica

97,552 views

Published on

2 Comments
13 Likes
Statistics
Notes
No Downloads
Views
Total views
97,552
On SlideShare
0
From Embeds
0
Number of Embeds
13
Actions
Shares
0
Downloads
1,856
Comments
2
Likes
13
Embeds 0
No embeds

No notes for slide

Antologia de probabilidad y estadistica

  1. 1. INSTITUTO TECNOLÓGICO SUPERIOR de Acayucan Asignatura: Probabilidad y estadística Clave de la asignatura: SCC - 0424Carrera: Ingeniería en Sistemas Computacionales ANTOLOGIA Presenta: ING. ULISES GIRON JIMENEZACAYUCAN, VER. JUNIO 2008
  2. 2.   Probabilidad y Estadística   Ing. Ulises Girón Jiménez
  3. 3. INDICE OBJETIVO GENERAL............................................................................... 10 JUSTIFICACION........................................................................................ 11UNIDAD 1 ESTADISTICA DESCRIPTIVA…………………….....…………………….... 12 1.1 Conceptos básicos de estadística…………………....……................... 13 1.1.1 Definición de estadística............................................................. 13 1.1.2 Inferencia estadística.................................................................. 16 1.1.3 Teoría de decisión...................................................................... 16 1.1.4 Población.................................................................................... 16 1.1.5 Muestra aleatoria........................................................................ 20 1.1.6 Parámetros aleatorios................................................................. 20 1.1.7 Enfoque clásico........................................................................... 20 1.1.8 Enfoque Bayesiano..................................................................... 21 1.2 Descripción de datos………….....……………………………………… 22 1.2.1 Datos agrupados y no agrupados............................................... 22 1.2.2 Frecuencia de clase.................................................................... 22 1.2.3 Frecuencia relativa...................................................................... 22 1.2.4 Punto medio................................................................................ 23 III  
  4. 4. 1.2.5 Límites........................................................................................ 23 1.2.6 Histograma.................................................................................. 23 1.2.7 Histograma de frecuencia relativa.............................................. 24 1.3 Medidas de tendencia central…………………………………………… 25 1.3.1 Media aritmética, geométrica y ponderada................................. 25 1.3.2 Mediana...................................................................................... 29 1.3.3 Moda........................................................................................... 31 1.4 Medidas de dispersión……………………………………………………. 35 1.4.1 Varianza...................................................................................... 35 1.4.2 Desviación estándar................................................................... 36 1.4.3 Desviación media........................................................................ 38 1.4.4 Desviación mediana.................................................................... 38 1.4.5 Rango......................................................................................... 38 1.5 Parámetros para datos agrupados……………………………………… 39 1.5.1 La media..................................................................................... 39 1.5.2 La desviación típica.................................................................... 39 1.6 Distribución de frecuencias………………………………...……………. 41 1.6.1 Distribuciones numéricas............................................................ 42 1.6.2 Distribuciones categóricas.......................................................... 43 1.6.3 Distribuciones acumuladas......................................................... 44 1.6.4 Distribuciones porcentuales........................................................ 44 1.6.5 Distribuciones porcentuales acumuladas................................... 45 IV  
  5. 5. 1.7 Técnicas de agrupación de datos………………………...…………… 46 1.7.1 Límites de clase.......................................................................... 46 1.7.2 Rango de clase........................................................................... 46 1.7.3 Fronteras de clase...................................................................... 46 1.7.4 Marca de clase............................................................................ 47 1.7.5 Intervalo de clase………............................................................ 47 1.7.6 Diagrama de tallos y hojas ………………………………………... 50 1.7.7. Diagrama de Pareto.................................................................. 52 1.7.8 Diagrama de puntos................................................................... 59 1.8 Histograma……………......………………………………………………. 59 1.8.1 Diagrama de barras.................................................................... 59 1.8.2 Polígono de frecuencias............................................................. 59 1.8.3 Ojivas......................................................................................... 60 1.8.4 Gráficas circulares...................................................................... 61 1.9 Distribuciones muéstrales………………………...……………………… 62UNIDAD 2 PROBABILIDAD……….……………………………………………………… 65 2.1 Teoría elemental de probabilidad………………………...……....…… 66 2.1.1 Concepto clásico y como frecuencia relativa.............................. 66 2.1.2 Interpretación subjetiva de la probabilidad................................. 69 2.2 Probabilidad de eventos……………………………......……………… 69 2.2.1 Definición de espacio muestral................................................... 69 V  
  6. 6. 2.2.2 Discreto y continuo..................................................................... 71 2.2.3 Definición de evento................................................................... 71 2.2.4 Simbología, uniones e intersecciones........................................ 71 2.2.5 Diagramas de Venn.................................................................... 71 2.3 Técnicas de conteo………………….…………………………………… 72 2.3.1 Diagrama de árbol...................................................................... 76 2.3.2 Notación factorial........................................................................ 80 2.3.3 Permutación................................................................................ 81 2.3.4 Combinaciones........................................................................... 91 2.4 Probabilidad con técnicas de conteo…………………………………… 100 2.4.1 Axiomas...................................................................................... 100 2.4.2 Teoremas.................................................................................... 100 2.5 Probabilidad condicional………...……………………………………… 101 2.5.1 Dependiente................................................................................ 101 2.5.2 Independiente............................................................................. 110 2.6 Eventos Independientes……...………………………………………… 113 2.6.1 Regla de Bayes........................................................................... 113UNIDAD 3 FUNCIONES Y DISTRIBUCIONES MUESTRALES………………......…. 121 3.1 Función de probabilidad………..………………………………………… 121 3.1.1 Variables aleatorias discretas..................................................... 121 VI  
  7. 7. 3.1.2 Variables aleatorias continúas.................................................... 122 3.2 Distribución Binomial…………………….…………....…………………. 123 3.2.1 Conceptos de ensayos de Bernoulli........................................... 123 129 3.3 Distribución Hipergeométrica…………………………………………… 3.4 Distribución de Poisson…………………………..……………………… 132 3.5 Esperanza matemática…………………….…………………………… 139 3.6 Distribución normal…………………………….………………………… 146 3.6.1 Distribución de la probabilidad continúa..................................... 146 3.7 Aproximación de la Binomial a la normal…………………………… 156 3.8 Otras distribuciones muéstrales…………………….…………………… 161 3.8.1 Distribución T- Student............................................................... 161 3.8.2 Distribución X cuadrada.............................................................. 162UNIDAD 4 ESTADÍSTICA APLICADA………………...………………………………… 170 4.1 Inferencia estadística………………….....……………………………… 171 4.1.1 Concepto..................................................................................... 171 4.1.2 Estimación.................................................................................. 171 4.1.3 Prueba de hipótesis.................................................................... 171 4.1.4 Método clásico de estimación (puntual)...................................... 172 4.1.5 Estimador Insesgado.................................................................. 172 4.2 Intervalos de confianza…………………………………………………… 172 VII  
  8. 8. 4.2.1 Estimación por intervalo.............................................................. 172 4.2.2 Límites de confianza................................................................... 173 4.2.3 Intervalo de confianza para una media....................................... 174 4.2.4 Intervalo de confianza para una diferencia de medida............... 183 4.2.5 Intervalo de confianza para proporciones................................... 186 4.2.6. Intervalo de confianza para diferencia de proporciones………. 189 4.3 Pruebas de hipótesis………………………….....……………………… 196 4.3.1 Prueba de hipótesis para la media poblacional.......................... 203 4.3.2 Prueba de hipótesis para diferencias de medias........................ 214 4.3.3 Prueba de hipótesis para proporciones...................................... 220 4.3.4 Prueba de hipótesis para diferencia de proporciones................. 223UNIDAD 5 REGRESIÓN Y CORRELACIÓN…………………………………………... 216 5.1 Introducción……………………………………………………………… 217 5.1.1 Gráficas de los datos.................................................................. 217 5.1.2 Variables de regresión independientes....................................... 218 5.1.3 Regresión lineal simple............................................................... 219 5.2 Diagrama de dispersión………………………………………………… 221 5.2.1 Tabla de datos............................................................................. 221 5.2.2. Construcción de Diagramas....................................................... 222 5.3. Estimación mediante la línea de regresión…………………………… 222 5.3.1. Ecuación de la recta como ajuste de datos............................... 222 VIII  
  9. 9. 5.3.2. Modelos..................................................................................... 223 5.4. Métodos de mínimos cuadrados………………………………………… 223 5.4.1 Estimación de los coeficientes de regresión.............................. 224 5.5. Error estándar de estimación…………………………………………… 230 5.6. Coeficiente de determinación y correlación……………………………. 233 5.6.1. Coeficiente de determinación de la muestra............................. 233 5.6.2. Coeficiente de correlación de la muestra.................................. 238 5.7. Problemas prácticos de ajustes de curvas…………………………… 245 Anexos………………………………………………………………………….. 255 .. Bibliografía………….………………………………………………………… 262 … IX  
  10. 10. OBJETIVO GENERALEl estudiante seleccionará modelos probabilísticas, aplicará cálculos de inferenciaestadística sobre datos y desarrollará modelos para la toma de decisiones en sistemas concomponentes aleatorios. 10  
  11. 11. JUSTIFICACIONUno de los objetivos del Instituto Tecnológico Superior de Acayucan, es el de promover,apoyar e impulsar el trabajo creativo del docente, principalmente en la elaboración deantología que apoya al proceso enseñanza – aprendizaje, el cual debe ser estimulado conlos comentarios y sugerencias del profesorado y conviene que sea imitado por otrosmaestros, quienes con capacidad de trabajo y tiempo disponible, pueden y deben gestarliteratura de este género, dando los pasos adecuados para pulirla y poder formar así textosque faciliten la enseñanza y el aprendizaje del curso.El presente material de consulta y apoyo didáctico se pone en manos de nuestros maestrosy, particularmente, de los alumnos que se forman en nuestro instituto. Considero loscontenidos de esta antología como el propósito más firme de mi convencimiento para facilitarel estudio de la probabilidad y estadística en las nuevas generaciones que me honran alconfiarme su preparación y garantizar modestamente el fijarles una enseñanza para toda lavida.  11  
  12. 12. UNIDAD 1 ESTADISTICA DESCRIPTIVAObjetivo:El estudiante conocerá fundamentosy técnicas básicas de estadística,para organizar, representar y analizardatos obtenidos de una situaciónsimulada o real.
  13. 13. UNIDAD I / ESTADISTICA DESCRIPTIVA.1.1 Conceptos básicos de estadística.1.1.1 Definición de estadística.La palabra estadística procede del vocablo "estado" pues era función principal de losgobiernos de los estados establecer registros de población, nacimientos, defunciones, etc.Hoy en día la mayoría de las personas entienden por estadística al conjunto de datos, tablas,gráficos, que se suelen publicar en los periódicos.Definición:Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datosnuméricos y que ayuda a resolver problemas como el diseño de experimentos y la toma dedecisiones.Estadística es un conjunto de métodos científicos para la recopilación, representacióncondensación y análisis de los datos extraídos de un sistema en estudio. Con el objeto depoder hacer estimaciones y sacar conclusiones, necesarias para tomar decisiones.El análisis se hace con las herramientas estadísticas, empleando la información obtenida delos datos, para realizar estimaciones o inferencias, testear hipótesis de trabajo y así, podertomar las decisiones más adecuadas en cada caso particular, basadas en la evidenciacientífica suministrada por estos análisis.El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobretodo en el proceso de interpretación de esa información. El desarrollo de la teoría de laprobabilidad ha aumentado el alcance de las aplicaciones de la estadística. La probabilidades útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y lacantidad de datos necesarios en un determinado estudio estadístico. Cuando a través deuna muestra pretendemos obtener información de una población entera los datos obtenidospuede ser diferente a los reales. Son valores aproximados del parámetro desconocido. Aestos valores se les llama Estimaciones.Al dar una estimación estoy cometiendo un error llamado error de muestreo debido a que nose esta considerando a toda la población, sino a una parte de ella. Existen procedimientosque pueden determinar de antemano el error que puedo cometer. 13
  14. 14. UNIDAD I / ESTADISTICA DESCRIPTIVA.Aparte de estos, existen otros errores que se presentan tanto en encuestas por muestreocomo en las encuestas por censo. Este tipo de errores son mayores y de difícil corrección.Son errores ajenos al muestreo.¿Qué es un experimento comparativo?Es una investigación cuya finalidad es comparar los efectos de dos o más estímulos(tratamientos A y B) aplicados a ciertos entes (unidades de experimentación , , ,).Para ello se efectúan mediciones sobre los efectos de ambos tratamientos obteniéndose losresultados ( , , ).¿Qué es una encuesta por muestreo?Es una investigación que tiene por objetivo la descripción de ciertas características( , , , …, de una población, mediante el examen de una parte de ella (muestra , ).La medición de una característica en los elementos de la muestra produce resultados(Y1 y Y4 ) . Si el muestreo es probabilístico, todos los elementos de la población tiene unaprobabilidad no nula de formar parte de la muestra. 14
  15. 15. UNIDAD I / ESTADISTICA DESCRIPTIVA.¿Qué es un estudio observacional?Es una investigación comparativa sin la asignación aleatoria que se hace en losexperimentos (o investigación de muestreo no probabilístico), cuya finalidad es tambiéncomparar los efectos que dos o mas condiciones ( A y B) tienen sobre los entes observados , , ,). Esto se lleva a cabo con extremado cuidado y control.División de la estadísticaSe divide en dos partes: ⎧ ⎧ ⎧ Re copilar ⎪ ⎪ ⎪ ⎪ ⎪ Descriptiva( Deductiva) ⎨ Re presentar ⎪ ⎪ ⎪ ⎪ ⎩Condensar ⎪ ⎪ División ⎨ Estadistica ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎧Caracteristicas ⎪ ⎪ Inferencial ( Inferencia) ⎨ ⎪ ⎩ ⎩ ⎩muestras a) Estadística descriptiva o deductiva: Es la parte de la estadística que se ocupa de recopilar, representar y condensar los datos obtenidos del sistema en estudio, utilizando representaciones gráficas de los datos tabulados. b) Estadística inferencial o inferencia estadística: Utiliza datos de muestra para hacer inferencias (característica) acerca de un conjunto de datos grandes – una población – de cual se selecciono la muestra. 15
  16. 16. UNIDAD I / ESTADISTICA DESCRIPTIVA.1.1.2 Inferencia estadística.Es la parte de la Estadística dedicada a la formulación de supuestos y estimaciones, parahacer predicciones y poder sacar conclusiones de los datos obtenidos con el estudio de lasmuestras. Y así, poder tomar decisiones con base científica. La Estadística se emplea en elestudio de los fenómenos naturales, tanto los generados en los laboratorios por loscientíficos como aquellos más allá del control humano.Es una herramienta de uso tan amplio y general que hoy día es difícil imaginar un lugardonde no pueda emplearse. Más aún, en algunas disciplinas es la herramienta básica demedición, como por ejemplo en parapsicología para la determinación de PES (percepcionesextra-sensoriales).1.1.3 Teoría de decisión.Es una herramienta básica para la toma de decisiones, basadas en evidencia científica. Lamanera de hacerlo es plantear las hipótesis posibles y luego efectuarle una prueba o testestadístico.Llamada en algunas obras: la docimasia estadística. Cuando una conclusión se valida conun test estadístico se la llama de tipo cuantitativo, en caso contrario la decisión adoptada esde tipo cualitativo, o sea, una decisión tomada en forma subjetiva. El método consiste endefinir una probabilidad de aceptación del orden del 95% (o rechazo) de una hipótesis detrabajo planteada, que permite calcular los valores críticos (o límites de aceptación) de unestadígrafo calculado a partir de los valores medidos. La importancia de este tema es muygrande. Basta decir que el objeto final de la Estadística es la toma de decisiones.1.1.4 Población.La población, es el conjunto de todas las muestras posibles, que pueden obtenerse delsistema en estudio de acuerdo al método de selección empleado.La población, entonces, es el total hipotético de los datos que se estudian o recopilan. Eltamaño de la población se saca contando el número de elementos componentes. A veces esun conteo simple, pero otras veces se trata de conteos ordenados.A continuación muestra las formas de observar una población. 16
  17. 17. UNIDAD I / ESTADISTICA DESCRIPTIVA.Etapas de la recopilación de datosEtapa 1 - Objetivos de la Recopilación: esta primera etapa consiste en determinar conclaridad qué es lo que se quiere lograr con la recopilación. No siempre es fácil saber lo que sequiere y menos determinarlo en detalle. Por eso, se deben definir primero los objetivosgenerales del trabajo estadístico. Y a partir de ellos se conocerán las variables a medir y asísaber cuáles elementos se necesitarán. Con esto se tiene una primera idea de los alcances ylimitaciones de la tarea a realizar, según sea el tipo de información a obtener de la población enestudio. Los objetivos deben redactarse concisos, breves y claros. Normalmente, la persona acargo de la investigación es la responsable de esta etapa pues tiene una visión más completa yactualizada del tema en estudio. Por ejemplo, si se necesita la distribución de la población poredades y sexo, no es lo mismo disponer de la información del último censo realizado quehacerlo uno mismo. 17
  18. 18. UNIDAD I / ESTADISTICA DESCRIPTIVA.Etapa 2 - Relevamientos: esta etapa consiste en determinar lo que se tiene para alcanzar losobjetivos definidos en la etapa anterior. Se trata de listar los bienes necesarios para poder hacerel trabajo, y el listado de los disponibles. Conviene tener en cuenta la siguiente clasificación delos bienes: Tangibles e Intangibles.Por su parte, los bienes tangibles son dos: • Los materiales incluyen los de vidrio, de limpieza, drogas, reactivos, etc. • Por equipamiento se entiende no sólo los aparatos de medición, sino los accesorios como muebles y útiles de laboratorio y para oficina. • El dinero o los recursos monetarios deben ser determinados con mucho detalle para afrontar gastos e inversiones durante la investigación. Además, hay que determinar los fondos disponibles y las posibles fuentes financieras adonde poder recurrir. • La infraestructura incluye a los edificios, laboratorios, electricidad, agua, etc. • El personal es todo el necesario en sus diferentes niveles, como ser: profesionales, técnicos, ayudantes, consultores externos, de servicio, etc. Este relevamiento de los bienes tangibles disponibles y de los necesarios para la recopilación condiciona de alguna manera los objetivos. Puede ser que se disponga de bienes sobrados para alcanzar los objetivos, por lo que se pueden plantear metas más ambiciosas. Por otra parte, puede ocurrir que los bienes disponibles estén lejos de cubrir los necesarios, y por lo tanto se deberán resignar los objetivos planteados por otros más modestos. Por su parte, los bienes intangibles son dos: • la organización de los bienes tangibles, de manera tal de alcanzar los objetivos, y • los conocimientos para saber cómo usarlos. Esto es el “know how” de cada profesión. Y también lo es la búsqueda bibliográfica de trabajos similares en revistas especializadas, textos y otras fuentes de información. Una vez terminada esta etapa, que seguramente habrá ayudado a depurar la anterior, se debe comenzar a pensar en las diferentes maneras de hacerlo.Etapa 3 - Creación de alternativas: esta etapa consiste en saber cómo hacerlo. O sea,generar distintas alternativas de sistemas de recopilación de datos, de acuerdo con los objetivosadoptados y los bienes disponibles. Se debe hacer un listado con todas las formas posibles de 18
  19. 19. UNIDAD I / ESTADISTICA DESCRIPTIVA.efectuar la recopilación a fin de tener un panorama completo. En síntesis, se habla de fuentepropia cuando se decide extraer los datos mediante mediciones. Fuente Primaria es cuandose toman los datos de otros investigadores que publican los resultados de sus propiasmediciones. Fuente Secundaria es cuando los datos se extraen de publicaciones que usancomo referencia a fuentes primarias.Etapa 4 - Selección de alternativas: consiste en determinar cuál es la mejor entre las nalternativas planteadas en la etapa anterior. Se necesita de un método para la adopción de uncriterio de selección.Etapa 5 - Prueba piloto: existe una diferencia entre el diseño en los papeles y la realidad. Espor eso que siempre es aconsejable hacer una prueba piloto antes de la puesta en marcha parapoder juzgar cómo trabaja el sistema de recopilación de datos. Se sacan unos pocos datos y seanalizan las dificultades no previstas, junto con los resultados. Comparando los valoresobtenidos con los que se esperaba tener, se hace una especie de control previo del sistema.Etapa 6 - Ajustes: Lo normal es tener que hacer pequeños ajustes que permitan optimizar alsistema. De las diferencias detectadas en el control de la etapa anterior se sacan indicios. Estosmuestran qué tópicos retocar y surgen nuevas ideas de cómo hacer mejor las cosas.Básicamente, usando el sentido común se corrigen los principales defectos, como ser: mejorarel entrenamiento y conocimientos del personal, rediseñar formularios, calibrar equipos demedición, estimación de la magnitud del error de medición, etc. Pero también hay técnicas deoptimización especiales como son los distintos modelos de la Investigación Operativa. Esta esuna disciplina muy emparentada con estadística y sus modelos más conocidos son: Teoría deLíneas de Espera, Programación por Camino Crítico (PERT), Programación Dinámica y Lineal,Reemplazos, Simulaciones, etc. Una vez hechos los ajustes, se vuelve a la etapa anterior y seefectúa una nueva prueba piloto. Este ensayo permite decidir si se continúa adelante, o si sonnecesarios más ajustes. Hay que continuar hasta que todo sea satisfactorio y recién entoncespasar a la etapa siguiente.Etapa 7 - Puesta en marcha: una vez optimizado y ajustado el método de obtención de datossolo resta ponerlo en marcha. De esa manera, se logra la cantidad de datos necesarios paraalcanzar los objetivos previstos. El resultado final es la obtención de un volumen grande deinformación que debe ser presentada en forma más resumida y comprensible usando tablas,gráficos y otras formas, como se verá más adelante. 19
  20. 20. UNIDAD I / ESTADISTICA DESCRIPTIVA.1.1.5 Muestra aleatoria.La muestra es un conjunto de datos obtenidos de una población cualquiera, con el método derecopilación elegido. Se la puede imaginar como un subconjunto del conjunto población. Setoman muestras, cuando no se puede o no conviene, tomar la población entera. Si se tiene unapoblación de tamaño infinito, no se podrá nunca tomar todas las muestras posibles, como porejemplo, las mediciones repetidas de una misma magnitud, que se pueden repetirindefinidamente mientras el ensayo no sea destructivo (repetidas pesadas en una balanza,medir la temperatura de un cuerpo, etc.). Hay ocasiones, donde si bien la población es finita, estan grande que no resulta práctico tomar todos los casos como por ejemplo, cuando lapoblación es la especie humana.Lógicamente, la confiabilidad de las conclusiones extraídas concernientes a una poblacióndependen de si la muestra se ha escogido apropiadamente de tal modo que represente lapoblación suficiente. Una forma de hacer esto para poblaciones finitas es asegurarse de quecada miembro de la población tenga igual oportunidad de encontrarse en la muestra, lo que seconoce como muestra aleatoria.1.1.6 Parámetros aleatorios.Parámetro, es toda magnitud que tiene el mismo valor dentro de una población. O sea, nopermite diferenciar entre sí a sus elementos componentes. Existen medidas para realizardescripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras,diferenciándose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Parael caso de las poblaciones, las medidas que las describen se denominan parámetros, y suelenestar representadas con letras griegas (por ejemplo y ). Por otro lado, para el caso deaquellas medidas que describen a una muestra se les llama estadísticos o estimadores, y sonrepresentados por letras de nuestro alfabeto (por ejemplo, x o s). Tales medidas cuantitativasque describen a las poblaciones y a las muestras se comentarán enseguida. Se considera quese conoce una población cuando conocemos la distribución de probabilidad f(x) de la variablealeatoria asociada X.1.1.7 Enfoque clásico.La utilización de esta metodología implica una cierta filosofía o visión de la Probabilidad y laEstadística muy particular y poco frecuente. Lo particular de este enfoque es que esrazonablemente más sencillo que el enfoque clásico de la estimación y el ensayo de hipótesis, a 20
  21. 21. UNIDAD I / ESTADISTICA DESCRIPTIVA.los que reemplaza y mejora por cuanto no implica aproximaciones ni requiere de la introducciónde nuevos conceptos.1.1.8 Enfoque Bayesiano.En el enfoque Bayesiano de la Estadística, la incertidumbre presente en un modelo dado,p(x⏐θ), es representada a través de una distribución de probabilidad p (θ ) sobre los posiblesvalores del parámetro desconocido θ (típicamente multidimensional) que define al modelo. ElTeorema de Bayes, p (θ ) p ( x θ ) p (θ x) = p( x)Permite entonces incorporar la información contenida en un conjunto de datos x = ( x1 ,..., x n ) ,produciendo una descripción conjunta de la incertidumbre sobre los valores de los parámetrosdel modelo a través de la distribución final p (x⏐θ ).Desafortunadamente, la implementación de las técnicas Bayesianas usualmente requiere de unesfuerzo computacional muy alto. La mayor parte de este esfuerzo se concentra en el cálculode ciertas características de la distribución final del parámetro de interés (que llamaremosresúmenes inferenciales). Así, por ejemplo, para pasar de una distribución conjunta a unacolección de distribuciones y momentos marginales que sean útiles para hacer inferenciassobre subconjuntos de parámetros, se requiere integrar. En la mayoría de los casos losresúmenes inferenciales básicos se reducen a integrales de la forma: S {g (θ )} = ∫ g (θ ) p (θ ) p (z θ )dθEl análisis Bayesiano, en otra diferencia con la estadística clásica, permite incorporar en unestudio información de distintas fuentes, incluso subjetivas.De esta manera concibe, en un plano muy general, las técnicas estadísticas como mecanismospara la actualización del conocimiento particular o general, individual o colectivo sobre el estadoque guarda la naturaleza." 21
  22. 22. UNIDAD I / ESTADISTICA DESCRIPTIVA.1.2 Descripción de datos.1.2.1 Datos agrupados y no agrupados.La principal diferencia entre ambas es que en datos agrupados se ordenan los datos de latabla y se almacenan en el orden del índice. Los datos agrupados mejoran el rendimiento alalmacenar los datos de la tabla junto con datos de nivel de hoja del índice. Una ordenación esun conjunto de datos numéricos en orden creciente o decreciente. Este método de presentaciónde la información consiste en presentar los datos por medio de una tabla o cuadro.Los datos no agrupado no apunta directamente a la fila de la tabla, sino que utiliza los valoresdel índice agrupado como punteros a las filas de la tabla.Una fila de datos consiste en datos recogidos que no han sido organizados numéricamente.1.2.2 Frecuencia de clase.La frecuencia de clase o frecuencia de categoría, es el número de observaciones que caendentro de una categoría Altura ( in) Número de estudiantes f 60 – 62 7 63 – 65 20 66 – 68 44 69 – 71 29 72 – 74 10 Total 1101.2.3 Frecuencia relativa.La frecuencia relativa (proporción); de una clase es su frecuencia dividida por la frecuencia totalde todas las clases. numero de estudiantefrecuencia relativa = total 22
  23. 23. UNIDAD I / ESTADISTICA DESCRIPTIVA. Altura ( in) Número de Frecuencia estudiantes (f) relativa 60 – 62 7 0.0636 63 – 65 20 0.1818 66 – 68 44 0.4 69 – 71 29 0.2636 72 – 74 10 0.0909 total 110 1.00001.2.4 Punto medio.El punto medio del intervalo de clase, que puede tomarse como representativo de la clase, sellama marca de clase, que se refiere al punto medio del intervalo de clase y se obtienepromediando los limites inferior y superior de clase. Así que las marcas de clase del intervalo60 – 62 es: 60 + 62 = 61 21.2.5 Límites.Tomando encuenta la clase 60 - 62 se dice que se llaman límites de clases, el 60 se llamalímite inferior de clase y el 62 se llama límite superior de clase.1.2.6 Histograma.Es una representación grafica para la distribución de frecuencia. Un histograma o histograma defrecuencias, consiste en un conjunto de rectángulos con: a) base en el eje x horizontal, centros en las marcas de clases y longitudes iguales a los tamaños de los intervalos de clase y b) áreas proporcionales a las frecuencias de clase. 23
  24. 24. UNIDAD I / ESTADISTICA DESCRIPTIVA. Altura ( in) Número de Marca de estudiantes (f) clases (X) 60 – 62 7 61 63 – 65 20 64 66 – 68 44 67 69 – 71 29 70 72 – 74 10 73 total 110 frecuencia 50 40 30 20 10 0 58 61 64 67 70 73 761.2.7 Histograma de frecuencia relativa. Altura ( in) Numero de Frecuencia estudiantes (f) relativa 60 – 62 7 0.0636 63 – 65 20 0.1818 66 – 68 44 0.4 69 – 71 29 0.2636 72 – 74 10 0.0909 total 110 1.0000 Histograma de frecuencia relativa 0.45 0.4 0.35 0.3 Frec. Rel. 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 5 24
  25. 25. UN NIDAD I / ESTADIST TICA DESC CRIPTIVA A.Problemas propuesto s os:Problema: El rascón terrestre o g guión de las codornices es una ave europea e peligro de e en eextinción m mundial. En fechas recientes se lle evó a cabo un censo de rascones cantores en nterrenos ag Gran Bretañ e Irlanda (Journal of applied ecol grícolas de G ña logy) . La ta abla indica e elnumero total de rascon terrestres que habitan en cada de 10 áreas ge nes s n e eográficas. Área Á Numero de rascones s terrestres 1. Tierr bajas de E ra Escocia 12 2. Tierr altas de e ras escocia 15 3. Orkn y Shetlan ney nd 34 4. Lewi y Harris is 76 5. N. Uist y Benbec cula 82 6. S. Uist y Barra 155 7. Hebr ridas interior res 76 8. Coll y Tirce 121 9. Irlanda del norte 128 10. Repu ublica de Irla anda 789 Total T 1 1488 esuma los da a) Re atos con un h histograma1.3. edidas de tendencia central. Me a1.3.1 Med aritmé dia ética, geom métrica y p ponderada.Media aritm méticaSean, x1 ,x2 ,....,xn , n o x observacione muéstrale definiremos promedio de estas ob es es, o bservaciones sal valor dad por: doo bien 25 5
  26. 26. UNIDAD I / ESTADISTICA DESCRIPTIVA. N x + x 2 + x 3 + ... + x n ∑x j =1 j ∑x x= 1 = = N N NEjemplo: La media aritmética de los números 8, 3. 5, 12 y 10 8 + 3 + 5 + 12 + 10 38 x= = = 7. 6 5 5En esta expresión, puede verse que el promedio de un conjunto de números se calculasumándolos y luego dividiendo la suma por el número de sumandos. La estadística promediorepresenta muy bien el centro de la distribución de los datos cuando se trata de casosnormales. Entendemos aquí por casos normales aquellos conjuntos de datos que nocontienen valores muy extremos, valores muy alejados de los demás. Debido a que en muchassituaciones experimentales, el comportamiento de los datos es relativamente normal, elpromedio es muy usado, convirtiéndose en la primera estadística calculada para representar elcentro de la población en estudio.si los números X1 , X2 , ... , Xk , ocurren f1 , f2 , ... , fk , veces respectivamente, su mediaaritmética N f x + f 2 x 2 + ... + f k x k ∑f j =1 j xj x= 1 1 = f1 + f 2 + ... + f k k ∑f j =1 j x= ∑ fx NEjemplo: si 5, 8, 6, y 2 ocurren con frecuencias 3, 2, 4 y 1 , respectivamente, su mediaaritmética es x= (3 )(5 ) + (2 )(8 ) + (4 )(6 ) + (1)(2 ) = 15 + 16 + 24 + 2 = 5 .7 3+ 2 + 4 +1 10Ejemplo:En la tabla siguiente se tiene los puntajes obtenidos en la Prueba de AptitudAcadémica por 30 jóvenes, provenientes de un mismo establecimiento educacional: 26
  27. 27. UNIDAD I / ESTADISTICA DESCRIPTIVA. P. Ap. Verbal P. Ap. Matemática P. Ap. Verbal P. Ap. Matemática 685 664 730 642 490 548 618 533 580 567 690 654 705 665 680 542 470 452 690 678 620 506 710 732 650 618 742 749 702 718 685 570 643 621 595 574 540 555 674 657 575 502 722 747 600 531 585 620 500 478 505 482 680 558 600 643 587 600 543 500Con los datos de la tabla, se puede caracterizar el establecimiento educacional usando elpromedio de cada una de las pruebas. Lo primeros que se necesita es calcular la suma de lospuntajes de los treinta alumnos.Dichas sumas son las siguientes:Prueba de Aptitud Verbal 18796Prueba de Aptitud Matemática 17906Promedio Prueba de Aptitud Verbal 626.533Promedio Prueba de Aptitud Matemática 596.867 27
  28. 28. UN NIDAD I / ESTADIST TICA DESC CRIPTIVA A.La Media g geométrica GLa media g geométrica es el resultado de multiplicar todos los elementos y extraer la raíz n -ésima s adel product to: ometrica = n x1 .x 2 ...x nmedia geoEjemplo: la media geom a métrica g de 2, 4 y 8G = 3 ( 2) ( 4) ( 8) = 4 mathca ad gmea ( 2 , 4 , 8) = 4 anPromedio Ponderado.En muchas ocasiones, las observa s aciones recol lectadas no tienen la mis sma importa ancia relativa a.Para hacer presente este hecho en la búsqued de un ce r da entro que re epresente a los datos, es snecesario a asignar a cad uno de és da stos, una ponderación (p peso o coefic ciente) que re epresente su uimportancia dentro de la muestra. aDefinición.A veces as sociada con l números X1, X2, . . . XK , ciertos f los factores peso ( o pesos ) W1, W2 ,..., osWK depend dientes de la relevancia a a asignada a c cada número o.Ejemplo: si el examen final de un c i curso cuanta tres veces mas que una evaluación parcial y un a a n nestudiante tiene calific cación 85 e el exame final y 7 y 90 en los dos pa en en 70 arciales , las scalificacion media es : nes s x= (1)(7 ) + (1)(90 ) + (3)(85) = 415 = 83 70 1+1+ 3 5Ejercicios s: a) hal la media aritmética d los númer 5, 3, 6, 5 4, 5, 2, 8, 6 5, 4, 8, 3, 4, 5, 4, 8, 2 llar de ros 5, 6, 2, 5, y 4 Solución: 4.8 28 8
  29. 29. UNIDAD I / ESTADISTICA DESCRIPTIVA. b) De entre 100 números. 20 son cuatros, 40 son cinco, 30 son seis y los restantes siete. Hallar su media aritmética. Solución: 5.30 c) las calificaciones finales de un estudiante en cuatro asignatura fueron 82, 86, 90 y 70. si los respectivos créditos otorgados a esos cursos son 3, 5, 3 y 1 , determinar una calificación media a apropiada. Solución: 85 d) De los 80 empleados de una empresa 6 cobra $ 7,00 a la hora y el resto $4,00 a la hora. Hallar cuanto cobran de media por hora Solución: $6.25 e) Cuatro grupos de estudiantes, consistentes en 15, 20, 10 y 18 individuos, dieron pesos medios de 162, 148, 153 y 140 lb., respectivamente . hallar el peso medio de todos esos estudiantes. Solución: 150 lb.1.3.2 Mediana.La mediana de un conjunto de números ordenados en magnitud es el valor central o la mediade los dos valores centrales.Datos sin agrupar:Ejemplo: el conjunto de números 3, 4, 4, 5, 6, 8, 8, 8, 10 tiene mediana 6 mathcad median ( 3 , 4 , 4 , 5 , 6 , 8 , 8 , 8 , 10) = 6Ejemplo: el conjunto de números 5, 5, 7, 9, 11, 12, 15, 18 tiene mediana ½ ( 9 + 11 ) = 10Ejemplo: las notas de un estudiante en seis exámenes han sido 84, 91, 72, 68, 87 y 78. hallar lamediana de esas notas.Solución : las notas ordenadas son 68, 72, 78, 84, 87 , 91,1 / 2 ( 78 + 84 ) = 81 29
  30. 30. UNIDAD I / ESTADISTICA DESCRIPTIVA.Ejemplo: cinco oficinistas cobran $ 4.52, $ 5.96, $ 5.28, $ 11.20 y $ 5.75 a la hora. Hallar lamedianaSolución = la ordenación es: $ 4.52, $ 5.28, $ 5.75 , $ 5.96, $ 11.20La mediana es $ 5.75Datos Agrupados:Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas,nos plantea de nuevo dos situaciones diferentes a considerar: ⎜ − (∑ f )1 ⎟ ⎛N ⎞ mediana = L1 + ⎜ 2 ⎟C ⎜ f mediana ⎟ ⎜ ⎟ ⎝ ⎠donde:L1 = frontera inferior de la clase mediana.N = numero de datos (frecuencia total)(Σ f ) 1 = suma de la frecuencia de las clases inferiores a la de la mediana.f mediana = frecuencia de la clase mediana.C = anchura del intervalo de clase de la mediana.Ejemplo: Altura ( in) Numero de estudiantes (f) 60 – 62 7 63 – 65 20 66 – 68 44 69 – 71 29 72 – 74 10 total 110 110Para indicar la posición : = 55 ; entonces se procede a realizar una suma con las 2frecuencias (f) hasta llegar al valor 55 o mas de 55 pero no menos, para suponer que ahí cae lamediana solo que se tiene que hacer es verificar su valor.7 + 20+ 44 = 71 por lo tanto cae en el intervalo 66 – 68 30
  31. 31. UNIDAD I / ESTADISTICA DESCRIPTIVA.Datos:L1 = 65.5 ; N = 110 ; (∑ f ) 1 = 27 ; f mediana = 44 ; C = 68.5 − 65.5 = 3 ⎛ 110 ⎞ ⎜ − 27 ⎟mediana = 65.5 + ⎜ 2 ⎟(3) = 67.41 ⎜ 44 ⎟ ⎜ ⎟ ⎝ ⎠1.3.3 Moda.La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir, elvalor mas frecuente. La moda puede no existir e incluso no ser única. Esta estadística debeusarse con cuidado. Su objetivo es identificar zonas donde se producen aglomeraciones dedatos, sin embargo, podría ser que por el solo hecho de haber una observación extra en unpunto aislado, éste pudiese aparecer como una moda.Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra,tal como es el caso que se observa en el gráfico siguiente.Datos sin agrupar:Ejemplo: el conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene como moda 9 mathcad mode( 2 , 2 , 5 , 7 , 9 , 9 , 9 , 10 , 10 , 11 , 12 , 18) = 9Ejemplo: el conjunto 3, 5, 8, 10, 12, 15, 16 n o tiene modaEjemplo: el conjunto 2, 3, 4, 4, 4, 5, 5, 7 , 7, 7, 9 tiene dos modas 4 y 7 y se llama bimodalUna distribución única se llama unimodal.Datos agrupados : ⎛ Δ1 ⎞ ⎜ Δ + Δ ⎟Cmod a = L1 + ⎜ ⎟ ⎝ 1 2 ⎠donde:L 1 = frontera inferior de la clase modal ( clase que contiene a la moda) 31
  32. 32. UNIDAD I / ESTADISTICA DESCRIPTIVA.Δ1 = exceso de la frecuencia modal sobre la clase inferior inmediataΔ2 = exceso de la frecuencia modal sobre la clase superior inmediatac = anchura del intervalo de clase modal.Ejemplo : Altura ( in) Numero de estudiantes (f) 60 – 62 7 63 – 65 20 66 – 68 44 69 – 71 29 72 – 74 10 total 110De acuerdo a la definición la moda será quien tenga mayor frecuencia por lo tanto cae en elintervalo 66 – 68L1 = 65.5 ; Δ 1 = 44 − 20 = 22 ; Δ 2 = 44 − 29 = 15 ; C = 68.5 − 65.5 = 3 ⎛ 22 ⎞mod a = 65.5 + ⎜ ⎟(3) = 67.28 ⎝ 22 + 15 ⎠Medidas de posición relativa (Cuartiles, deciles y percentiles).Las calificaciones de exámenes y ciertos tipos de datos sociológicos y de salud con frecuenciase presentan en una forma que describe la posición de una observación relativa a las demásobservaciones de la distribución.Si un conjunto de datos están ordenados por magnitud, el valor central ( o la media de los doscentrales) que divide al conjunto en dos mitades iguales es la mediana. Extendiendo esa idea,podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales.Estos valores, denotados por Q 1, Q 2, Q3 , se llaman primer, segundo y tercer cuartil. Q 2coincide con la mediana. 32
  33. 33. UNIDAD I / ESTADISTICA DESCRIPTIVA.Análogamente los valores que dividen a los datos en 10 partes iguales se llaman deciles y sedenotan D1 , D2 , . . . , D9 , mientras los valores que se dividen en 100 partes iguales se llamanpercentiles denotados P1 , P2 , . . . , P 99 .Colectivamente cuartiles, deciles y percentiles se denominan cuantiles. Altura ( in) Numero de estudiantes (f) 60 – 62 7 63 – 65 20 66 – 68 44 69 – 71 29 72 – 74 10 total 110Hallar Cuartiles:N / 4 = 100 / 4 = 255 + 18 = 23 63 – 65 → 62.5 – 65.5 ( 25 − 23 ) Q 65.5 + ( 3) = 65.64 1 422N / 4 = 2(100) / 4 = 505 + 18 = 23 63 – 65 → 62.5 – 65.55 + 18 + 42 = 65 ( 50 − 23 ) Q 65.5 + ( 3 ) = 67.43 2 423N / 4 = 3(100) / 4 = 755 + 18 +42 = 65 66 – 68 → 65.5 – 68.5 ( 75 − 65 ) Q 68.5 + ( 3) = 69.61 3 27 33
  34. 34. UNIDAD I / ESTADISTICA DESCRIPTIVA.Hallar los deciles 100 ( 10 − 5) = 10 D 62.5 + ( 3) = 63.33 10 1 18 2( 100) ( 20 − 5) = 20 D 62.5 + ( 3) = 65 10 2 185+ 18 = 23 3( 100) ( 30 − 23) = 30 D 65.5 + ( 3) = 66 10 3 425+ 18 = 23 4( 100) ( 40 − 23) = 40 D 65.5 + ( 3) = 66.71 10 4 425+ 18 = 23 5( 100) ( 50 − 23) = 50 D 65.5 + ( 3) = 67.43 10 5 425+ 18 = 23 6( 100) ( 60 − 23) = 60 D 65.5 + ( 3) = 68.14 10 6 425+ 18 + 42 = 65 7( 100) ( 70 − 65) = 70 D 68.5 + ( 3) = 69.06 10 7 275+ 18 + 42 = 65 8( 100) ( 80 − 65) = 80 D 68.5 + ( 3) = 70.17 10 8 275+ 18 + 42 = 65 34
  35. 35. UNIDAD I / ESTADISTICA DESCRIPTIVA.9( 100) D ( 90 − 65) = 90 9 68.5 + ( 3) = 71.28 10 27Hallar percentiles P 35 y P 5035 (100) / 100 = 35 P ( 35 − 23 ) 35 65.5 + ( 3 ) = 66.36 4250 (100) / 100 = 50 ( 50 − 23 ) P 65.5 + ( 3 ) = 67.43 50 421.4. Medidas de dispersión.Medidas de Posición.La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicaciónde éstos dentro de un contexto de valores posibles. Por ejemplo, puede resultar de interésconocer qué porcentaje de automóviles equipados con convertidor catalítico sobrepasa elestándar de emisiones de gases que es aceptable según la legislación vigente. Ya no se trataen este ejemplo de describir el centro de un conjunto de datos de esta naturaleza. Es necesarioser más específico. Es probable que la emisión promedio de un conjunto de automóviles estédentro de la norma. Pero,¿es aceptable que el 25% de ellos no la cumpla?. Se ve, entonces,que la descripción debe entregar más información de los datos para cubrir las necesidadesinformativas referentes a un problema en particular.1.4.1 Varianza.Cuadrada para poder compararla con la media y otras medidas análogas. Esta es la idea deldesvío estándar o desviación típica. También es la fórmula planteada por Gauss en su teoríade errores casuales. Como se verá más adelante, la curva de Gauss tiene dos puntos deinflexión simétricos ubicados a una distancia del centro igual al desvío estándar. 35
  36. 36. UNIDAD I / ESTADISTICA DESCRIPTIVA.La varianzaLa varianza es el promedio de los cuadrados de las desviaciones de cada elemento, x i,respecto a la media,La varianza de un conjunto de datos se define como el cuadrado de la desviación típica y vienedada en consecuencia por S2 . varianza poblacional (s 2) ∑ (x − x) N 2 j j =1 S2 = ; Npara una población finita con n determinaciones.Y la varianza muestral (σ 2) 2 ⎛ n ⎞ ⎜ ∑ yi ⎟ ∑ ( xi − x ) ∑ yi − ⎝ i =1 n ⎠ n n 2 2 σ 2 = i =1 = i =1 n −1 n −11.4.2 Desviación estándar.A su vez, el desvío estándar poblacional (σ) y el muestral (s) se obtienen con la raízcuadrada de las respectivas varianzas y Representa el alejamiento de una serie de números desu valor medio. Se calcula a partir de todas las desviaciones individuales con respecto a lamedia.Para poder conocer o calcular tanto la media como la varianza poblacionales, se necesitaconocer la población completa. Esto es imposible en el caso de mediciones repetidas porqueestas son infinitas desde el punto de vista teórico. Análogamente, la cantidad total de muestrasque se le puede extraer a un paciente, para hacerle una determinación en el laboratorio, es tangrande que puede ser considerada infinita. Por lo tanto, para todos ∑ (x − x) N 2 j j =1 S= NEl uso de esta estadística es recomendado en aquellos conjuntos de datos que ofrecen ciertogrado de simetría respecto de su centro. En estos casos, habitualmente tiene sentido medirdiscrepancias de un valor con el centro de los datos usando múltiplos de la desviación estándar. 36
  37. 37. UNIDAD I / ESTADISTICA DESCRIPTIVA. A modo de ejemplo, se puede decir que un valor está bastante alejado del centro de los datos si su distancia de él supera dos desviaciones estándar. Apoyándose en la idea anterior, la desviación estándar puede ser usada para determinar valores que se encuentran cerca del centro. Este uso va más allá de la simple descripción, en otros ámbitos de Estadística es usada para tomar decisiones respecto de la población de la que fue extraída la muestra. Ejercicio: Calcular la desviación estándar de los siguientes datos: 68.2, 69.3, 70.4, 71.5, 72.6, 73.7, 74.8, 68.2+ 69.3+ 70.4+ 71.5+ 72.6+ 73.7+ 74.8 prom:= 7 prom = 71.5 2 2 2 2 2 2 2 ( 68.2 − 71.5 ) + ( 69.3 − 71.5 ) + ( 70.4 − 71.5 ) + ( 71.5 − 71.5 ) + ( 72.6 − 71.5 ) + ( 73.7 − 71.5 ) + ( 74.8 − 71.5 )desv := 7 desv = 2.2 Problema: Investigadores del Massachussets Institute of Technology (MIT) estudiaron las propiedades espectroscopicas de asteroides de la franja principal con un diámetro menor a los 10 kilometros. Los asteroides se observaron con el telescopio hiltener del observatorio del MIT; se registro el numero N de exposiciones de imagen espectral independientes para cada observación. Aquí se presentan los datos de 40 observaciones de asteroides obtenidas de Science. Numero de exposiciones de imagen espectral independientes para 40 observaciones de asteroides. 3 4 3 3 1 4 1 3 2 3 1 1 4 2 3 3 2 6 1 1 3 3 2 2 2 2 1 3 2 1 6 3 1 2 2 3 2 2 4 2 a) Localice y y s en el listado b) Construya los intervalos y ± s , y ± 2 s , y ± 3s 37
  38. 38. UNIDAD I / ESTADISTICA DESCRIPTIVA.1.4.3 Desviación media.La desviación media o desviación promedio de un conjunto de N números x 1, x 2, . . . , x N esabreviada por MD y se define como: N ∑x j =1 j −x M .D. = NEjemplo: hallar la desviación media del conjunto 2, 3, 6, 8, 11 2 + 3 + 6 + 8 + 11 media aritmetica = =6 5 con mathcad mean ( 2 , 3 , 6 , 8 , 11) = 6 desviacion media 2 − 6 + 3 − 6 + 6 − 6 + 8 − 6 + 11 − 6 MD = = 2.8 51.4.4 Desviación mediana.Es la media aritmética de los valores absolutos de las desviaciones de los valores de lavariable con respecto a la mediana. D Me = ∑x j − Me n j n1.4.5 Rango.La más simple de todas es el rango, definido como la diferencia entre el valor máximo ymínimo del grupo de datos. De fácil cálculo y comprensión, tiene la desventaja de ser lamedida más grosera de la dispersión.Dos grupos de datos, con muy distinta dispersión pueden llegar a tener rangos similares. Unode ellos puede tener el 99% de los valores junto al mínimo y el otro el 99% junto al máximo,pero al tener extremos iguales, sus rangos resultarían iguales a pesar de ser tan disímilesintrínsecamente. RANGO = Máx. datos - Mín. datos 38
  39. 39. UNID DAD I / ES STADISTIC DESCR CA RIPTIVA.1.5 Pa arámetros para dato agrupados. os1.5.1 La media. aSean, x1 ,x2 ,....,xn , n obser rvaciones m muéstrales, definiremos promedio de estasobservacio ones al valor dado por:o bien N x + x 2 + x3 + ... + x n ∑x j =1 j x= 1 = N N x= ∑x NEjemplo: La media aritm a mética de los números 8, 3. 5, 12 y 10 s 8 + 3 + 5 + 12 + 10 38 2 x= = = 7.6 5 51.5.2 La desviació típica. a ón e blacional ( σ) y el mueA su vez, el desvío estándar pob estral ( s) se obtienen con la raíz ccuadrada d las respec de ctivas varian nzas y Repre esenta el ale ejamiento de una serie de númerosde su valor medio. Se calcula a par de todas las desviacio r c rtir ones individu uales con res specto a lamedia. ∑ f (x − x) k 2 j j j =1 S= k ∑f j =1 j 39
  40. 40. UNIDAD I / ESTADISTICA DESCRIPTIVA. x j − x ( x j − x ) 2 f j (x j − x ) 2 xj fj 68.2 5 -2.6358 6.9477 34.7385 69.3 11 -1.5358 2.3588 25.9472 70.4 14 -0.4358 0.1900 2.6595 71.5 11 0.6642 0.4411 4.8521 72.6 7 1.7642 3.1122 21.7856 73.7 3 2.8642 8.2034 24.6101 74.8 2 3.9642 15.7145 31.4290 Total 53 146.0219 x= 70.8358 Desv. Est. = 1.6599Y la desviación media para datos agrupados: k ∑f j =1 j xj − xDM = k ∑f j =1 j xj fj f j xj − x xj − x 68.2 5 2.6358 13.1792 69.3 11 1.5358 16.8943 70.4 14 0.4358 6.1019 71.5 11 0.6642 7.3057 72.6 7 1.7642 12.3491 73.7 3 2.8642 8.5925 74.8 2 3.9642 7.9283 Total 53 72.3509 x= 70.8358 Desv. Med. = 1.3651 40
  41. 41. UNIDAD I / ESTADISTICA DESCRIPTIVA.1.6 Distribución de frecuencias.Reglas generales para formar distribuciones de frecuenciasPaso 1: Calcular el intervalo de los datos : Intervalo = Observación Grande – Observación Pequeña.Paso 2: Dividir el intervalo entre 5 y 20 clases de igual anchura. El número de clases esarbitrario, pero se obtiene una mejor descripción grafica si se utiliza pocas clases cuando elnúmero de datos es pequeño y un mayor número de clases cuando el conjunto de datos esgrande. La frontera de la clases más baja ( o primera) deberá estar situada por debajo de lamedición más pequeña, y el ancho de la clase debe ser tal que ninguna observación puedaquedar exactamente en la frontera de una clases. Se pueden calcular de la siguientemanera: Intervalo = anchura de clase # clasesO bien, Intervalo = # clase anchura de clasesSi la precisión es: una unidad entera (1) entonces es 1/2 = 0.5, la primera clases comenzará restándole 0.5 a la observación mas pequeño una unidad decimal (0.1) entonces es 0.1/2 = 0.05, la primera clases empieza restándole 0.05 a la observación mas pequeña.Paso 3: para cada clase, contar el numero de observaciones que caen en esa clase. Estenúmero es la frecuencia de clases.Datos obtenidos.Por ejemplo: en la tabla que sigue se recogen los pesos de 40 estudiantes varones de unauniversidad, con precisión de 1 libra. Construir una distribución de frecuencias. 41
  42. 42. UNIDAD I / ESTADISTICA DESCRIPTIVA. 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 176 163 119 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128El método textual tiene una ventaja importante con respecto a los otros: se puede influenciaral lector. El autor puede resaltar ciertas cifras de su interés, puede remarcar conceptosapropiados para sus fines y hacer pasar desapercibidos a los otros. Se puede focalizar laatención del lector, de tal manera que pase por alto ciertos datos evitando que saque suspropias conclusiones.1.6.1 Distribuciones numéricas.Método de presentación de datos tabular.Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. Estemétodo de presentación de la información consiste en presentar los datos por medio de unatabla o cuadro.Ejercicio: Los tiempos de CPU que se indican en la tabla representan el tiempo ( ensegundos) que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) deuna computadora mainframe grande. Estos 25 valores representan una muestraseleccionada de los 1000 tiempos de CPU . Tabla de muestra de n = 25 tiempos de CPU de trabajos (en segundos ). 1.17 1.61 1.16 1.38 3.53 1.23 3.76 1.94 0.96 4.75 0.15 2.41 0.71 0.02 1.59 0.19 0.82 0.47 2.16 2.01 0.92 0.75 2.59 3.07 1.40 42
  43. 43. UNIDAD I / ESTADISTICA DESCRIPTIVA.1.6.2 Distribuciones categóricas.Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, ydeterminar el número de individuos que pertenecen a cada clase, llamado frecuencia declase. Una disposición tabular de los datos por clase junto con las correspondientesfrecuencias de clase, se llama distribución de frecuencia ( o tabla de frecuencia).Ejemplos:Intervalo = 4.75 – 0.02 = 4.73Anchura aproximada de la clase es: int ervalo 4.73 = = 0.676 ≅ 0.7 7 7Nota: si deseo saber la anchura de la clases entonces selecciono de manera arbitraria elnumero de clases en este caso el numero 7 indica el numero de clases ( filas) y el resultadoes la anchura de cada clases.Como la tabla contiene datos con valores de centésimas entonces el grado de precisión es de0.01 por lo tanto se deberá de utilizar 0.01/2 = 0.005. por lo cual al intervalo menor que es de0.02 se le restara 0.05. Ahora el primer valor en la tabla iniciara en 0.015. clase Intervalo de Tabulación Frec. clase 1 0.015 – 0.715 ///// 5 2 0.715 – 1.415 ///////// 9 3 1.415 – 2.115 //// 4 4 2.115 – 2.815 /// 3 5 2.815 – 3.515 / 1 6 3.515 – 4.215 // 2 7 4.215 – 4.915 / 1 43
  44. 44. UNIDAD I / ESTADISTICA DESCRIPTIVA.1.6.3 Distribuciones acumuladas. Intervalo de Frecuencia Distribución clase de clase acumulada 0.015 – 0.715 5 5 0.715 – 1.415 9 14 1.415 – 2.115 4 18 2.115 – 2.815 3 21 2.815 – 3.515 1 22 3.515 – 4.215 2 24 4.215 – 4.915 1 25 Total 25 Distribucion acumulada 30 25 20 15 10 5 0 1 2 3 4 5 6 71.6.4 Distribuciones porcentuales.En esta distribución tenemos a la distribución de frecuencia relativa y ojivas porcentuales quese encuentra multiplicando la frecuencia relativa por cien para que los resultados estén enporcentajes . Y la suma de todas estas frecuencias resulte al 100 %. FrecuenciaFrecuencia relativa = NFrecuencia relativa y ojivas = Frec. Re l * 100 44
  45. 45. UNIDAD I / ESTADISTICA DESCRIPTIVA. Intervalo de clase Frec. Frec. relativa frecuencia relativa y ojivas porcentual (%) 0.015 – 0.715 5 0.20 20 0.715 – 1.415 9 0.36 36 1.415 – 2.115 4 0.16 16 2.115 – 2.815 3 0.12 12 2.815 – 3.515 1 0.04 4 3.515 – 4.215 2 0.08 8 4.215 – 4.915 1 0.04 4 Total 25 1.00 Frecuencia relativa porcentual 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 1.6.5 Distribuciones porcentuales acumuladas. Las distribuciones porcentuales acumuladas resulta dividiendo la distribución acumulada entre la frecuencia total y multiplicada por 100 para que los resultados resulten en porcentajes y al terminar el ultimo calculo debe ser al cien por ciento.Intervalo de clase Frec. Distribución acumulada Dist. porcentuales acumulada (%)0.015 – 0.715 5 5 200.715 – 1.415 9 14 561.415 – 2.115 4 18 722.115 – 2.815 3 21 842.815 – 3.515 1 22 883.515 – 4.215 2 24 96 4.215 –4.915 1 25 100Total 25 45
  46. 46. UNIDAD I / ESTADISTICA DESCRIPTIVA. D. ADPA = * 100 N Distribucion Porcentual Acumulada 120 100 80 60 40 20 0 1 2 3 4 5 6 71.7 Técnicas de agrupación de datos.1.7.1 Límites de clase. 118 y 122 se llaman limite de clase 118 se llama limite inferior y 122 limite superior de clase1.7.2 Rango de clase.El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de clasesuperior e inferior.C = 122.5 – 117.5 = 51.7.3 Fronteras de clase.Si se dan valores con precisión de 1 unidad, el intervalo de clase 118 – 122 incluyeteóricamente todas las medias desde 117.5 a 122.5 y se llaman frontera de clase overdaderos limites de clase; el menor 117.5 es la frontera inferior y el mayor 122.5 la fronterasuperior. 46
  47. 47. UNIDAD I / ESTADISTICA DESCRIPTIVA.1.7.4 Marca de clase.La marca de clase es el punto medio del intervalo de clase y se obtiene promediando loslimites inferior y superior de clase . Así que las marcas de clase del intervalo 118 – 122 es(118 + 122 ) / 2 = 1201.7.5 Intervalo de clase.Los valores de 118 – 122 se les llaman intervalo de clasesEjercicio: en la tabla siguiente se recogen los pesos de 40 estudiantes varones de unauniversidad, con precisión de 1 libra. Construir: a) una distribución de frecuencia. b) Distribución de frecuencia acumulada c) Grafica de la distribución de frecuencia acumulada d) Frecuencia relativa e) Frecuencia relativa y ojivas porcentuales f) Grafica de la frecuencia relativa y ojivas porcentuales g) Distribución porcentuales acumuladas h) Grafica de la distribución porcentuales acumuladas 119 138 146 156 125 140 147 157 126 140 147 158 128 142 148 161 132 142 149 163 135 144 150 164 135 144 150 165 135 145 152 168 136 145 153 173 138 146 154 176Los pesos son 176 y 119 lb.; El intervalo es 176 – 119 = 57 lb.Si se usan 5 u 20 intervalos de clase su anchura será:57 57 = 11.4 = 11 o = 2.85 = 3 5 20 47

×