Your SlideShare is downloading. ×

Curso de estadística

13,380
views

Published on

Published in: Travel

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
13,380
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
304
Comments
0
Likes
3
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. ESTADÍSTICA ÁLVARO VALENCIA OROZCO ESTADÍSTICATabla de Contenido.Introducción1. Conceptos preliminares1.1 Breve historia de la estadística1.2 Dimensión actual de la estadística1.3 Qué es estadística1.4 Finalidad de la estadística1.5 Ramas de la estadística1.6 Variables.1.7 Población y muestras1.8 La medida en la estadística1.9 Redondeo de datosEjercicios propuestos2. Etapas del Método Estadístico2.1 Planteamiento del problema2.2 Fijación de los objetivos2.3 Formulación de las hipótesis2.4 Definición de la unidad de observación y de la unidad de medida2.5 Determinación de la población y de la muestra2.6 La recolección2.7 Crítica, clasificación y ordenación2.8 La tabulación2.9 La presentación2.10 El análisis2.11 Publicación.3. Distribución de Frecuencias3.1 Distribución de frecuencias simpleEjercicios3.2 Distribución de frecuencias por intervalo3.3 Reglas empíricas para la construcción de IntervalosCuestionario y ejercicios propuestos.4. Representación Gráfica4.1 Definición4.2 Componentes de una gráfica4.3 Principales tipos de gráficos4.3.1 Gráfico de líneas4.3.2 Gráfico de líneas compuesto4.3.3 Gráfico de barras4.3.4 Gráfico de barras compuesto4.3.5 Gráfico de sectores circulares4.3.6 Histograma de frecuencias4.3.7 Polígono de frecuencias4.3.8 Histograma de frecuencias acumuladasCuestionario y ejercicios propuestos.5. Medidas de Tendencia Central5.1 Media aritmética5.1.1 Propiedades de la media aritmética 1
  • 2. ESTADÍSTICA ÁLVARO VALENCIA OROZCO5.1.2 Media aritmética con cambio origen y de escala5.1.3 Media aritmética ponderada5.2 Mediana5.2.1 La mediana cuando los datos no están agrupados en intervalos5.2.2 La mediana cuando la información está agrupada en intervalos5.3 La Moda5.3.1 La moda cuando los datos no están agrupados en intervalos5.3.2 Cálculo de la moda con la información agrupada en intervalosCuestionario y ejercicios propuestos.6. Medidas de Posición (Percentiles)6.1 Cuartiles6.2 Quintiles6.3 Deciles6.4 Centiles6.5 ResumenCuestionario y ejercicios propuestos.7. Medidas de Dispersión7.1 Rango o recorrido7.2 Desviación media7.3 Varianza7.4 Coeficiente de variabilidadCuestionario y ejercicios propuestos8. Regresión y Correlación Lineal8.1 Tablas de doble entrada8.2 Correlación8.3 Regresión lineal8.3.1 Ajuste rectilíneo (método de los mínimos cuadrados)8.3.2 Ajuste parabólica (método de los mínimos cuadrados)Cuestionario y ejercicios propuestos.9. Tasas e Índices9.1 Tasa9.2 Índice9.2.1 Índice simple9.2.1.1 Índice de base fija9.2.1.2 Índice de base móvil9.2.2 Índices compuestos (globales)9.2.2.1 Índice de Laspeyres9.2.2.2 Índice de Passche9.2.2.3 Índice ideal de FisherCuestionario y ejercicios propuestos.10. Nociones de Probabilidad (Eventos)10.1 Nociones de conteo10.1.1 Principio fundamental 110.1.2 Principio fundamental 210.1.3 Permutaciones10.1.4 Variaciones10.1.5 Combinaciones10.1.6 Permutaciones con repetición10.1.7 Variaciones con repeticiónEjercicios propuestos 2
  • 3. ESTADÍSTICA ÁLVARO VALENCIA OROZCO10.2 Definición de probabilidad10.2.1 Probabilidad a priori10.2.2 Probabilidad a posteriori10.2.3 Probabilidad subjetiva10.3 Axiomas de la teoría de probabilidades10.4 Probabilidad condicional e independencia estadísticaCuestionario y ejercicios propuestos10.5 Variable aleatoria10.6 Función de probabilidad10.6.1 Función de probabilidad10.6.2 Función de distribuciónCuestionario y ejercicios propuestos10.7 Valor esperado (esperanza matemática)10.7.1 Media aritmética poblacional10.7.2 Varianza poblacionalCuestionario y ejercicios propuestos.11. Distribuciones Especiales11.1 Distribución de Bernoulli11.2 Distribución binomial, tablas binomiales11.3 Distribución de Poisson, tablas de Poisson11.4 Distribución normal11.5 Distribución normal estándar, tablas normalesCuestionario y ejercicios propuestos11.6 El tamaño de la muestraReferencias Bibliográficas Alatorre, et al., Introducción a los métodos estadísticos, México, UPN. Azorín, Poch. Francisco. Curso de muestreo y aplicaciones, Aguilar, 1969. Barahoma, Abel y otro. Metodología de trabajos científicos, Ipler, 1979. Bencardino M., Ciro. Estadística, Apuntes y 600 Problemas Resueltos, 2a Edición, Ecoe, 1982. Castillo, Juana, Estadística inferencial básica, México, CCH, UNAM. CHAO. Lincoln L. Estadística para Ciencias Administrativas, 2a Edición, MCGRAWHILL, 1980. Dixon, Wilfrid J y otro. Introducción al Análisis Estadístico, 2a Edición, MCGRAWHILL, 1965. Doms, Fernan P. La Estadística Qué Sencilla, 2a Edición, Paraninfo, 1969. Downie, N. M. y otro. Métodos Estadísticos Aplicados. Harper Row Publishers Inc., 1970. Giardina, Basilio. Manual de Estadística, 3 Edición, 1972. Haber, Audrey. Estadística General, Fondo Educativo Interamericano, 1973. Hoel, Paul G. Estadística elemental, México, CECSA. Johnson, Robert, Estadística elemental, Buenos Aires, Grupo Editorial Iberoamericana. Kazmier, Leonard J. Estadística Aplicada a la Administración y la Economía, MCGRAW-HILL, 1978. Leitold Louis. El Cálculo con Geometría Analítica, 2a Edición, Harla S.A., 1973. Levin Yack. Fundamentos de Estadística en la Investigación Social, 2a Edición, Harla S., 1977. Llerena, León, Ricardo y otro. Curso de Estadística General, U. de A., 1981. Mejía V., William. Bioestadística General, Escuela Nal. De Salud Pública, U. de A., 3
  • 4. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 1980. National Council of Teachers. Of. Mathematics USA. Recopilación, Organización e interpretación de Datos, Trilla, 1970. Portilla, Ch. Enrique. Estadística, Primer Curso. Interamericano, 1980. Richards, Larry E. Y otro. Estadística en los Negocios. ¿por qué y cuándo?, MCGRAW-HILL,1978. Seymour, Lipschutz, Teoría y problemas de probabilidad, México, McGraw-Hill. Shao, Stephen P. Estadística para Economistas y Administradores de Empresas, 15a Edición, 1979. Spiegel, Murray R. Estadística, MCGRAW-HILL, 1970. Spiegel, Murray, Teoría y problemas de estadística, México, McGraw-Hill. Stevenson, William, Estadística, México, Harla. Yamane, Taro, Estadística, México, Harla. 4
  • 5. ESTADÍSTICA ÁLVARO VALENCIA OROZCO ESTADÍSTICAINTRODUCCIÓN “Las acciones que acometemos hoy se basan en un plan de ayer y las expectativas del mañana”.La palabra estadística se origina, en las técnicas de recolección, organización, conservación, ytratamiento de los datos propios de un estado, con que los antiguos gobernantes controlaban sussúbditos y dominios económicos. Estas técnicas evolucionaron a la par con el desarrollo de lasmatemáticas, utilizando sus herramientas en el proceso del análisis e interpretación de la información.Para mediados del siglo XVII en Europa, los juegos de azar eran frecuentes, aunque sin mayoresrestricciones legales. El febril jugador De Méré consultó al famoso matemático y filosofo Blaise Pascal(1623-1662) para que le revelara las leyes que controlan el juego de los dados, el cual, interesado en eltema, sostuvo una correspondencia epistolar con el tímido Pierre de Fermat (1601-1665, funcionariopúblico apasionado por las matemáticas; célebre porque no publicaba sus hallazgos) dando origen a lateoría de la probabilidad, la cual se ha venido desarrollando y constituyéndose en la base primordial dela estadística.En nuestros días, son de uso cotidiano las diferentes técnicas estadísticas que partiendo deobservaciones muestrales o históricas, crean modelos lógico-matemáticos que se "aventuran" describiro pronosticar un determinado fenómeno con cierto grado de certidumbre medible.El presente texto no pretende teorizar el saber estadístico, desde luego, no es un libro para estadísticos,ya que, adrede se obvia el rigor científico de lo expuesto en beneficio de la sencillez necesaria para elneófito; con un lenguaje coloquial se conduce al lector a través del contenido, a partir de dos o tresejemplos que ilustran la aplicabilidad de los temas tratados.El avance tecnológico en la informática ha contribuido enormemente al desarrollo de la estadística,sobre todo en la manipulación de la información, pues en el mercado existen paquetes estadísticos deexcelente calidad, como el SAS, SPSS, SCA, STATGRAPHICS, amén de otros, que "corren" en unordenador sin mayores exigencias técnicas, permitiendo el manejo de grandes volúmenes deinformación y de variables.La estadística, entonces, dejó de ser una técnica exclusiva de los estados, para convertirse en unaherramienta imprescindible de todas las ciencias, de donde proviene la desconcertante des-uniformidad en las definiciones de los diferentes autores, ya que cada estudioso la define de acuerdocon lo que utiliza de ella y tenemos definiciones como que: la estadística es la tecnología del métodocientífico, o que es el conocimiento relacionado con la toma de decisiones en condiciones deincertidumbre, o que la estadística son métodos para obtener conclusiones a partir de los resultados delos experimentos o procesos, o que es un método para describir o medir las propiedades de unapoblación. En fin, no se trata de discutir si la estadística es una ciencia, una técnica o una herramienta,sino de la utilización de sus métodos en provecho de la evolución del conocimiento.La estadística hace inferencias sobre una población, partiendo de una muestra representativa de ella.Es a partir del proceso del diseño y toma de la muestra desde donde comienzan a definirse lasbondades y confiabilidad de nuestras aseveraciones, hechas, preferentemente, con un mínimo costo ymínimo error posible.. 5
  • 6. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 1. CONCEPTOS PRELIMINARES. 1.1 BREVE HISTORIA DE LA ESTADÍSTICA. Godofredo Achenwall, profesor y economista alemán (1719 a 1772) es considerado por algunos investigadores el fundador de la Estadística. Siendo profesor de la Universidad de Leipzig, escribió un artículo sobre el descubrimiento de una nueva ciencia que llamó Estadística y que definió como “el conocimiento profundo de la situación respectiva y comparativa de cada estado”. Achenwall y sus seguidores estructuraron los métodos estadísticos que se orientaron a investigar, medir y comparar las riquezas de las naciones a partir de los conceptos de inventarios y censos que ya se realizaban desde la antigüedad. Los juegos de azar dieron origen a la teoría de las probabilidades desarrollada por Pascal y Fermat a mediados del siglo XVII. La curva Normal de mucha importancia en el desarrollo de la Estadística fue publicada originalmente en 1733 por De Moivre, quien no supo como aplicar sus resultados a observaciones experimentales. Su escrito permaneció desconocido hasta que Karl Pearson lo encontró en 1924. Sin embargo, al mismo resultado llegaron los astrónomos y matemáticos Laplace (1749 a 1827) y Gauss (1777 a 1855), independientemente el uno del otro. En el siglo XIX, se hizo necesaria una base más sólida para la estadística. Karl Pearson (1857 a 1936) aplicó las matemáticas a la evolución, como resultado del entusiasmo que generó Darwin en la Biología y construyó durante medio siglo una investigación estadística rigurosa, fundó la revista Biometrika y una escuela de estadística. Gosset (1876 a 1937), consideraba insuficientes los desarrollos matemáticos para encontrar distribuciones exactas de la desviación estándar y otros parámetros; sus escritos sobre sus resultados aparecieron con el seudónimo de Student en la revista Biometrika; Hoy, la distribución t-Student es instrumento fundamental de la estadística. R. A. Fisher (1890 a 1962) recibió influencias de Pearson y de Student e hizo numerosas e importantes contribuciones a la Estadística, entre las que se destaca la teoría sobre la verificación o prueba de hipótesis estadística, presentada en 1936 con J. Neuman. 1.2 DIMENSIÓN ACTUAL DE LA ESTADÍSTICA La estadística ha tenido un desarrollo extraordinario, que ha hecho que muchos problemas que antes no tenían una clara solución, hoy la tengan. Para que podamos hacernos una idea de la diversidad de campos en los que la Estadística juega un papel importante, se presentan a continuación algunas situaciones. Prueba de una vacuna. Se quiere determinar la efectividad de una vacuna; para ello se diseña un experimento en el cual participa un gran conjunto de niños de cierta edad, los cuales son clasificados al azar en 2 grupos, al primer grupo se le aplica la vacuna y al segundo grupo no. Se les hace un seguimiento durante un periodo adecuado de tiempo para comparar la incidencia de la enfermedad problema en cada grupo. ¿Cuál debe ser la diferencia mínima en el número de afectados para aceptar que la vacuna es efectiva?. Determinación de la etiología de una enfermedad. Para que una enfermedad se produzca es preciso una combinación adecuada de las condiciones de tres elementos que son: el agente, el ambiente y el huésped. Al proceso constituido por las interrelaciones entre estos tres elementos que caracteriza y explica la presencia de la enfermedad, se conoce como “historia natural de la enfermedad”. La epidemiología se dedica en gran parte a la determinación de la historia natural de las enfermedades ya que conociendo ésta, es posible determinar cuál etapa del desarrollo de la enfermedad es más factible de interrumpir para evitar la misma. No es fácil en la mayoría de los casos, determinar la historia natural de una enfermedad, y en ello la estadística juega un papel muy importante al proporcionar herramientas para comparar 6
  • 7. ESTADÍSTICA ÁLVARO VALENCIA OROZCO la distribución de la enfermedad en grupos con diversas características socioeconómicas (sexo, edad, condiciones geográficas, raza, hábitos, etc.), con el ánimo de ir acotando las condiciones ambientales y del huésped que conduzcan a la explicación de la historia natural de la enfermedad. Determinación de la dosis de una droga. Para lanzar una nueva droga al mercado, es necesario superar una serie de etapas y pruebas que son más o menos rigurosas dependiendo de las leyes del país en cuestión. Generalmente el consumo de una droga puede producir efectos colaterales que pueden ser más o menos graves. Por tal razón es necesario diseñar experimentos para determinar niveles de sensibilidad y la dosis adecuada que permita atacar la enfermedad y no producir molestias. (Nótese que estos aspectos varían de persona a persona). Caracterización de la demanda por el servicio de Urgencia Hospitalaria. La demanda por el servicio de Urgencia Hospitalaria es variable de mes a mes, de semana a semana, día a día, e inclusive en las horas de un mismo día. El conocimiento de dicha distribución es de mucho interés para la determinación de los recursos humanos y materiales y para su programación. Un acercamiento a la distribución de la demanda puede conseguirse recolectando información y realizando algunos análisis estadísticos. Fase de planeación. La planeación es en cierta forma “mirar hacia el futuro con los ojos del pasado”. En el proceso de planeación se requiere disponer de la información cuantitativa y cualitativamente adecuadas para tomar decisiones ahora, que tendrán implicaciones en el futuro. Una empresa debe hacer proyecciones de demanda del artículo que produce, pues con base en ella, se hará la programación de la producción y todo lo que ella trae consigo. Dicha demanda puede ser estimada a través de modelos estadísticos de SERIES DE TIEMPO. Control de calidad. La calidad con que se produce un artículo es muy importante para cada industria. Esta constituye un factor básico de competencia en el peor de los casos, porque en el caso de drogas o alimentos se trata de la integridad e incluso de la vida de las personas. En la práctica es muy costoso y a veces imposible inspeccionar el 100% de la producción o de la materia prima; se puede en estos casos diseñar un plan estadístico de muestreo, y unos instrumentos que permitan tomar decisiones muy confiables sobre la calidad de un lote de producción a partir de la observación de unos pocos artículos, economizando de esta manera dinero y tiempo. Comparación de la eficiencia de dos procesos. Se desea decidir sobre cuál de 2 procedimientos utilizar para la realización de una actividad intermedia en la producción de un artículo, tomando como criterio la eficiencia. Se diseña el experimento y se realizan observaciones durante corto tiempo con base en las cuales se deberá decidir con cierta confiabilidad cuál procedimiento es mejor. Producción Agrícola. Se van a sembrar grandes áreas de terreno con papa china, se requiere por tanto diseñar un experimento para determinar entre otras cosas: ¿Cuál debe ser la distancia entre plantas?, ¿Cuáles deben ser los niveles de agua y de nutrientes a usar?, ¿Hay o no interacción entre la distancia entre plantas y los niveles de nutrientes? Todo ello para conseguir óptima producción. Econometría. Determinación de las principales características socioeconómicas que generan la inflación y cómo influye cada una de ellas, presentando esto a través de un modelo de Regresión. Análisis actuarial. 7
  • 8. ESTADÍSTICA ÁLVARO VALENCIA OROZCO Una empresa de seguros de vida, desea determinar cuánto debe cobrar al año por una póliza, según la edad. Para ello, debe realizar un estudio estadístico sobre los riesgos y las frecuencias de muertes por grupos de edad. 1.3 ¿QUÉ ES ESTADÍSTICA? Es un sistema o método científico, que estudia el comportamiento de los fenómenos de masa, mediante la recopilación, organización, clasificación, presentación, análisis, e interpretación de datos que interesan al investigador, para sacar conclusiones generales, destinadas a mejorar las políticas que rigen los procesos que se cumplen en la naturaleza y en la vida social. 1.4 FINALIDAD DE LA ESTADÍSTICA La estadística tiene por finalidad suministrar información, cuya utilidad depende del objeto para el cual se realiza la estadística y la forma en que se realiza la obtención de los datos. Algunas aplicaciones de la estadística que podemos nombrar en forma general son: Conocer la realidad de una observación o de un fenómeno. Ejemplo: si se cumple o no la producción programada para un artículo. Determinar lo típico o normal de una observación. Ejemplo: el promedio de edad de los estudiantes de un grado determinado. Determinar los cambios que presenta un fenómeno. Ejemplo: un cambio en cantidad de ventas de un producto. Determinar las causas que originan un fenómeno. Ejemplo: la disminución de valor de un producto por efectos de la oferta y la demanda. Estimativos sobre el comportamiento futuro de un fenómeno. Ejemplo: la proyección de ventas de un artículo dependiendo del aumento de población. 1.5 RAMAS DE LA ESTADÍSTICA La estadística dispone de dos tipos de usos diferentes: La Estadística descriptiva o deductiva y la Estadística inferencial o inductiva. La Estadística descriptiva o deductiva permite obtener conclusiones sobre un conjunto de datos, a partir de los mismos, sin sobrepasar el conjunto de conocimientos que éstos proporcionan. Sus métodos disponen las técnicas de recolectar, presentar, analizar e interpretar datos. La estadística inferencial es un proceso inductivo que permite inferir a toda la población, proposiciones basadas en las observaciones y resultados proporcionados por la muestra. Incluye un factor de incertidumbre que no evita el error pero lo cuantifica. 1.6 VARIABLES. Son características de las personas u objetos de una muestra o población que se observa. Las variables pueden ser cuantitativas o cualitativas. Si las observaciones se pueden expresar mediante números, se trata de una variable cuantitativa como por ejemplo el número de kilómetros que tienen que conducir cada noche quienes acuden en su coche a la universidad, la cantidad de usuarios por hora en un cajero automático o las calificaciones que los estudiantes obtienen en una evaluación determinada. Y si la variable se mide por medios no numéricos, se trata de una variable cualitativa como por ejemplo el estado civil de los solicitantes de préstamos en un banco, el lugar de procedencia de los estudiantes de la Universidad o la raza, el color de cabello y preferencia religiosa de una población. Además, las variables también pueden ser continuas o discretas. Una variable continua es aquella que puede tomar cualquier valor dentro de un determinado rango, cuando se realizan mediciones u observaciones. Por ejemplo, al realizar un estudio de la relación existente entre el peso y la estatura de los niños de preescolar, se puede encontrar cualquier valor dentro de un rango para las variables de estudio. Y una variable discreta es aquella que da lugar a valores 8
  • 9. ESTADÍSTICA ÁLVARO VALENCIA OROZCO separados y no continuos dentro de un determinado rango, esto es, solo pueden tomar algunos valores del rango y generalmente son aquellas cuya observación depende de la enumeración o del conteo. Por ejemplo, el número de usuarios que visita diariamente una web, el número de estudiantes de la clase de estadística. 1.7 POBLACIÓN Y MUESTRAS Cada investigación que recurre al uso de métodos Estadísticos inicialmente define si se puede o debe recurrir al conjunto de todos los datos o sólo a una parte de éste. 1.7.1 POBLACIÓN. Conjunto de todos los elementos, individuos u objetos que tienen una característica en común y además son objeto de un estudio. Una población o universo consiste en todos los posibles valores de una variable. Cuando se disponen todos los valores de una población es posible describirla sin ambigüedad. Estos valores no tienen que ser todos diferentes ni en número infinito. Son ejemplos: La edad de los niños Colombianos que cursan el quinto grado, El número de hijos por familia en el municipio de Candelaria. El número de vehículos que cruzan por un semáforo cada minuto. 1.7.2 MUESTRA Es una parte de una población que se utiliza frecuentemente para hacer inferencia acerca de la población. Por esta razón es particularmente importante definir la población que se estudia y obtener una muestra representativa de la población definida, lo que no es cosa trivial. Toda muestra representativa debe cumplir el principio de la aleatoriedad (cada elemento de la población tiene una oportunidad igual e independiente de ser elegido), consistente en un proceso que asegure que los sesgos individuales conocidos o desconocidos, no influyan en la selección de la muestra y tener cualquier tamaño, pero que cumpla con unos objetivos planeados en la estadística y con un margen de error tolerable y un nivel de confianza que la hagan aceptable para la población. 1.7.3 MUESTREO Es el proceso de recoger una muestra. Existen diferentes métodos de muestreo: Aleatorio: Cada elemento de la población tiene la misma oportunidad de ser elegido. No aleatorio: Cuando se hace de manera deliberada, dirigida o por cuotas No restringido: No hay condición que restrinja a los elementos de la población. Restringido: Existen condiciones que restringen a la población. Estratificado: La población se divide en grupos homogéneos. Estratificado igual: Si de cada estrato se saca igual cantidad de elementos para la muestra. Estratificado proporcional: Si de cada estrato se saca en forma proporcional (por conveniencia) para formar la muestra. Sistemático: Los elementos de la población están dispuestos ordenadamente por listados o registros. Censo: La recolección de la información incluye la población. 1.8 LA MEDIDA EN LA ESTADÍSTICA El material de trabajo en estadística son los datos. Las escalas de medida se asocian a las características de los datos, con la intención de manipularlos. Dada la necesidad de emplear mediciones numéricas, o una serie de números en el análisis de los datos, los investigadores han desarrollado mediciones para aplicarla a una gama muy amplia de fenómenos, incluyendo aspectos no cuantificables, tales como: prestigio ocupacional, actitudes, autoritarismo, alienación, inteligencia, prejuicio, dogmatismo, conformidad, 9
  • 10. ESTADÍSTICA ÁLVARO VALENCIA OROZCO realización, etnocentrismo, religiosidad, armonía matrimonial, fertilidad, status socioeconómico. Dependiendo del nivel de medida empleada, los números tienen por lo menos tres funciones importantes para el investigador: Categorizan el nivel nominal de la medición. Determinan el rango de orden al nivel ordinal de la medición. Permiten obtener montajes al nivel cardinal (de intervalo, razón o proporción) de la medición. 1.8.1 ESCALAS NOMINALES Este nivel se utiliza para clasificar los objetos y numerar las clases. El valor numérico de una clase no cuantifica nada sobre ella, es decir que el número asignado a una clase sea mayor o menor que el de otra, no refleja nada sobre las propiedades del objeto, sino simplemente el hecho de que son distintas. De acuerdo con la zona en que viven, la población de un país puede dividirse en urbana, suburbana y rural; las cuales podrían llamarse clases 1,2 y 3. La escala nominal establece una relación de equivalencia y todos los eventos u objetos que pertenecen a una categoría tienen una característica igual. El número de eventos que pertenecen a una característica se llama frecuencia. 1.8.2 ESCALA ORDINAL Cuando las propiedades de los objetos pueden ser ordenadas según algún criterio. Esta escala establece una relación de orden entre las variables. Los números por su propiedad de orden nos permite establecer relaciones tales como: mayor que; igual a; menor que; más importante; etc. El nivel ordinal da información acerca de la organización de las categorías, pero no indica la magnitud de la diferencia entre los números. El valor numérico se usa para indicar en orden relativo el lugar que ocupa el elemento. Por ejemplo, ordenar de la más importante a la menos importante, cada una de las necesidades de empleo, vivienda, salud, servicios públicos y educación utilizando 1 para la más importante y así sucesivamente en orden de importancia. 1.8.3 ESCALA CARDINAL Cuando las propiedades de los objetos son cuantificables y se pueden hacer operaciones aritméticas. Es la de mayor uso en el Método Científico. Ejemplo: medida de distancias, tiempo, dinero, masas, fuerza, etc. Cuando se desea entregar una información como resultado de un estudio realizado utilizando la escala cardinal, dicha información la podemos entregar en términos de intervalos, razones o proporciones Intervalos: En contraste con el nivel ordinal, la medición por intervalos indica el orden de las categorías y la diferencia entre ellas. Emplean unidades de medición tales como días, metros, horas. Ejemplos son: El número de respuestas acertadas en las pruebas Icfes por cada uno de los aspirantes que se presentaron, El tiempo de duración de los bombillos de un fabricante, el tiempo requerido para enviar cada uno de los paquetes de datos de un conjunto. Razón: Son también llamadas de cociente, ya que es el cociente entre dos cantidades independientes es decir son partes de un todo. Ejemplo: En un grupo de 50 personas 40 son adultos y 10 son niños 10 1 La razón de niños es: 0.25 lo cual podemos interpretar como que en tal grupo 40 4 existen 0.25 niños por cada adulto, sin embargo en términos prácticos para algunos casos como este, es preferible entregar el resultado como enteros, es decir, existe un niño por cada 4 adultos. 10
  • 11. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 40 La razón de adultos es: 4 lo que significa que existen 4 adultos por cada niño. 10 Proporción: En la proporción también se halla un cociente, pero las cantidades que se relacionan no son independientes, es decir, calculamos el cociente entre una parte y el total Ejemplo: Con respecto al grupo del anterior ejemplo deseamos saber la proporción de adultos, y la proporción de niños, luego: 10 La proporción de niños es: 0.20 lo cual podemos interpretar como que en tal grupo 50 existen 0.2 niños por cada persona, o que el 20% de las personas en dicho grupo son niños. 40 La proporción de adultos es: 0.80 lo que significa que existen 0.8 adultos por cada 50 persona, o que el 80% de las personas del grupo son adultos. 1.8.4 PARÁMETRO Se llamará parámetro a una característica medible de la población. Por ejemplo, el ingreso promedio de los estudiantes de la Universidad, el porcentaje de hombres en la Ciudad de Cali. Un parámetro es una constante para la población. 1.8.5 ESTADÍGRAFO O ESTADÍSTICO Se denominará estadígrafo a una característica medible en la muestra y que sirve para estimar el parámetro correspondiente de la población, por ejemplo la edad promedio de una muestra de estudiantes de una escuela, o el porcentaje de varones en la muestra. 1.9 REDONDEO DE DATOS Para realizar el redondeo de cantidades continuas con aproximaciones, tendremos en cuenta los siguientes criterios: Incrementar en una unidad el último dígito fijado, si el que sigue es mayor o igual que 5. No cambiar el último dígito fijado, si el que sigue es menor que 5. Ejemplo: Dados los siguientes números, redondear a 2 dígitos decimales (centésimas). a. 45,32854 45,33 b. 0,39425 0,39 c. 1,29632 1,30 d. 4,325 4,33 e. 8,435 8,44 EJERCICIOS: En los siguientes ejercicios encuentre las razones, las proporciones y porcentajes sugeridos 1. Supongamos que una empresa tiene clasificados sus empleados por año y por sexo SEXO AÑO Total Hombres Mujeres 1995 780 320 1100 2000 880 620 1500 11
  • 12. ESTADÍSTICA ÁLVARO VALENCIA OROZCO Encuentre para cada uno de los años: La razón de feminidad La razón de masculinidad La proporción de feminidad La proporción de masculinidad 2. Suponga que se dispone de cierta información por sexo, sobre personas portadoras de un virus: VIRUS X SEXO Total Portadores No portadores Hombres 3500 5´600.000 Mujeres 7200 9´200.000 Total Encuentre: La razón de feminidad entre portadores La razón de masculinidad entre portadores La razón de feminidad entre no portadores La razón de masculinidad entre no portadores La proporción de feminidad entre portadores La proporción de masculinidad entre portadores La proporción de feminidad entre no portadores La proporción de masculinidad entre no portadores La proporción de portadores La proporción de no portadores 3. Las pérdidas en una fábrica de papel, (en miles de dólares), debidos a las rupturas de la hoja se pueden dividir de acuerdo con el producto en: Papel higiénico 132 Toallas 85 Servilletas 43 Pañuelos 50 Encuentre: Qué porcentaje de las pérdidas se obtiene al hacer c/u de los productos? La razón de pérdidas al hacer papel higiénico con respeto a c/u de los otros productos La razón de pérdidas al hacer servilletas con respeto a los otros productos La proporción de pérdidas de cada uno de los productos. 4. Redondear cada uno de los siguientes números a la exactitud que se indica: 48,6 aproximar a las unidades. 136,5 aproximar a las unidades. 2,484 aproximar a las centésimas. 0,0435 aproximar a las milésimas. 143,95 aproximar a las décimas. 368 aproximar a las centenas. 24448 aproximar a las unidades de millar. 24581562 aproximar a las unidades de millón. 12
  • 13. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 48,6 aproximar a las decenas.2. Etapas del Método EstadísticoEl método estadístico, parte de la observación de un fenómeno, y como no puede siempre mantener lasmismas condiciones predeterminadas o a voluntad del investigador, deja que actúen libremente, perose registran las diferentes observaciones y se analizan sus variaciones.Para el planeamiento de una investigación, por norma general, se siguen las siguientes etapas:2.1 Planteamiento del problema.2.2 Fijación de los objetivos.2.3 Formulación de la hipótesis.2.4 Definición de la unidad de observación y de la unidad de medida.2.5 Determinación de la población y de la muestra.2.6 La recolección.2.7 Crítica, clasificación y ordenación.2.8 Tabulación.2.9 Presentación.2.10 Análisis.2.11 Publicación.2.1 PLANTEAMIENTO DEL PROBLEMAAl abordar una investigación se debe tener bien definido qué se va a investigar y por qué se pretendeestudiar algo. Es decir, se debe establecer una delimitación clara, concreta e inteligible sobre el o losfenómenos que se pretenden estudiar, para lo cual se deben tener en cuenta, entre otras cosas, larevisión bibliográfica del tema, para ver su accesibilidad y consultar los resultados obtenidos porinvestigaciones similares, someter nuestras proposiciones básicas a un análisis lógico; es decir, se debehacer una ubicación histórica y teórica del problema.2.2 FIJACIÓN DE LOS OBJETIVOSLuego de tener claro lo que se pretende investigar, Debemos presupuestar hasta dónde queremosllegar; en otras palabras, debemos fijar cuáles son nuestras metas y objetivos.Estos deben plantearse de tal forma que no haya lugar a confusiones o ambigüedades y debe, además,establecerse diferenciación entre lo de corto, mediano y largo plazo, así como entre los objetivosgenerales y los específicos.2.3 FORMULACIÓN DE LAS HIPÓTESISUna hipótesis es ante todo, una explicación provisional de los hechos objeto de estudio, y suformulación depende del conocimiento que el investigador posea sobre la población investigada. Unahipótesis estadística debe ser susceptible de docimar, esto es, debe poderse probar para su aceptacióno rechazo.Una hipótesis que se formula acerca de un parámetro (media, proporción, varianza, etc.), con elpropósito de rechazarla, se llama Hipótesis de Nulidad y se representa por Ho; a su hipótesis contrariase le llama Hipótesis Alternativa (H1).2.4 DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDALa Unidad de Observación, entendida como cada uno de los elementos constituyentes de la poblaciónestudiada, debe definirse previamente, resaltando todas sus características; pues, al fin de cuentas, es aellas a las que se les hará la medición.La unidad de observación puede estar constituida por uno o varios individuos u objetos y denominarserespectivamente simple o compleja. 13
  • 14. ESTADÍSTICA ÁLVARO VALENCIA OROZCOEl criterio sobre la unidad de medición debe ser previamente definido y unificado por todo el equipo deinvestigación. Si se trata de medidas de longitud, volumen, peso, etc., debe establecerse bajo qué unidadse tomarán las observaciones ya sea en metros, pulgadas, libras, kilogramos, etc.Asociado a la unidad de medida, deben establecerse los criterios sobre las condiciones en las cuales seha de efectuar la toma de la información.2.5 DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRAEstadísticamente, la población se define como un conjunto de individuos o de objetos que poseen una ovarias características comunes. No se refiere esta definición únicamente a los seres vivientes; unapoblación puede estar constituida por los habitantes de un país o por los peces de un estanque, asícomo por los establecimientos comerciales de un barrio o las unidades de vivienda de una ciudad.Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el términoinfinito no está siendo tomado con el rigor semántico de la palabra; por ejemplo, los peces dentro de unestanque son un conjunto finito; sin embargo, en términos estadísticos, puede ser considerado comoinfinito.Muestra es un subconjunto de la población a la cual se le efectúa la medición con el fin de estudiar laspropiedades del conjunto del cual es obtenida.En la práctica, estudiar todos y cada uno de los elementos que conforman la población no esaconsejable, ya sea por la poca disponibilidad de recursos, por la homogeneidad de sus elementos,porque a veces es necesario destruir lo que se está midiendo, por ser demasiado grande el número desus componentes o no se pueden controlar; por eso se recurre al análisis de los elementos de unamuestra con el fin de hacer inferencias respecto al total de la población. Existen diversos métodos paracalcular el tamaño de la muestra y también para tomar los elementos que la conforman, pero no es elobjetivo de este curso estudiarlos. Diremos solamente que la muestra debe ser representativa de lapoblación y sus elementos escogidos al azar para asegurar la objetividad de la investigación.2.6 LA RECOLECCIÓNUna de las etapas más importantes de la investigación es la recolección de la información, la cual ha departir, a menos que se tenga experiencia con muestras análogas, de una o varias muestras piloto en lascuales se pondrán a prueba los cuestionarios y se obtendrá una aproximación de la variabilidad de lapoblación, con el fin de calcular el tamaño exacto de la muestra que conduzca a una estimación de losparámetros con la precisión establecida.El establecimiento de las fuentes y cauces de información, así como la cantidad y complejidad de laspreguntas, de acuerdo con los objetivos de la investigación son decisiones que se han de tomarteniendo en cuenta la disponibilidad de los recursos financieros, humanos y de tiempo y laslimitaciones que se tengan en la zona geográfica, el grado de desarrollo, la ausencia de técnica, etc.Es, entonces, descubrir dónde está la información y cómo y a qué "costo" se puede conseguir; esdeterminar si la encuesta se debe aplicar por teléfono, por correo, o si se necesitan agentes directos querecojan la información; establecer su número óptimo y preparar su entrenamiento adecuado.2.7 CRITICA, CLASIFICACIÓN Y ORDENACIÓNDespués de haber reunido toda la información pertinente, se necesita la depuración de los datosrecogidos. Para hacer la crítica de una información, es fundamental el conocimiento de la población porparte de quien depura para poder detectar falsedades en las respuestas, incomprensión a las preguntas,respuestas al margen, amén de todas las posibles causas de nulidad de una pregunta o nulidad de todoun cuestionario.Separado el material de "desecho" con la información depurada se procede a establecer lasclasificaciones respectivas y con la ayuda de hojas de trabajo, en las que se establecen los cruces 14
  • 15. ESTADÍSTICA ÁLVARO VALENCIA OROZCOnecesarios entre las preguntas, se ordenan las respuestas y se preparan los modelos de tabulación delas diferentes variables que intervienen en la investigación.El avance tecnológico y la popularización de los computadores hacen que estas tareas, manualmentedispendiosas, puedan ser realizadas en corto tiempo.2.8 LA TABULACIÓNUna tabla es un resumen de información respecto a una o más variables, que ofrece claridad al lectorsobre lo que se pretende describir; para su fácil interpretación una tabla debe tener por lo menos: Untitulo adecuado el cual debe ser claro y conciso. La Tabla propiamente dicha con los correspondientessubtítulos internos y la cuantificación de los diferentes ítems de las variables, y las notas de pie decuadro que hagan claridad sobre situaciones especiales de la tabla, u otorguen los créditos a la fuentede la información.2.9 LA PRESENTACIÓNUna información estadística adquiere más claridad cuando se presenta en la forma adecuada. Loscuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con las variables que se van apresentar y la forma de hacerlo. No es aconsejable saturar un informe con tablas y gráficos redundantesque, antes que claridad, crean confusión.Además la elección de determinada tabla o gráfico para mostrar los resultados, debe hacerse no sólo enfunción de las variables que relaciona, sino del lector a quien va dirigido el informe.2.10 EL ANÁLISISLa técnica estadística ofrece métodos y procedimientos objetivos que convierten las especulaciones deprimera mano en aseveraciones cuya confiabilidad puede ser evaluada y ofrecer una premisa medibleen la toma de una decisión.Es el análisis donde se cristaliza la investigación. Esta es la fase de la determinación de los parámetros yestadísticos muestrales para las estimaciones e inferencias respecto a la población, el ajuste de modelosy las pruebas de las hipótesis planteadas, con el fin de establecer y redactar las conclusiones definitivas.2.11 PUBLICACIÓNToda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros estudiosos del mismoproblema a quienes se les puede aportar información, conocimientos y otros puntos de vista acerca deél.3. Distribución de FrecuenciasDespués de recoger toda la información correspondiente a la investigación, es decir, al agotar todo eltrabajo de campo, nuestro escritorio se llena de un cúmulo de datos y cifras desordenadas los cuales, alser tomados como observaciones individuales, dicen muy poco sobre la población estudiada; es,entonces, tarea del investigador “hacer hablar las cifras”, comenzando por la clasificación y ordenación,consignando la información en tablas inteligibles que denominamos distribuciones de frecuencias.3.1 DISTRIBUCIÓN DE FRECUENCIAS SIMPLEPara una mayor sencillez, en la exposición del tema, nos valemos del siguiente ejemplo: Supongamosque en la fábrica de confecciones “La Hilacha”, ha estallado un conflicto laboral y sus cincuentaoperarias solicitan un aumento en el salario integral diario sopena de paralizar la fábrica.El Gerente-propietario recoge la información respecto a la variable salario diario de sus 50 operarias yla relaciona en la tabla No 1. 15
  • 16. ESTADÍSTICA ÁLVARO VALENCIA OROZCO Tabla No.1 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA)OBRER SALARI OBRER SALARI OBRER SALARI OBRER SALARI OBRER SALARI A O A O A O A O A O 1 52 11 54 21 55 31 56 41 52 2 54 12 51 22 55 32 53 42 57 3 55 13 54 23 52 33 57 43 56 4 54 14 55 24 55 34 54 44 51 5 53 15 54 25 53 35 53 45 58 6 56 16 56 26 57 36 50 46 55 7 54 17 52 27 54 37 55 47 53 8 58 18 54 28 55 38 52 48 54 9 51 19 53 29 53 39 53 49 53 10 54 20 55 30 55 40 54 50 56 Tabla No. 2 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA) SALARIO SALARIO SALARIO SALARIO SALARIO 52 54 55 56 52 54 51 55 53 57 55 54 52 57 56 54 55 55 54 51 53 54 53 53 58 56 56 57 50 55 54 52 54 55 53 58 54 55 52 54 51 53 53 53 53 54 55 55 54 56 Tabla No. 3 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA) SALARIO SALARIO SALARIO SALARIO SALARIO 50 53 54 55 56 51 53 54 55 56 51 53 54 55 56 51 53 54 55 56 52 53 54 55 56 52 53 54 55 57 52 53 54 55 57 52 53 54 55 57 52 54 54 55 58 53 54 54 55 58 16
  • 17. ESTADÍSTICA ÁLVARO VALENCIA OROZCO Tabla No. 4 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA) SALARIO CONTEO REPETICIÓN 50 I 1 51 III 3 52 IIIII 5 53 IIIIIIIII 9 54 IIIIIIIIIIII 12 55 IIIIIIIIII 10 56 IIIII 5 57 III 3 58 II 2 SUMA 50Como se puede observar, hay una gran diferencia entre los datos brutos de la tabla No.1 y elordenamiento y agrupamiento de la tabla No. 4. ..Con el fin de obtener una mejor tabla interpretativa, introduciremos la siguiente simbología:n: El tamaño de la muestra, es el número de observaciones.xi: La variable; es cada uno de los diferentes valores que se han observado. La variable xi, toma los x1,x2... xm valores.fi: La frecuencia absoluta o simplemente frecuencia, es el número de veces que se repite la variable xi;así f1, es el número de veces que se repite la observación x1, f2 el número de veces que se repite laobservación x2, etc.fa: La frecuencia absoluta acumulada, se obtiene acumulando la frecuencia absoluta.fr: La frecuencia relativa; es el resultado de dividir cada una de las frecuencias absolutas por el tamañode la muestra.fra: Frecuencia relativa acumulada; se obtiene dividiendo la frecuencia acumulada entre el tamaño de lamuestra. .Veamos el ejemplo que venimos trabajando: Tabla No. 5 DISTRIBUCIÓN DE FRECUENCIAS DEL SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA) SALARIO FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA Xi ABSOLUTA ABSOLUTA RELATIVA RELATIVA fi ACUMULADA fr ACUMULADA fa fra 50 1 1 1/50=0.02 1/50=0.02 51 3 4 3/50=0.06 4/50=0.08 52 5 9 5/50=0.10 9/50=0.18 53 9 18 9/50=0.18 18/50=0.36 54 12 30 12/50=0.24 30/50=0.60 55 10 40 10/50=0.20 40/50=0.80 56 5 45 5/50=0.10 45/50=0.90 17
  • 18. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 57 3 48 3/50=0.06 48/50=0.96 58 2 50 2/50=0.04 50/50=1.00 SUMAS 50 1.00En la práctica, cuando se tiene confianza en el ordenamiento, no son necesarias tantas tablas; se puedepasar de la tabla No 1 directamente a la tabla No 6. Tabla No. 6 DISTRIBUCIÓN DE FRECUENCIAS DEL SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA) SALARIO FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA Xi ABSOLUTA ABSOLUTA RELATIVA RELATIVA fi ACUMULADA fr ACUMULADA fa fra 50 1 1 0.02 0.02 51 3 4 0.06 0.08 52 5 9 0.10 0.18 53 9 18 0.18 0.36 54 12 30 0.24 0.60 55 10 40 0.20 0.80 56 5 45 0.10 0.90 57 3 48 0.06 0.96 58 2 50 0.04 1.00 SUMAS 50 1.00Analizando las columnas porcentuales fr y fra se obtienen, entre otras las siguientes conclusiones: Sólo el 4% de las obreras gana el máximo salario/día de la fábrica, el cual corresponde a $58.000.00 El salario diario mínimo ($50.000.00) lo gana únicamente una obrera, lo que constituye el 2% del personal asalariado. El 62% de las operarias tiene un salario diario entre $53.000.00 y $55.000.00 El 60% de las obreras tiene un salario/día de $54.000.00 o menos. El 64% tiene un ingreso diario de $54.000.00 o más.CUESTIONARIO Y EJERCICIOS PROPUESTOS1. ¿Qué es frecuencia absoluta?2. Cómo se obtiene:2.1 ¿La frecuencia acumulada?2.2 ¿La frecuencia relativa?2.3 ¿La frecuencia relativa acumulada3. En una distribución de frecuencias ¿se pueden establecer conclusiones porcentuales, utilizandosolamente la frecuencia relativa? ¿Por qué?4. La siguiente tabla relaciona las ausencias al trabajo de 50 obreras, durante el mes de octubre, en lafábrica de confecciones "la hilacha". 1 0 2 1 3 1 4 3 2 5 3 2 4 2 0 3 1 2 0 2 1 1 0 1 0 0 1 2 1 3 4 0 2 3 2 0 0 2 5 2 2 4 2 1 3 1 2 1 0 2 18
  • 19. ESTADÍSTICA ÁLVARO VALENCIA OROZCO4.1 Construir una distribución de frecuencias simple.4.2 Sacar 3 conclusiones.5. Años de experiencia de las 50 operarias de la fábrica de confecciones "la hilacha" 4 6 5 6 4 6 5 5 6 5 5 5 8 8 8 6 9 6 5 7 7 9 3 2 7 4 5 7 7 3 6 7 7 7 8 3 6 6 7 6 4 6 8 5 6 6 7 5 7 4Ordenar la Información y responder:5.1 ¿Qué porcentaje de las obreras tiene experiencia inferior o igual a 6 años?5.2 ¿Qué porcentaje tiene experiencia entre 5 y 7 años (incluyendo los extremos)?3.2 DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOSUsualmente los valores de los datos no permiten un agrupamiento de ellos en una tabla de frecuenciassimple, debido a que se encuentran distribuidos a través de todo el recorrido y el número de veces quese repite cada observación no es significativo en todos los casos, y en la mayoría de ellos su frecuenciaes baja. Una tabla de frecuencias construida en estas condiciones, no presenta ninguna utilidad.Ilustraremos el caso a través de un ejemplo, para ello, supongamos que la fábrica de baldosas ”De lascasas”, con el objeto de ofrecer una garantía de su producto, desea hacer un estudio técnico de suproducción, para lo cual extrae una muestra de 100 baldosas, cada una de las cuales se somete a unaprueba de resistencia, destructiva cuyos datos expresados en Kg/cm2, se relacionan a continuación: Tabla No 7 REISTENCIA EN KG/CM² DE 100 BALDOSAS DE LA FÁBRICA “DE LAS CASAS” 478 391 655 621 498 469 223 183 323 321 339 487 436 223 720 369 449 345 360 472 666 540 422 418 122 736 477 479 383 575 313 458 569 487 253 310 392 321 282 559 415 694 610 634 433 648 448 463 161 259 210 239 504 282 351 521 537 517 452 578 419 644 683 460 135 763 533 591 367 337 425 291 478 470 450 444 368 592 359 444 425 480 398 542 439 361 746 586 555 251 420 459 495 780 308 370 437 531 549 527La clasificación en una distribución de frecuencias simple daría como resultante un ordenamiento depor lo menos 80 items; la mayoría de ellos con frecuencia unitaria.Se hace necesario el agrupamiento en intervalos o clases que haga más compacta, manejable ypresentable la información.El número de clases y la amplitud de los intervalos los fija el investigador de acuerdo con elconocimiento que posea de la población, la necesidad de hacer comparación con otras investigaciones yla presentación de la información. Sin embargo, se recomienda que la información no sea demasiadocompacta, lo cual le restaría precisión, ni demasiado dispersa, ya que no se tendría claridad. 19
  • 20. ESTADÍSTICA ÁLVARO VALENCIA OROZCOEn términos generales, es usual que el número de intervalos no sea inferior a 5 ni superior a 15. Sturgespropone que el número de clases o intervalos sea determinado por la expresión m = 1 + 3.3log(n).*La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe trabajar con clasesabiertas.3.3 REGLAS EMPÍRICAS PARA LA CONSTRUCCIÓN DE INTERVALOSCuando no se tiene experiencia en el manejo de la información es aconsejable seguir los pasos que sedan a continuación:3.3.1 Determinar los datos de mayor y menor valor Xmax, Xmin.3.3.2 Calcular el rango o recorrido (R). R = Xmáx – Xmín3.3.3 Determinar el número de intervalos (m) y la amplitud de clase (A): m = 1 + 3.3 log(n), debe Rtenerse presente que m es un número natural. Luego se busca la amplitud A: A m3.3.4 Calcular el rango ampliado: Ra m. A3.3.5 Establecer la diferencia a Ra R , es decir la cantidad en que ha sido alterado el recorrido, lacual no debe ser superior a la amplitud.(“ a ”) También puede ser definida como la cantidad positiva más pequeña que le hace falta al rango orecorrido para ser divisible exactamente por la amplitud.3.3.6 Distribuir adecuadamente la cantidad “ a ” de la siguiente manera: aAl valor Xmin se le resta aproximadamente (es un poco más) y la parte restante se le suma a Xmax, 2obteniendo el límite inferior del primer intervalo y el límite superior del último, respectivamente. aXmín LIPI (Límite inferior del primer intervalo) 2 aXmáx LSUI (Límite superior del último intervalo) 23.3.7 Construir los intervalos, calcular los puntos medios o marcas de clase y hacer el agrupamiento defrecuencias.Con el fin de prever dobles conteos, quien clasifica deberá especificar si los intervalos son abiertosa la derecha o abiertos a la izquierda, en estas notas, trabajaremos con intervalos abiertos a laderecha; es decir, del tipo a X b , donde el límite superior no está incluido dentro de la clase.Retomemos el ejercicio de la Tabla No. 7 y construyamos una distribución de frecuencia por intervalos.1. Valores máximo y mínimo: Xmáx 780 y Xmín 1222. Rango: R 780 122 6583. Número de intervalos:m 1 3.3 log n 1 3.3 log100 1 3.3 * 2 7.6No es lógico tener 7.6 intervalos, por lo tanto se procede a aproximar el número de intervalos a un R 658número natural cercano, luego m=7, y busquemos la amplitud A A 94 m, 7 20
  • 21. ESTADÍSTICA ÁLVARO VALENCIA OROZCOYa determinado el número de clases en m=7 encontramos que la amplitud debe ser mayor que 94.Fijémosla, entonces, en A = 100, que hace más manejable y presentable la tabla con la información.4. Rango ampliado: Ra 7 * 100 700Hemos alterado el rango original R 658 , cambiándolo por el rango ampliado Ra 700 . Ladiferencia está representada por a Ra R o sea a 700 658 425. Tenemos por tanto, que distribuir adecuadamente la diferencia entre los rangos aXmín LIPI ; 122 22 100 LIPI 2 aXmáx LSUI ; 780 20 800 LSUI 2Como se dijo antes, no estamos hablando de restar o sumar estrictamente sino una cantidadaproximada que brinde una buena presentación.Construcción de los intervalos. Tabla No. 8 CONSTRUCCIÓN DE LOS INTERVALOS PARA LA RESISTENCIA DE LAS BALDOSAS Intervalos Marcas de clase Xi 100 – 200 150 200 – 300 250 300 – 400 350 400 – 500 450 500 – 600 550 600 – 700 650 700 - 800 750Se puede desde luego, proceder a agrupar la información en los respectivos intervalos, haciendo lasalvedad de que ninguno de los límites superiores de clase son considerados dentro de los intervalos. Tabla No 9DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS DE LA RESISTENCIA DE 100 BALDOSAS DE LA FÁBRICA “DE LAS CASAS” KG/CM² Xi fi fa fr fra 100 – 200 150 4 4 0.04 0.04 200 – 300 250 10 14 0.10 0.14 300 – 400 350 21 35 0.21 0.35 400 – 500 450 33 68 0.33 0.68 500 – 600 550 18 86 0.18 0.86 600 – 700 650 9 95 0.09 0.95 700 - 800 750 5 100 0.05 1.00 SUMAS 100 1.00Conclusiones: El 72% de las baldosas tiene una resistencia entre 300 y 600 Kg/cm² El 86% de las baldosas resiste menos de 600Kg/cm². Sólo el 5% resiste 700 o más Kg/cm².CUESTIONARIO Y EJERCICIOS PROPUESTOS1. ¿Por qué se recurre al agrupamiento en distribuciones de frecuencias por intervalos?2. ¿Cómo se determina el número de intervalos y la amplitud de ellos? 21
  • 22. ESTADÍSTICA ÁLVARO VALENCIA OROZCO3. ¿Qué es una marca de clase?4. La siguiente tabla presenta el consumo de agua, en m³, de 184 familias en un barrio residencial deuna ciudad durante el mes de octubre 4 8 8 13 15 20 10 19 9 18 17 16 16 29 17 23 3 17 25 10 18 29 6 23 11 23 10 21 21 6 22 18 13 23 12 23 17 22 18 27 27 17 13 13 10 31 11 26 22 5 5 18 16 13 30 23 2 26 17 15 21 14 29 18 20 9 10 21 9 30 13 18 34 17 4 29 16 12 23 8 26 8 28 8 16 29 18 2 17 13 21 13 16 26 18 9 18 13 12 21 27 21 9 26 24 8 10 16 33 21 14 16 19 17 17 24 5 20 14 16 12 12 5 13 17 7 12 14 1 16 25 20 14 20 14 6 9 13 22 10 6 21 20 5 20 28 17 21 4 33 12 25 9 17 14 20 10 25 12 32 15 25 16 22 13 15 25 2 9 24 25 12 15 22 17 7 24 15 24 11 22 10 21 14Construir una distribución de frecuencias por intervalos.4.1 Asumiendo el número de intervalos m = 84.2 Asumiendo el número de intervalos m = 94.3 Comparar las dos distribuciones y las conclusiones que de ellas se deriven.4. REPRESENTACIÓN GRÁFICAA pesar de la gran ayuda que prestan las tablas y cuadros con información organizada, no todos lospúblicos alcanzan a comprenderla o no disponen del tiempo suficiente para analizarla.Es por ello que la mayoría de los investigadores acostumbran a reforzar la descripción a través dedibujos, generalmente con formas geométricas, que ayudan a visualizar el comportamiento de lasvariables tratadas.4.1 DEFINICIÓNUna gráfica o diagrama es un dibujo complementario a una tabla o cuadro, que permite observar lastendencias de un fenómeno en estudio y facilita el análisis estadístico de las variables allí relacionadas.4.2 COMPONENTES DE UNA GRÁFICAUna gráfica, al igual que un cuadro o una tabla, debe constar de:4.2.1 Título adecuado: El cual debe ser claro y conciso, que responda a las preguntas: Qué relaciona,cuándo y dónde se hicieron las observaciones.4.2.2 El cuerpo: o gráfico en sí, cuya elección debe considerar el o los tipos variables a relacionar, elpúblico a quien va dirigido y el diseño artístico del gráfico.4.2.3 Notas de pie de gráfico: Donde se presentan aclaraciones respecto al gráfico, las escalas de losejes, o se otorgan los créditos a las fuentes respectivas.Es de anotar que por medio de gráficos tendenciosos se pueden deformar o resaltar situaciones oestados, que presentados en un gráfico apropiado, mostrarían un comportamiento normal. 22
  • 23. ESTADÍSTICA ÁLVARO VALENCIA OROZCO4.3 PRINCIPALES TIPOS DE GRÁFICOSExiste una gran cantidad de gráficos para la representación de datos estadísticos, ya que de ellosdepende el diseño artístico de quien los elabora, así como de su imaginación al combinar varios tipos deellos, como forma de presentar una información.Entre los gráficos más comunes tenemos:4.3.1 Gráfico de Líneas: Usado básicamente para mostrar el comportamiento de una variablecuantitativa a través del tiempo. El gráfico de líneas consiste en segmentos rectilíneos unidos entre sí,los cuales resaltan las variaciones de la variable por unidad de tiempo. Para su construcción ha deprocederse de la siguiente manera: en el eje de las ordenadas se marcan los puntos de acuerdo con laescala que se esté utilizando. En el caso de una escala aritmética, distancias iguales en el eje,representan distancias iguales en la variable. Variación de La Inflación en Colombia 1995-2000 1995 1996 1997 1998 1999 2000 19.46 21.63 17.68 16.7 9.23 7.81 Gráfico No. 1 Variación de La Inflación en Colombia 1995-2000 25 20 PORCENTAJES 15 10 5 0 1994 1995 1996 1997 1998 1999 2000 2001 AÑOSEl eje de la variable X se divide en unidades de tiempo iguales, teniendo presente el número de ítemsque ha de presentarse, así como la longitud del eje. Es de anotar la conveniencia de mostrar lainterrupción y acercamiento del eje a su origen cuando esto haya ocurrido.4.3.2 Gráfico de Líneas Compuesto: Cuando se tienen varias variables a representar, con el fin deestablecer comparaciones entre ellas (siempre que su unidad de medida sea la misma); se utilizaplasmarlos en un sólo gráfico, el cual es el resultado de representar varias variables en un mismo plano. Variación de la Inflación y el Salario de la Hilacha 1995-2000 23
  • 24. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 1995 1996 1997 1998 1999 2000 19.46 21.63 17.68 16.7 9.23 7.81 15.00 20.00 15.00 15.00 7.00 5.00 Gráfico No. 2 Variación de la Inflación y el Salario de la Hilacha 1995-2000 25 20 PORCENTAJES 15 10 INFLACIÓN SALARIO 5 0 1994 1995 1996 1997 1998 1999 2000 2001 AÑOS4.3.3 Gráfico de Barras: El gráfico de barras, como su nombre lo indica, está constituido por barrasrectangulares de igual ancho, conservando la misma distancia de separación entre sí. Se utilizabásicamente para mostrar y comparar frecuencias de variables cualitativas o comportamientos en eltiempo, cuando el número de ítems es reducido. " GRÁFICO No 3 Años de experiencia de 50 Obreras en "La Hilacha" 14 12 10 OBRERAS 8 6 4 2 0 1 2 3 4 5 6 7 8 9 AÑOS DE EXPERIENCIA 24
  • 25. ESTADÍSTICA ÁLVARO VALENCIA OROZCOÉstos gráficos suelen ser de barras verticales, aunque se pueden utilizar de forma horizontal.4.3.4 Gráfico de Barras Compuesto Variación de la Inflación y el Salario de la Hilacha 1995-2000 1995 1996 1997 1998 1999 2000 19.46 21.63 17.68 16.7 9.23 7.81 15.00 20.00 15.00 15.00 7.00 5.00 Gráfico No 4 Variación de la Inflación y el Salario de la Hilacha 1995-2000 25 20 PORCENTAJE 15 10 INFLACIÓN SALARIO 5 0 1995 1996 1997 1998 1999 2000 AÑOS4.3.5 Gráfico de Sectores Circulares Usualmente llamado gráfico de pastel, debido a su formacaracterística de una circunferencia dividida en cascos, por medio de radios que dan la sensación de unpastel tajado en porciones.Se usa para representar variables cualitativas en porcentajes o cifras absolutas cuando el número deítems no es superior a 5 y se quiere resaltar uno de ellos. Para su construcción se procede de lasiguiente forma: La circunferencia tiene en su interior 360 grados, los cuales hacemos corresponder altotal de la información, es decir al 100%; luego, para determinar el número de grados correspondientea cada componente se multiplica el porcentaje respectivo por 360 y se divide por 100, los cuales semiden con la ayuda de un transportador para formar los casquetes de los diferentes ítems. 25
  • 26. ESTADÍSTICA ÁLVARO VALENCIA OROZCO Gráfico No 5 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA 58 50 51 57 52 56 53 55 544.3.6 Histograma de Frecuencias: Para la construcción de un histograma de frecuencias de fácilinterpretación y que no falsee la información, debe disponerse de una distribución de frecuencias porintervalos con amplitud igual para cada clase o intervalo. En el eje de las abscisas procedemos arepresentar los intervalos de la variable, y en el eje de las ordenadas las frecuencias de cada clase.El histograma se construye dibujando barras contiguas que tienen como base la amplitud de cadaintervalo y como alturas las frecuencias respectivas. GRÁFICO No 6. Histograma de Frecuencias de la Resistencia de 100 baldosas 26
  • 27. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 35 30 25 FRECUENCIA 20 15 10 5 0 150 250 350 450 550 650 750 RESISTENCIA KG/CM²4.3.7 Polígono de Frecuencias GRÁFICO No 7. Polígono de Frecuencias de la resistencia de 100 baldosas 35 30 25 FRECUENCIA 20 15 10 5 0 50 150 250 350 450 550 650 750 850 RESISTENCIA KG/CM²Para la construcción de un polígono de frecuencias, se marcan los puntos medios de cada uno losintervalos en la parte superior de cada barra del histograma de frecuencias, los cuales se unen consegmentos de recta.4.3.8 Histograma de Frecuencias Acumuladas. El histograma de frecuencias acumuladas también es obtenido a partir de una distribución defrecuencias, tomando en el eje horizontal las clases de la variable, y en el eje vertical las frecuenciasacumuladas correspondientes a cada intervalo. GRÁFICO No 8. Histograma de Frecuencias acumuladas de la Resistencia de 100 baldosas 27
  • 28. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 120 100 80 FRECUENCIA 60 40 20 0 150 250 350 450 550 650 750 RESISTENCIA KG/CM² GRÁFICO No 9. Frecuencias acumuladas de la Resistencia de 100 baldosas Ojiva Creciente 120 100 FRECUENCIA 80 60 40 20 0 100 200 300 400 500 600 700 800 RESISTENCIA KG/CM² GRÁFICO No 10. Histograma de Frecuencias acumuladas de la Resistencia de 100 baldosas Ojiva Decreciente 28
  • 29. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 120 FRECUENCIA 100 80 60 40 20 0 100 200 300 400 500 600 700 800 RESISTENCIA KG/CM²CUESTIONARIO Y EJERCICIOS PROPUESTOS1. ¿Cuál es el objetivo de un gráfico?2. Describa los componentes de una gráfica.3. ¿Cuáles son las principales causas de distorsión de la información de un gráfico?5. Para el ejercicios 4 del capítulo 3, construir:5.1 Un histograma de frecuencias5.2 Un polígono de frecuencias.5.3 Un histograma de frecuencias acumuladas5.4 Un polígono de frecuencias acumuladas5. MEDIDAS DE TENDENCIA CENTRALEn los capítulos anteriores, nos referimos a la clasificación, ordenación y presentación de datosestadísticos, limitando el análisis de la información a la interpretación porcentual de las distribucionesde frecuencia.El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros sobre los cuales puedarecaer la representación de toda la información.Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de lainformación, son de gran importancia en el manejo de las técnicas estadísticas, sin embargo, suinterpretación no debe hacerse aisladamente de las medidas de dispersión, ya que la representatividadde ellas está asociada con el grado de concentración de la información.Las principales medidas de tendencia central son:5.1 Media aritmética.5.2 Mediana5.3 Moda.5.1 MEDIA ARITMÉTICACotidiana e inconscientemente estamos utilizando la media aritmética. Cuando por ejemplo, decimosque un determinado fumador consume una cajetilla de cigarrillos diaria, no aseguramos quediariamente deba consumir exactamente los 20 cigarrillos que contiene un paquete sino que es elresultado de la observación, es decir, dicho sujeto puede consumir 18, un día; 19 otro; 20, 21, 22; perosegún nuestro criterio, el número de unidades estará alrededor de 20. 29
  • 30. ESTADÍSTICA ÁLVARO VALENCIA OROZCOMatemáticamente, la media aritmética se define como la suma de los valores observados dividida entreel número de observaciones. n xi x1 x2 x3 ... x n 1 X n nX : Media aritmética de la variable Xx i : Valores de la variable Xn : Número de observaciones : Signo de sumatoria, indica que se debe sumarEjemplo: Cantidad de cigarrillos consumidos por un fumador en una semana.Lunes: 18Martes: 21Miércoles: 22Jueves: 21Viernes: 20Sábado: 19Domingo: 19Entonces la media aritmética es: n xi x1 x2 x3 ... x n 1 X n n 18 21 22 21 20 19 19 140 X 20 7 7El fumador consume en promedio 20 cigarrillos diarios.Cuando la variable está agrupada en una distribución de frecuencias, la media aritmética se calcula porla fórmula: m xi f i x1 f1 x2 f 2 x3 f 3 ... x m f m 1 X n nEjemplo 1: Cantidad de Cigarrillos Consumidos por un Fumador en una Semana Dada CANTIDAD FRECUENCIA Xi Fi 18 1 19 2 20 1 21 2 22 1 18(1) 19(2) 20(1) 21(2) 22(1) 18 38 20 42 22 140 X 20 7 7 7 30
  • 31. ESTADÍSTICA ÁLVARO VALENCIA OROZCOEjemplo 2: Calculo de La Media Aritmética. El Salario/día de 50 Operarias SALARIO FRECUENCIA Xi ABSOLUTA Xifi fi 50 1 50 51 3 153 52 5 260 53 9 477 54 12 648 55 10 550 56 5 280 57 3 171 58 2 116 SUMAS 50 2705 9 xi f i 1 2705 X 54.1 50 50Es decir que, el salario promedio diario de las operarias en la fábrica de confecciones “La hilacha” es de$54100 pesos/día.Si la información está relacionada en una distribución de frecuencias por intervalos, se toman comovalores de la variable las marcas de clase de los intervalos, entiéndase por marca de clase el puntomedio entre los límites de cada clase o intervalo.Ejemplo 3: Cálculo de La Media Aritmética de la Resistencia de 100 Baldosas KG/CM² Xi fi Xifi 100 – 200 150 4 600 200 – 300 250 10 2500 300 – 400 350 21 7350 400 – 500 450 33 14850 500 – 600 550 18 9900 600 – 700 650 9 5850 700 - 800 750 5 3750 SUMAS 100 44800 7 xi f i 1 44800 X 448 100 100La resistencia promedio de las 100 baldosas es de 448 Kg/Cm².5.1.1 Propiedades de la Media Aritmética5.1.1.1 La suma de las diferencias de los datos con respecto a la media aritmética es igual cero.5.1.1.2 La suma de las diferencias cuadráticas de los datos, con respecto a la Media Aritmética, esmínima. 31
  • 32. ESTADÍSTICA ÁLVARO VALENCIA OROZCOQuiere decir esta propiedad que cualquier otro parámetro p, diferente a la media aritmética hace mayorla expresión5.1.1.3 Si a cada uno de los resultados le sumamos o le restamos una constante C , la Media Aritméticaqueda alterada en esa constante.5.1.1.4 Si cada uno de los datos se multiplica por una constante k, entonces la media aritmética quedamultiplicada por esa constante.5.1.2 Media Aritmética PonderadaHemos visto que la Media Aritmética se calcula con base a la magnitud de los datos, otorgándole igualimportancia a cada uno de ellos. Sin embargo en muchas ocasiones la magnitud del dato esta ponderadacon un determinado peso que lo afecta relativamente.La Media Aritmética ponderada tiene en cuenta la importancia relativa de cada uno de los datos, para locual la definimos con la siguiente expresión: n xi wi 1 XW n wi 1DondeX w : Media aritmética ponderadaX i : Valor de la variable Xwi : Ponderación del ítem xiEjemplo 1:Las calificaciones de un estudiante están conformadas por los siguientes factores:Un examen cuyo valor es 40% en el cual obtuvo una nota de 4.5, un trabajo de consulta conponderación del 10% y calificación de 1.0, una exposición equivalente al 15% con nota de 2.0, y porúltimo una investigación con valor del 35% calificada con 3.5.Entonces la nota definitiva es: n xi wi 1 4.5(0.40) 1.0(0.10) 2.0(0.15) 3.5(0.35) 1.8 0.1 0.3 1.225XW n 3,425 0.40 0.10 0.15 0.35 1 wi 1......5.2 LA MEDIANAOtra medida de tendencia central, utilizada principalmente en estadística no paramétrica, es lamediana, la cual no se basa en la magnitud de los datos, como la media aritmética, sino en la posicióncentral que ocupa en el orden de su magnitud, dividiendo la información en dos partes iguales, dejandoigual número de datos por encima y por debajo de ella.5.2.1 La Mediana Cuando los datos no están Agrupados en Intervalos.Partiendo de la información bruta, ordenamos los datos ascendente o descendentemente:x1 , x 2 , x3 ,....., xi ,....., x n se defineMediana = Me x n 1 , si n es impar ó 2 32
  • 33. ESTADÍSTICA ÁLVARO VALENCIA OROZCO x n x n 1 2 2Mediana = Me , si n es par 2En el ejercicio de los cigarrillos, consumidos por un fumador tenemos lunes 18, martes 21, miércoles22, jueves 21, viernes 20, sábado 19, y domingo 19.Ordenando ascendentemente: x1=18, x2=19, x3=19, x4=20, x5=21, x6=21, x7=22Como n, es impar, entonces Me x n 1 x 7 1 x4 20 2 2Veamos cuando n es par:.Consumo mensual de agua, en m3, por la fábrica de confecciones “la hilacha”.Enero= 10,. Febrero= 12, Marzo= 15, Abril= 18, Mayo= 14, .Junio= 19, Julio= 17, Agosto= 18,Septiembre= 18, , Octubre= 22, , Noviembre= 15, , Diciembre= 13x1=10, x2=12, x3=13, x4=14, x5=15, x6=15, x7=17, x8=18, x9=18, x10=18, x11=19, x12=22 x n x n x 12 x 12 1 1 2 2 2 2 x6 x7 15 17Mediana = Me 16 2 2 2 2Como se puede observar, en este caso la mediana no es un dato perteneciente a la información, es unparámetro que divide la información dejando el 50% por encima y el 50% por debajo de ella.5.2.2 La Mediana Cuando la Información se Encuentra Agrupada en IntervalosSi la información esta agrupada en intervalos iguales, entonces la mediana se calcula según la siguienteexpresión: n fa i 1Me LI 2 A fiMe: MedianaLI: Límite inferior del intervalo donde se encuentra la mediana (intervalo mediano), el cual sedetermina observando en que clase se encuentra la posición n/2.)n: Número de observaciones fa i 1 : Frecuencia acumulada anterior al intervalo medianof i : Frecuencia del intervalo medianoA: Amplitud del intervaloEjemplo 1: Resistencia de 100 Baldosas de la Fábrica “De Las Casas” KG/CM² Xi fi fa 100 – 200 150 4 4 200 – 300 250 10 14 300 – 400 350 21 35 400 – 500 450 33 68 Intervalo mediano 500 – 600 550 18 86 600 – 700 650 9 95 700 - 800 750 5 100 SUMAS 100En la columna de frecuencia acumulada advertimos que la observación número 50 se halla en el cuarto(4) intervalo. 33
  • 34. ESTADÍSTICA ÁLVARO VALENCIA OROZCO n 100 fa i 1 35 2 2 15Me LI A 400 .100 400 .100 400 45.45 445.45 fi 33 33Se concluye que el 50% de las baldosas resiste menos de 445.45 Kg/Cm² y el 50% resiste más de445.45 Kg/Cm².......5.3 LA MODALa moda, como su nombre lo indica, es el valor más común (de mayor frecuencia) dentro de unadistribución. Una información puede tener una moda y se llama unimodal, dos modas y se llamabimodal, o varias modas y llamarse multimodal. Sin embargo puede ocurrir que la información noposea moda.5.3.1 La Moda Cuando los datos no están Agrupados en Intervalos Salario de 50 Operarias de la Fabrica de Confecciones "La Hilacha" SALARIO FRECUENCIA Xi ABSOLUTA fi 50 1 51 3 52 5 53 9 54 12 55 10 56 5 57 3 58 2 SUMAS 50El valor que más veces se repite es 54 con una frecuencia de 12, entonces decimos que la moda es Mo =54.000.00 pesos diarios.. Cantidad de Cigarrillos Consumidos por un Fumador en una Semana Dada CANTIDAD FRECUENCIA Xi Fi 18 1 19 2 20 1 21 2 22 1Los valores de mayor frecuencia corresponden a 19 y 21, por lo tanto se trata de una distribuciónbimodal con Mo1=19 y Mo2=215.3.2 Cálculo de la Moda Cuando la Información está Agrupada en IntervalosCuando la información se encuentra agrupada en intervalos de igual tamaño la moda se calcula con lasiguiente expresión. fm fm 1Mo LI A , donde: 2 fm fm 1 fm 1Mo: Moda 34
  • 35. ESTADÍSTICA ÁLVARO VALENCIA OROZCOLI: Límite inferior del intervalo modalfm: Frecuencia de la clase modalf(m-1) : Frecuencia de la clase premodalf(m+1) : Frecuencia de la clase posmodalA : Amplitud de los intervalosEjemplo: Resistencia de 100 Baldosas de la Fábrica “De Las Casas” KG/CM² Xi fi 100 – 200 150 4 200 – 300 250 10 300 – 400 350 21 Clase premodal 400 – 500 450 33 Clase modal 500 – 600 550 18 Clase posmodal 600 – 700 650 9 700 - 800 750 5 SUMAS 100 fm fm 1 33 21 12Mo LI A 400 *100 400 444,44 Kg/cm² 2 fm fm 1 fm 1 2(33) 21 18 27A pesar que el valor 444.44 no es un dato real de la información asumimos ese parámetro como el demayor ocurrencia.CUESTIONARIO Y EJERCICIOS PROPUESTOS1. ¿Qué es una medida de tendencia central?2. ¿Cuáles son las principales medidas de tendencia central?3. Defina: media aritmética mediana y moda.4. ¿Cuándo se utiliza la media aritmética ponderada?5. Enuncie las propiedades de la media aritmética6. Para cada información de los ejercicios del capítulo 3, calcular e interpretar la media aritmética, lamediana y la moda.7. La tripulación de un avión, en su itinerario compra los siguientes galones de gasolina: Ciudad X 200galones a 4000 pesos el galón, Ciudad Y 250 galones a 3500 pesos el galón, Ciudad Z 300 galones a 3000pesos el galón. ¿Cuál es el costo promedio de la gasolina comprada?6. MEDIDAS DE POSICIÓN (PERCENTILES)En el Capitulo anterior, vimos lo referente a las medidas de tendencia central, las cuales, a su vez, sontambién medidas de posición ya que, de todas maneras ocupan un lugar dentro de la información.Nos ocuparemos ahora de ciertos parámetros posicionales muy útiles en la interpretación porcentualde la información.6.1 CUARTILESLas cuartillas o cuartiles son valores posicionales que dividen la información en cuatro partes iguales, elprimer cuartil deja el 25% de la información por debajo de él, y el 75% por encima, el segundo cuartil,al igual que la mediana, divide la información en dos partes iguales, y por último el tercer cuartil deja el75% por debajo de sí, y el 25% por encima. 35
  • 36. ESTADÍSTICA ÁLVARO VALENCIA OROZCOSe necesita, entonces calcular tres cuartillas ya que la cuarta queda automáticamente determinada. kn fa i 1Qk LI 4 A k 1,2,3 , donde: fik : Oden del cuartil k = 1,2,3LI:.Límite inferior del intervalo que contiene el cuartilfa(i-1): Frecuencia acumulada hasta el intervalo anterior al que contiene el cuartilfi : Frecuencia del intervalo que contiene el cuartiln : Número de observacionesA : Amplitud de los intervalosEjemplo: Resistencia de 100 Baldosas de la Fábrica “De Las Casas” KG/CM² Xi fi fa 100 – 200 150 4 4 200 – 300 250 10 14 300 – 400 350 21 35 Contiene a Q1 400 – 500 450 33 68 Contiene a Q2 500 – 600 550 18 86 Contiene a Q3 600 – 700 650 9 95 700 - 800 750 5 100 SUMAS 100 kn 1(100)Primer cuartil: k 1 25 , posición que debe ser ubicada en la frecuencia 4 4acumulada, para determinar que clase contiene este cuartil. kn 1(100) fa i 1 14Qk LI 4 A Q1 300 4 *100 352,38 Kg/Cm² fi 21El 25% de las baldosas resiste menos de 352.38 Kg/Cm² y el 75% tiene una resistencia superior.Como el segundo cuartil es lo mismo que la mediana: Me=Q2=445.45Kg/Cm²Calculemos la tercera cuartilla k=3. kn 3(100) fa i 1 68. Qk LI 4 A Q1 500 4 *100 538,88 Kg/Cm² fi 18El 75% de las baldosas tiene una resistencia inferior a 538.88 Kg/Cm² y el 25% una resistenciasuperior.6.2 QUINTILESLos quintiles o quintillas dividen la información en cinco partes iguales, agrupándolas en porcentajes de20, 40, 60, y 80 por ciento, en consecuencia debemos calcular cuatro parámetros: kn fa i 1Qk LI 5 A k 1,2,3,4 fiCalculemos por ejemplo la segunda quintilla para el ejercicio que traemos: 36
  • 37. ESTADÍSTICA ÁLVARO VALENCIA OROZCO kn 2(100) fa i 1 35k=2, Qk LI 5 A Q1 400 5 *100 415,15 Kg/cm² fi 33El 40% de las baldosas resiste menos de 415.15kg/cm2 y el 60% resiste más.6.3 DECILESSimilarmente, los deciles o decillas dividen la información en diez partes iguales, en cantidadesporcentuales de 10 en 10. kn fa i 1Dk LI 10 A k 1,2,3,4,....., 9 fi6.4 CENTILESObviamente los centiles dividen la información en 100 partes, lo cual facilita la interpretaciónporcentual de una distribución de frecuencias. kn fa i 1Ck LI 100 A k 1,2,3,4,....., 99 fi6.5 RESUMENEn general para calcular cualquier percentil: kn fa i 1Qk LI r A , donde: fir: Número de partes en que se divide la informaciónk: Orden del percentil k = 1,2,.....,r-1LI: Límite inferior del intervalo que contiene el percentilfa(i-1): Frecuencia acumulada hasta el intervalo anterior al que contiene el percentilfi: Frecuencia del intervalo que contiene el percentiln: Número de observacionesA: Amplitud de los intervalosEn nuestro ejercicio, si el gerente de la fábrica de baldosas desea ofrecer un garantía de resistenciamínima. Basado en la muestra que se ha obtenido, si no quiere remplazar ninguna pieza, lógicamentedebe afirmar que el producto resiste 100 o más Kg/Cm². Pero si está dispuesto a reemplazar el 5% desu producción, entonces: kn 5(100)r 100, k 5, n 100, A 100, 5, LI 200 r 100 kn fa i 1 r 5 4Qk LI A Q5 200 *100 200 10 210 Kg/cm² fi 10Se debe dar una garantía de 210kg/cm² de resistencia mínima.CUESTIONARIO Y EJERCICIOS PROPUESTOS1. ¿Para qué se utilizan los percentiles?2. ¿En cuántas partes se divide la información con:2.1 Los cuartiles2.2 Los quintiles 37
  • 38. ESTADÍSTICA ÁLVARO VALENCIA OROZCO2.3 Los deciles2.4 Los centiles3. Para la información del ejercicio 4 de la sección 3.2 calcular e interpretar;3.1 La primera y tercera cuartilla3.2 El segundo y cuarto quintil3.3 ¿Qué porcentaje hay entre la primera y tercera quintilla?3.4 ¿Qué porcentaje hay entre la primera cuartilla y la segunda quintilla?3.5 ¿Qué porcentaje hay entre la tercera cuartilla y el noveno decil?......7. MEDIDAS DE DISPERSIÓNEn el análisis estadístico no basta el cálculo e interpretación de las medidas de tendencia central o deposición, ya que, por ejemplo, cuando pretendemos representar toda una información con la mediaaritmética, no estamos siendo absolutamente fieles a la realidad, pues suelen existir datos extremosinferiores y superiores a la media aritmética, los cuales, en honor a la verdad, no están siendo bienrepresentados por este parámetro.En dos informaciones con igual media aritmética, no significa este hecho, que las distribuciones seanexactamente iguales, por lo tanto, debemos analizar el grado de homogeneidad entre sus datos. Porejemplo, los valores 5, 50, 95 tiene igual media aritmética, y mediana que los valores 49, 50,51; sinembargo, para la primera información la media aritmética, se encuentra muy alejada de los valoresextremos 5 y 95, cosa que no ocurre con la segunda información que posee igual media aritmética ymediana, vemos entonces que la primera información es mas heterogénea o dispersa que la segunda.Para medir el grado de dispersión de una variable, se utilizan principalmente los siguientesindicadores:7.1 Rango o recorrido7.2 Desviación media7.3 Varianza y desviación típica o estándar7.4 Coeficiente de variabilidad.7.1 RANGO O RECORRIDOEs la medida de dispersión más sencilla ya que solo considera los dos valores extremos de unacolección de datos, sin embargo, su mayor utilización está en el campo de la estadística no paramétrica.R = X max – XminXmax, Xmin son el máximo y el mínimo valor de la variable X, respectivamente.En el ejemplo introductorio, vemos que el rango para la primera información es R1=95-5=90, mientrasque R2=51-49=2, se hace pues manifiesta la gran dispersión de la primera información contra lahomogeneidad de la segunda.7.2 DESVIACIÓN MEDIALa desviación media, mide la distancia absoluta promedio entre cada uno de los datos, y el parámetroque caracteriza la información. Usualmente se considera la desviación media con respecto a la mediaaritmética: m xi x * fi 1 DM , donde nDM : Desviación mediaxi : Diferentes valores de la variable xfi : Número de veces que se repite la observación xi 38
  • 39. ESTADÍSTICA ÁLVARO VALENCIA OROZCOx : Media aritmética de la informaciónn : Tamaño de la muestra.m : Número de agrupamientos o intervalosEjemplo: Salario de 50 Operarias de la Fabrica de Confecciones “La Hilacha” SALARIO FRECUENCIA Xi ABSOLUTA xi x xi x * fi fi 50 1 4.1 4.1 51 3 3.1 9.3 52 5 2.1 10.5 53 9 1.1 9.9 54 12 0.1 1.2 55 10 0.9 9.0 56 5 1.9 9.5 57 3 2.9 8.7 58 2 3.9 7.8 SUMAS 50 70 m xi x * fi 1 70 DM 1.4 n 501.400 es el error promedio que se comete al remplazar los ingresos diarios de cada una de las 50obreras por 54.100 pesos.7.3 VARIANZAEl problema de los signos en la desviación media, es eludido tomando los valores absolutos de lasdiferencias de los datos con respecto a la media aritmética. Ahora bien, la varianza obvia los signoselevando las diferencias al cuadrado, lo cual resulta ser más elegante, aparte de que es supremamenteútil en el ajuste de modelos estadísticos que generalmente conllevan formas cuadráticas.La varianza es uno de los parámetros más importantes en estadística paramétrica, se puede decir que,teniendo conocimiento de la varianza de una población, se ha avanzado mucho en el conocimiento de lapoblación misma.Numéricamente definimos la varianza, como desviación cuadrática media de los datos con respecto a lamedia aritmética: m 2 xi x * fi S2 1 , donde: nS2 : VarianzaXi : Valor de la variable X x : Media aritmética de la informaciónfi : Frecuencia absoluta de la observación xin : Tamaño de la muestra.m : Número de agrupamientos o intervalos Salario/dia de 50 Operarias en la Fábrica de Confecciones “La Hilacha” (Miles de Pesos) SALARIO FRECUENCIA Xi ABSOLUTA Xifi 39
  • 40. ESTADÍSTICA ÁLVARO VALENCIA OROZCO fi xi x xi x 2 xi 2 x * fi 50 1 50 -4.1 16.81 16.81 51 3 153 -3.1 9.61 28.83 52 5 260 -2.1 4.41 22.05 53 9 477 -1.1 1.21 10.89 54 12 648 0.1 0.01 0.12 55 10 550 0.9 0.81 8.10 56 5 280 1.9 3.61 10.05 57 3 171 2.9 8.41 25.23 58 2 116 3.9 15.21 30.42 SUMAS 50 160.50 m 2 xi x * fi 160.50 S2 1 3.21 n 50Como los datos están expresados en miles de pesos y la varianza se encuentra en forma cuadráticaobtenemos una varianza de 3.210.000 pesos. Sin embargo para una mejor comprensión debemosrecurrir a la desviación típica o estándar (S) definida como la raíz cuadrada de la varianza: m 2 xi x * fi S S2 1 S 3,21 1,791 nEl error estándar es de 1.791 pesos/diarios.En el ejemplo de las baldosas: Resistencia de 100 Baldosas de La Fábrica “De Las Casas” KG/CM² Xi fi xifi x x x x 2 xi 2 x * fi i i100 y menos de 200 150 4 600 -298 88804 355216200 y menos de 300 250 10 2500 -198 39204 392040300 y menos de 400 350 21 7350 -98 9604 201684400 y menos de 500 450 33 14850 2 4 132500 y menos de 600 550 18 9900 102 10404 187272600 y menos de 700 650 9 5850 202 40804 367236700 y menos de 800 750 5 3750 302 91204 456020 SUMAS 100 44800 1959600 m 2 xi x * fi 1959600 S S2 1 S 19596 140 Kg/cm² n 100El error estándar es de 140 Kg/cm²7.4 COEFICIENTE DE VARIABILIDADGeneralmente interesa establecer comparaciones de la dispersión, entre diferentes muestras queposean distintas magnitudes o unidades de medida. 40
  • 41. ESTADÍSTICA ÁLVARO VALENCIA OROZCOEl coeficiente de variabilidad tiene en cuenta el valor de la media aritmética, para establecer un númerorelativo, que hace comparable el grado de dispersión entre dos o más variables, y se define como: S CV *100% xComparemos la homogeneidad de las dos informaciones anteriores, las cuales tienen diferente unidadde medida. 1791Para el salario: CVs *100% 3.3% 54.1 140Para la resistencia: CVR *100% 31.25% 448Concluimos que es mucho más dispersa la información correspondiente a la resistencia de las baldosas.CUESTIONARIO Y EJERCICIOS PROPUESTOS1. ¿Cuál es la utilidad de las medidas de dispersión?2. ¿Cuales son las principales medidas de dispersión?3. ¿Cuál es la medida adecuada para comparar la dispersión entre varias variables que posean diferentemagnitud o diferente unidad de medida?4. Para cada una de las informaciones de los ejercicios de los capítulos anteriores, calcular e interpretar:4.1 Rango4.2 Desviación media4.3 Coeficiente de variabilidad8. REGRESIÓN Y CORRELACIÓN LINEALHasta ahora hemos hecho la tabulación y el análisis para una sola variable. Pero los investigadores,además de analizar una información en forma individual, generalmente se interesan en establecercruces y buscar relaciones entre diferentes variables.8.1 TABLAS DE DOBLE ENTRADAPara la presentación bidimensional de las variables "X, Y" se procede de la siguiente manera: Se ordenan las variables "X, Y" respectivamente Se tabulan los valores X horizontalmente, y los valores Y verticalmente. Se buscan las frecuencias para cada par ordenado (xi, yj). Se suma horizontalmente para obtener las frecuencias de “Y” fyj, y verticalmente para obtener las frecuencias de “X” fxi .xi : Valores de la variable X, i=1,2,....myj : Valores de la variable Y, j=1,2,... kfxi : Frecuencia de la observación xifyj : Frecuencia de la observación yjfij : Frecuencia conjunta de los valores (xi, yj)faxi : Frecuencia acumulada de la variable “X”, en el item ifayj : Frecuencia acumulada de la variable “Y”, en el item jfrxi : Frecuencia relativa para la variable “X”, en el item ifryj : Frecuencia relativa para la variable “Y”, en el item jfraxi : Frecuencia relativa acumulada para la variable “X”frayj : Frecuencia relativa acumulada para la variable “Y”. Tabla de Doble Entrada para la Representación de dos Variables “X, Y” X X1 X2 … Xi … Xm Fyj Fayj Fryj Frayj Y 41
  • 42. ESTADÍSTICA ÁLVARO VALENCIA OROZCO Y1 F11 F21 … Fi1 … Fm1 Fy1 Fay1 Fry1 Fary1 Y2 F12 F22 … Fi1 … Fm2 Fy2 Fay2 Fry2 Fary2 . . . . . . . . . . . . . . . . . . . . . . yj F1j F2j … Fij … Fmj Fyj Fayj Fryj Frayj . . . . . . . . . . . . . . . . . . . . . . yk F1k F2k … Fik … Fmk Fyk n Fryk 1.00 fxi Fx1 Fx2 … Fxi … Fxm n 1.00Faxi Fax1 Fax2 … Faxi … nFrxi Frx1 Frx2 … Frxi … Frxm 1.00Fraxi Frax1 Frax2 … Fraxi … 1.00Como se puede advertir en la disposición de las frecuencias, la interpretación de la variable “Y”, puedehacerse analizando los relativos propios en forma horizontal, en tanto que el análisis de la variable “X”se hace en forma vertical.Ejemplo Experiencia Laboral y Salario Diario de 50 Obreras de la Fábrica De Confecciones “La Hilacha”. “X”: Experiencia en Años, “Y”: Salario Miles de Pesos X 2 3 4 5 6 7 8 9 Fyj Fayj Fryj Faryj Y 50 1 1 1 0.02 0.02 51 3 3 4 0.06 0.08 52 5 5 9 0.10 0.18 53 8 1 9 18 0.18 0.36 54 2 9 1 12 30 0.24 0.60 55 3 7 10 40 0.20 0.80 56 3 2 5 45 0.10 0.90 57 2 1 3 48 0.06 0.96 58 1 1 2 50 0.04 1.00 Fx1 1 3 5 10 13 11 5 2 50 1.00Faxi 1 4 9 19 32 43 48 50Frxi 0.02 0.06 0.10 0.20 0.26 0.22 0.10 0.04 1.00Farxi 0.02 0.08 0.18 0.38 0.64 0.86 0.96 1.00Analizando los relativos para cada una de las variables podemos sacar, entre otras, las siguientesconclusiones: El 64% tiene una experiencia igual o inferior a 6 años. El 68% tiene una experiencia entre 5 y 7 años incluyendo sus extremos. El 60% gana 54.000 pesos diarios o menos. El 62% gana entre 53.000 y 55.000 pesos incluyendo sus extremos.Las tablas de doble entrada también pueden usarse para variables cualitativas, o combinarse variablescualitativas con cuantitativas.Ejemplo: Estado Civil y Número de Hijos de 50 Obreras de la Fabrica “La Hilacha" X: Estado Civil, Y : Número De Hijos. X casada soltera Unión Viuda Fi Fa Fr Fra Y libre 42
  • 43. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 0 11 11 11 0.22 0.22 1 9 2 1 12 23 0.24 0.46 2 4 9 2 2 17 40 0.34 0.80 3 5 1 1 2 9 49 0.18 0.98 4 1 1 50 0.02 1.00 Total 10 30 5 5 50 1.00 % 0.20 0.60 0.10 0.10 1.00Realice la interpretación y análisis de esta tabla.8.2 CORRELACIÓNEn el análisis conjunto para dos o más variables es básica la búsqueda del tipo y grado de la relaciónque pueda existir entre ellas, o si por el contrario, las variables sean independientes entre sí y larelación que puedan mostrar se debe únicamente al azar, o a través de terceras variables.El sondeo del tipo y grado de la correlación, parte desde la misma presunción del investigador,teniendo presente que la búsqueda de relaciones entre variables debe ser lógica, es decir relacionar loque sea razonable y no datos cuya asociación sea desde cualquier punto de vista absurda.Veamos algunas variables susceptibles de relacionar: El peso y estatura de un grupo de adultos. Edad y peso de un grupo de niños. Ingresos y gastos de arrendamiento de un grupo de familias. Escolaridad e ingreso mensual de un grupo de empleados. Ventas y utilidades de un almacén de variedades.En el cuestionario aplicado a las obreras de la "Hilacha", parece que se indaga por ciertas variables quepuedan explicar el salario devengado por ellas; como podría ser, los años de experiencia, los años deestudio, las ausencias al trabajo, la evaluación del desempeño por parte de su supervisor, amén de otrasvariables que pueden tener influencia en la asignación salarial.Para fortalecer el indicio de correlación inicial, se grafica cada uno de los pares ordenados de lasvariables (xi, yj) en un plano cartesiano, para observar la “nube de puntos” o diagrama de dispersión,donde se advierte la tendencia o no, de la información representada.A continuación grafiquemos las relaciones entre cada par de variables asi: 1. Relación entre el salario y la escolaridad de cada una de las 50 obreras de la “hilacha” 2. Relación entre el salario y las ausencias de cada una de las 50 obreras de la “hilacha” durante el mes de octubre. 3. Relación entre la edad y los gastos en educación de cada una de las 50 obreras de la “hilacha” 43
  • 44. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 1. RELACIÓN ENTRE EL SALARIO Y LA ESCOLARIDAD DE LAS 50 OBRERAS DE "LA HILACHA" ESCOLA SALARI ESCOLA SALARI ESCOLA SALARI ESCOLA SALARI ESCOLA SALARI RI O RI O RI O RI O RI O DAD DAD DAD DAD DAD 5 52 6 54 8 55 6 56 3 52 5 54 3 51 6 55 4 53 9 57 4 55 7 54 3 52 8 57 8 56 4 54 7 55 6 55 5 54 3 51 3 53 5 54 3 53 3 53 9 58 8 56 8 56 9 57 3 50 5 55 3 54 3 52 5 54 5 55 5 53 9 58 4 54 5 55 3 52 4 54 3 51 4 53 4 53 4 53 5 53 3 54 9 55 4 55 4 54 6 56 44
  • 45. ESTADÍSTICA ÁLVARO VALENCIA OROZCO2. RELACIÓN ENTRE EL SALARIO Y LAS AUSENCIAS DE LAS 50 OBRERAS DE "LA HILACHA" EN EL MES DE OCTUBREAUSENCIAS SALARIO AUSENCIAS SALARIO AUSENCIAS SALARIO AUSENCIAS SALARIO AUSENCIAS SALARIO 1 52 2 54 3 55 4 56 2 52 3 54 4 51 0 55 1 53 0 57 1 55 0 54 0 52 1 57 1 56 4 54 2 55 2 55 0 54 5 51 2 53 2 54 3 53 2 53 0 58 0 56 1 56 1 57 3 50 5 55 2 54 2 52 3 54 2 55 2 53 1 58 1 54 0 55 2 52 3 54 0 51 3 53 0 53 2 53 2 53 4 54 1 55 1 55 1 54 2 56 3. RELACIÓN ENTRE LA EDAD Y LOS GASTOS EN EDUCACIÓN DE LAS 50 OBRERAS DE "LA HILACHA" EDAD GASTOS EDAD GASTOS EDAD GASTOS EDAD GASTOS EDAD GASTOS 24 5 28 3 28 4 33 4 26 11 24 6 25 6 31 4 32 6 38 3 45
  • 46. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 27 8 27 1 22 7 32 2 38 5 25 9 30 1 25 3 31 3 31 6 24 3 27 2 25 7 30 6 39 3 28 1 36 3 40 3 23 7 36 4 29 2 26 2 39 13 30 6 35 2 35 0 29 5 38 8 26 6 29 3 30 10 26 5 35 8 28 8 28 7 27 9 28 4 33 9 27 8 29 3 A pesar de la ilustración visual que ofrecen las gráficas, solo podemos percibir la tendencia, mas no el grado o fortaleza de la relación, entre la variable independiente “X” y la variable dependiente “Y”. Para cuantificar la calidad de la dependencia, entre las dos variables, el indicador más acostumbrado es el Coeficiente de correlación, que denotaremos con la letra , que nos permite valorar si ésta es fuerte o débil, positiva o negativa, y que varía entre -1 y 1. Los signos se utilizan para la correlación lineal positiva y la correlación lineal negativa, respectivamente. El coeficiente de correlación lineal está dado por la expresión en donde y Cuando r toma un valor extremo, ya sea r=1 ó r=-1 existe una correlación perfecta positiva o negativa según el signo, como lo podemos corroborar en el siguiente ejemplo: Aspiración Salarial, de Acuerdo a La Experiencia de las Obreras de la Fabrica de Confecciones “La Hilacha”Experiencia Salario (Años) (Miles de $) X Y 0 56 -5 -10 50 25 100 46
  • 47. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 1 58 -4 -8 32 16 64 2 60 -3 -6 18 9 36 3 62 -2 -4 8 4 16 4 64 -1 -2 2 1 4 5 66 0 0 0 0 0 6 68 1 2 2 1 4 7 70 2 4 8 4 16 8 72 3 6 18 9 36 9 74 4 8 32 16 64 10 76 5 10 50 25 100 X 55 Y 726 xy 220 x2 110 y2 440X 5 Y 66 Hallemos ahora el coeficiente de correlación, 220 220 220 r 1 , Correlación perfecta positiva 110 * 440 48400 220 Entre la experiencia y el salario actual hay una excelente correlación positiva. Sin embargo, no todas las relaciones son tan ideales, en el común de los casos –1< r <1. Empíricamente se afirma que: 1. Si r 1Correlación perfecta 2. Si 0.9 r 1 ó 1 r 0.9 Correlación excelente 3. Si 0.8 r 0.9 ó 0.9 r 0.8 Correlación buena 4. Si 0.6 r 0.8 ó 0.8 r 0.6 Correlación regular 5. Si 0.3 r 0.6 ó 0.6 r 0.3 Correlación mala 6. Si 0.3 r 0.3 No hay correlación Existen desde luego, pruebas estadísticas que miden la bondad de un coeficiente de correlación con un determinado nivel de confiabilidad, pero no son tema de este curso. EJERCICIOS 1. La siguiente tabla muestra el ingreso mensual (en cien miles de pesos) por las ventas realizadas (en cien miles de pesos) para un grupo de personas en un periodo determinado: Ventas Ingresos X Y 150 15 201 17 225 20 305 21 370 19 380 23 450 21 510 22 560 25 47
  • 48. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 600 24 685 27 725 30 735 27 a. Realice el diagrama de dispersión b. Construir una recta que se aproxime a los datos c. Hallar la ecuación de la recta que se aproxime a los datos. d. Halle el coeficiente de correlación lineal. e. Estime el ingreso de una persona cuyas ventas fueron de $50.000.000 2. Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de área de ventas respecto a los ingresos mensuales. Trace una gráfica de los datos, y si parece apropiado un modelo lineal determine la ecuación de regresión y el coeficiente de correlación lineal.. Tienda Metros 2 Ingreso X Y 1 55 45 2 80 60 3 85 75 4 90 75 5 90 80 6 110 95 7 130 95 8 140 110 9 180 120 10 180 105 11 200 115 12 200 130 13 215 140 14 260 170 15 300 200 3. Determine una ecuación que describa la relación con su respectivo coeficiente de correlación lineal X Y 3.10 900 4.00 800 4.40 600 5.20 450 6.40 500 6.50 300 7.00 200 8.00 150 48
  • 49. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 4. Determine una ecuación predictiva para calcular el monto del seguro, en función del ingreso anual con su respectivo coeficiente de correlación lineal para los siguientes datos: Ingreso Prima X Y 13 5 16 15 17 20 18 10 20 10 25 12 26 15 32 30 38 40 40 50 42 409. TASAS E ÍNDICESComo ya se dijo, el análisis de un fenómeno basado en las cifras absolutas, ofrece una idea general de sutendencia o comportamiento; pero para efectos de establecer comparaciones adecuadas del mismofenómeno con otra región, o su ocurrencia a través del tiempo, se utilizan ciertos indicadoresdenominados tasas e índices.9.1 TASAUna tasa es la resultante de una fracción, en donde el numerador está contenido dentro deldenominador:Ejemplos:1.D: Tasa de deserción escolar.R: Número de retiros durante el año.M: Número total de matriculados durante el año.2.TE: Tasa de empleo.PEAO: Población económicamente activa ocupada.PEA : Población económicamente activa.Valga anotar que a las tasas se les debe multiplicar por una constante k, la cual generalmente es 100,1000 o múltiplos de ellos, con el fin de convertirlos en porcentajes, por millares etc.En demografía, las tasas son de uso frecuente, entre otras, mencionaremos las siguientes:3.Donde:TM : Tasa de mortalidad.D : Número de defunciones en un periodo y área dada.P : Población total en esa área a mitad del periodo.4. 49
  • 50. ESTADÍSTICA ÁLVARO VALENCIA OROZCODondeTN : Tasa de natalidadN : Número de nacidos vivos ocurridos en un periodo y área dadaP : Población total del área a mitad del periodo.5.Donde:TC : Tasa de nupcialidad.M : Número de matrimonios efectuados en un periodo y área dada.P : Total de la población a mitad del periodo.El siguiente cuadro muestra la evolución de la tasa de desempleo en Colombia, resultados obtenidos dela encuesta nacional de hogares para los periodos comprendidos entre los años 1.990 –2.000 Tasas de Desempleo en Colombia 1.990-2.000 AÑO MES TASA AÑO MES TASA 1990 Marzo 10.1 1995 Septiembre 8.7 Junio 10.9 Diciembre 9.5 Septiembre 10.2 1996 Marzo 10.2 Diciembre 10.6 Junio 11.6 1991 Marzo 10.8 Septiembre 12.0 Junio 10.8 Diciembre 11.3 Septiembre 9.8 1997 Marzo 12.3 Diciembre 9.5 Junio 13.4 1992 Marzo 10.8 Septiembre 12.1 Junio 11.2 Diciembre 12.0 Septiembre 9.2 1998 Marzo 14.4 Diciembre 9.8 Junio 15.91993 Marzo 9.7 Septiembre 15.0 Junio 9.1 Diciembre 15.6 Septiembre 7.8 1999 Marzo 19.5 Diciembre 7.8 Junio 19.91994 Marzo 10.2 Septiembre 20.1 Junio 9.9 Diciembre 18.0 Septiembre 7.6 2000 Marzo 20.3 Diciembre 8.0 Junio 20.41995 Marzo 8.1 Septiembre 20.5 Junio 9.0 Diciembre 19.79.2 ÍNDICEUn número índice, como comúnmente se le llama, es un indicador de los cambios relativos de una o másvariables a través del tiempo.Entre las principales aplicaciones de los números índice, está la de establecer comparaciones entre losindicadores de las diferentes zonas geográficas, profesiones, grupos étnicos etc.Para la construcción de un número índice, se procede ante todo, a fijar el periodo de referencia o"periodo base" de la serie temporal, teniendo presente que debe ser un periodo normal, esto es, que nose hayan presentado situaciones fortuitas (guerras, terremotos, incendios u otro tipo de imprevisto),que incidan en el valor de la variable para ese periodo.Además debe considerarse un periodo reciente que haga comparables los diferentes valores de lasvariables consideradas. 50
  • 51. ESTADÍSTICA ÁLVARO VALENCIA OROZCO9.2.1 Índice SimpleUn número índice simple, es aquel que se calcula para una sola variable, dividiendo cada uno de losvalores de la serie cronológica, por el valor correspondiente al "periodo base" previamente definido.9.2.1.1 Índice de Base Fija , si la variable se refiere a precios , si la variable se refiere a cantidades : Índice de precios : Precio del artículo en el periodo n : Precio del artículo en el periodo base : Índice de cantidades : Cantidad del artículo en el periodo n : Cantidad del artículo en el periodo base Precio Promedio del Kilovatio/Hora 1995-2001 Pagado por la Fabrica de Confecciones “La Hilacha” PRECIO ÍNDICE ÍNDICE AÑO Kw/hora 1995 = 100% 1998 = 100% 1995 9 1.00 0.47 1996 12 1.33 0.63 1997 15 1.67 0.79 1998 19 2.11 1.00 1999 24 2.67 1.26 2000 30 3.33 1.58 2001 37 4.11 1.95 Consumo Promedio de Energía en La Fábrica de Confecciones “La Hilacha” CANTIDAD ÍNDICE ÍNDICE AÑO Kw/mes 1995 = 100% 1998 = 100% 1995 3.333,33 1.00 0.49 1996 6.666,67 2.00 0.97 1997 4.666,667 1.40 0.68 1998 6.842,11 2.05 1.00 1999 5.833,33 1.75 0.85 2000 4.666,67 1.40 0.68 2001 4.324,32 1.30 0.63En la primera tabla hemos calculado los índices de precios simples, con base en 1995 y 1998respectivamente, pero no se han tenido en cuenta las cantidades, mientras que en la segunda tabla sehan calculado los índices de cantidades sin considerar los precios.Calculemos, ahora los índices del valor relativo, que considere tanto los precios como las cantidades: Precio y Consumo Promedio de Energía en 51
  • 52. ESTADÍSTICA ÁLVARO VALENCIA OROZCO La Fábrica de Confecciones “La Hilacha” PRECIO CANTIDAD ÍNDICE ÍNDICE AÑO Kw/h Kw/mes pq 1995 = 100% 1998 = 100% 1995 9 3.333,33 30.000 1.00 0.23 1996 12 6.666,67 80.000 2.67 0.62 1997 15 4.666,67 70.000 2.33 0.54 1998 19 6.842,11 130.000 4.33 1.00 1999 24 5.833,33 140.000 4.67 1.08 2000 30 4.666,67 140.000 4.67 1.08 2001 37 4.324,32 160.000 5.33 1.239.2.1.2 Índice de Base MóvilSolo hemos considerado, los índices simples de base fija, esto es, con un periodo base determinado. Escomún que interese comparar un índice con el índice del periodo inmediatamente anterior, enconsecuencia se debe fijar el periodo base en el periodo anterior al referenciado, y así sucesivamentehasta completar la serie, al cual se le nombra índice de base móvil. Variaciones del Salario Promedio Diario en La Fábrica de Confecciones “La Hilacha” MILES ÍNDICE ÍNDICE AÑO $/día 1995 = 100% 100% = año VARIACIÓN anterior 1995 18.70 1.00 - - 1996 23.80 1.27 1.27 0.273 1997 30.80 1.65 1.29 0.297 1998 38.50 2.06 1.25 0.250 1999 47.00 2.51 1.22 0.221 2000 50.20 2.68 1.07 0.068 2001 54.10 2.89 1.08 0.0789.2.2 Índices Compuestos (Globales)Un número índice compuesto, muestra los cambios de un conjunto de variables, aunque sus unidadesde medidas, cantidades y precios, en el tiempo, sean diferentes entre sí. Cuando hablamos por ejemplode los índices indicadores del costo de la canasta familiar, se toman en cuenta muchos artículos cuyosconsumos inciden en el costo de vida, con una ponderación o importancia diferente en cada caso.Colectivamente no es lo mismo un cambio en el precio de la carne, huevos o leche, que un cambio en elprecio de los perfumes, joyas o cualquier otro artículo suntuoso.9.2.2.1 Índice de LaspeyresEste índice asume como ponderaciones, en el cálculo del índice global, las cantidades de los artículos enel periodo base.Donde: : Índice de precios global (Laspeyres). : Cantidad del periodo base. : Precio del artículo en el periodo base : Precio del artículo en el periodo n Índice de Precios de Cuatro Artículos Valor de a los precios de Cantidad Precios Año 1998 1998 1999 2000 2001 1998 1999 2000 2001 52
  • 53. ESTADÍSTICA ÁLVARO VALENCIA OROZCOArtículo A 5 10 12 14 15 50 60 70 75 B 10 20 24 25 25 200 240 250 250 C 15 10 10 11 12 150 150 165 180 D 20 25 27 28 30 500 540 560 600 Sumas 900 990 1045 1105 Índice 1.00 1.10 1.16 1.239.2.2.2 Índice de PaascheEl estadístico Paasche, sugiere que las ponderaciones sean las cantidades utilizadas en el periodo n. Seobtiene entonces el siguiente indicador:Este índice, es poco utilizado debido al dinamismo de , necesitando nuevas ponderaciones cada vezque se cambia de periodo.9.2.2.3 Índice ideal de FisherSe propone el promedio geométrico entre los dos índices anteriores:Una de las principales aplicaciones de los índices de precios, es la de medir la deflación e inflación, quees la variación que existe en el poder adquisitivo del dinero. También podemos utilizar, los índices deprecios al consumidor para determinar el salario real de un grupo de personas. Salario Promedio Nominal y Real en la Fabrica “La Hilacha” ÍNDICE VARIACIÓN MILES/DÍA MILES/DÍA AÑOS 1998 = 100% ANUAL NOMINAL REAL 1994 50.10 22.59 18.7 37.32 1995 59.86 19.46 23.8 39.76 1996 72.81 21.63 30.8 42.30 1997 85.69 17.68 38.5 44.93 1998 100.00 16.70 47.0 47.00 1999 109.27 9.23 50.2 45.94 2000 118.79 7.81 54.1 45.54Dado el deterioro del salario real en los dos últimos años debería considerarse un generoso aumento.CUESTIONARIO Y EJERCICIOS PROPUESTOS1. ¿Qué es una tasa?2. ¿Qué es un índice?3. ¿Para qué se utilizan los números índices?4. ¿Cómo se construye un número índice simple?5. ¿Cómo se construye un número índice compuesto? 53
  • 54. ESTADÍSTICA ÁLVARO VALENCIA OROZCO6. Los precios y las cantidades de un artículo X vienen dados en la siguiente tabla: AÑO PRECIOI CANTIDAD 1995 1200 400 1996 1500 400 1997 1800 410 1998 2200 430 1999 2600 430 2000 3000 440Tomando como año base 1995, calcular para los otros años:6.1 Los índices de precios.6.2 Los índices de cantidades.6.3 Los índices de valores.7. A continuación se relacionan los precios y las cantidades del año base, de cuatro artículos diferentes: CANTIDAD PRECIOS AÑO 1997 1997 1998 1999 2000 2001ARTÍCULO A 180 200 250 300 350 400 B 100 50 60 70 80 90 C 400 100 120 130 150 180 D 120 20 30 30 40 40Calcular el índice de Laspeyres8. Salario Mínimo Legal Diario en Colombia e Índice de Precios al Consumidor para el Año 2.000-2001 (Periodo Base Diciembre de 1998). AÑO MES VALOR ÍNDICE SALARIO NOMINAL 2000 1 110.64 260000 2000 2 113.19 260000 2000 3 115.12 260000 2000 4 116.27 260000 2000 5 116.88 260000 2000 6 116.85 260000 2000 7 116.81 260000 2000 8 117.18 260000 2000 9 117.68 260000 2000 10 117.86 260000 2000 11 118.24 260000 2000 12 118.79 260000 2001 1 120.04 286000 2001 2 122.31 286000 2001 3 124.12 286000 2001 4 125.54 286000 2001 5 126.07 286000 2001 6 126.12 286000Calcular el salario real para cada uno de los meses. 54
  • 55. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 10. PROBABILIDAD INTRODUCCIÓNLa probabilidad mide la frecuencia con la que aparece un resultado determinado cuando se realiza unexperimento.Ejemplo: tiramos un dado al aire y queremos saber cuál es la probabilidad de que salga un 2, o quesalga un número par, o que salga un número menor que 4.El experimento tiene que ser aleatorio, es decir, que pueden presentarse diversos resultados, dentrode un conjunto posible de soluciones, y esto aún realizando el experimento en las mismas condiciones.Por lo tanto, a priori no se conoce cuál de los resultados se va a presentar:Ejemplos: lanzamos una moneda al aire: el resultado puede ser cara o sello, pero no sabemos deantemano cuál de ellos va a salir.Hay experimentos que no son aleatorios y por lo tanto no se les puede aplicar las reglas de laprobabilidad.Ejemplo: en lugar de tirar la moneda al aire, directamente seleccionamos la cara. Aquí no podemoshablar de probabilidades, sino que ha sido un resultado determinado por uno mismo.Antes de calcular las probabilidades de un experimento aleatorio hay que definir una serie deconceptos:Suceso elemental: hace referencia a cada una de las posibles soluciones que se pueden presentar.Ejemplo: al lanzar una moneda al aire, los sucesos elementales son la cara y el sello. Al lanzar un dado,los sucesos elementales son el 1, el 2, .., hasta el 6Suceso compuesto: es un subconjunto de sucesos elementales.Ejemplo: lanzamos un dado y queremos que salga un número par. El suceso "numero par" es un sucesocompuesto, integrado por 3 sucesos elementales: el 2, el 4 y el 6O, por ejemplo, jugamos a la ruleta y queremos que salga "menor o igual que 18". Este es un sucesocompuesto formado por 18 sucesos elementales (todos los números que van del 1 al 18).Al conjunto de todos los posibles sucesos elementales lo denominamos espacio muestral. Cadaexperimento aleatorio tiene definido su espacio muestral (es decir, un conjunto con todas lassoluciones posibles).Ejemplo: si tiramos una moneda al aíre una sola vez, el espacio muestral será cara o sello.Si el experimento consiste en lanzar una moneda al aire dos veces, entonces el espacio muestral estaríaformado por (cara-cara), (cara-sello), (sello-cara) y (sello-sello).RELACIÓN ENTRE SUCESOSEntre los sucesos compuestos se pueden establecer distintas relaciones:a) Un suceso puede estar contenido en otro: las posibles soluciones del primer suceso también loson del segundo, pero este segundo suceso tiene además otras soluciones suyas propias.Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el número 6, y b) que salga unnúmero par. Vemos que el suceso a) está contenido en el suceso b).Siempre que se da el suceso a) se da el suceso b), pero no al contrario. Por ejemplo, si el resultado fuerael 2, se cumpliría el suceso b), pero no el a).b) Dos sucesos pueden ser iguales: esto ocurre cuando siempre que se cumple uno de ellos se cumpleobligatoriamente el otro y viceversa.Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que salgamúltiplo de 2. Vemos que las soluciones coinciden en ambos casos.c) Unión de dos o más sucesos: la unión será otro suceso formado por todos los elementos de lossucesos que se unen. 55
  • 56. ESTADÍSTICA ÁLVARO VALENCIA OROZCOEjemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par y b) que elresultado sea mayor que 3. El suceso unión estaría formado por los siguientes resultados: el 2, el 4, el 5y el 6d) Intersección de sucesos: es aquel suceso compuesto por los elementos comunes de dos o mássucesos que se intersecan.Ejemplo: lanzamos un dado al aire, y analizamos dos sucesos: a) que salga número par, y b) que seamayor que 4. La intersección de estos dos sucesos tiene un sólo elemento, el número 6 (es el únicoresultado común a ambos sucesos: es mayor que 4 y es número par).e) Sucesos incompatibles: son aquellos que no se pueden dar al mismo tiempo ya que no tienenelementos comunes (su intersección es el conjunto vacio).Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número menor que 3, y b)que salga el número 6. Es evidente que ambos no se pueden dar al mismo tiempo.f) Sucesos complementarios: son aquellos que si no se da uno, obligatoriamente se tiene que dar elotro.Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número par, y b) quesalga un número impar. Vemos que si no se da el primero se tiene que dar el segundo (y viceversa).CÁLCULO DE PROBABILIDADESProbabilidadComo hemos comentado anteriormente, la probabilidad mide la mayor o menor posibilidad de que sedé un determinado resultado (suceso) cuando se realiza un experimento aleatorio.La probabilidad toma valores entre 0 y 1 (o expresados en tanto por ciento, entre 0% y 100%):El valor cero corresponde al suceso imposible: lanzamos un dado al aire y la probabilidad de quesalga el número 7 es cero (al menos, si es un dado certificado por la OMD, "Organización Mundial deDados").El valor uno corresponde al suceso seguro: lanzamos un dado al aire y la probabilidad de que salgacualquier número del 1 al 6 es igual a uno (100%).El resto de sucesos tendrá probabilidades entre cero y uno: que será tanto mayor cuanto másprobable sea que dicho suceso tenga lugar.¿Cómo se mide la probabilidad?Uno de los métodos más utilizados es aplicando la Regla de Laplace: define la probabilidad de unsuceso como el cociente entre casos favorables y casos posibles.Veamos algunos ejemplos:a) Probabilidad de que al lanzar un dado salga el número 2: el caso favorable es tan sólo uno (quesalga el dos), mientras que los casos posibles son seis (puede salir cualquier número del uno al seis).Por lo tanto: (o lo que es lo mismo, 16,7% aproximadamente)b) Probabilidad de que al lanzar un dado salga un número par: en este caso los casos favorablesson tres (que salga el dos, el cuatro o el seis), mientras que los casos posibles siguen siendo seis. Por lotanto: (o lo que es lo mismo, 50%)c) Probabilidad de que al lanzar un dado salga un número menor que 5: en este caso tenemoscuatro casos favorables (que salga el uno, el dos, el tres o el cuatro), frente a los seis casos posibles. Porlo tanto: (o lo que es lo mismo, 66,7% aproximadamente) 56
  • 57. ESTADÍSTICA ÁLVARO VALENCIA OROZCOPara poder aplicar la Regla de Laplace el experimento aleatorio tiene que cumplir dos requisitos:a) El número de resultados posibles (sucesos) tiene que ser finito. Si hubiera infinitos resultados,al aplicar la regla "casos favorables / casos posibles" el cociente siempre sería cero.b) Todos los sucesos tienen que tener la misma probabilidad. Si al lanzar un dado, algunas carastuvieran mayor probabilidad de salir que otras, no podríamos aplicar esta regla.A la regla de Laplace también se le denomina "probabilidad a priori", ya que para aplicarla hay queconocer antes de realizar el experimento cuales son los posibles resultados y saber que todos tienen lasmismas probabilidades.¿Y si el experimento aleatorio no cumple los dos requisitos indicados, qué hacemos?,En este caso podemos acudir a otro modelo de cálculo de probabilidades que se basa en la experiencia(modelo frecuentista):Cuando se realiza un experimento aleatorio un número muy elevado de veces, las probabilidades de losdiversos posibles sucesos empiezan a converger hacia valores determinados, que son sus respectivasprobabilidades.Ejemplo: si lanzo una vez una moneda al aire y sale "cara", quiere decir que el suceso "cara" haaparecido el 100% de las veces y el suceso "sello" el 0%.Si lanzo diez veces la moneda al aire, es posible que el suceso "cara" salga 7 veces y el suceso "sello" las3 restantes. En este caso, la probabilidad del suceso "cara" ya no sería del 100%, sino que se habríareducido al 70%.Si repito este experimento un número elevado de veces, lo normal es que las probabilidades de lossucesos "cara" y "sello" se vayan aproximando al 50% cada una. Este 50% será la probabilidad de estossucesos según el modelo frecuentista.En este modelo ya no será necesario que el número de soluciones sea finito, ni que todos los sucesostengan la misma probabilidad.Ejemplo: si la moneda que utilizamos en el ejemplo anterior fuera defectuosa (o estuviera trucada), esposible que al repetir dicho experimento un número elevado de veces, la "cara" saliera con unafrecuencia, por ejemplo, del 65% y el "sello" del 35%. Estos valores serían las probabilidades de estosdos sucesos según el modelo frecuentista.A esta definición de la probabilidad se le denomina probabilidad a posteriori, ya que tan sólorepitiendo un experimento un número elevado de veces podremos saber cuál es la probabilidad decada suceso.PROBABILIDAD DE SUCESOSAl definir los sucesos hablamos de las diferentes relaciones que pueden guardar dos sucesos entre sí,así como de las posibles relaciones que se pueden establecer entre los mismos. Vamos a ver ahora cómose refleja esto en el cálculo de probabilidades.a) Un suceso puede estar contenido en otro: entonces, la probabilidad del primer suceso será menorque la del suceso que lo contiene.Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el número 6, y b) que salga unnúmero par. Dijimos que el suceso a) está contenido en el suceso b).P(A) = 1/6 = 0,166P(B) = 3 / 6 = 0,50Por lo tanto, podemos ver que la probabilidad del suceso contenido, suceso a), es menor que laprobabilidad del suceso que lo contiene, suceso b).b) Dos sucesos pueden ser iguales: en este caso, las probabilidades de ambos sucesos son las mismas.Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que salgamúltiplo de 2. Las soluciones coinciden en ambos casos.P(A) = 3 / 6 = 0,50P(B) = 3 / 6 = 0,50c) Intersección de sucesos: es aquel suceso compuesto por los elementos comunes de los dos o mássucesos que se intersecan. La probabilidad será igual a la probabilidad de los elementos comunes.Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que seamayor que 3. La intersección de estos dos sucesos tiene dos elementos: el 4 y el 6. 57
  • 58. ESTADÍSTICA ÁLVARO VALENCIA OROZCOSu probabilidad será por tanto:d) Unión de dos o más sucesos: la probabilidad de la unión de dos sucesos es igual a la suma de lasprobabilidades individuales de los dos sucesos que se unen, menos la probabilidad del sucesointersecciónEjemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que elresultado sea mayor que 3. El suceso unión estaría formado por los siguientes resultados: el 2, el 4, el 5y el 6.P(A) = 3 / 6 = 0,50P(B) = 3 / 6 = 0,50Por lo tanto,e) Sucesos incompatibles: la probabilidad de la unión de dos sucesos incompatibles será igual a lasuma de las probabilidades de cada uno de los sucesos (ya que su intersección es el conjunto vacio ypor lo tanto no hay que restarle nada).Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número menor que 3, y b)que salga el número 6.La probabilidad del suceso unión de estos dos sucesos será igual a:P(A) = 2 / 6 = 0,333P(B) = 1 / 6 = 0,166Por lo tanto,f) Sucesos complementarios: la probabilidad de un suceso complementario a un suceso (A) es igual a1 - P(A)Ejemplo: lanzamos un dado al aire. El suceso (A) es que salga un número par, luego sucomplementario, suceso (B), es que salga un número impar.La probabilidad del suceso (A) es igual a :P(A) = 3 / 6 = 0,50Luego, la probabilidad del suceso (B) es igual a:P(B) = 1 - P(A) = 1 - 0,50 = 0,50Se puede comprobar aplicando la regla de "casos favorables / casos posibles":P(B) = 3 / 6 = 0,50g) Unión de sucesos complementarios: la probabilidad de la unión de dos sucesos complementarioses igual a 1.Ejemplo: seguimos con el ejemplo anterior: a) que salga un número par, y b) que salga un númeroimpar. La probabilidad del suceso unión de estos dos sucesos será igual a:P(A) = 3 / 6 = 0,50P(B) = 3 / 6 = 0,50Por lo tanto,P(A U B) = 0,50 + 0,50 = 1COMBINACIONES, VARIACIONES Y PERMUTACIONESPara aplicar la Regla de Laplace, el cálculo de los sucesos favorables y de los sucesos posibles a vecesno plantea ningún problema, ya que son un número reducido y se pueden calcular con facilidad:Por ejemplo: Probabilidad de que al lanzar un dado salga el número 2. Tan sólo hay un caso favorable,mientras que los casos posibles son seis.Probabilidad de acertar al primer intento el horóscopo de una persona. Hay un caso favorable y 12casos posibles. 58
  • 59. ESTADÍSTICA ÁLVARO VALENCIA OROZCOSin embargo, a veces calcular el número de casos favorables y casos posibles es complejo y hay queaplicar reglas matemáticas:Por ejemplo: 5 matrimonios se sientan aleatoriamente a cenar y queremos calcular la probabilidad deque al menos los miembros de un matrimonio se sienten juntos. En este caso, determinar el número decasos favorables y de casos posibles es complejo.Las reglas matemáticas que nos pueden ayudar son el cálculo de combinaciones, el cálculo devariaciones y el cálculo de permutaciones.a) Combinaciones:Se llama combinaciones de m elementos tomados de n en n (m > n) a todas las agrupacionesposibles que pueden hacerse con los m elementos de forma que: No entran todos los elementos. Noimporta el orden. No se repiten los elementos.Determinar el número de subgrupos de 1, 2, 3, etc. elementos que se pueden formar con los "n"elementos de una nuestra. Cada subgrupo se diferencia del resto en los elementos que lo componen, sinque influya el orden.Por ejemplo, calcular las posibles combinaciones de 2 elementos que se pueden formar con losnúmeros 1, 2 y 3.Se pueden establecer 3 parejas diferentes: (1,2), (1,3) y (2,3). En el cálculo de combinaciones las parejas(1,2) y (2,1) se consideran idénticas, por lo que sólo se cuentan una vez.b) Variaciones:Se llama variaciones de m elementos tomados de n en n (m > n) a todas las agrupaciones posiblesque pueden hacerse con los m elementos de forma que: No entran todos los elementos.Si importa el orden. No se repiten los elementos.Calcular el número de subgrupos de 1, 2, 3, etc. elementos que se pueden establecer con los "n"elementos de una muestra. Cada subgrupo se diferencia del resto en los elementos que lo componen oen el orden de dichos elementos (es lo que le diferencia de las combinaciones).Por ejemplo, calcular las posibles variaciones de 2 elementos que se pueden establecer con losnúmeros 1, 2 y 3.Ahora tendríamos 6 posibles parejas: (1,2), (1,3), (2,1), (2,3), (3,1) y (3,3). En este caso los subgrupos(1,2) y (2,1) se consideran distintos.c) Permutaciones:Se llama permutaciones de m elementos (m = n) a las diferentes agrupaciones de esos m elementosde forma que: Sí entran todos los elementos. Sí importa el orden. No se repiten los elementosCalcular las posibles agrupaciones que se pueden establecer con todos los elementos de un grupo, porlo tanto, lo que diferencia a cada subgrupo del resto es el orden de los elementos.Por ejemplo, calcular las posibles formas en que se pueden ordenar los números 1, 2 y 3.Hay 6 posibles agrupaciones: (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2) y (3, 2, 1)¿Cómo se calculan?a) Combinaciones:Para calcular el número de combinaciones se aplica la siguiente fórmula:El término " n ! " se denomina "factorial de n" y es la multiplicación de todos los números que vandesde "n" hasta 1.Por ejemplo: 4 ! = 4 * 3 * 2 * 1 = 24La expresión "Cm,n" representa las combinaciones de "m" elementos, formando subgrupos de "n"elementos. 59
  • 60. ESTADÍSTICA ÁLVARO VALENCIA OROZCOEjemplo: son las combinaciones de 10 elementos agrupándolos en subgrupos de 4elementos:Es decir, podríamos formar 210 subgrupos diferentes de 4 elementos, a partir de los 10 elementos.b) Variaciones:Para calcular el número de variaciones se aplica la siguiente fórmula:La expresión "Vm,n" representa las variaciones de "m" elementos, formando subgrupos de "n"elementos. En este caso, un subgrupo se diferenciará del resto, bien por los elementos que lo forman, obien por el orden de dichos elementos.Ejemplo: son las variaciones de 10 elementos agrupándolos en subgrupos de 4 elementos:Es decir, podríamos formar 5.040 subgrupos diferentes de 4 elementos, a partir de los 10 elementos.c) Permutaciones:Para calcular el número de permutaciones se aplica la siguiente fórmula:La expresión "Pm" representa las permutaciones de "m" elementos, tomando todos los elementos. Lossubgrupos se diferenciaran únicamente por el orden de los elementos.Ejemplo: P10 son las permutaciones de 10 elementos:Es decir, tendríamos 3.628.800 formas diferentes de agrupar 10 elementos.Vamos a analizar ahora que ocurriría con el cálculo de las combinaciones, de las variaciones o de laspermutaciones en el supuesto de que al formar los subgrupos los elementos pudieran repetirse.Por ejemplo: tenemos bolas de 6 colores diferentes y queremos formar subgrupos en los que pudieradarse el caso de que 2, 3, 4 o todas las bolas del subgrupo tuvieran el mismo color. En este caso nopodríamos utilizar las fórmulas que vimos anteriormente.a) Combinaciones con repetición:Se llama combinaciones de m elementos tomados de n en n (m > n) a todas las agrupacionesposibles que pueden hacerse con los m elementos de forma que: No entran todos los elementos.No importa el orden. Sí se repiten los elementos.Para calcular el número de combinaciones con repetición se aplica la siguiente fórmula:Ejemplo: C10,4 =10C4 son las combinaciones de 10 elementos con repetición, agrupándolos ensubgrupos de 4, en los que 2, 3 o los 4 elementos podrían estar repetidos: 60
  • 61. ESTADÍSTICA ÁLVARO VALENCIA OROZCOEs decir, podríamos formar 715 subgrupos diferentes de 4 elementos.b) Variaciones con repetición:Se llama variaciones con repetición de m elementos tomados de n en n a los distintos gruposformados por n elementos de manera que: No entran todos los elementos si m > n. Pueden entrar todoslos elementos si m = n. Sí importa el orden. Sí se repiten los elementos.Para calcular el número de variaciones con repetición se aplica la siguiente fórmula:Ejemplo: V10,4 = 10 V4 son las variaciones de 10 elementos con repetición, agrupándolos en subgruposde 4 elementos:Es decir, podríamos formar 10.000 subgrupos diferentes de 4 elementos.c) Permutaciones con repetición:Permutaciones con repetición de m elementos donde el primer elemento se repite a veces, el segundo bveces, el tercero c veces, ...(m = a + b + c + ... = n) son los distintos grupos que pueden formarse con esosm elementos de forma que : Sí entran todos los elementos. Sí importa el orden. Sí se repiten loselementos.Para calcular el número de permutaciones con repetición se aplica la siguiente fórmula:Son permutaciones de "m" elementos, en los que uno de ellos se repite " x 1 " veces, otro " x2 " veces yasí ... hasta uno que se repite " xk " veces.Ejemplo: Calcular las permutaciones de 10 elementos, en los que uno de ellos se repite en 2 ocasiones yotro se repite en 3 ocasiones:Es decir, tendríamos 302,400 formas diferentes de agrupar estos 10 elementos.EJERCICIOS RESUELTOSEjemplo 1: Rutas de viajeDos caminos unen a las ciudades A y B, cuatro unen a B y C, y cinco unen a las ciudades C y D. Paraconducir de A a B, luego a C y por último a D, ¿Cuántas rutas diferentes son posibles? Este es un procesopor etapas. La primera de AB tiene dos posibilidades, la segunda de BC tiene cuatro y la tercera de CDtiene cinco. Por el principio multiplicativo de conteo, el número total de rutas es 2 x 4 x 5 = 40.Ejemplo 2: Respuestas de examen¿De cuántas maneras puede ser respondido un examen bajo cada una de las siguientes condiciones? a. El examen consiste en tres preguntas de opción múltiple con cuatro opciones para cada una. Responder de manera sucesiva las tres preguntas es un proceso de tres etapas. La primera pregunta puede ser respondida de cualquiera de cuatro formas. Del mismo modo, cada una de las otras preguntas puede ser respondida en cuatro formas. Por el principio multiplicativo de conteo el número de maneras para responder el examen es: 4 x 4 x 4 = 4^3 = 64.. b. El examen consiste en tres preguntas de opción múltiple (con cuatro opciones para cada una) y cinco preguntas de falso-verdadero. Responder el examen puede ser considerado como un proceso de dos etapas. Primero podemos responder las preguntas de opción múltiple (ésta es la primera etapa), y después responder las preguntas de falso-verdadero (la segunda etapa). 61
  • 62. ESTADÍSTICA ÁLVARO VALENCIA OROZCO De la parte (a), las preguntas de opción múltiple pueden ser respondidas de 64 formas. Cada una de las preguntas de falso-verdadero tiene dos opciones (falso o verdadero), de modo que el número total de maneras de responder las cinco preguntas es 2 x 2 x 2 x 2 x 2. Por el principio multiplicativo de conteo, el número de maneras en que todo el examen puede ser respondido es: (4 x 4 x 4)( 2 x 2 x 2 x 2 x 2) = 4^3 x 2^5 = 2.048.Ejemplo 3: Funcionarios de un clubUn club tiene 20 miembros. Los cargos de presidente, vicepresidente, secretario y tesorero deben sercubiertos y ningún miembro puede servir en más de un cargo. ¿Cuántas listas diferentes de candidatosson posibles? Consideremos una lista de candidatos en el orden de presidente, vicepresidente,secretario y tesorero. Cada ordenamiento de cuatro candidatos constituye una lista de candidatos, demodo que el número de posibles listas 20V4. De la ecuación de variación tenemos:Ejemplo 4: Placas de automóvilEn Colombia, las placas de los autos tienen 3 letras seguidas de 3 dígitos. ¿Cuántas placas se puedenhacer si: a. Se permite repetir letras. Se pueden hacer elecciones, una por cada letra o por cada dígito. Tracemos un cuadro para cada etapa: 26 26 26 10 10 10 Letras Dígitos En la primera etapa se elige una letra de 26 posibles; en la segunda etapa, otra letra (de nuevo entre 26 opciones); en la tercera etapa, otra letra (26 opciones); en la cuarta un digito de 10 posibles; en la quinta, un dígito (de nuevo de entre 10 opciones) y en la sexta etapa, otro digito (10 opciones). Según el principio multiplicativo de conteo, la cantidad de placas distintas es: 26 x 26 x 26 x 10 x 10 x 10 = 17.576.000 b. No se permite repetir letras Si no se permite repetir letras, las opciones se pueden representar como sigue: 26 25 24 10 10 10 Letras Dígitos En la primera etapa tenemos 26 letras para elegir, pero una vez seleccionada la primera letra, solo quedan 25 para elegir en la segunda etapa. Una vez elegidas las dos primeras, quedan 24 para elegir en la tercera etapa. Los dígitos se determinan como antes. Así, la cantidad de placas distintas en este caso es: 26 x 25 x 24 x 10 x 10 x 10 = 15.600.000Ejemplo 5: Los seis corredores¿De cuantas formas distintas puede terminar una competencia entre seis corredores? (Suponga que nohay empates.) Hay seis opciones distintas para el primer lugar, cinco para el segundo, porque despuésde haberse decidido el primer lugar solo quedan cinco corredores, hay cuatro opciones para el tercerlugar, y así sucesivamente. De acuerdo con el principio multiplicativo, la cantidad de opciones distintasen la que puede terminar esta carrera es:6! = 6 x 5 x 4 x 3 x 2 x 1 = 720Ejemplo 6: Las pelotasCalcule el número de formas distintas en que se pueden colocar 15 pelotas en una fila, si cuatro sonrojas, tres son amarillas, seis son negras y dos son azules. Se trata de determinar el número de 62
  • 63. ESTADÍSTICA ÁLVARO VALENCIA OROZCOpermutaciones distinguibles de esas pelotas. De acuerdo con la fórmula de permutación con repetición,ese número es:Ejemplo 7: Miembros del clubUn club tiene nueve miembros, ¿De cuantas formas se puede elegir un comité de tres miembros entrelos nueve del club? Se necesita calcular el número de formas de elegir tres miembros de los nueve. Eneste caso no importa el orden, porque el comité será igual sin importar como se ordenan sus miembros.Así, se desea conocer el número de combinaciones de nueve objetos (los miembros del club) tomadosde tres en tres. El número es:Ejemplo 8: Carrera de caballosCalcular la probabilidad de, en una carrera de 12 caballos, acertar los 3 que quedan primeros (sinimportar cuál de ellos queda primero, cual segundo y cual tercero).Se aplica la Regla de Laplace. El caso favorable es tan sólo uno: los 3 caballos que entran en primerlugar. Los casos posibles se calculan como combinaciones de 12 elementos tomados de 3 en 3 (esdecir, determinamos todos las posibles alternativas de 3 caballos que pueden entrar en las 3 primerasposiciones). Como el orden de estos 3 primeros caballos no importa, utilizamos combinaciones en lugarde variaciones.Por lo tanto, los casos posibles son:Por lo que la probabilidad de acertar los 3 caballos ganadores es:Ejemplo 9: Carrera de caballosY si hubiera que acertar, no sólo los 3 caballos que ganan, sino el orden de su entrada en meta.El caso favorable sigue siendo uno: los 3 caballos que entran en primer lugar, colocados en su ordencorrespondiente. Los casos posibles se calculan ahora como variaciones (ya que el orden influye) de12 elementos tomados de 3 en 3 (calculamos todas las posibles maneras en que los 12 caballos podríanocupar las 3 primeras posiciones.Por lo que la probabilidad de acertar los 3 caballos ganadores es:Menor que en el ejemplo 8. Ya que no vale acertar que 3 caballos entran en primer lugar, sino quetenemos que acertar el orden de su entrada. EJERCICIOS 1. Determine la probabilidad p, o un estimador de ella, para cada uno de los siguientes sucesos: a. La aparición de un número impar en la tirada de un dado equilibrado. b. La aparición de al menos una cara en dos lanzamientos de una moneda. c. La obtención de 7 puntos en una sola tirada de un par de dados. 2. De una caja que contiene 6 bolas rojas, 4 blancas y 5 azules se extrae una al azar. Determine la probabilidad de que sea Roja. Blanca. Azul. 63
  • 64. ESTADÍSTICA ÁLVARO VALENCIA OROZCO No roja Roja o blanca. 3. Se lanza un dado dos veces. Hallar la probabilidad de obtener 4, 5 ó 6 en el primero y 1, 2, 3 ó 4 en el segundo. 4. Se extraen sucesivamente tres bolas de una caja que contiene 6 bolas rojas, 4 blancas y 5 azules. De termine la probabilidad de que sean extraídas en el orden roja, blanca y azul si las extracciones son: a) con reemplazamiento y b) sin reemplazamiento. 5. Halle la probabilidad de obtener al menos un 4 en dos lanzamientos de un dado. 6. Una bolsa contiene 4 bolas blancas y 2 bolas negras; otra contiene 3 bolas blancas y 5 bolas negras. Si se extrae una bola de cada bolsa, halle la probabilidad de que a) ambas bolas sean blancas b) ambas bolas sean negras c) una sea blanca y la otra negra d) una sea negra y la otra blanca. 7. Un monedero contiene 2 monedas de plata y 4 monedas de cobre, y un segundo monedero contiene 4 monedas de plata y 3 de cobre. Si se elige al azar una moneda de cada monedero, cuál es la probabilidad de que una sea de plata?. 8. De un total de 800 familias con 4 hijos cada una, qué porcentaje cabe esperar que tenga a) 2 niñas y 2 niños, b) al menos 1 niño, c) ninguna niña, d) a lo sumo 2 niñas. 9. La probabilidad de que un hombre viva dentro de 25 años es 3/5 y la probabilidad de que una mujer viva dentro de 25 años es 2/3. Halle la probabilidad de que dentro de 25 años: a) ambos vivan, b) viva solamente el hombre, c) viva solamente la mujer y d) al menos uno viva. 10. Determine la probabilidad o un estimador de ella para el suceso “un cerrojo no defectuoso a extraer de una población, si de 600 ya examinados, 12 fueron defectuosos”. 64

×