Curso de estadística

50,710 views

Published on

Published in: Travel
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
50,710
On SlideShare
0
From Embeds
0
Number of Embeds
29,512
Actions
Shares
0
Downloads
510
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide

Curso de estadística

  1. 1. ESTADÍSTICA ÁLVARO VALENCIA OROZCO ESTADÍSTICATabla de Contenido.Introducción1. Conceptos preliminares1.1 Breve historia de la estadística1.2 Dimensión actual de la estadística1.3 Qué es estadística1.4 Finalidad de la estadística1.5 Ramas de la estadística1.6 Variables.1.7 Población y muestras1.8 La medida en la estadística1.9 Redondeo de datosEjercicios propuestos2. Etapas del Método Estadístico2.1 Planteamiento del problema2.2 Fijación de los objetivos2.3 Formulación de las hipótesis2.4 Definición de la unidad de observación y de la unidad de medida2.5 Determinación de la población y de la muestra2.6 La recolección2.7 Crítica, clasificación y ordenación2.8 La tabulación2.9 La presentación2.10 El análisis2.11 Publicación.3. Distribución de Frecuencias3.1 Distribución de frecuencias simpleEjercicios3.2 Distribución de frecuencias por intervalo3.3 Reglas empíricas para la construcción de IntervalosCuestionario y ejercicios propuestos.4. Representación Gráfica4.1 Definición4.2 Componentes de una gráfica4.3 Principales tipos de gráficos4.3.1 Gráfico de líneas4.3.2 Gráfico de líneas compuesto4.3.3 Gráfico de barras4.3.4 Gráfico de barras compuesto4.3.5 Gráfico de sectores circulares4.3.6 Histograma de frecuencias4.3.7 Polígono de frecuencias4.3.8 Histograma de frecuencias acumuladasCuestionario y ejercicios propuestos.5. Medidas de Tendencia Central5.1 Media aritmética5.1.1 Propiedades de la media aritmética 1
  2. 2. ESTADÍSTICA ÁLVARO VALENCIA OROZCO5.1.2 Media aritmética con cambio origen y de escala5.1.3 Media aritmética ponderada5.2 Mediana5.2.1 La mediana cuando los datos no están agrupados en intervalos5.2.2 La mediana cuando la información está agrupada en intervalos5.3 La Moda5.3.1 La moda cuando los datos no están agrupados en intervalos5.3.2 Cálculo de la moda con la información agrupada en intervalosCuestionario y ejercicios propuestos.6. Medidas de Posición (Percentiles)6.1 Cuartiles6.2 Quintiles6.3 Deciles6.4 Centiles6.5 ResumenCuestionario y ejercicios propuestos.7. Medidas de Dispersión7.1 Rango o recorrido7.2 Desviación media7.3 Varianza7.4 Coeficiente de variabilidadCuestionario y ejercicios propuestos8. Regresión y Correlación Lineal8.1 Tablas de doble entrada8.2 Correlación8.3 Regresión lineal8.3.1 Ajuste rectilíneo (método de los mínimos cuadrados)8.3.2 Ajuste parabólica (método de los mínimos cuadrados)Cuestionario y ejercicios propuestos.9. Tasas e Índices9.1 Tasa9.2 Índice9.2.1 Índice simple9.2.1.1 Índice de base fija9.2.1.2 Índice de base móvil9.2.2 Índices compuestos (globales)9.2.2.1 Índice de Laspeyres9.2.2.2 Índice de Passche9.2.2.3 Índice ideal de FisherCuestionario y ejercicios propuestos.10. Nociones de Probabilidad (Eventos)10.1 Nociones de conteo10.1.1 Principio fundamental 110.1.2 Principio fundamental 210.1.3 Permutaciones10.1.4 Variaciones10.1.5 Combinaciones10.1.6 Permutaciones con repetición10.1.7 Variaciones con repeticiónEjercicios propuestos 2
  3. 3. ESTADÍSTICA ÁLVARO VALENCIA OROZCO10.2 Definición de probabilidad10.2.1 Probabilidad a priori10.2.2 Probabilidad a posteriori10.2.3 Probabilidad subjetiva10.3 Axiomas de la teoría de probabilidades10.4 Probabilidad condicional e independencia estadísticaCuestionario y ejercicios propuestos10.5 Variable aleatoria10.6 Función de probabilidad10.6.1 Función de probabilidad10.6.2 Función de distribuciónCuestionario y ejercicios propuestos10.7 Valor esperado (esperanza matemática)10.7.1 Media aritmética poblacional10.7.2 Varianza poblacionalCuestionario y ejercicios propuestos.11. Distribuciones Especiales11.1 Distribución de Bernoulli11.2 Distribución binomial, tablas binomiales11.3 Distribución de Poisson, tablas de Poisson11.4 Distribución normal11.5 Distribución normal estándar, tablas normalesCuestionario y ejercicios propuestos11.6 El tamaño de la muestraReferencias Bibliográficas Alatorre, et al., Introducción a los métodos estadísticos, México, UPN. Azorín, Poch. Francisco. Curso de muestreo y aplicaciones, Aguilar, 1969. Barahoma, Abel y otro. Metodología de trabajos científicos, Ipler, 1979. Bencardino M., Ciro. Estadística, Apuntes y 600 Problemas Resueltos, 2a Edición, Ecoe, 1982. Castillo, Juana, Estadística inferencial básica, México, CCH, UNAM. CHAO. Lincoln L. Estadística para Ciencias Administrativas, 2a Edición, MCGRAWHILL, 1980. Dixon, Wilfrid J y otro. Introducción al Análisis Estadístico, 2a Edición, MCGRAWHILL, 1965. Doms, Fernan P. La Estadística Qué Sencilla, 2a Edición, Paraninfo, 1969. Downie, N. M. y otro. Métodos Estadísticos Aplicados. Harper Row Publishers Inc., 1970. Giardina, Basilio. Manual de Estadística, 3 Edición, 1972. Haber, Audrey. Estadística General, Fondo Educativo Interamericano, 1973. Hoel, Paul G. Estadística elemental, México, CECSA. Johnson, Robert, Estadística elemental, Buenos Aires, Grupo Editorial Iberoamericana. Kazmier, Leonard J. Estadística Aplicada a la Administración y la Economía, MCGRAW-HILL, 1978. Leitold Louis. El Cálculo con Geometría Analítica, 2a Edición, Harla S.A., 1973. Levin Yack. Fundamentos de Estadística en la Investigación Social, 2a Edición, Harla S., 1977. Llerena, León, Ricardo y otro. Curso de Estadística General, U. de A., 1981. Mejía V., William. Bioestadística General, Escuela Nal. De Salud Pública, U. de A., 3
  4. 4. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 1980. National Council of Teachers. Of. Mathematics USA. Recopilación, Organización e interpretación de Datos, Trilla, 1970. Portilla, Ch. Enrique. Estadística, Primer Curso. Interamericano, 1980. Richards, Larry E. Y otro. Estadística en los Negocios. ¿por qué y cuándo?, MCGRAW-HILL,1978. Seymour, Lipschutz, Teoría y problemas de probabilidad, México, McGraw-Hill. Shao, Stephen P. Estadística para Economistas y Administradores de Empresas, 15a Edición, 1979. Spiegel, Murray R. Estadística, MCGRAW-HILL, 1970. Spiegel, Murray, Teoría y problemas de estadística, México, McGraw-Hill. Stevenson, William, Estadística, México, Harla. Yamane, Taro, Estadística, México, Harla. 4
  5. 5. ESTADÍSTICA ÁLVARO VALENCIA OROZCO ESTADÍSTICAINTRODUCCIÓN “Las acciones que acometemos hoy se basan en un plan de ayer y las expectativas del mañana”.La palabra estadística se origina, en las técnicas de recolección, organización, conservación, ytratamiento de los datos propios de un estado, con que los antiguos gobernantes controlaban sussúbditos y dominios económicos. Estas técnicas evolucionaron a la par con el desarrollo de lasmatemáticas, utilizando sus herramientas en el proceso del análisis e interpretación de la información.Para mediados del siglo XVII en Europa, los juegos de azar eran frecuentes, aunque sin mayoresrestricciones legales. El febril jugador De Méré consultó al famoso matemático y filosofo Blaise Pascal(1623-1662) para que le revelara las leyes que controlan el juego de los dados, el cual, interesado en eltema, sostuvo una correspondencia epistolar con el tímido Pierre de Fermat (1601-1665, funcionariopúblico apasionado por las matemáticas; célebre porque no publicaba sus hallazgos) dando origen a lateoría de la probabilidad, la cual se ha venido desarrollando y constituyéndose en la base primordial dela estadística.En nuestros días, son de uso cotidiano las diferentes técnicas estadísticas que partiendo deobservaciones muestrales o históricas, crean modelos lógico-matemáticos que se "aventuran" describiro pronosticar un determinado fenómeno con cierto grado de certidumbre medible.El presente texto no pretende teorizar el saber estadístico, desde luego, no es un libro para estadísticos,ya que, adrede se obvia el rigor científico de lo expuesto en beneficio de la sencillez necesaria para elneófito; con un lenguaje coloquial se conduce al lector a través del contenido, a partir de dos o tresejemplos que ilustran la aplicabilidad de los temas tratados.El avance tecnológico en la informática ha contribuido enormemente al desarrollo de la estadística,sobre todo en la manipulación de la información, pues en el mercado existen paquetes estadísticos deexcelente calidad, como el SAS, SPSS, SCA, STATGRAPHICS, amén de otros, que "corren" en unordenador sin mayores exigencias técnicas, permitiendo el manejo de grandes volúmenes deinformación y de variables.La estadística, entonces, dejó de ser una técnica exclusiva de los estados, para convertirse en unaherramienta imprescindible de todas las ciencias, de donde proviene la desconcertante des-uniformidad en las definiciones de los diferentes autores, ya que cada estudioso la define de acuerdocon lo que utiliza de ella y tenemos definiciones como que: la estadística es la tecnología del métodocientífico, o que es el conocimiento relacionado con la toma de decisiones en condiciones deincertidumbre, o que la estadística son métodos para obtener conclusiones a partir de los resultados delos experimentos o procesos, o que es un método para describir o medir las propiedades de unapoblación. En fin, no se trata de discutir si la estadística es una ciencia, una técnica o una herramienta,sino de la utilización de sus métodos en provecho de la evolución del conocimiento.La estadística hace inferencias sobre una población, partiendo de una muestra representativa de ella.Es a partir del proceso del diseño y toma de la muestra desde donde comienzan a definirse lasbondades y confiabilidad de nuestras aseveraciones, hechas, preferentemente, con un mínimo costo ymínimo error posible.. 5
  6. 6. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 1. CONCEPTOS PRELIMINARES. 1.1 BREVE HISTORIA DE LA ESTADÍSTICA. Godofredo Achenwall, profesor y economista alemán (1719 a 1772) es considerado por algunos investigadores el fundador de la Estadística. Siendo profesor de la Universidad de Leipzig, escribió un artículo sobre el descubrimiento de una nueva ciencia que llamó Estadística y que definió como “el conocimiento profundo de la situación respectiva y comparativa de cada estado”. Achenwall y sus seguidores estructuraron los métodos estadísticos que se orientaron a investigar, medir y comparar las riquezas de las naciones a partir de los conceptos de inventarios y censos que ya se realizaban desde la antigüedad. Los juegos de azar dieron origen a la teoría de las probabilidades desarrollada por Pascal y Fermat a mediados del siglo XVII. La curva Normal de mucha importancia en el desarrollo de la Estadística fue publicada originalmente en 1733 por De Moivre, quien no supo como aplicar sus resultados a observaciones experimentales. Su escrito permaneció desconocido hasta que Karl Pearson lo encontró en 1924. Sin embargo, al mismo resultado llegaron los astrónomos y matemáticos Laplace (1749 a 1827) y Gauss (1777 a 1855), independientemente el uno del otro. En el siglo XIX, se hizo necesaria una base más sólida para la estadística. Karl Pearson (1857 a 1936) aplicó las matemáticas a la evolución, como resultado del entusiasmo que generó Darwin en la Biología y construyó durante medio siglo una investigación estadística rigurosa, fundó la revista Biometrika y una escuela de estadística. Gosset (1876 a 1937), consideraba insuficientes los desarrollos matemáticos para encontrar distribuciones exactas de la desviación estándar y otros parámetros; sus escritos sobre sus resultados aparecieron con el seudónimo de Student en la revista Biometrika; Hoy, la distribución t-Student es instrumento fundamental de la estadística. R. A. Fisher (1890 a 1962) recibió influencias de Pearson y de Student e hizo numerosas e importantes contribuciones a la Estadística, entre las que se destaca la teoría sobre la verificación o prueba de hipótesis estadística, presentada en 1936 con J. Neuman. 1.2 DIMENSIÓN ACTUAL DE LA ESTADÍSTICA La estadística ha tenido un desarrollo extraordinario, que ha hecho que muchos problemas que antes no tenían una clara solución, hoy la tengan. Para que podamos hacernos una idea de la diversidad de campos en los que la Estadística juega un papel importante, se presentan a continuación algunas situaciones. Prueba de una vacuna. Se quiere determinar la efectividad de una vacuna; para ello se diseña un experimento en el cual participa un gran conjunto de niños de cierta edad, los cuales son clasificados al azar en 2 grupos, al primer grupo se le aplica la vacuna y al segundo grupo no. Se les hace un seguimiento durante un periodo adecuado de tiempo para comparar la incidencia de la enfermedad problema en cada grupo. ¿Cuál debe ser la diferencia mínima en el número de afectados para aceptar que la vacuna es efectiva?. Determinación de la etiología de una enfermedad. Para que una enfermedad se produzca es preciso una combinación adecuada de las condiciones de tres elementos que son: el agente, el ambiente y el huésped. Al proceso constituido por las interrelaciones entre estos tres elementos que caracteriza y explica la presencia de la enfermedad, se conoce como “historia natural de la enfermedad”. La epidemiología se dedica en gran parte a la determinación de la historia natural de las enfermedades ya que conociendo ésta, es posible determinar cuál etapa del desarrollo de la enfermedad es más factible de interrumpir para evitar la misma. No es fácil en la mayoría de los casos, determinar la historia natural de una enfermedad, y en ello la estadística juega un papel muy importante al proporcionar herramientas para comparar 6
  7. 7. ESTADÍSTICA ÁLVARO VALENCIA OROZCO la distribución de la enfermedad en grupos con diversas características socioeconómicas (sexo, edad, condiciones geográficas, raza, hábitos, etc.), con el ánimo de ir acotando las condiciones ambientales y del huésped que conduzcan a la explicación de la historia natural de la enfermedad. Determinación de la dosis de una droga. Para lanzar una nueva droga al mercado, es necesario superar una serie de etapas y pruebas que son más o menos rigurosas dependiendo de las leyes del país en cuestión. Generalmente el consumo de una droga puede producir efectos colaterales que pueden ser más o menos graves. Por tal razón es necesario diseñar experimentos para determinar niveles de sensibilidad y la dosis adecuada que permita atacar la enfermedad y no producir molestias. (Nótese que estos aspectos varían de persona a persona). Caracterización de la demanda por el servicio de Urgencia Hospitalaria. La demanda por el servicio de Urgencia Hospitalaria es variable de mes a mes, de semana a semana, día a día, e inclusive en las horas de un mismo día. El conocimiento de dicha distribución es de mucho interés para la determinación de los recursos humanos y materiales y para su programación. Un acercamiento a la distribución de la demanda puede conseguirse recolectando información y realizando algunos análisis estadísticos. Fase de planeación. La planeación es en cierta forma “mirar hacia el futuro con los ojos del pasado”. En el proceso de planeación se requiere disponer de la información cuantitativa y cualitativamente adecuadas para tomar decisiones ahora, que tendrán implicaciones en el futuro. Una empresa debe hacer proyecciones de demanda del artículo que produce, pues con base en ella, se hará la programación de la producción y todo lo que ella trae consigo. Dicha demanda puede ser estimada a través de modelos estadísticos de SERIES DE TIEMPO. Control de calidad. La calidad con que se produce un artículo es muy importante para cada industria. Esta constituye un factor básico de competencia en el peor de los casos, porque en el caso de drogas o alimentos se trata de la integridad e incluso de la vida de las personas. En la práctica es muy costoso y a veces imposible inspeccionar el 100% de la producción o de la materia prima; se puede en estos casos diseñar un plan estadístico de muestreo, y unos instrumentos que permitan tomar decisiones muy confiables sobre la calidad de un lote de producción a partir de la observación de unos pocos artículos, economizando de esta manera dinero y tiempo. Comparación de la eficiencia de dos procesos. Se desea decidir sobre cuál de 2 procedimientos utilizar para la realización de una actividad intermedia en la producción de un artículo, tomando como criterio la eficiencia. Se diseña el experimento y se realizan observaciones durante corto tiempo con base en las cuales se deberá decidir con cierta confiabilidad cuál procedimiento es mejor. Producción Agrícola. Se van a sembrar grandes áreas de terreno con papa china, se requiere por tanto diseñar un experimento para determinar entre otras cosas: ¿Cuál debe ser la distancia entre plantas?, ¿Cuáles deben ser los niveles de agua y de nutrientes a usar?, ¿Hay o no interacción entre la distancia entre plantas y los niveles de nutrientes? Todo ello para conseguir óptima producción. Econometría. Determinación de las principales características socioeconómicas que generan la inflación y cómo influye cada una de ellas, presentando esto a través de un modelo de Regresión. Análisis actuarial. 7
  8. 8. ESTADÍSTICA ÁLVARO VALENCIA OROZCO Una empresa de seguros de vida, desea determinar cuánto debe cobrar al año por una póliza, según la edad. Para ello, debe realizar un estudio estadístico sobre los riesgos y las frecuencias de muertes por grupos de edad. 1.3 ¿QUÉ ES ESTADÍSTICA? Es un sistema o método científico, que estudia el comportamiento de los fenómenos de masa, mediante la recopilación, organización, clasificación, presentación, análisis, e interpretación de datos que interesan al investigador, para sacar conclusiones generales, destinadas a mejorar las políticas que rigen los procesos que se cumplen en la naturaleza y en la vida social. 1.4 FINALIDAD DE LA ESTADÍSTICA La estadística tiene por finalidad suministrar información, cuya utilidad depende del objeto para el cual se realiza la estadística y la forma en que se realiza la obtención de los datos. Algunas aplicaciones de la estadística que podemos nombrar en forma general son: Conocer la realidad de una observación o de un fenómeno. Ejemplo: si se cumple o no la producción programada para un artículo. Determinar lo típico o normal de una observación. Ejemplo: el promedio de edad de los estudiantes de un grado determinado. Determinar los cambios que presenta un fenómeno. Ejemplo: un cambio en cantidad de ventas de un producto. Determinar las causas que originan un fenómeno. Ejemplo: la disminución de valor de un producto por efectos de la oferta y la demanda. Estimativos sobre el comportamiento futuro de un fenómeno. Ejemplo: la proyección de ventas de un artículo dependiendo del aumento de población. 1.5 RAMAS DE LA ESTADÍSTICA La estadística dispone de dos tipos de usos diferentes: La Estadística descriptiva o deductiva y la Estadística inferencial o inductiva. La Estadística descriptiva o deductiva permite obtener conclusiones sobre un conjunto de datos, a partir de los mismos, sin sobrepasar el conjunto de conocimientos que éstos proporcionan. Sus métodos disponen las técnicas de recolectar, presentar, analizar e interpretar datos. La estadística inferencial es un proceso inductivo que permite inferir a toda la población, proposiciones basadas en las observaciones y resultados proporcionados por la muestra. Incluye un factor de incertidumbre que no evita el error pero lo cuantifica. 1.6 VARIABLES. Son características de las personas u objetos de una muestra o población que se observa. Las variables pueden ser cuantitativas o cualitativas. Si las observaciones se pueden expresar mediante números, se trata de una variable cuantitativa como por ejemplo el número de kilómetros que tienen que conducir cada noche quienes acuden en su coche a la universidad, la cantidad de usuarios por hora en un cajero automático o las calificaciones que los estudiantes obtienen en una evaluación determinada. Y si la variable se mide por medios no numéricos, se trata de una variable cualitativa como por ejemplo el estado civil de los solicitantes de préstamos en un banco, el lugar de procedencia de los estudiantes de la Universidad o la raza, el color de cabello y preferencia religiosa de una población. Además, las variables también pueden ser continuas o discretas. Una variable continua es aquella que puede tomar cualquier valor dentro de un determinado rango, cuando se realizan mediciones u observaciones. Por ejemplo, al realizar un estudio de la relación existente entre el peso y la estatura de los niños de preescolar, se puede encontrar cualquier valor dentro de un rango para las variables de estudio. Y una variable discreta es aquella que da lugar a valores 8
  9. 9. ESTADÍSTICA ÁLVARO VALENCIA OROZCO separados y no continuos dentro de un determinado rango, esto es, solo pueden tomar algunos valores del rango y generalmente son aquellas cuya observación depende de la enumeración o del conteo. Por ejemplo, el número de usuarios que visita diariamente una web, el número de estudiantes de la clase de estadística. 1.7 POBLACIÓN Y MUESTRAS Cada investigación que recurre al uso de métodos Estadísticos inicialmente define si se puede o debe recurrir al conjunto de todos los datos o sólo a una parte de éste. 1.7.1 POBLACIÓN. Conjunto de todos los elementos, individuos u objetos que tienen una característica en común y además son objeto de un estudio. Una población o universo consiste en todos los posibles valores de una variable. Cuando se disponen todos los valores de una población es posible describirla sin ambigüedad. Estos valores no tienen que ser todos diferentes ni en número infinito. Son ejemplos: La edad de los niños Colombianos que cursan el quinto grado, El número de hijos por familia en el municipio de Candelaria. El número de vehículos que cruzan por un semáforo cada minuto. 1.7.2 MUESTRA Es una parte de una población que se utiliza frecuentemente para hacer inferencia acerca de la población. Por esta razón es particularmente importante definir la población que se estudia y obtener una muestra representativa de la población definida, lo que no es cosa trivial. Toda muestra representativa debe cumplir el principio de la aleatoriedad (cada elemento de la población tiene una oportunidad igual e independiente de ser elegido), consistente en un proceso que asegure que los sesgos individuales conocidos o desconocidos, no influyan en la selección de la muestra y tener cualquier tamaño, pero que cumpla con unos objetivos planeados en la estadística y con un margen de error tolerable y un nivel de confianza que la hagan aceptable para la población. 1.7.3 MUESTREO Es el proceso de recoger una muestra. Existen diferentes métodos de muestreo: Aleatorio: Cada elemento de la población tiene la misma oportunidad de ser elegido. No aleatorio: Cuando se hace de manera deliberada, dirigida o por cuotas No restringido: No hay condición que restrinja a los elementos de la población. Restringido: Existen condiciones que restringen a la población. Estratificado: La población se divide en grupos homogéneos. Estratificado igual: Si de cada estrato se saca igual cantidad de elementos para la muestra. Estratificado proporcional: Si de cada estrato se saca en forma proporcional (por conveniencia) para formar la muestra. Sistemático: Los elementos de la población están dispuestos ordenadamente por listados o registros. Censo: La recolección de la información incluye la población. 1.8 LA MEDIDA EN LA ESTADÍSTICA El material de trabajo en estadística son los datos. Las escalas de medida se asocian a las características de los datos, con la intención de manipularlos. Dada la necesidad de emplear mediciones numéricas, o una serie de números en el análisis de los datos, los investigadores han desarrollado mediciones para aplicarla a una gama muy amplia de fenómenos, incluyendo aspectos no cuantificables, tales como: prestigio ocupacional, actitudes, autoritarismo, alienación, inteligencia, prejuicio, dogmatismo, conformidad, 9
  10. 10. ESTADÍSTICA ÁLVARO VALENCIA OROZCO realización, etnocentrismo, religiosidad, armonía matrimonial, fertilidad, status socioeconómico. Dependiendo del nivel de medida empleada, los números tienen por lo menos tres funciones importantes para el investigador: Categorizan el nivel nominal de la medición. Determinan el rango de orden al nivel ordinal de la medición. Permiten obtener montajes al nivel cardinal (de intervalo, razón o proporción) de la medición. 1.8.1 ESCALAS NOMINALES Este nivel se utiliza para clasificar los objetos y numerar las clases. El valor numérico de una clase no cuantifica nada sobre ella, es decir que el número asignado a una clase sea mayor o menor que el de otra, no refleja nada sobre las propiedades del objeto, sino simplemente el hecho de que son distintas. De acuerdo con la zona en que viven, la población de un país puede dividirse en urbana, suburbana y rural; las cuales podrían llamarse clases 1,2 y 3. La escala nominal establece una relación de equivalencia y todos los eventos u objetos que pertenecen a una categoría tienen una característica igual. El número de eventos que pertenecen a una característica se llama frecuencia. 1.8.2 ESCALA ORDINAL Cuando las propiedades de los objetos pueden ser ordenadas según algún criterio. Esta escala establece una relación de orden entre las variables. Los números por su propiedad de orden nos permite establecer relaciones tales como: mayor que; igual a; menor que; más importante; etc. El nivel ordinal da información acerca de la organización de las categorías, pero no indica la magnitud de la diferencia entre los números. El valor numérico se usa para indicar en orden relativo el lugar que ocupa el elemento. Por ejemplo, ordenar de la más importante a la menos importante, cada una de las necesidades de empleo, vivienda, salud, servicios públicos y educación utilizando 1 para la más importante y así sucesivamente en orden de importancia. 1.8.3 ESCALA CARDINAL Cuando las propiedades de los objetos son cuantificables y se pueden hacer operaciones aritméticas. Es la de mayor uso en el Método Científico. Ejemplo: medida de distancias, tiempo, dinero, masas, fuerza, etc. Cuando se desea entregar una información como resultado de un estudio realizado utilizando la escala cardinal, dicha información la podemos entregar en términos de intervalos, razones o proporciones Intervalos: En contraste con el nivel ordinal, la medición por intervalos indica el orden de las categorías y la diferencia entre ellas. Emplean unidades de medición tales como días, metros, horas. Ejemplos son: El número de respuestas acertadas en las pruebas Icfes por cada uno de los aspirantes que se presentaron, El tiempo de duración de los bombillos de un fabricante, el tiempo requerido para enviar cada uno de los paquetes de datos de un conjunto. Razón: Son también llamadas de cociente, ya que es el cociente entre dos cantidades independientes es decir son partes de un todo. Ejemplo: En un grupo de 50 personas 40 son adultos y 10 son niños 10 1 La razón de niños es: 0.25 lo cual podemos interpretar como que en tal grupo 40 4 existen 0.25 niños por cada adulto, sin embargo en términos prácticos para algunos casos como este, es preferible entregar el resultado como enteros, es decir, existe un niño por cada 4 adultos. 10
  11. 11. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 40 La razón de adultos es: 4 lo que significa que existen 4 adultos por cada niño. 10 Proporción: En la proporción también se halla un cociente, pero las cantidades que se relacionan no son independientes, es decir, calculamos el cociente entre una parte y el total Ejemplo: Con respecto al grupo del anterior ejemplo deseamos saber la proporción de adultos, y la proporción de niños, luego: 10 La proporción de niños es: 0.20 lo cual podemos interpretar como que en tal grupo 50 existen 0.2 niños por cada persona, o que el 20% de las personas en dicho grupo son niños. 40 La proporción de adultos es: 0.80 lo que significa que existen 0.8 adultos por cada 50 persona, o que el 80% de las personas del grupo son adultos. 1.8.4 PARÁMETRO Se llamará parámetro a una característica medible de la población. Por ejemplo, el ingreso promedio de los estudiantes de la Universidad, el porcentaje de hombres en la Ciudad de Cali. Un parámetro es una constante para la población. 1.8.5 ESTADÍGRAFO O ESTADÍSTICO Se denominará estadígrafo a una característica medible en la muestra y que sirve para estimar el parámetro correspondiente de la población, por ejemplo la edad promedio de una muestra de estudiantes de una escuela, o el porcentaje de varones en la muestra. 1.9 REDONDEO DE DATOS Para realizar el redondeo de cantidades continuas con aproximaciones, tendremos en cuenta los siguientes criterios: Incrementar en una unidad el último dígito fijado, si el que sigue es mayor o igual que 5. No cambiar el último dígito fijado, si el que sigue es menor que 5. Ejemplo: Dados los siguientes números, redondear a 2 dígitos decimales (centésimas). a. 45,32854 45,33 b. 0,39425 0,39 c. 1,29632 1,30 d. 4,325 4,33 e. 8,435 8,44 EJERCICIOS: En los siguientes ejercicios encuentre las razones, las proporciones y porcentajes sugeridos 1. Supongamos que una empresa tiene clasificados sus empleados por año y por sexo SEXO AÑO Total Hombres Mujeres 1995 780 320 1100 2000 880 620 1500 11
  12. 12. ESTADÍSTICA ÁLVARO VALENCIA OROZCO Encuentre para cada uno de los años: La razón de feminidad La razón de masculinidad La proporción de feminidad La proporción de masculinidad 2. Suponga que se dispone de cierta información por sexo, sobre personas portadoras de un virus: VIRUS X SEXO Total Portadores No portadores Hombres 3500 5´600.000 Mujeres 7200 9´200.000 Total Encuentre: La razón de feminidad entre portadores La razón de masculinidad entre portadores La razón de feminidad entre no portadores La razón de masculinidad entre no portadores La proporción de feminidad entre portadores La proporción de masculinidad entre portadores La proporción de feminidad entre no portadores La proporción de masculinidad entre no portadores La proporción de portadores La proporción de no portadores 3. Las pérdidas en una fábrica de papel, (en miles de dólares), debidos a las rupturas de la hoja se pueden dividir de acuerdo con el producto en: Papel higiénico 132 Toallas 85 Servilletas 43 Pañuelos 50 Encuentre: Qué porcentaje de las pérdidas se obtiene al hacer c/u de los productos? La razón de pérdidas al hacer papel higiénico con respeto a c/u de los otros productos La razón de pérdidas al hacer servilletas con respeto a los otros productos La proporción de pérdidas de cada uno de los productos. 4. Redondear cada uno de los siguientes números a la exactitud que se indica: 48,6 aproximar a las unidades. 136,5 aproximar a las unidades. 2,484 aproximar a las centésimas. 0,0435 aproximar a las milésimas. 143,95 aproximar a las décimas. 368 aproximar a las centenas. 24448 aproximar a las unidades de millar. 24581562 aproximar a las unidades de millón. 12
  13. 13. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 48,6 aproximar a las decenas.2. Etapas del Método EstadísticoEl método estadístico, parte de la observación de un fenómeno, y como no puede siempre mantener lasmismas condiciones predeterminadas o a voluntad del investigador, deja que actúen libremente, perose registran las diferentes observaciones y se analizan sus variaciones.Para el planeamiento de una investigación, por norma general, se siguen las siguientes etapas:2.1 Planteamiento del problema.2.2 Fijación de los objetivos.2.3 Formulación de la hipótesis.2.4 Definición de la unidad de observación y de la unidad de medida.2.5 Determinación de la población y de la muestra.2.6 La recolección.2.7 Crítica, clasificación y ordenación.2.8 Tabulación.2.9 Presentación.2.10 Análisis.2.11 Publicación.2.1 PLANTEAMIENTO DEL PROBLEMAAl abordar una investigación se debe tener bien definido qué se va a investigar y por qué se pretendeestudiar algo. Es decir, se debe establecer una delimitación clara, concreta e inteligible sobre el o losfenómenos que se pretenden estudiar, para lo cual se deben tener en cuenta, entre otras cosas, larevisión bibliográfica del tema, para ver su accesibilidad y consultar los resultados obtenidos porinvestigaciones similares, someter nuestras proposiciones básicas a un análisis lógico; es decir, se debehacer una ubicación histórica y teórica del problema.2.2 FIJACIÓN DE LOS OBJETIVOSLuego de tener claro lo que se pretende investigar, Debemos presupuestar hasta dónde queremosllegar; en otras palabras, debemos fijar cuáles son nuestras metas y objetivos.Estos deben plantearse de tal forma que no haya lugar a confusiones o ambigüedades y debe, además,establecerse diferenciación entre lo de corto, mediano y largo plazo, así como entre los objetivosgenerales y los específicos.2.3 FORMULACIÓN DE LAS HIPÓTESISUna hipótesis es ante todo, una explicación provisional de los hechos objeto de estudio, y suformulación depende del conocimiento que el investigador posea sobre la población investigada. Unahipótesis estadística debe ser susceptible de docimar, esto es, debe poderse probar para su aceptacióno rechazo.Una hipótesis que se formula acerca de un parámetro (media, proporción, varianza, etc.), con elpropósito de rechazarla, se llama Hipótesis de Nulidad y se representa por Ho; a su hipótesis contrariase le llama Hipótesis Alternativa (H1).2.4 DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDALa Unidad de Observación, entendida como cada uno de los elementos constituyentes de la poblaciónestudiada, debe definirse previamente, resaltando todas sus características; pues, al fin de cuentas, es aellas a las que se les hará la medición.La unidad de observación puede estar constituida por uno o varios individuos u objetos y denominarserespectivamente simple o compleja. 13
  14. 14. ESTADÍSTICA ÁLVARO VALENCIA OROZCOEl criterio sobre la unidad de medición debe ser previamente definido y unificado por todo el equipo deinvestigación. Si se trata de medidas de longitud, volumen, peso, etc., debe establecerse bajo qué unidadse tomarán las observaciones ya sea en metros, pulgadas, libras, kilogramos, etc.Asociado a la unidad de medida, deben establecerse los criterios sobre las condiciones en las cuales seha de efectuar la toma de la información.2.5 DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRAEstadísticamente, la población se define como un conjunto de individuos o de objetos que poseen una ovarias características comunes. No se refiere esta definición únicamente a los seres vivientes; unapoblación puede estar constituida por los habitantes de un país o por los peces de un estanque, asícomo por los establecimientos comerciales de un barrio o las unidades de vivienda de una ciudad.Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el términoinfinito no está siendo tomado con el rigor semántico de la palabra; por ejemplo, los peces dentro de unestanque son un conjunto finito; sin embargo, en términos estadísticos, puede ser considerado comoinfinito.Muestra es un subconjunto de la población a la cual se le efectúa la medición con el fin de estudiar laspropiedades del conjunto del cual es obtenida.En la práctica, estudiar todos y cada uno de los elementos que conforman la población no esaconsejable, ya sea por la poca disponibilidad de recursos, por la homogeneidad de sus elementos,porque a veces es necesario destruir lo que se está midiendo, por ser demasiado grande el número desus componentes o no se pueden controlar; por eso se recurre al análisis de los elementos de unamuestra con el fin de hacer inferencias respecto al total de la población. Existen diversos métodos paracalcular el tamaño de la muestra y también para tomar los elementos que la conforman, pero no es elobjetivo de este curso estudiarlos. Diremos solamente que la muestra debe ser representativa de lapoblación y sus elementos escogidos al azar para asegurar la objetividad de la investigación.2.6 LA RECOLECCIÓNUna de las etapas más importantes de la investigación es la recolección de la información, la cual ha departir, a menos que se tenga experiencia con muestras análogas, de una o varias muestras piloto en lascuales se pondrán a prueba los cuestionarios y se obtendrá una aproximación de la variabilidad de lapoblación, con el fin de calcular el tamaño exacto de la muestra que conduzca a una estimación de losparámetros con la precisión establecida.El establecimiento de las fuentes y cauces de información, así como la cantidad y complejidad de laspreguntas, de acuerdo con los objetivos de la investigación son decisiones que se han de tomarteniendo en cuenta la disponibilidad de los recursos financieros, humanos y de tiempo y laslimitaciones que se tengan en la zona geográfica, el grado de desarrollo, la ausencia de técnica, etc.Es, entonces, descubrir dónde está la información y cómo y a qué "costo" se puede conseguir; esdeterminar si la encuesta se debe aplicar por teléfono, por correo, o si se necesitan agentes directos querecojan la información; establecer su número óptimo y preparar su entrenamiento adecuado.2.7 CRITICA, CLASIFICACIÓN Y ORDENACIÓNDespués de haber reunido toda la información pertinente, se necesita la depuración de los datosrecogidos. Para hacer la crítica de una información, es fundamental el conocimiento de la población porparte de quien depura para poder detectar falsedades en las respuestas, incomprensión a las preguntas,respuestas al margen, amén de todas las posibles causas de nulidad de una pregunta o nulidad de todoun cuestionario.Separado el material de "desecho" con la información depurada se procede a establecer lasclasificaciones respectivas y con la ayuda de hojas de trabajo, en las que se establecen los cruces 14
  15. 15. ESTADÍSTICA ÁLVARO VALENCIA OROZCOnecesarios entre las preguntas, se ordenan las respuestas y se preparan los modelos de tabulación delas diferentes variables que intervienen en la investigación.El avance tecnológico y la popularización de los computadores hacen que estas tareas, manualmentedispendiosas, puedan ser realizadas en corto tiempo.2.8 LA TABULACIÓNUna tabla es un resumen de información respecto a una o más variables, que ofrece claridad al lectorsobre lo que se pretende describir; para su fácil interpretación una tabla debe tener por lo menos: Untitulo adecuado el cual debe ser claro y conciso. La Tabla propiamente dicha con los correspondientessubtítulos internos y la cuantificación de los diferentes ítems de las variables, y las notas de pie decuadro que hagan claridad sobre situaciones especiales de la tabla, u otorguen los créditos a la fuentede la información.2.9 LA PRESENTACIÓNUna información estadística adquiere más claridad cuando se presenta en la forma adecuada. Loscuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con las variables que se van apresentar y la forma de hacerlo. No es aconsejable saturar un informe con tablas y gráficos redundantesque, antes que claridad, crean confusión.Además la elección de determinada tabla o gráfico para mostrar los resultados, debe hacerse no sólo enfunción de las variables que relaciona, sino del lector a quien va dirigido el informe.2.10 EL ANÁLISISLa técnica estadística ofrece métodos y procedimientos objetivos que convierten las especulaciones deprimera mano en aseveraciones cuya confiabilidad puede ser evaluada y ofrecer una premisa medibleen la toma de una decisión.Es el análisis donde se cristaliza la investigación. Esta es la fase de la determinación de los parámetros yestadísticos muestrales para las estimaciones e inferencias respecto a la población, el ajuste de modelosy las pruebas de las hipótesis planteadas, con el fin de establecer y redactar las conclusiones definitivas.2.11 PUBLICACIÓNToda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros estudiosos del mismoproblema a quienes se les puede aportar información, conocimientos y otros puntos de vista acerca deél.3. Distribución de FrecuenciasDespués de recoger toda la información correspondiente a la investigación, es decir, al agotar todo eltrabajo de campo, nuestro escritorio se llena de un cúmulo de datos y cifras desordenadas los cuales, alser tomados como observaciones individuales, dicen muy poco sobre la población estudiada; es,entonces, tarea del investigador “hacer hablar las cifras”, comenzando por la clasificación y ordenación,consignando la información en tablas inteligibles que denominamos distribuciones de frecuencias.3.1 DISTRIBUCIÓN DE FRECUENCIAS SIMPLEPara una mayor sencillez, en la exposición del tema, nos valemos del siguiente ejemplo: Supongamosque en la fábrica de confecciones “La Hilacha”, ha estallado un conflicto laboral y sus cincuentaoperarias solicitan un aumento en el salario integral diario sopena de paralizar la fábrica.El Gerente-propietario recoge la información respecto a la variable salario diario de sus 50 operarias yla relaciona en la tabla No 1. 15
  16. 16. ESTADÍSTICA ÁLVARO VALENCIA OROZCO Tabla No.1 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA)OBRER SALARI OBRER SALARI OBRER SALARI OBRER SALARI OBRER SALARI A O A O A O A O A O 1 52 11 54 21 55 31 56 41 52 2 54 12 51 22 55 32 53 42 57 3 55 13 54 23 52 33 57 43 56 4 54 14 55 24 55 34 54 44 51 5 53 15 54 25 53 35 53 45 58 6 56 16 56 26 57 36 50 46 55 7 54 17 52 27 54 37 55 47 53 8 58 18 54 28 55 38 52 48 54 9 51 19 53 29 53 39 53 49 53 10 54 20 55 30 55 40 54 50 56 Tabla No. 2 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA) SALARIO SALARIO SALARIO SALARIO SALARIO 52 54 55 56 52 54 51 55 53 57 55 54 52 57 56 54 55 55 54 51 53 54 53 53 58 56 56 57 50 55 54 52 54 55 53 58 54 55 52 54 51 53 53 53 53 54 55 55 54 56 Tabla No. 3 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA) SALARIO SALARIO SALARIO SALARIO SALARIO 50 53 54 55 56 51 53 54 55 56 51 53 54 55 56 51 53 54 55 56 52 53 54 55 56 52 53 54 55 57 52 53 54 55 57 52 53 54 55 57 52 54 54 55 58 53 54 54 55 58 16
  17. 17. ESTADÍSTICA ÁLVARO VALENCIA OROZCO Tabla No. 4 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA) SALARIO CONTEO REPETICIÓN 50 I 1 51 III 3 52 IIIII 5 53 IIIIIIIII 9 54 IIIIIIIIIIII 12 55 IIIIIIIIII 10 56 IIIII 5 57 III 3 58 II 2 SUMA 50Como se puede observar, hay una gran diferencia entre los datos brutos de la tabla No.1 y elordenamiento y agrupamiento de la tabla No. 4. ..Con el fin de obtener una mejor tabla interpretativa, introduciremos la siguiente simbología:n: El tamaño de la muestra, es el número de observaciones.xi: La variable; es cada uno de los diferentes valores que se han observado. La variable xi, toma los x1,x2... xm valores.fi: La frecuencia absoluta o simplemente frecuencia, es el número de veces que se repite la variable xi;así f1, es el número de veces que se repite la observación x1, f2 el número de veces que se repite laobservación x2, etc.fa: La frecuencia absoluta acumulada, se obtiene acumulando la frecuencia absoluta.fr: La frecuencia relativa; es el resultado de dividir cada una de las frecuencias absolutas por el tamañode la muestra.fra: Frecuencia relativa acumulada; se obtiene dividiendo la frecuencia acumulada entre el tamaño de lamuestra. .Veamos el ejemplo que venimos trabajando: Tabla No. 5 DISTRIBUCIÓN DE FRECUENCIAS DEL SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA) SALARIO FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA Xi ABSOLUTA ABSOLUTA RELATIVA RELATIVA fi ACUMULADA fr ACUMULADA fa fra 50 1 1 1/50=0.02 1/50=0.02 51 3 4 3/50=0.06 4/50=0.08 52 5 9 5/50=0.10 9/50=0.18 53 9 18 9/50=0.18 18/50=0.36 54 12 30 12/50=0.24 30/50=0.60 55 10 40 10/50=0.20 40/50=0.80 56 5 45 5/50=0.10 45/50=0.90 17
  18. 18. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 57 3 48 3/50=0.06 48/50=0.96 58 2 50 2/50=0.04 50/50=1.00 SUMAS 50 1.00En la práctica, cuando se tiene confianza en el ordenamiento, no son necesarias tantas tablas; se puedepasar de la tabla No 1 directamente a la tabla No 6. Tabla No. 6 DISTRIBUCIÓN DE FRECUENCIAS DEL SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA) SALARIO FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA Xi ABSOLUTA ABSOLUTA RELATIVA RELATIVA fi ACUMULADA fr ACUMULADA fa fra 50 1 1 0.02 0.02 51 3 4 0.06 0.08 52 5 9 0.10 0.18 53 9 18 0.18 0.36 54 12 30 0.24 0.60 55 10 40 0.20 0.80 56 5 45 0.10 0.90 57 3 48 0.06 0.96 58 2 50 0.04 1.00 SUMAS 50 1.00Analizando las columnas porcentuales fr y fra se obtienen, entre otras las siguientes conclusiones: Sólo el 4% de las obreras gana el máximo salario/día de la fábrica, el cual corresponde a $58.000.00 El salario diario mínimo ($50.000.00) lo gana únicamente una obrera, lo que constituye el 2% del personal asalariado. El 62% de las operarias tiene un salario diario entre $53.000.00 y $55.000.00 El 60% de las obreras tiene un salario/día de $54.000.00 o menos. El 64% tiene un ingreso diario de $54.000.00 o más.CUESTIONARIO Y EJERCICIOS PROPUESTOS1. ¿Qué es frecuencia absoluta?2. Cómo se obtiene:2.1 ¿La frecuencia acumulada?2.2 ¿La frecuencia relativa?2.3 ¿La frecuencia relativa acumulada3. En una distribución de frecuencias ¿se pueden establecer conclusiones porcentuales, utilizandosolamente la frecuencia relativa? ¿Por qué?4. La siguiente tabla relaciona las ausencias al trabajo de 50 obreras, durante el mes de octubre, en lafábrica de confecciones "la hilacha". 1 0 2 1 3 1 4 3 2 5 3 2 4 2 0 3 1 2 0 2 1 1 0 1 0 0 1 2 1 3 4 0 2 3 2 0 0 2 5 2 2 4 2 1 3 1 2 1 0 2 18
  19. 19. ESTADÍSTICA ÁLVARO VALENCIA OROZCO4.1 Construir una distribución de frecuencias simple.4.2 Sacar 3 conclusiones.5. Años de experiencia de las 50 operarias de la fábrica de confecciones "la hilacha" 4 6 5 6 4 6 5 5 6 5 5 5 8 8 8 6 9 6 5 7 7 9 3 2 7 4 5 7 7 3 6 7 7 7 8 3 6 6 7 6 4 6 8 5 6 6 7 5 7 4Ordenar la Información y responder:5.1 ¿Qué porcentaje de las obreras tiene experiencia inferior o igual a 6 años?5.2 ¿Qué porcentaje tiene experiencia entre 5 y 7 años (incluyendo los extremos)?3.2 DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOSUsualmente los valores de los datos no permiten un agrupamiento de ellos en una tabla de frecuenciassimple, debido a que se encuentran distribuidos a través de todo el recorrido y el número de veces quese repite cada observación no es significativo en todos los casos, y en la mayoría de ellos su frecuenciaes baja. Una tabla de frecuencias construida en estas condiciones, no presenta ninguna utilidad.Ilustraremos el caso a través de un ejemplo, para ello, supongamos que la fábrica de baldosas ”De lascasas”, con el objeto de ofrecer una garantía de su producto, desea hacer un estudio técnico de suproducción, para lo cual extrae una muestra de 100 baldosas, cada una de las cuales se somete a unaprueba de resistencia, destructiva cuyos datos expresados en Kg/cm2, se relacionan a continuación: Tabla No 7 REISTENCIA EN KG/CM² DE 100 BALDOSAS DE LA FÁBRICA “DE LAS CASAS” 478 391 655 621 498 469 223 183 323 321 339 487 436 223 720 369 449 345 360 472 666 540 422 418 122 736 477 479 383 575 313 458 569 487 253 310 392 321 282 559 415 694 610 634 433 648 448 463 161 259 210 239 504 282 351 521 537 517 452 578 419 644 683 460 135 763 533 591 367 337 425 291 478 470 450 444 368 592 359 444 425 480 398 542 439 361 746 586 555 251 420 459 495 780 308 370 437 531 549 527La clasificación en una distribución de frecuencias simple daría como resultante un ordenamiento depor lo menos 80 items; la mayoría de ellos con frecuencia unitaria.Se hace necesario el agrupamiento en intervalos o clases que haga más compacta, manejable ypresentable la información.El número de clases y la amplitud de los intervalos los fija el investigador de acuerdo con elconocimiento que posea de la población, la necesidad de hacer comparación con otras investigaciones yla presentación de la información. Sin embargo, se recomienda que la información no sea demasiadocompacta, lo cual le restaría precisión, ni demasiado dispersa, ya que no se tendría claridad. 19
  20. 20. ESTADÍSTICA ÁLVARO VALENCIA OROZCOEn términos generales, es usual que el número de intervalos no sea inferior a 5 ni superior a 15. Sturgespropone que el número de clases o intervalos sea determinado por la expresión m = 1 + 3.3log(n).*La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe trabajar con clasesabiertas.3.3 REGLAS EMPÍRICAS PARA LA CONSTRUCCIÓN DE INTERVALOSCuando no se tiene experiencia en el manejo de la información es aconsejable seguir los pasos que sedan a continuación:3.3.1 Determinar los datos de mayor y menor valor Xmax, Xmin.3.3.2 Calcular el rango o recorrido (R). R = Xmáx – Xmín3.3.3 Determinar el número de intervalos (m) y la amplitud de clase (A): m = 1 + 3.3 log(n), debe Rtenerse presente que m es un número natural. Luego se busca la amplitud A: A m3.3.4 Calcular el rango ampliado: Ra m. A3.3.5 Establecer la diferencia a Ra R , es decir la cantidad en que ha sido alterado el recorrido, lacual no debe ser superior a la amplitud.(“ a ”) También puede ser definida como la cantidad positiva más pequeña que le hace falta al rango orecorrido para ser divisible exactamente por la amplitud.3.3.6 Distribuir adecuadamente la cantidad “ a ” de la siguiente manera: aAl valor Xmin se le resta aproximadamente (es un poco más) y la parte restante se le suma a Xmax, 2obteniendo el límite inferior del primer intervalo y el límite superior del último, respectivamente. aXmín LIPI (Límite inferior del primer intervalo) 2 aXmáx LSUI (Límite superior del último intervalo) 23.3.7 Construir los intervalos, calcular los puntos medios o marcas de clase y hacer el agrupamiento defrecuencias.Con el fin de prever dobles conteos, quien clasifica deberá especificar si los intervalos son abiertosa la derecha o abiertos a la izquierda, en estas notas, trabajaremos con intervalos abiertos a laderecha; es decir, del tipo a X b , donde el límite superior no está incluido dentro de la clase.Retomemos el ejercicio de la Tabla No. 7 y construyamos una distribución de frecuencia por intervalos.1. Valores máximo y mínimo: Xmáx 780 y Xmín 1222. Rango: R 780 122 6583. Número de intervalos:m 1 3.3 log n 1 3.3 log100 1 3.3 * 2 7.6No es lógico tener 7.6 intervalos, por lo tanto se procede a aproximar el número de intervalos a un R 658número natural cercano, luego m=7, y busquemos la amplitud A A 94 m, 7 20
  21. 21. ESTADÍSTICA ÁLVARO VALENCIA OROZCOYa determinado el número de clases en m=7 encontramos que la amplitud debe ser mayor que 94.Fijémosla, entonces, en A = 100, que hace más manejable y presentable la tabla con la información.4. Rango ampliado: Ra 7 * 100 700Hemos alterado el rango original R 658 , cambiándolo por el rango ampliado Ra 700 . Ladiferencia está representada por a Ra R o sea a 700 658 425. Tenemos por tanto, que distribuir adecuadamente la diferencia entre los rangos aXmín LIPI ; 122 22 100 LIPI 2 aXmáx LSUI ; 780 20 800 LSUI 2Como se dijo antes, no estamos hablando de restar o sumar estrictamente sino una cantidadaproximada que brinde una buena presentación.Construcción de los intervalos. Tabla No. 8 CONSTRUCCIÓN DE LOS INTERVALOS PARA LA RESISTENCIA DE LAS BALDOSAS Intervalos Marcas de clase Xi 100 – 200 150 200 – 300 250 300 – 400 350 400 – 500 450 500 – 600 550 600 – 700 650 700 - 800 750Se puede desde luego, proceder a agrupar la información en los respectivos intervalos, haciendo lasalvedad de que ninguno de los límites superiores de clase son considerados dentro de los intervalos. Tabla No 9DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS DE LA RESISTENCIA DE 100 BALDOSAS DE LA FÁBRICA “DE LAS CASAS” KG/CM² Xi fi fa fr fra 100 – 200 150 4 4 0.04 0.04 200 – 300 250 10 14 0.10 0.14 300 – 400 350 21 35 0.21 0.35 400 – 500 450 33 68 0.33 0.68 500 – 600 550 18 86 0.18 0.86 600 – 700 650 9 95 0.09 0.95 700 - 800 750 5 100 0.05 1.00 SUMAS 100 1.00Conclusiones: El 72% de las baldosas tiene una resistencia entre 300 y 600 Kg/cm² El 86% de las baldosas resiste menos de 600Kg/cm². Sólo el 5% resiste 700 o más Kg/cm².CUESTIONARIO Y EJERCICIOS PROPUESTOS1. ¿Por qué se recurre al agrupamiento en distribuciones de frecuencias por intervalos?2. ¿Cómo se determina el número de intervalos y la amplitud de ellos? 21
  22. 22. ESTADÍSTICA ÁLVARO VALENCIA OROZCO3. ¿Qué es una marca de clase?4. La siguiente tabla presenta el consumo de agua, en m³, de 184 familias en un barrio residencial deuna ciudad durante el mes de octubre 4 8 8 13 15 20 10 19 9 18 17 16 16 29 17 23 3 17 25 10 18 29 6 23 11 23 10 21 21 6 22 18 13 23 12 23 17 22 18 27 27 17 13 13 10 31 11 26 22 5 5 18 16 13 30 23 2 26 17 15 21 14 29 18 20 9 10 21 9 30 13 18 34 17 4 29 16 12 23 8 26 8 28 8 16 29 18 2 17 13 21 13 16 26 18 9 18 13 12 21 27 21 9 26 24 8 10 16 33 21 14 16 19 17 17 24 5 20 14 16 12 12 5 13 17 7 12 14 1 16 25 20 14 20 14 6 9 13 22 10 6 21 20 5 20 28 17 21 4 33 12 25 9 17 14 20 10 25 12 32 15 25 16 22 13 15 25 2 9 24 25 12 15 22 17 7 24 15 24 11 22 10 21 14Construir una distribución de frecuencias por intervalos.4.1 Asumiendo el número de intervalos m = 84.2 Asumiendo el número de intervalos m = 94.3 Comparar las dos distribuciones y las conclusiones que de ellas se deriven.4. REPRESENTACIÓN GRÁFICAA pesar de la gran ayuda que prestan las tablas y cuadros con información organizada, no todos lospúblicos alcanzan a comprenderla o no disponen del tiempo suficiente para analizarla.Es por ello que la mayoría de los investigadores acostumbran a reforzar la descripción a través dedibujos, generalmente con formas geométricas, que ayudan a visualizar el comportamiento de lasvariables tratadas.4.1 DEFINICIÓNUna gráfica o diagrama es un dibujo complementario a una tabla o cuadro, que permite observar lastendencias de un fenómeno en estudio y facilita el análisis estadístico de las variables allí relacionadas.4.2 COMPONENTES DE UNA GRÁFICAUna gráfica, al igual que un cuadro o una tabla, debe constar de:4.2.1 Título adecuado: El cual debe ser claro y conciso, que responda a las preguntas: Qué relaciona,cuándo y dónde se hicieron las observaciones.4.2.2 El cuerpo: o gráfico en sí, cuya elección debe considerar el o los tipos variables a relacionar, elpúblico a quien va dirigido y el diseño artístico del gráfico.4.2.3 Notas de pie de gráfico: Donde se presentan aclaraciones respecto al gráfico, las escalas de losejes, o se otorgan los créditos a las fuentes respectivas.Es de anotar que por medio de gráficos tendenciosos se pueden deformar o resaltar situaciones oestados, que presentados en un gráfico apropiado, mostrarían un comportamiento normal. 22
  23. 23. ESTADÍSTICA ÁLVARO VALENCIA OROZCO4.3 PRINCIPALES TIPOS DE GRÁFICOSExiste una gran cantidad de gráficos para la representación de datos estadísticos, ya que de ellosdepende el diseño artístico de quien los elabora, así como de su imaginación al combinar varios tipos deellos, como forma de presentar una información.Entre los gráficos más comunes tenemos:4.3.1 Gráfico de Líneas: Usado básicamente para mostrar el comportamiento de una variablecuantitativa a través del tiempo. El gráfico de líneas consiste en segmentos rectilíneos unidos entre sí,los cuales resaltan las variaciones de la variable por unidad de tiempo. Para su construcción ha deprocederse de la siguiente manera: en el eje de las ordenadas se marcan los puntos de acuerdo con laescala que se esté utilizando. En el caso de una escala aritmética, distancias iguales en el eje,representan distancias iguales en la variable. Variación de La Inflación en Colombia 1995-2000 1995 1996 1997 1998 1999 2000 19.46 21.63 17.68 16.7 9.23 7.81 Gráfico No. 1 Variación de La Inflación en Colombia 1995-2000 25 20 PORCENTAJES 15 10 5 0 1994 1995 1996 1997 1998 1999 2000 2001 AÑOSEl eje de la variable X se divide en unidades de tiempo iguales, teniendo presente el número de ítemsque ha de presentarse, así como la longitud del eje. Es de anotar la conveniencia de mostrar lainterrupción y acercamiento del eje a su origen cuando esto haya ocurrido.4.3.2 Gráfico de Líneas Compuesto: Cuando se tienen varias variables a representar, con el fin deestablecer comparaciones entre ellas (siempre que su unidad de medida sea la misma); se utilizaplasmarlos en un sólo gráfico, el cual es el resultado de representar varias variables en un mismo plano. Variación de la Inflación y el Salario de la Hilacha 1995-2000 23
  24. 24. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 1995 1996 1997 1998 1999 2000 19.46 21.63 17.68 16.7 9.23 7.81 15.00 20.00 15.00 15.00 7.00 5.00 Gráfico No. 2 Variación de la Inflación y el Salario de la Hilacha 1995-2000 25 20 PORCENTAJES 15 10 INFLACIÓN SALARIO 5 0 1994 1995 1996 1997 1998 1999 2000 2001 AÑOS4.3.3 Gráfico de Barras: El gráfico de barras, como su nombre lo indica, está constituido por barrasrectangulares de igual ancho, conservando la misma distancia de separación entre sí. Se utilizabásicamente para mostrar y comparar frecuencias de variables cualitativas o comportamientos en eltiempo, cuando el número de ítems es reducido. " GRÁFICO No 3 Años de experiencia de 50 Obreras en "La Hilacha" 14 12 10 OBRERAS 8 6 4 2 0 1 2 3 4 5 6 7 8 9 AÑOS DE EXPERIENCIA 24
  25. 25. ESTADÍSTICA ÁLVARO VALENCIA OROZCOÉstos gráficos suelen ser de barras verticales, aunque se pueden utilizar de forma horizontal.4.3.4 Gráfico de Barras Compuesto Variación de la Inflación y el Salario de la Hilacha 1995-2000 1995 1996 1997 1998 1999 2000 19.46 21.63 17.68 16.7 9.23 7.81 15.00 20.00 15.00 15.00 7.00 5.00 Gráfico No 4 Variación de la Inflación y el Salario de la Hilacha 1995-2000 25 20 PORCENTAJE 15 10 INFLACIÓN SALARIO 5 0 1995 1996 1997 1998 1999 2000 AÑOS4.3.5 Gráfico de Sectores Circulares Usualmente llamado gráfico de pastel, debido a su formacaracterística de una circunferencia dividida en cascos, por medio de radios que dan la sensación de unpastel tajado en porciones.Se usa para representar variables cualitativas en porcentajes o cifras absolutas cuando el número deítems no es superior a 5 y se quiere resaltar uno de ellos. Para su construcción se procede de lasiguiente forma: La circunferencia tiene en su interior 360 grados, los cuales hacemos corresponder altotal de la información, es decir al 100%; luego, para determinar el número de grados correspondientea cada componente se multiplica el porcentaje respectivo por 360 y se divide por 100, los cuales semiden con la ayuda de un transportador para formar los casquetes de los diferentes ítems. 25
  26. 26. ESTADÍSTICA ÁLVARO VALENCIA OROZCO Gráfico No 5 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA 58 50 51 57 52 56 53 55 544.3.6 Histograma de Frecuencias: Para la construcción de un histograma de frecuencias de fácilinterpretación y que no falsee la información, debe disponerse de una distribución de frecuencias porintervalos con amplitud igual para cada clase o intervalo. En el eje de las abscisas procedemos arepresentar los intervalos de la variable, y en el eje de las ordenadas las frecuencias de cada clase.El histograma se construye dibujando barras contiguas que tienen como base la amplitud de cadaintervalo y como alturas las frecuencias respectivas. GRÁFICO No 6. Histograma de Frecuencias de la Resistencia de 100 baldosas 26
  27. 27. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 35 30 25 FRECUENCIA 20 15 10 5 0 150 250 350 450 550 650 750 RESISTENCIA KG/CM²4.3.7 Polígono de Frecuencias GRÁFICO No 7. Polígono de Frecuencias de la resistencia de 100 baldosas 35 30 25 FRECUENCIA 20 15 10 5 0 50 150 250 350 450 550 650 750 850 RESISTENCIA KG/CM²Para la construcción de un polígono de frecuencias, se marcan los puntos medios de cada uno losintervalos en la parte superior de cada barra del histograma de frecuencias, los cuales se unen consegmentos de recta.4.3.8 Histograma de Frecuencias Acumuladas. El histograma de frecuencias acumuladas también es obtenido a partir de una distribución defrecuencias, tomando en el eje horizontal las clases de la variable, y en el eje vertical las frecuenciasacumuladas correspondientes a cada intervalo. GRÁFICO No 8. Histograma de Frecuencias acumuladas de la Resistencia de 100 baldosas 27
  28. 28. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 120 100 80 FRECUENCIA 60 40 20 0 150 250 350 450 550 650 750 RESISTENCIA KG/CM² GRÁFICO No 9. Frecuencias acumuladas de la Resistencia de 100 baldosas Ojiva Creciente 120 100 FRECUENCIA 80 60 40 20 0 100 200 300 400 500 600 700 800 RESISTENCIA KG/CM² GRÁFICO No 10. Histograma de Frecuencias acumuladas de la Resistencia de 100 baldosas Ojiva Decreciente 28
  29. 29. ESTADÍSTICA ÁLVARO VALENCIA OROZCO 120 FRECUENCIA 100 80 60 40 20 0 100 200 300 400 500 600 700 800 RESISTENCIA KG/CM²CUESTIONARIO Y EJERCICIOS PROPUESTOS1. ¿Cuál es el objetivo de un gráfico?2. Describa los componentes de una gráfica.3. ¿Cuáles son las principales causas de distorsión de la información de un gráfico?5. Para el ejercicios 4 del capítulo 3, construir:5.1 Un histograma de frecuencias5.2 Un polígono de frecuencias.5.3 Un histograma de frecuencias acumuladas5.4 Un polígono de frecuencias acumuladas5. MEDIDAS DE TENDENCIA CENTRALEn los capítulos anteriores, nos referimos a la clasificación, ordenación y presentación de datosestadísticos, limitando el análisis de la información a la interpretación porcentual de las distribucionesde frecuencia.El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros sobre los cuales puedarecaer la representación de toda la información.Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de lainformación, son de gran importancia en el manejo de las técnicas estadísticas, sin embargo, suinterpretación no debe hacerse aisladamente de las medidas de dispersión, ya que la representatividadde ellas está asociada con el grado de concentración de la información.Las principales medidas de tendencia central son:5.1 Media aritmética.5.2 Mediana5.3 Moda.5.1 MEDIA ARITMÉTICACotidiana e inconscientemente estamos utilizando la media aritmética. Cuando por ejemplo, decimosque un determinado fumador consume una cajetilla de cigarrillos diaria, no aseguramos quediariamente deba consumir exactamente los 20 cigarrillos que contiene un paquete sino que es elresultado de la observación, es decir, dicho sujeto puede consumir 18, un día; 19 otro; 20, 21, 22; perosegún nuestro criterio, el número de unidades estará alrededor de 20. 29
  30. 30. ESTADÍSTICA ÁLVARO VALENCIA OROZCOMatemáticamente, la media aritmética se define como la suma de los valores observados dividida entreel número de observaciones. n xi x1 x2 x3 ... x n 1 X n nX : Media aritmética de la variable Xx i : Valores de la variable Xn : Número de observaciones : Signo de sumatoria, indica que se debe sumarEjemplo: Cantidad de cigarrillos consumidos por un fumador en una semana.Lunes: 18Martes: 21Miércoles: 22Jueves: 21Viernes: 20Sábado: 19Domingo: 19Entonces la media aritmética es: n xi x1 x2 x3 ... x n 1 X n n 18 21 22 21 20 19 19 140 X 20 7 7El fumador consume en promedio 20 cigarrillos diarios.Cuando la variable está agrupada en una distribución de frecuencias, la media aritmética se calcula porla fórmula: m xi f i x1 f1 x2 f 2 x3 f 3 ... x m f m 1 X n nEjemplo 1: Cantidad de Cigarrillos Consumidos por un Fumador en una Semana Dada CANTIDAD FRECUENCIA Xi Fi 18 1 19 2 20 1 21 2 22 1 18(1) 19(2) 20(1) 21(2) 22(1) 18 38 20 42 22 140 X 20 7 7 7 30
  31. 31. ESTADÍSTICA ÁLVARO VALENCIA OROZCOEjemplo 2: Calculo de La Media Aritmética. El Salario/día de 50 Operarias SALARIO FRECUENCIA Xi ABSOLUTA Xifi fi 50 1 50 51 3 153 52 5 260 53 9 477 54 12 648 55 10 550 56 5 280 57 3 171 58 2 116 SUMAS 50 2705 9 xi f i 1 2705 X 54.1 50 50Es decir que, el salario promedio diario de las operarias en la fábrica de confecciones “La hilacha” es de$54100 pesos/día.Si la información está relacionada en una distribución de frecuencias por intervalos, se toman comovalores de la variable las marcas de clase de los intervalos, entiéndase por marca de clase el puntomedio entre los límites de cada clase o intervalo.Ejemplo 3: Cálculo de La Media Aritmética de la Resistencia de 100 Baldosas KG/CM² Xi fi Xifi 100 – 200 150 4 600 200 – 300 250 10 2500 300 – 400 350 21 7350 400 – 500 450 33 14850 500 – 600 550 18 9900 600 – 700 650 9 5850 700 - 800 750 5 3750 SUMAS 100 44800 7 xi f i 1 44800 X 448 100 100La resistencia promedio de las 100 baldosas es de 448 Kg/Cm².5.1.1 Propiedades de la Media Aritmética5.1.1.1 La suma de las diferencias de los datos con respecto a la media aritmética es igual cero.5.1.1.2 La suma de las diferencias cuadráticas de los datos, con respecto a la Media Aritmética, esmínima. 31
  32. 32. ESTADÍSTICA ÁLVARO VALENCIA OROZCOQuiere decir esta propiedad que cualquier otro parámetro p, diferente a la media aritmética hace mayorla expresión5.1.1.3 Si a cada uno de los resultados le sumamos o le restamos una constante C , la Media Aritméticaqueda alterada en esa constante.5.1.1.4 Si cada uno de los datos se multiplica por una constante k, entonces la media aritmética quedamultiplicada por esa constante.5.1.2 Media Aritmética PonderadaHemos visto que la Media Aritmética se calcula con base a la magnitud de los datos, otorgándole igualimportancia a cada uno de ellos. Sin embargo en muchas ocasiones la magnitud del dato esta ponderadacon un determinado peso que lo afecta relativamente.La Media Aritmética ponderada tiene en cuenta la importancia relativa de cada uno de los datos, para locual la definimos con la siguiente expresión: n xi wi 1 XW n wi 1DondeX w : Media aritmética ponderadaX i : Valor de la variable Xwi : Ponderación del ítem xiEjemplo 1:Las calificaciones de un estudiante están conformadas por los siguientes factores:Un examen cuyo valor es 40% en el cual obtuvo una nota de 4.5, un trabajo de consulta conponderación del 10% y calificación de 1.0, una exposición equivalente al 15% con nota de 2.0, y porúltimo una investigación con valor del 35% calificada con 3.5.Entonces la nota definitiva es: n xi wi 1 4.5(0.40) 1.0(0.10) 2.0(0.15) 3.5(0.35) 1.8 0.1 0.3 1.225XW n 3,425 0.40 0.10 0.15 0.35 1 wi 1......5.2 LA MEDIANAOtra medida de tendencia central, utilizada principalmente en estadística no paramétrica, es lamediana, la cual no se basa en la magnitud de los datos, como la media aritmética, sino en la posicióncentral que ocupa en el orden de su magnitud, dividiendo la información en dos partes iguales, dejandoigual número de datos por encima y por debajo de ella.5.2.1 La Mediana Cuando los datos no están Agrupados en Intervalos.Partiendo de la información bruta, ordenamos los datos ascendente o descendentemente:x1 , x 2 , x3 ,....., xi ,....., x n se defineMediana = Me x n 1 , si n es impar ó 2 32

×