ESTADÍSTICA BÁSICA PARA LAS CIENCIAS SOCIALES Y EL COMPORTAMIENTO.

  • 416 views
Uploaded on

ESTADÍSTICA BÁSICA PARA LAS CIENCIAS SOCIALES Y EL COMPORTAMIENTO. KENNETH D. HOPKINS,

ESTADÍSTICA BÁSICA PARA LAS CIENCIAS SOCIALES Y EL COMPORTAMIENTO. KENNETH D. HOPKINS,

More in: Data & Analytics
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
416
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
16
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 1 ESTADÍSTICA CAPÍTULO 1. INTRODUCCIÓN: ¿Por qué estudiar métodos estadísticos? 1.1 LA "IMAGEN" DE LA ESTADÍSTICA Las actitudes populares hacia la estadística con frecuencia manifiestan una mezcla de ansiedad, escepticismo, miedo y desprecio. Los"lapsus freudianos" en ocasiones han trocado1 a los estadísticos en "sadísticos". La advertencia "no se vuelva un estadístico" se entiende como "no permita que algo perverso le suceda". Los estadísticos han sido colocados despectivamente junto a los mentirosos y los políticos mañosos, y por lo tanto han sido acusados de "estadisticulación", es decir, el arte de mentir con números aparentando ser objetivos, racionales y científicos. El lego educado, no sólo el profesional, necesita conocimiento estadístico para tener el conocimiento crítico y las habilidades necesarias para evaluar la credibilidad de la información vía números así como vía palabras. El pensamiento lógico es una buena protección contra la aceptación acrítica de la bazofia verbal, mientras que un conocimiento básico de la estadística nos hace menos vulnerables a la basura cuantitativa. Con optimismo, descubrirá que un estudio de la estadística no sólo mejorará su habilidad para leer y evaluar la literatura de investigación, sino que lo ayudará a ser un consumidor o un productor más competente y confiado en la evidencia cuantitativa utilizada para sustentar aseveraciones y conclusiones. Se reconoce cada vez más que la investigación experimental puede hacer contribuciones importantes a nuestras vidas dándonos medicinas, dietas, tratamientos, materiales y programas de estudio más efectivos, por mencionar unas cuantas. Considere el siguiente comentario de T. M. Porter (1986) en este sentido: 1 TROCAR. Mudar, cambiar, permutar una cosa por otra.
  • 2. 2 La estadística ha llegado a conocerse en el siglo XX como la herramienta matemática para analizar datos experimentales y basados en la observación. Conservada religiosamente por la política pública como la única base confiable para los juicios en torno a la eficacia de procedimientos médicos o a la seguridad de químicos, y adoptada por las empresas para usos como el control de calidad industrial, está evidentemente entre los productos de la ciencia cuya influencia sobre la vida pública y privada ha sido más penetrante. El análisis estadístico ha llegado a ser visto en muchas disciplinas científicas como indispensable para llegar a conclusiones confiables a partir de resultados empíricos... Desde la invención del Cálculo, si acaso, no se ha encontrado un nuevo campo de las matemáticas con tan amplio dominio de aplicación. La estadística es una herramienta básica para la investigación empírica en los campos de la educación y las ciencias sociales del comportamiento. Algún conocimiento de los métodos estadísticos es una necesidad para proseguir una carrera de erudición en muchas disciplinas empíricas. Durante las tres últimas décadas, las escuelas de estudios superiores han reconocido la importancia de la estadística como una herramienta de investigación, aceptando el trabajo de cursos sobre estadística como un sustituto del requisito de una de las dos lenguas extranjeras que tradicionalmente se piden para obtener el doctorado. Esta sustitución es notablemente acertada: la estadística es un lenguaje para comunicar información basada en datos cuantitativos, el cual cobra cada vez mayor importancia.
  • 3. 3 1.2 DOS TIPOS DE ESTADÍSTICA Dos corrientes de influencia han conducido al desarrollo de métodos estadísticos. Una rama tenía por objetivo mantener en orden registros del gobierno (estado y estadística vienen de la misma raíz latina, status). De esta rama evolucionaron las actividades de conteo, medición, descripción, tabulación, ordenamiento y levantamiento censal, todas las cuales condujeron finalmente a la estadística descriptiva. La segunda corriente de influencia se originó en las matemáticas de juegos de azar y condujo al desarrollo de la estadística inferencialque está basada con exactitud en la probabilidad matemática.La estadística descriptiva e inferencialson las más ampliamente utilizadas en la investigación del comportamiento. La estadística descriptiva que se utiliza por lo común. 1.3 ESTADÍSTICA DESCRIPTIVA La estadística descriptiva incluye la tabulación, representación y descripción de conjuntos de datos. Esos datos pueden ser de variables cuantitativas como altura, inteligencia o nivel de estudio (variables que se caracterizan por un continuo fundamental), o de variables categóricas, como género, especialidad académica u ocupación. Los conjuntos de datos muy grandes deben, por lo general, experimentar un proceso de organización y resumen antes de que sean inteligibles por los simples mortales. La mente humana no puede extraer fácilmente toda la importancia de una serie de datos desorganizados sin la ayuda de técnicas especiales. Por fortuna, la estadística descriptiva proporciona herramientas para organizar, simplificar y resumir información básica a partir de un conjunto de datos que de otra forma sería poco manejable.
  • 4. 4 1.4 ESTADÍSTICA INFERENCIAL La estadística inferencial proporciona métodos para estimar las características de un grupo total (población), basándose en datos de un conjunto pequeño (muestra) de observaciones. El propósito principal de la estadística inferencial es estimar los atributos de la población a partir de sólo una muestra decasos. La estadística descriptiva con frecuencia sirve como un trampolín para la estadística inferencial. 1.5 LA NATURALEZA INTERDISCIPLINARIA DE LA ESTADÍSTICA Todas las disciplinas empíricas hacen un uso amplio de los métodos estadísticos. 1.6 ESTADÍSTICA Y MATEMÁTICAS La disciplina de la estadística es una rama de las matemáticas aplicadas Los términos estadísticos se definen, sin ambigüedades y con precisión. 1.7 CASO DE ESTUDIO CON APLICACIONES EN COMPUTADORA Varios procesos estadísticos facilitan una comprensión apropiada sobre lo que dicen los datos y lo que no dicen. 1.8 SECRETOS DEL ÉXITO 1. Trate de apartar un tiempo para estudiar cada día a una hora cuando esté alerta y descansado. La superioridad de la práctica "espaciada contra la masificada" es especialmente cierta en estadística. 2. No se permita el retraso ya que los temas futuros estarán construidos sobre los pasados.
  • 5. 5 3. "Sed hacedores de la palabra, y no tan sólo oidores, engañándoos a vosotros mismos" (Santiago 1:22). Hágase un favor: trabaje cuidadosamente algunos problemas simples y compruebe utilizando sólo papel, lápiz y una calculadora portátil antes de usar la computadora. Que la computadora maneje los detalles de cálculo mientras usted se concentra en aspectos más importantes de la investigación, como la comprensión y la interpretación. 4. Repase con periodicidad y refuerce los conceptos importantes. 5. Disciplínese a leer cada capítulo al menos una vez antes y después de la exposición correspondiente. 1.9 LAS RECOMPENSAS DE SU LABOR 1. Un mejor entendimiento de la información expresada de manera cuantitativa. 2. Un conocimiento considerable de los términos estadísticos, conceptos y fundamentos estadísticos (Como consecuencia, será capaz de evaluar mejor la investigación con respecto a las implicaciones de la práctica y la teoría). 3. Un conocimiento fundamental de los términos estadísticos, conceptos, análisis y métodos estadísticos. 4. Mayor confianza en su habilidad para alcanzar metas.
  • 6. 6 CAPÍTULO 2. DISTRIBUCIONES DE FRECUENCIA: Tablas estadísticas y gráficas 2.1 VARIABLES Las características personales como estatura, edad, género, CI, GPA, autoconcepto, habilidad en lectura y tamaño del grupo se conocen como variables de manera más explícita, variables personológicas (variables sobre persona). El número de monedas de cinco en una de veinticinco centavos por lo tanto no es una variable sino una constante. Una clase de variables, como estatura, inteligencia, o nivel de estudios, se caracteriza por un continuo fundamental, y se dice que las variables son variablescuantitativas o continuas. Otra clase de variables, conocidas como variables cualitativas o categóricas, representan diferencia, no en grado sino en clase: variables como género, especialidad académica u ocupación. 2.2 MEDICIÓN DE VARIABLES Antes de que una variable pueda ser trataba estadísticamente, debe ser observada/medida para un conjunto de unidades observacionales. Las unidades observacionales son aquellas entidades que se observan. En este libro, la mayoría de nuestros ejemplos se toman de los campos de la educación y de las ciencias sociales y del comportamiento; de ahí que las unidades observacionales comunes serán personas; las escuelas, los códigos postales y los estados, entre otros, también son unidades observacionales comunes. Cuando las observaciones se cuantifican (se expresan numéricamente), se dice que los números son mediciones. Una medición es una observación que se expresa numéricamente. En este libro, observación, medición y valor tienen esencialmente el mismo significado.
  • 7. 7 Las variables pueden medirse en varias formas diferentes. Por ejemplo, la eficacia de la enseñanzapuede ser evaluada por el rendimiento de los estudiantes, cuestionarios de evaluación del curso a losestudiantes, autoevaluaciones de los maestros, valoración del supervisor, o evaluaciones de colegas. Algunos de esos métodos de evaluación podrían arrojar datos cuantitativos (por ejemplo, valores o clasificaciones), mientras que otros podrían ser expresados en palabras. De esto no debe deducirse que sólo porque algunos enfoques son cuantificables y sujetos de análisis estadístico son forzosamente superiores a los enfoques que no lo son. La credibilidad de los resultados de investigaciones y las generalizaciones no son mejores que laexactitud, conveniencia y significado de las mediciones de las que se derivaron las conclusiones. El análisis estadístico, sin embargo, sólo es aplicable cuando la información se expresa numéricamente. Los números son el único lenguaje que la estadística comprende. 2.3 USO DE SÍMBOLOS Para una comunicación expedita, las variables se representan mediante letras mayúsculas itálicas (por ejemplo, X, Y, Z). Cuando sólo una variable está bajo consideración, el símbolo en mayúscula e itálicas X se utiliza para denotar esa variable. Cuando se están estudiando dos variables (como la relación entre CI y la habilidad de deletreo), X representa una de las variables y Yla otra. Si están en consideración tres variables, se etiquetarán como X, Y y Z, etcétera. Para especificar una observación particular en un conjunto dado (lista u ordenamiento) de observaciones, se utilizan subíndices. Los subíndices son "etiquetas del nombre".
  • 8. 8 2.4 DISTRIBUCIONES DE FRECUENCIA El uso de representaciones visuales para comunicar información cuantitativa ha sido una faceta de la estadística que se ha descuidado. Afortunadamente, la amplia disponibilidad de microcomputadoras y software gráfico están ayudando a corregir esta situación. En este texto, con frecuencia incluiremos gráficas, tablas y resultados estadísticos de algunos de los paquetes de software más ampliamente utilizados para ilustrar su adaptabilidad para los propósitos estadísticos y de comunicación. La información estadística puede comunicarse más fácilmente si se organiza en tablas y se muestra en gráficas. En este capítulo, utilizaremos varias técnicas y enfoques para ilustrar cómo arreglar y representar un conjunto de datos de modo que las características importantes de dicho conjunto sean apreciables de inmediato. 2.5 ORGANIZACIÓN DE DATOS PARA QUE TENGAN SENTIDO A menos que un conjunto de datos esté sistemáticamente organizado, será difícil de asimilar e interpretar. Los procedimientos para organizar, resumir y simplificar datos son fundamentales para los métodos estadísticos. El uso creciente de la cuantificación y el análisis estadístico en las ciencias sociales y del comportamiento ha subrayado dramáticamente la necesidad de organizar datos para comunicar un significado. Si un enorme conjunto de números no están resumidos y simplificados, podemos llegar a abrumarnos pronto debido a la abundancia de datos numéricos. Por otro lado, cuando los datos están organizados y se presentan gráficamente, la comunicación, comprensión e interpretación se facilita.
  • 9. 9 2.6 UN EJEMPLO Para los fines de instrucción, los ejemplos en que se utilizan conjuntos pequeños de datos tienen ciertas ventajas sobre los conjuntos grandes de datos. Permiten que la mayor parte de la atención se centre en los procedimientos involucrados y sus significados, con un mínimo de detalles mecánicos/de cálculo llenos de repeticiones. Por otro lado, los conjuntos grandes de datos dan información más realista y fidedigna sobre las características de interés relativas a la población de la que se obtuvieron los datos. La estadística nos da formas sistemáticas de organizar cantidades de datos de otra forma poco manejables que facilitaran nuestros esfuerzos para entender e interpretar datos. 2.7 DISTRIBUCIONES DE FRECUENCIA NO AGRUPADAS Ciertas características importantes de un conjunto de valores pueden resaltar si solamente se organizan los valores en una distribución de frecuencia no agrupada. Una distribución de frecuencia no agrupada consta de dos columnas: 1) un listado de todos los valores posibles arreglados en orden inverso de mayor a menor, y 2) una columna de frecuencia (f) que lista el número de veces que se obtuvo cada valor. En una tabla el número de veces que se obtiene un valor es la frecuencia (f) de ese valor y se muestra justo a la derecha del registro tabular del valor. La suma de las frecuencias es el número total de observaciones (n).
  • 10. 10 2.8 DISTRIBUCIONES DE FRECUENCIA AGRUPADAS A menos que el rango de valores (es decir, Xmáx - Xmín) sea pequeño, la distribución de frecuencia no agrupada extiende tanto los valores que la forma de la distribución no es fácilmente apreciable. Si se agrupan los valores similares en un intervalo, el patrón de la distribución de valores se hará más evidente. Esta pérdida de la información que pertenece a los valores individuales se sacrifica a fin de ganar información sobre toda la distribución de valores. El espacio (ancho) de los intervalos de clase y. en consecuencia, el número de intervalos son algo arbitrarios, pero la decisión tiene que estar influida por el número de observaciones en la muestra. Con muestras grandes de n = 200 o más, tal vez el número adecuado de intervalos sea 20; mientras que con una muestra menor de 50 o algo por el estilo, quizá 10 intervalos sean el número apropiado. Para organizar datos en una distribución de frecuencia agrupada: 1) calcule el rango. 2) Determine el ancho del intervalo. 3) Especifique los límites del intervalo. 4) Cuente los valores para encontrar la frecuencia de cada intervalo. Cuatro pasos para construir una distribución de frecuencia agrupada: 1. Calcule el rango. El rango es la diferencia entre el valor más grande, Xmáx, y el valor más pequeño, Xmín. 2. Determine el ancho del intervalo. El ancho del intervalo (w) se calcula dividiendo el rango entre el número deseado de intervalos.
  • 11. 11 3. Especifique los límites de intervalo. Para alejar la probabilidad de agrupar los datos en una forma muy favorable a la inclinación personal del investigador, el procedimiento para asignar los límites del intervalo debe ser estandarizado. Cada intervalo debe comenzar con un múltiplo de w (es decir, 1w=3, 2W=6, 3w=9, 4w=12, etcétera). El primer intervalo comienza con (es decir, tiene un límite inferior de) el mayor múltiplo de w que es menor o igual a Xmín. Cada límite inferior de intervalo es w mayor que el límite inferior del intervalo anterior. Del mismo modo, el límite superior de cada intervalo se encuentra sumando w al límite superior del intervalo anterior. Los intervalosse definen secuencialmente hasta que se alcanza el intervalo que contiene el valor más alto, Xmáx. 4. Conteo de los valores. Para cada valor coloque una estaca de cuenta en el intervalo que contiene ese valor. Para el quinto valor en un intervalo, una línea que cruce las primeras cuatro estacas organiza las marcas en grupos convenientes de cinco. Los límites del intervalo especificado que aparecen en la tabla 2.2 se llaman límites de intervalo aparentes. Los límites exactos del intervalo, sin embargo, se extienden .5 unidades a cada lado de los límites aparentes del intervalo, es decir, el límite inferior exacto es .5 unidades menor que el límite inferior aparente, y el límite superior exacto es .5 unidades mayor que el límite superior aparente.
  • 12. 12 2.9 CONTEOS DE TUKEY Tukey (1977) sugirió un método alternativo para contar las observaciones cuando n es grande. El método de Tukey cuenta los valores en prácticos grupos convenientes de diez: las primeras cuatro cuentas se denotan por puntos que forman las esquinas de un cuadrado; las siguientes cuatro cuentas son segmentos de línea que forman los lados del cuadrado; la novena cuenta y la décima se indican por líneas diagonales dentro del cuadrado. 2.10 PORCENTAJES Y PORCENTAJES ACUMULADOS 1. Para encontrar la columna "%", convierta las frecuencias en porcentajes. Divida la frecuencia del intervalo entre n para obtener la proporción de valores en el intervalo, y entonces convierta a porcentaje multiplicando por 100:% = 100 x (f/n) o % = 100f/n. 2. Para encontrar el "% acumulado" para un intervalo, sume el porcentaje para el intervalo al registro de porcentaje acumulado del intervalo anterior. (Para el primer intervalo, el registro de la columna "%" es también el registro de la columna de "% acumulado".) 2.11 GRÁFICAS DE DISTRIBUCIONES DE FRECUENCIAS Una distribución de observaciones puede conceptualizarse más fácilmente si se representa gráficamente. Podemos obtener información importante concerniente a un conjunto de valores simplemente mirando una representación visual de los datos. TRES TIPOS COMUNES DE GRÁFICASson los histogramas (gráficas de barras), los polígonos de frecuencia (gráficas de línea) y las curvas de ojiva (porcentajes acumulados). También, las gráficas de pastel, gráficas de cajas y patillas y gráficas de series de tiempoa menudo pueden ser utilizadas con provecho.
  • 13. 13 2.12 HISTOGRAMA O GRÁFICA DE BARRAS Un HISTOGRAMA2 es una gráfica deuna distribución de frecuencias (o porcentaje)en la que se utilizanbarras cuyas longitudes corresponden ala frecuencia (o porcentaje) de observaciones para cada intervalo. Este tipo de gráfica puede usarse para datoscuantitativos y categóricos. A diferencia del polígono de frecuencias, éste puede usarse paramostrar datos categóricos como ocupación, afiliación religiosa, raza, etcétera (variables, cuyas observaciones no pueden ser clasificadas significativamente de menos a más). El eje vertical del histograma se etiqueta "Frecuencia" por lo que las alturas de las barras rectangulares indicanel intervalo de frecuencias. LAS BARRAS RECTANGULARES que componen los histogramas pueden mostrar 1) frecuencias, 2) porcentajes o 3) frecuencias y porcentajes simultáneamente. Es por lo general más fácil comprender y comunicar información utilizandoporcentajes más que usando sólo frecuencias. 2.13 POLÍGONOS DE FRECUENCIA Un segundo método ampliamente utilizado para mostrar información numérica de forma gráfica es la gráfica de línea o polígono de frecuencias. El PROCESO DE CONSTRUCCIÓN DE UN POLÍGONO DE FRECUENCIASes similar al delhistogramaexcepto quesólo un punto sobre el punto medio de cada intervalo se utiliza para indicar la frecuencia. PARA UN HISTOGRAMA DADO, si un punto se colocaen el punto medio del extremo superior de cada barra rectangular, y los puntos adyacentes se conectanmediante segmentos de línea, la figura resultante es un polígono de frecuencias. Si las frecuencias se transforman a porcentajes, la figura se describe como un polígono de porcentajes. Los polígonos de frecuencia/porcentajeson particularmente apropiados para variables cuantitativas como edad, calificaciones de exámenes, ingresos, etcétera. 2 HISTOGRAMA. Representación gráfica de una distribución de frecuencias por medio de rectángulos, las anchuras representan intervalos de la clasificación y las alturas representan las correspondientes frecuencias.
  • 14. 14 2.14 POLÍGONOS CONTRA HISTOGRAMAS Por supuesto SERÍA ENGAÑOSOconstruir un polígono de frecuenciasparavariables categóricascomoespecialidad o grupo étnico. Los polígonos de frecuencia/porcentajeson apropiados sólo paravariables cuantitativas como calificaciones de exámenes, ingreso, etcétera (variables que tienen un continuo fundamental, es decir, que pueden ser arregladas en orden de mayor a menor). Los histogramas, por otro lado, son apropiados paravariablescuantitativas y categóricas. PARA DATOS CATEGÓRICOS, es mejor dejarbrechas grandes entre las barras de un histogramapara ilustrarla ausencia de un continuo fundamental. PARA DATOS CONTINUOS, mejor minimizarlas brechas entre las barrasparareflejar la naturaleza continua de los datos. Con frecuencia, es informativomostrar dos o más distribuciones en la misma figuraparapermitir una comparación y diferenciación visuales. CUANDO SE PRESENTAN DOS O MÁS DISTRIBUCIONES DE VALORES EN LA MISMA GRÁFICA, los polígonos de porcentajeson por lo general preferibles a los histogramas. Utilizando colores u otras distinciones gráficas (líneas de guiones, líneas sólidas, líneas punteadas, etcétera), puede mostrardos o más distribucionesde forma simultánea en la misma figura. 2.15 CURVA DE OJIVA Una gráfica de líneaen que se usa la tabla de registrosde porcentaje acumuladose llamaOJIVA O CURVA DE PORCENTAJE ACUMULADO. El eje verticalrepresenta el porcentaje acumulado, porcentaje de valores que caen en o debajo de cada intervalo. El valor superior de cada intervalo (no el punto medio) se ordena a lo largo de la línea base. Para construir una ojiva, coloque un punto sobre el límite superior aparente de cada intervaloparaindicar el porcentaje acumulado de ese intervalo, y conectelos puntos con segmentos de línea.
  • 15. 15 2.16 MEDIANA, CUARTILES Y PERCENTILES Las curvas de ojivason particularmente útiles para encontrar puntos específicos en la distribución de valores. Uno de los puntos más interesantes es la mediana, que es el percentil 50: punto debajo del cual cae el 50% de los valores. La mediana es fácil de estimar a partir de una ojiva: 1) Localice "50" en el eje vertical; 2) del "50", muévase horizontal mente para intersecar la curva de ojiva, y 3) luego muévase verticalmente hacia abajo para intersecar la línea base y lea la mediana de la distribución. Tres puntos importantes adicionales en una distribuciónson los cuartiles, puntos que parten la distribución en cuatro partes o cuartos. Esos cuartiles ( , y )pueden estimarse a partir de la curva de ojivabuscando los valores que correspondan a los valores del porcentaje acumulado de 25, 50 y 75. El punto que divide el cuarto inferior (25%) de los tres cuartos superiores de la distribución es el primer cuartil ( ); el segundo cuartil ( ) es idéntico a la mediana y es el percentil 50; el tercer cuartil ( ) divide el cuarto superior de los tres cuartos inferiores de la distribución. Los percentilesdividen en centésimos la distribución. El percentil 70 ( )excede 70% de los valores en la distribución; excede 30%; etcétera. Los percentilesson puntos en una distribución bajo los cuales cae un porcentaje dado P, de los casos. Hemos señalado que es equivalente a la mediana y a y son equivalentes para y respectivamente. Los percentilesse convierten fácilmente en rango percentil, que es una forma muy popular y útil de comunicar una posición relativa de valores en una distribución dada. El rango percentil de un puntoes el porcentaje de casos que caen bajo ese punto. Se puede utilizar curva de ojivapara estimar el rango percentil de una calificación. Este procedimiento es inverso al
  • 16. 16 procedimiento seguido para estimar la mediana de una distribución. Primero, localice la calificación a lo largo de la línea base; entoncesmuévase hacia arriba verticalmente hasta que interseque la curva de ojiva; entoncesgire a la izquierda y muévase horizontalmente al margen izquierdo y lea el porcentaje acumulado (rango percentil) de la calificación. 2.17 GRÁFICOS DE CAJA Y PATILLAS Los gráficos de caja y patillas (o gráfico de caja abreviado)son una gráfica simple y útil para mostrar una distribución. En los años recientes, se ha llegado a usar ampliamente, en gran medida como resultado de la influencia de Tukey (1977). La cajase extiende de a (llamados "bisagras" por Tukey) y define el 50% central de la distribución. La patilla inferiorpor lo general se extiende de hacia abajo a Xmín, y la superiorse extiende de hacia arriba a Xmáx. Si, sin embargo, Xmín o Xmáx se han desviado muy marcadamente del resto de los valores, las patillas se detendrán en los valores más pequeño y más grande que parezcan pertenecer al conjunto de datos. Los valores muy extremosse describen como externos y siempre deben ser verificados dos veces con precisión; con frecuencia los valores externosrepresentan solamente errores de medición o de registro de datos. Para distribuciones simétricas precisas, la mediana cae a la mitad entre y , y las patillas son iguales en longitud. No importa si los gráficos de caja se muestran verticalmente u horizontalmente. Las gráficas de cajatambién son especialmente útiles para comparar las distribuciones de dos o más grupos para alguna variable de interés. El rango intercuartil (es decir, de Q1a Q3) 2.18 GRÁFICAS DE SERIES DE TIEMPO
  • 17. 17 Una gráfica de series de tiempoes una gráfica de línea en la que la línea base representa el tiempo. Puede ser muy informativa sobre tendencias en formas en las que una representación estática de datos no puede serlo. Ejemplos familiares de gráficas de series de tiempo incluyenlos precios de las acciones de Dow-Jones, el índice de precios al consumidor, nuevas reclamaciones para seguro de desempleo, etcétera. Los datos de series de tiemposon interesantes, y proporcionan información relacionada con cambios que han sido reportados durante un periodo. El mayor y más difícil desafío de intentar explicar cómo y por qué ocurren tales cambios es la fuente de numerosos debates acalorados en las comunidades políticas, sociales, educacionales y religiosas. 2.19 GRÁFICAS DE PASTEL Una gráfica de pasteles una gráfica circular consectores dibujados proporcionales a las frecuencias queconstituyen las categorías comprendidas por la variable que se gráfica. Son particularmente adecuadas paramostrar las frecuencias categóricas en relación conlas otras y en relación con el total, especialmente cuando el número de categorías no es grande. 2.20 DESCRIPCIÓN DE DISTRIBUCIONES La distribución con forma de campana en el panel A de la figura ilustra unacurva normal (también llamada distribución normal). La curva normales simétrica con respecto a la línea vertical en la mediana, es decir, cada mitad de curva es la imagen espejo de la otra. En una distribución normal, la mediana también es la moda (el valor más frecuente). La distribución normales la distribución más importante en estadística, y una que encontrará a lo largo de su estudio de la estadística. La curva en el panel B de la figura tiene dos puntos diferentes distintivosalrededor de los cuales los valores tienden
  • 18. 18 a acumularse. Ésta se llama distribución bimodal (es decir, distribución con dos modas). Si las estaturas de todos los adultos de Estados Unidos fueran graneadas, resultaríauna distribución bimodal. Las estaturas de las mujeres se acumularían alrededor de su moda de aproximadamente 1.65 m, y las estaturas de los hombres se acumularían alrededor de su moda de cerca de 1.75 m. Cuando las frecuencias que se agrupan alrededor de dos modasdifieren sustancialmente, el valor más popular se dice que esla moda mayor, y la joroba más pequeña representala moda menor. La distribución de tipo bimodal también puede ocurrir cuandouna población se polariza en dos campos opuestos con poco acuerdo entre ellos, por ejemplo, actitud hacia el aborto. El panel C de la figura ilustra una distribución rectangular, distribución simétricacon una frecuencia constante para todos los valores de X, Quizá la variable "día de la semana de nacimiento" (L, M, M, J, V, S, D) tendría una distribución que es aproximadamente rectangular, ya que el número de nacimientos es aproximadamente el mismo para cada día de la semana. Los paneles D y E de la figura representan distribuciones asimétricas, es decir, curvas que no son simétricas. La asimetríapuede ser de cualquier grado, desdemuy ligerahastamuy extrema: La dirección de la asimetría se marcacomo positivacuando la distribución "se alarga" hacia la derecha a los valores altos en la distribución, y se llama negativacuando la distribución se corre hacia la izquierda al extremo de valores bajos del rango. No se confunda con los términos negativo o positivo con referencia a la asimetría; los términos positivo o negativono tienen nada que ver con un desempeño deseable o indeseable; se refieren más bien al signo algebraico (+ o -) del resultadocuando el grado de asimetría se cualifica utilizando un índice de asimetría. La asimetría negativa se ilustra en el panel E de la figura, ya que la mayoría de los valores hacia el extremo alto y la curva se desvanece hacia la izquierda o extremo bajo.
  • 19. 19 La distribución del número de días de ausencia para los estudiantes en una clase durante el año escolarse esperaría que fuera positivamente sesgada: la mayoría de los estudiantes perdería sólo unos pocos días, pero unos pocos individuos perderían muchos días. Las calificaciones en un examen muy simpletenderían a estar sesgadas negativamente. 2.21 GRÁFICAS ENGAÑOSAS: CÓMO MENTIR CON LA ESTADÍSTICA La habilidad para interpretar apropiadamente (y no ser engañado) por información que se presenta gráficamente es un tipo importante de preparación tanto para el lego como para el profesional. Los medios populares bombardean continuamente al público con una abundancia de figuras basadas en datos. Los libros de texto en todas las disciplinas empíricas están llenos de numerosas gráficas. A veces, el interés propio nos induce (incluyendo a los investigadores) a utilizar hechos literales en forma tal que el mensaje resulta ambiguo, es decir, se miente con impunidad (al menos en el sentido legal). Las gráficas y los diagramaspueden organizarse para hacer propagandamás que para iluminar. Tufte (1983) proporciona muchos ejemplos evidentes en su excelente libro. Muchas, si no es que la mayoría, de las cifras
  • 20. 20 en los medios populares se construyen para ser notorias tanto como sea posible; los periodistas con frecuencia comprometen la exactitud para maximizar el choque de una historia, sin tomar en cuenta si las palabras o cuadros son utilizados para representar la historia. Nos corresponde estar con los pies en la tierra para que no estemos entre las víctimas crédulas de la desinformación. 2.22 REPRESENTACIÓN DISTORSIONADA Un error común, pero no muy sutil, evidente en muchas pictografías (histogramas en que se utilizan figuras para representar frecuencias) que se da en el medio popular esla falacia línea contra área. Para obtener atizar más el fuego los artistas gráficos a menudo representan la frecuencia de una categoría por la altura de la figura (distancia lineal), incluso hacen una figura por categoría. Esta escasez de representación uniforme de una frecuencia conduce a una imagen distorsionada de los datos. 2.23 ESCALA Y CALIBRACIÓN ERRÓNEAS Un defecto común de las gráficases el uso de un valor arbitrario al inicio de la escala en el eje vertical. Un método común de una exageración porcentuales el cambio a través del tiempo,se hace aparecer más grande de lo que es. La calibración de la gráfica debería por lo general incluir al ceropara variables cuantitativas que tienen un cero absoluto (es decir, donde cero significa ninguno) como ingreso, años de experiencia, estatura, etcétera. Para variables en las cuales el cero es significativo o arbitrario, como las mediciones estandarizadas de aprovechamiento, aptitud, variables afectivas y psicológicas, etcétera, la gráfica debería por lo general incluir todo el rango de los valores potenciales con espacio para extenderse en cualquier dirección. 2.24 GRÁFICAS COMBINADAS
  • 21. 21 La combinación de gráficaspuede ser una de las formas más sutiles de dar credibilidad injustificada a la propaganda gráfica. 2.25RESUMEN DE CAPÍTULO Antes de que se pueda estudiar estadísticamente una variable, ésta debe ser medida; la mediciónes un proceso de asignación de números a las observaciones de una variable. Los métodos estadísticos sonherramientas paraorganizar, resumir y simplificar un conjunto de datos. Una característica de interés en un conjunto de datoses la forma de su distribución de frecuencias. Las distribucionespueden sernormales, asimétricas (positiva y negativa) rectangulares o bimodales. Las tablas y gráficaspueden aclarar una cantidad de datos que de otra forma serian difíciles de manejar. La forma o perfil de una distribución se hace evidente silas observaciones se representan gráficamente mediantehistogramas de frecuencias/porcentajes, y polígonos de frecuencias/porcentajes. Las curvas de ojiva (porcentaje acumulado)son útiles en especial paradeterminar los percentiles, como el primer cuartil ( o ),la mediana ( ), y el tercer cuartil ( o ). Los gráficos de caja y patillason gráficas simples y efectivas paratransmitir las características sobresalientes de una distribución. Las gráficas de series de tiemporevelan cambios en una variable sobre un intervalo de tiempo dado. Las graficas pueden serun armaasí comouna herramienta: pueden informar, pero tambiéndistorsionarCuando se utilizan figuras pictográficas para representar frecuencias, todas deben ser del mismo tamañoal menos en una dimensión. Las escalas que tienen un punto cero verdadero o realdeben comenzar con cero paraevitar efectos exagerados. La combinación de gráficaspuede ser efectiva en particular para propaganda, pues permite falsear relaciones de causa y efecto.
  • 22. 22 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y ESCALAS DE MEDICIÓN. 3.1 ESCALAS DE MEDICIÓN La medición incluye la evaluación, un proceso mediante el cual las cosas se diferencian. No está limitada al uso de instrumentos altamente desarrollados y refinados. Por lo común, se distinguen cuatro escalas o niveles de medición: nominal, ordinal, intervalos y escalas de proporción o razón. 3.2 ESCALAS NOMINALES La medición nominales la forma más rudimentaria de medir. Es el proceso de agrupar unidades (objetos, personas, etcétera) en categorías basándose en uno o más atributos o propiedades observados. Con las escalas nominales (categóricas), los números asignados definen cada grupo distinto y sirven meramente como etiquetas o nombres(es decir, nominal, utilizando un número como una etiqueta de nombre). Los números hacen distinciones categóricas más que cuantitativas; cada cifra representa una categoría diferente. La magnitud de los números no refleja alguna ordenación inherente de las cosas a las que fueron asignados, más bien sirven sólo como códigos de identidad. Las observaciones no pueden ser ordenadasde pequeño a grande o de menos a más. Cualquier cuestión perteneciente a la magnitud de la variable fundamentales irrelevante para la medición nominal. La única cuestión comparativa relevantepara los datos nominalespertenece a si dos observaciones son o no la misma. Las variables nominales que tienen sólo dos categorías, como género y tipo de escuela (privada o pública), se llaman variables dicotómicas. Examen: ¿cuál de las siguientes variables resultaría una escala nominal: ocupación, tipo de programa escolar, calificación de lectura, altura en pulgadas? Respuesta: ocupación y tipo de programa escolar son variables nominales.
  • 23. 23 3.3 ESCALAS ORDINALES Una escala de medición ordinalse logra cuando las observaciones pueden colocarse en un orden o jerarquíacon respecto a la característica que se evalúa. La magnitud de los números no es arbitraria (como lo es en las escalas nominales), sino que representa el orden del rango del atributo observado. Se supone un continuo subyacente en los números. Clase social, lugar en la clase, concursos de belleza (en efecto, todas las variables expresadas como rangos) y normas percentilaresson ejemplos de escalas ordinales. Examen: ¿cuál de las siguientes variables podría expresarse como rangos y representar una medición ordinal: 1) grado académico (licenciatura, maestría o doctorado), 2) género, 3) deporte favorito? Respuesta: grado académico. 3.4 ESCALAS DE INTERVALO Las escalas de intervaloson más refinadas, tanto que números consecutivos marcan intervalos iguales, es decir, cantidades iguales de la variable que se mide. Una diferencia numérica dada representala misma magnitud del atributo (o rasgo, propiedad o característica) en todos los puntos a lo largo de la escala. La diferencia entre las temperaturas (energía cinética) de 50° y 51° es idéntica en magnitud a la diferencia entre 70° y 71°. Con las escalas de intervalo, sin embargo, el punto cero es arbitrario y no representa "ninguno" o "vacío" o "nada"; es decir, cero no representa la ausencia de la característica medida; representa un punto conveniente del cual se marcan intervalos de igual magnitud. Para la escala centígrada de temperatura, la temperatura a la que el agua se congela se asigna a 0°C; para la escala Fahrenheit, el punto en el que una solución salina saturada se congela se asigna a 0°F. Cada vez que escribimos la fecha, el número utilizado para el año (d.C: número de años desde el nacimiento de Cristo) representa una escala de intervalo.
  • 24. 24 Examen: ¿cuál de las siguientes variables puede expresarse utilizando una escala de intervalo: 1) carrera, 2) clase social, 3) calificación del autoconcepto, 4) temperatura del agua en la bahía de Kealakekua? Respuesta: ¡la temperatura del agua en la hermosa bahía de Kealakekua! (La temperatura del agua también puede expresarse como una escala de proporción si la temperatura se expresa utilizando la escala absoluta [Kelvin].) 3.5 ESCALAS DE PROPORCIÓN Las escalas de proporcióntienen las propiedades de las escalas ordinales y de las escalas de intervalo, pero, además, el cero representa la ausencia de la característica en cuestión (es decir, la escala tiene un punto cero absoluto); en consecuencia, los números pueden compararse como proporciones. Las medidas de longitud para las cuales se utiliza una regla o una cinta métricas ejemplifican una medición de proporción. Si Sue mide 1.52 m de altura y Carmen 1.27 m, entonces Sue es 119% (1.52/1.27 = 1.19) tan alta como Carmen o Sue es 20% más alta que Carmen. La evaluación del CI, sin embargo, no tiene la cualidad de proporción: si Toni tiene un CI de 125 y Jack tiene un CI de 100, no se puede decir que Toni es 25% más inteligente que Jack. Medidas de tiempo, distancia, peso, área y costo por lo generalrepresentan escalas de proporción. Mediciones bien llevadas a cabo de la escolaridad, aptitud, conceptos sociales y psicológicos con frecuencia se supone que tienen cualidades por lo menos ordinales o casi de intervalo. Examen: ¿cuál de las siguientes variables tienen medidas que probablemente representen escalas de proporción: 1) costo por estudiante, 2) distancia de la escuela, 3) peso? Respuesta: todas. 3.6 ESCALAS DE MEDICIÓN Y ESTADÍSTICA Muchos textos afirman que la mayoría de las estadísticas convencionales son inapropiadasa menos que las mediciones representen una escala de intervalo o de proporción.
  • 25. 25 3.7 MEDIDAS DE TENDENCIA CENTRAL Medidas de tendencia central: la media, mediana y moda. Una medida de tendencia central o localización media de los conjuntos de datos está lejos y por mucho del tipo de índice estadístico más ampliamente utilizado; en general, es la más importante descripción de una distribución. 3.8 MEDIA La media, o promedio aritmético, de un conjunto de observaciones ( )es simplemente su suma ( ) dividida entre el número de observaciones (n). Para fines estadísticos, la media de una muestra ( ) se distingue de la media de la población ( ). La media de población ( ) es un parámetroy está basada en el conjunto completo de unidades observacionales (N) en la población definida por el investigador, por ejemplo, todos los directores de California, todos los estudiantes de Colorado inscritos en programas bilingües, todas las escuelas primarias de Estados Unidos, etcétera. Una media de muestra ( ) es un estadígrafo inferencial; está basada en un subconjunto, de preferencia una muestra aleatoria, de unidades observacionales (n) seleccionadas de toda la población. En matemáticas y ciencias se utilizan fórmulas debido a queson precisas y sucintas. Una fórmulaes una oración expresada matemáticamente. 3.9 MEDIANA La mediana (Md)es otra medida común de tendencia central; es el valor medio en un conjunto de valores ordenados: el punto abajo (y arriba) del cual cae un número igual de observaciones; la medianaes el percentil cincuenta ( ) o el segundo cuartil ( ). Para encontrar la mediana de un grupo de valores: 1. Arregle los valores en orden. 2. Cuente hacia atrás hasta el valor medio en la distribución ordenada.
  • 26. 26 Para una distribución compuesta por un NÚMERO PAR DE OBSERVACIONES, la mediana ocupa una posición intermedia entre el par de valores de en medio. La medianapuede encontrarse para cualquier distribución que pueda ordenarse; es decir, sólo se requiere una escala ordinal de medición. 3.10 MODA La modaes la observación que ocurre con más frecuencia, el valor más común o popular. La modapuede emplearse incluso con variables categóricas —datos que representan sólo una escala nominal de medición. Los conceptos de media y mediana virtualmente no tienen significado con variables categóricas. Examen: ¿cuál es la media y la mediana étnica en Estados Unidos? Respuesta: ¡no contesto preguntas absurdas! La moda, sin embargo, tiene significado con datos en todos los niveles de medición. La moda es fácilmente identificableen una distribución de frecuencia no agrupada.Con distribuciones de frecuencia agrupadas, el punto medio del intervalo con la frecuencia más grande puede usarse para estimar la moda. 3.11 MEDIA, MEDIANA Y MODA DE SUBGRUPOS COMBINADOS La media compuestao media mayor simbolizada por . Cuidado:La media mayorno es sólo la media de las medias de lossubgruposa menos que los tamaños de las muestras de los subgrupos sean idénticas. La media mayor ( ) de grupos de medida diferente se calcula dividiendo la suma de las sumas de los subgrupos entrela suma de las n del grupo, como está implícito en la ecuación 3.3.
  • 27. 27 3.12 TENDENCIA CENTRAL Y ASIMETRÍA En distribuciones simétricas con sólo una moda, como la curva normal en la figura 3.1 A, la media ( ), mediana (Md) y moda (Mo) tienen el mismo valor. Por ejemplo, la media, la mediana y la moda de la población de valores de CIson todas 100 debido a quela distribución de valores de CI está representada de manera precisa por la curva normal. Para distribuciones bimodales y rectangulares como en la figura 3.1B y la figura 3.1C, sólo la media y la mediana son idénticas. Observe que una distribución perfectamente rectangular no tiene una moda, ya que todos los valores X tienen la misma frecuencia. En distribuciones asimétricas como las figuras 3.1D y 3.1E, la media, siendo sensible a la magnitud de cada valor,es "jalada" hacia los valores extremos en la "cola" de la distribución. Consecuentemente, la media tiene el valor más grande de las tres medidas de tendencia centralen una distribución asimétrica positiva, y el valor más pequeño enuna distribución asimétrica negativa. M d
  • 28. 28 Contrario a la opinión popular, no es siempre el caso que 50% de casos estén por encima del promedio (la media). Observe en la figura 3.1D que es completamente posible para el 70% o más de los valores de una distribución estar debajo del promedio (o arriba del promedio como en la figura 3.1E). Se espera que la mediana caiga entrela media y la moda en las distribuciones asimétricas; teóricamente, en distribuciones asimétricas grandes y moderadas, se espera que la mediana estécerca de dos veces alejada de la moda como lo está de la media (véanse figuras 3.1D у З.1Е). Sin embargo, con conjuntos de datos pequeños, la moda es muy erráticay su relación a la media y la mediana es completamente impredecible. En distribuciones extremadamente asimétricas, la mediapuede estar influida a tal grado que no es una buena medición descriptiva de la tendencia central de una distribución. En distribuciones severamente asimétricas, la mediana es preferible a la media para fines descriptivos; realmente, sólo en distribuciones simétricasla media es fácil de interpretar (y esto se debe a que es igual a la mediana). 3.13 MEDIA, MEDIANA У MODA: ¿CUÁL MEDIDA ES MEJOR? La modaes aplicable para cada una de las cuatro escalas de medición. Sólo la modatiene significado para variables categóricas comoafiliación política, afiliación religiosa, grupo étnico, especialidad académica u ocupación. Sin embargo, para fines inferenciales, la moda tiene una desventaja distintiva: la moda de una muestra no es una estimación muy confiable de su moda de población a menos que el tamaño de la muestra aleatoria sea extremadamente grande. La confiabilidad en estadísticarepresenta la precisión con la cual la estadística estima el parámetro de población correspondiente. Establecido de forma diferente, hay un gran error de muestreo asociado con la moda de la muestra; el error de muestreoes la diferencia entre el estadígrafo de la muestra y el parámetro de población correspondiente.
  • 29. 29 La mediana de la muestraes más confiable (es decir, tiene un error de muestreo menor) que la moda de la muestra; la media de la muestratiene un error de muestreo menor que la moda o la mediana, lo cual es una razón del por qué tiende a ser preferida para fines inferenciales. Como ejemplo, suponga que un grupo se divida aleatoriamente en dos subgrupos, А у В, y que se aplica el mismo examen a ambos subgrupos. Sería de esperarse quela diferencia entre las dos mediasfuera menor que aquélla entre las dos medianas, lo cual, a su vez, se esperaría que fuera menor que la diferencia entre las dos modas. Expresado de otra forma, a la larga, la media de la muestra da una estimación más cercana de su parámetro de población que la mediana o la moda. Para fines descriptivos, la medianaes con frecuencia la medida preferida de tendencia central. Como el percentil 50 de la distribución, comunica bien el "promedio" para distribuciones continuas simétricas y asimétricas. La mediana de una distribucióntambién tiene una característica matemática interesante: es el punto del cual la suma de las distancias (valores absolutos) a todos los otros valores en la distribución es un mínimo. RESUMEN DE CAPÍTULO Los números en un conjunto de datostienen diferentes propiedades dependiendo dela naturaleza de la variable que se mide y de la precisión involucrada en los procedimientos de evaluación. Los cuatro tipos básicos de escalas de medición o nivel de medición se describen como escalasnominal, ordinal, de intervalo y de proporción. Con escalas nominales, los números solo se usan como etiquetas de nombre, y no representan valores o cantidades. Con las escalas ordinales, los números pueden colocarse en orden por rango decantidad o grado. Con escalas de intervalo, los números representan unidades iguales a lo largo deun continuo, pero tienenun punto cero arbitrario. Una escala de proporciónes una escala de intervalo, pero también tiene un cero absoluto.
  • 30. 30 La escala de medición representada por un conjunto de datos depende en parte dela naturaleza de la variable en cuestióny en parte dela calidad de los procedimientos de medición. Las mediciones de variables categóricascontinúan siendo escalas nominalessin importar cuán cuidadosamente sean evaluadas. Las medidas de variables continúas que teóricamente pueden medirse por escalas de intervalo o de proporciónpueden representar solo escalas ordinalessi se emplean procedimientos de medición ordinarios. Hay tres medidas comunes de tendencia central:la media, mediana y moda. La mediaes la medición más ampliamente usada de ―promedio‖tantoen la comunicación de información al público en generalcomoen la investigación empírica. De las tres la media de la muestraes la más precisa(es decir, tiene menos error de muestreo) y tiende a ser mejor para fines inferenciales, es decir, hacer inferencias sobre parámetros de población. El valor de todos los datosinfluye en el valor numérico de la media. En consecuencia, en distribuciones asimétricas, la media es ―halada‖ hacia la cola mas alargadamás que la mediana o la moda. En distribuciones segadas positivamente, se espera que la media exceda ala mediana y a la moda; lo contrario es cierto paradistribuciones sesgadas negativamente. Para distribuciones continuas, la mediana es por lo generalel indicador más significativo de tendencia centralpara fines descriptivos. La medianaes el percentil 50 de una distribución ( ) y parte a un conjunto de valores en el punto medio. La medianaes también el punto en una distribución del cual la suma de las desviaciones absolutas de todos los valores esun mínimo. Si esas diferencias son cuadráticas, sin embargo,el total será menor que la media, no que la mediana. La media, por lo tanto, es la medida de tendencia central que satisface de modo sorprendente el importante criteriode mínimos cuadrados.
  • 31. 31 La moda, a diferencia de la media y la mediana, puede usarse incluso con las escalas nominales. La modaes la observación que ocurre con más frecuencia, pero es menos confiable que la media o la mediana. En distribuciones simétricas unimodales, la moda, la mediana y la mediatienen el mismo valor. Característica MEDIA MEDIANA MODA Más confiable MEDIA Menos confiable MODA Requiere sólo de escalas nominales MODA Requiere sólo observaciones clasificadas MEDIANA Punto debajo del cual y arriba del cual cae la mitad de las observaciones MEDIANA “Centro de gravedad” de una distribución MEDIA Influye en ella el valor específico de cada observación MEDIA Será igual en una distribución simétrica MEDIA MEDIANA Será igual en una distribución normal MEDIA MEDIANA MODA Tendrá el valor más grande en una distribución sesgada positivamente MEDIA Tendrá el valor más grande en una distribución sesgada negativamente MODA Su valor no es ni el más grande ni el más pequeño en distribuciones asimétricas MEDIANA Es en sí misma mejor que otras operaciones aritméticas MEDIA Es la más ampliamente utilizada en métodos estadísticos más avanzados MEDIA Puede estimarse gráficamente de las curvas de ojiva MEDIANA Puede estimarse más rápidamente en histogramas o polígonos de frecuencia MODA Mejor para variables continuas para fines descriptivos MEDIANA Es igual a y MEDIANA
  • 32. 32 REPASO ACTIVO: EJERCICIO CLOZE. Tres medidas comúnmente usadas de TENDENCIA CENTRAL son la media, la moda y la MEDIANA Por lo general los valores se concentran alrededor del valor que ocurre con mayor frecuencia, la MODA. El punto medio que separa la distribución en dos partes de igual tamaño es la MEDIANA. La medida de tendencia central más segura, estable o confiable tiende a serla MEDIA. La MEDIA es sensible al valor de cada dato en la distribución; esto no ocurre en la MODA ola MEDIANA. Lasdistribuciones que son precisamente simétricas y tienen una cierta forma de campana matemáticamente especificada se llaman distribucionesNORMALES. En una distribución normal verdadera, la moda, la mediana y la media tienen el mismo VALOR. Todas las distribuciones normales son SIMÉTRICASpero algunas distribuciones simétricas no sonNORMALES. Una prueba puede ser tan difícil que hay muchos valores BAJOS y pocos extremadamente ALTOS. Tal distribuciónse describirá como sesgada POSITIVAMENTE. En distribuciones asimétricas, la MEDIANA con frecuencia es la medida descriptiva preferida de tendencia central, pero para fines inferenciales la MEDIA tiene el menor error de muestreo. En unaPrueba muy fácil, la MEDIANA será mayor que la MEDIA, pero menor que la MODA. Si se encontrara que la media CI enun grupo fuera 110 y la mediana 100, la distribución probablemente estaría sesgadaPOSITIVAMENTE. Si un grupo tuvierauna media de 89.3 y una mediana de 90.1, el sesgo sería INSIGNIFICANTE. Si este grupo se combinara con un grupo talentoso, la forma de la distribución de los valores de CI compuestos probablemente sería BIMODAL. Si pudiera desarrollarse una prueba de modo que cada valor se obtuviera con igual frecuencia, la forma de la distribución sería SIMÉTRICA y RECTANGULAR y no sería MODA.
  • 33. 33 CAPÍTULO 4. MEDIDAS DE VARIABILIDAD:¿Cuán diferentes son las observaciones? 4.1 INTRODUCCIÓN Las dos características estadísticas más importantes de cualquier conjunto de datos son: 1) su tendencia central 2) su variabilidad. Esos conceptos son muy útiles al resumir las características principales de un conjunto desconcertante de datos. Las medidas de tendencia centralestán relacionadas con el promedio o valor típico o representativo de la distribución. Una segunda consideración importante se relaciona con la variabilidad entre los valores, es decir, qué tan grandes son las diferencias entre los valores. Las medidas de variabilidadcuantifican el grado de dispersión o la extensión de las diferencias individuales evidenciadas en la distribución. Para interpretar de manera apropiada una observación, necesitamosmedidas de tendencia central y variabilidad.Consideramos tres medidas de variabilidad: el rango, varianza y desviación estándar. Examen: intente esta analogía: muestra es a estadígrafo como población es a "?". Respuesta: parámetro. 4.2 EVALUACIÓN DE LA VARIABILIDAD Las descripciones expresadas tales como "mucho", "considerable" y "pequeña" son intentos verbales para comunicar la variabilidad, pero se interpretan subjetivamente y, por lo tanto, con pérdida en la precisión. Los índices estadísticos son necesarios pues cuantifican objetivamente el grado de variabilidad en la distribución. 4.3 VALORES DE DESVIACIÓN Para la variabilidad, se consideran las diferencias entrela media ycada valor.
  • 34. 34 Esas diferencias de la media se llamanvalores de desviacióny se simbolizancon minúsculas: x cuando se considera una variable (y x y y cuando se consideran dos variables). Los valores brutos por arriba de la mediatienen valores de desviación positivos, y los valores brutos por abajo de la mediatienen valores de desviación negativos. Típicamente, más o menos la mitad de los valores de desviación son positivos y la mitad negativos, y su suma siempre es cero. Si la distribución es marcadamente heterogénea o marcadamente homogénea, la suma de sus valores de desviación de la media es cero. Esto es cierto para todas las distribuciones de todas las diferentes formas y de todos los tamaños, es decir, . Obviamente, no puede usarse para reflejar la variabilidad. 4.4 SUMA DE CUADRADOS , la suma de los cuadrados (SC), nunca puede ser negativa. Esta suma de cuadrados puede interpretarse comouna manera de cuantificar la totalidad de la variabilidad en un conjunto de valores. Si dos grupos del mismo tamaño toman la misma prueba,el grupo con la mayor SC tiene la mayor variabilidad, es decir,es más heterogéneo y está caracterizado por mayores diferencias individuales. Como al valor de la suma de cuadrados le afecta de gran manerael número de observaciones del conjunto de datos, no es una medida útil de la variabilidad. 4.5 VARIANZA DE POBLACIÓN El propósito de una medida de la variabilidades cuantificar el grado de variación entre el conjunto de valores de una distribución. Cuando todas las N observaciones de la población están incluidas en el conjunto de datos, la varianza , se encuentra dividiendo la suma de cuadrados entre N, como se define en la ecuación 4.3.
  • 35. 35 Para calcular para una población de valores. 1. Encuentre la desviación de cada valor de la media: ecuación 4.1: 2. Eleve al cuadrado cada valor de la desviación: . 3. Sume las para encontrar la suma de cuadrados: SC = 4. Encuentre la varianza dividiendo SC entre N: 4.7 DESVIACIÓN ESTÁNDAR DE UNA POBLACIÓN La desviación estándar ( )es simplemente la raíz cuadrada de la varianza. La desviación estándares más útil para describir la variabilidad de un conjunto de datos mejor que la varianza (aunque la varianza tiene propiedades que son superiores para el uso en estadísticas inferenciales). La desviación estándarlleva las mismas unidades que los valores originales. Se espera que aproximadamente dos tercios de los valores estén dentro de una (+ o -) desviación estándar de la media.Para distribuciones normales, cerca de un tercio de los valores se desvían más de una de . 4.8 PARÁMETROS CONTRA ESTADÍGRAFOS El conjunto total de personas o cosas que el investigador desea describir esla población de interés. 4.9 ERROR DE MUESTREO Y VARIANZA DE LA MUESTRA De modo intuitivo sabemos que los estadígrafos de muestra diferirán en algo de sus correspondientes parámetros. Los estadísticos llaman a este tipo de diferencia error de muestreo. La suma de cuadrados para cualquier conjunto de valoreses menor cuando se desvía de su propia que cuandose desvía de otro punto.
  • 36. 36 De aquí, la SC de la muestra de será menor que la suma de los cuadrados de (excepto en el raro caso en que X= ). Cuando es desconocida, el uso de la estimación, , más que de para calcular la suma de cuadrados, SC, da como resultado un valor para la suma de cuadrados que es demasiado pequeño, y la ecuación 4.3 daría una subestimación influida por la varianza de la población. Afortunadamente, los estadísticos matemáticoshan resuelto esta dificultad en nuestro lugar: han probado, bastante asombrosamente, quela influencia en SC resultante del uso de en lugar de , ¡es compensada con precisión al reemplazar el denominador n por (n - 1) (véase la ecuación 4.6)! Utilizar el divisor (n - 1) da como resultadouna estimación no influida de la varianza de la población de la muestra aleatoria de n observaciones; n - 1tiene el nombre no intuitivo de grados de libertad, y se representa por (letra griega que se pronuncia como "ni" que corresponde a nuestra letra n). Encontrará las expresiones "grados de libertad" y " " a lo largo del libro; piense en grados de libertad comoun tamaño de muestra, ajustado para compensar el sesgo. La varianza de la muestra, , definida por la ecuación 4.6 es una inferencia estadística no sesgada; es la estimación no sesgada de . La varianza de la muestra, ,tiene una propiedad que es muy importante en inferencia estadística —el estadígrafo es una estimación no sesgada del parámetro . Una estimación no sesgadaes aquella en la cual la sobreestimación y subestimación tienden a balancearse a la larga. La desviación estándar de la muestraes simplemente la raíz cuadrada de la varianza de la muestra. 4.10 VALORES ESPERADOS Si un estadígrafo no es sesgado, su "valor esperado" es igual al parámetro que estima. El valor esperado de un estadígrafo de la muestraes su valor medio "a la larga". E(estadígrafo no sesgado) = parámetro (4.8)
  • 37. 37 A la larga, el valor medio de un estadígrafo no sesgado (es decir, su valor esperado)es el parámetro que estima. Otra forma de decir esto es que, a la larga, la suma algebraica de los errores de muestreo para ese estadígrafoes cero. 4.11 DESVIACIÓN ESTÁNDAR DE LA MUESTRA, s, COMO UN ESTIMADOR DEL PARÁMETRO Puede parecer a nivel intuitivo que si , entonces debería también ser una estimación no sesgada de . Este no es el caso: una raíz cuadrada de un estadígrafo no sesgadono es una estimación no sesgada de la raíz cuadrada del parámetro, por ejemplo, . Afortunadamente, el error que resulta por utilizar como una estimación de es insignificantea menos que n sea pequeña. 4.12 RANGO El rango es simplemente la diferencia entre las observaciones mayores (Xmáx) y las menores (Xmín). 4.13 ESTIMACIÓN DE H Y DE RANGO INTERCUARTIL Aunque no tan importantes como la varianza y la desviación estándar, hay otras dos medidas de variabilidad que deberán estar en nuestro vocabulario estadístico, el rango intercuartilar y el rango semintercuartilar. El primer cuartil ,es el punto en la escala bajo el cual 25% de los valores caen— es el percentil 25. es equivalente ala mediana o al percentil 50. El punto bajo el cual se encuentra el 75% de los valores define . La diferencia (rango intercuartil)entre el primero y tercer cuartiles de un grupo de valores, es decir, , es el rango intercuartilar. Un sinónimo de es estimado H (Tukey, 1977), la diferencia entre , ("eje inferior" de Tukey) y ("eje superior" de Tukey).
  • 38. 38 El rango semintercuartilar Q, es una medida de la distancia entre el tercer y primer cuartiles, es decir: Qpuede ser una útil medida descriptiva de la variabilidad. Si dos grupos de valores tienen el mismo valor de Q, probablemente poseen patrones similares de heterogeneidad. En distribuciones que no son severamente asimétricas, Md± Qpuede usarse para reconstruir los límites aproximados del valordentro del cual el 50% de los valores caen. En la sección 5.12 veremos que en una distribución normal Q = .674 o = 1.5Q; en otras palabras, cuando una distribución es aproximadamente normaluno puede estimar de Q, o viceversa. Examen: en la población distribuida normalmente de las calificaciones de CI, = 15. Estime los percentiles 25 y 75 en esta distribución. Respuestas: = = 90 y = = 110. (Q es cerca de 10 —dos tercios de .) 4.14 INFLUENCIA DEL TAMAÑO DE LA MUESTRA EN EL RANGO Un gran defecto del rango como inferencia estadísticaes que su valor se ve afectado en gran medida por el tamaño de la muestra. El rangose afecta sólo por dos observaciones atípicas(la mayor y la menor) y, conforme aumenta el tamaño de la muestra, el rango tiende a incrementarse. Este no es el caso de ; la expresión E( ) = no depende de n; esta característica prevalece a pesar del tamaño de la muestra. El rangotiene valor muy limitado como inferencia estadísticaya que su valor depende del tamaño de la muestra. El rango es, sin embargo, útil como una estadística descriptiva, y debe considerarse como complemento, no como sustituto para y . Tanto el rango, el rango intercuartilar y Qtienen un valor limitado como estadísticas inferenciales.
  • 39. 39 4.15 CONFIABILIDAD Y CONSISTENCIA DE ESTIMADORES La confiabilidad en estadísticarepresenta la estabilidad y consistencia del estadígrafo comouna estimación del correspondiente parámetro de población. La mediaes más confiable que la mediana o la moda; esto indica quemedias de la muestra de la misma población son más parecidas (tienen menos variabilidad) quelas medianas de la muestra o las modas de la muestra. De manera similar, las varianzas de la muestra (y desviaciones estándar)son más confiables y estables quelos rangos de la muestra y los rangos intercuartiles. El hecho de que un estadígrafo sea no sesgado [por ejemplo, E( ) = ] para todo valor de nno implica que la estadística basada en 10 observacionessea tan exacta como una estimación basada en 100 observaciones. Con todas las mediciones estadísticas, conforme n aumenta, el error de muestreo disminuyey se espera que el estimador se aproxime al parámetro en valor numérico. Esta característica, de que un estadígrafo se aproxime al parámetro a medida que n aumenta, se llamaconsistencia. Todas las estadísticas aplicadas tienen la propiedad deconsistencia, pero no todas sonno sesgadas; y de las que son no sesgadas, no todas son igualmente eficientes. La eficienciase relaciona con la cantidad de error de muestreo esperado en una medición estadística dada; los índices más eficientestienden a tener menos error de muestreo, es decir, dan estimaciones más cercanas en valor a sus correspondientes parámetros. Las preferencias de los estadísticos por ciertas inferencias estadísticas sobre otras está basada enel no sesgo y en la confiabilidadya que todas son consistentes, por ejemplo, la media se prefiere sobrela mediana y la moda para fines inferencialesdebido a que es más confiable (o eficiente).
  • 40. 40 RESUMEN DEL CAPÍTULO Las medidas de variabilidadson necesarias para cuantificarel grado de dispersión en una distribución. La varianza, la desviación estándar y el rangoson medidas comunes de variabilidad. Si una distribución contiene todas las observaciones de la población, las medidas estadísticas son parámetros. La varianza y la desviación estándar para la población se simbolizan y , respectivamente. Si la distribución contiene sólo una muestra de observaciones de la población, las medidas estadísticas se llaman estadígrafos (o inferencias estadísticas). Las estimaciones de la varianza y de la desviación estándar de la muestra se simbolizan y , respectivamente. La diferencia entre un estadígrafo y el parámetro relevante esel error de muestreo. Las mediciones estadísticas se evalúan en términos deconfiabilidad, consistencia y no sesgo. Consistenciasignifica que el error de muestreo en una estadística disminuye a medida que n aumenta—todas las medidas estadísticas son consistentes. La confiabilidades el grado en el cual las estimaciones de la muestra de un parámetro tienden a tener menos error de muestreo. Las estadísticas más confiablestienen relativamente menos error de muestreopara competir con los índices estadísticos —la mediase prefiere a las otras medidas de tendencia central debido a quea la larga tiene menos error de muestreo para cualquier valor de n; es más confiable y eficiente. Las estadísticas no sesgadasson aquellas para las cuales el valor esperado del estadígrafo esigual al parámetro, haciendo caso omiso de n. La expresión, E( )= , establece quela varianza de una muestra es una estimación no sesgada de la varianza de población. La desviación estándar de la muestra, ,es ligeramente sesgada; tiende a subestimar el parámetro aunque el grado de sesgo sea insignificante, a menos que n sea muy pequeña. El rangopuede ser significativo como una estadística descriptiva,pero tiene un uso limitado en inferencia estadística debido a queestá extremadamente influido por n, entre mayor sea n. mayor es el rango.
  • 41. 41 ESTADÍSTICA CAPÍTULO 2. DISTRIBUCIONES DE FRECUENCIA: Tablas estadísticas y gráficas RESUMEN DE CAPÍTULO Antes de que se pueda estudiar estadísticamente una variable, ésta debe ser medida; la mediciónes un proceso de asignación de números a las observaciones de una variable. Los métodos estadísticos sonherramientas paraorganizar, resumir y simplificar un conjunto de datos. Una característica de interés en un conjunto de datoses la forma de su distribución de frecuencias. Las distribucionespueden sernormales, asimétricas (positiva y negativa) rectangulares o bimodales. Las tablas y gráficaspueden aclarar una cantidad de datos que de otra forma serian difíciles de manejar. La forma o perfil de una distribución se hace evidente silas observaciones se representan gráficamente mediantehistogramas de frecuencias/porcentajes, y polígonos de frecuencias/porcentajes. Las curvas de ojiva (porcentaje acumulado)son útiles en especial paradeterminar los percentiles, como el primer cuartil ( o ),la mediana ( ), y el tercer cuartil ( o ). Los gráficos de caja y patillason gráficas simples y efectivas paratransmitir las características sobresalientes de una distribución. Las gráficas de series de tiemporevelan cambios en una variable sobre un intervalo de tiempo dado. Las graficas pueden serun armaasí comouna herramienta: pueden informar, pero tambiéndistorsionarCuando se utilizan figuras pictográficas para representar frecuencias, todas deben ser del mismo tamañoal menos en una dimensión. Las escalas que tienen un punto cero verdadero o realdeben comenzar con cero paraevitar efectos exagerados. La combinación de gráficaspuede ser efectiva en particular para propaganda, pues permite falsear relaciones de causa y efecto.
  • 42. 42 PRUEBA DE DOMINIO. 1. Si un valor de CI es 115 en , ¿qué porcentaje de valores excede 115? 2. ¿Cuál de estos tipos de distribución es mejor para transmitir la distribución de frecuencias de 600 valores de una prueba? a) distribución de rango-orden b) distribución de frecuencias no agrupada c) histograma 3. Considere el siguiente conjunto de calificaciones de matemáticas de los datos del HSB (caso de estudio): 43 58 46 49 50 50 55 47 50 52 51 56 53 54 51 51 39 50 40 41 58 42 40 41 a) EncuentreXmáx= 58 b) EncuentreXmín= 39 c) Calcule el rango=19 4. De las siguientes opciones, cuál puede determinar con mayor precisión el rango de un conjunto de observaciones? a) ¿distribución de frecuencias no agrupada b) Distribución de frecuencias agrupada 5. Adivine si cada una de las siguientes distribuciones tiene asimetría positiva o negativa. a) ingreso familiar en dólares por año. POSITIVA b) edad de graduación de la universidad. POSITIVA c) poblaciones de ciudades en Estados Unidos. POSITIVA d) calificaciones en una prueba muy fácil. NEGATIVA. 6. Dada Xmín=42 y el tamaño de intervalo (w) es igual a 5. ¿Cuáles son los valores límites inferior y superior aparentes de los tres intervalos más bajos? 40-44, 45-49, 50-54
  • 43. 43 7. ¿Qué nombre daría a un valor que se desvía marcadamente de los otros valores en la distribución? EXTERNO 8. Si la variable de la línea base (eje X o abscisa) representa una variable categórica (como nacionalidad o género), ¿se prefieren los histogramas a los polígonos de frecuencias? 9. ¿Pueden representarse en la misma figura un polígono de porcentaje y uno de frecuencias? 10. ¿Cuál de los siguientes cuatro términos difiere más de los otros tres? a) eje X b) eje Y c) eje horizontal d) abscisa En las preguntas 11-16, haga coincidir las descripciones verbales y gráficas: 11. distribución rectangular 12. distribución bimodal 13. distribución normal 14. distribución asimétrica positiva 15. distribución asimétrica negativa 16. ¿Cuáles de las curvas anteriores (a-e) son aproximadamente simétricas? NORMAL, BIMODAL Y RECTANGULAR. 17. Para representar datos visualmente en una distribución de frecuencias agrupada, ¿cuántas clases se recomiendan generalmente para tamaños de muestras de cerca de a) 60?=10 b) 1 000?=15 o 20
  • 44. 44 18. ¿Cuál de las siguientes gráficas es mejor para determinar percentiles? a) Histograma b) polígono de porcentajes c) curva de ojiva 19. ¿Cuál de los siguientes cuatro términos difiere más de los otros tres? a) b) Mediana c) d) 20. El número de huevos en una docena es una a) Variable b) Constante 21. ¿En una gráfica de caja y patillas, qué porcentaje de los casos cae dentro de la caja? 50% 22. En una gráfica vertical de caja y patillas, si la patilla inferior es más larga que la superior, la distribución parecería ser a) Normal b) Bimodal c) asimétrica positiva d) asimétrica negativa 23. El conjunto de datos de HSB (caso de estudio) incluye datos de 10 variables diferentes. Para cada variable listada a continuación, decida si la variable esCATEGÓRICA o CONTINUA. a) tipo de escuela. CATEGÓRICA b) tipo de programa escolar. CATEGÓRICA c) calificación en escritura. CONTINUA d) género. CATEGÓRICA e) calificación en lectura. CONTINUA
  • 45. 45 f) Raza. CATEGÓRICA g) calificación en ciencias. CONTINUA h) calificación en matemáticas. CONTINUA i) calificación en civismo. CONTINUA j) NSE. CONTINUA 24. Considere las siguientes variables y haga hipótesis sobre la forma aproximada de sus distribuciones en los Estados Unidos. Conteste(N) para normal, (B) para bimodal, (R) para rectangular, (AP) para asimétrica positiva, y (AN) para asimétrica negativa. a) peso de los hombres de 20 años. NORMAL b) mes de nacimiento. RECTANGULAR c) peso de las mujeres de 20 años. NORMAL d) días de la concepción al nacimiento. ASIMÉTRICA NEGATIVA e) peso de las personas a la edad de 20 años. BIMODAL f) edad al primer matrimonio. ASIMÉTRICA POSITIVA PROBLEMAS Y EJERCICIOS. 1. Suponga que el siguiente conjunto de datos es una muestra aleatoria de 40 calificaciones de autoconcepto. a) Determine Xmáx, Xmín y el rango Xmáx=117 Xmín=63 Rango=54
  • 46. 46 b) ¿Cuántos intervalos sugeriría para mostrar la distribución? CERCA DE 10 INTERVALOS A MENOS QUE n SEA MUY GRANDE. c) Determine el ancho del intervalo, w, para permitir 10 intervalos. w = rango/10 = 54/10 = 5.4, REDONDEADO A 5. d) Si w = 5, ¿cuál es el primer intervalo (valores más bajos)? EL MENOR MÚLTIPLO DE 5 QUE ES MENOR QUE 63 ES 60:60-64 e) Si w = 5, liste los intervalos. f) Construya una distribución de frecuencias agrupada para los 40 valores. (Utilice el método de conteo con estacas.) g) Construya columnas de porcentajes y porcentaje acumulado para esos datos.
  • 47. 47 h) ¿Sería un polígono de frecuencias una gráfica apropiada para esos datos? ¿Por qué? SÍ; LOS POLÍGONOS DE FRECUENCIA SON EXCELENTES PARA VARIABLES CONTINUAS. i) Construya un polígono con esos datos. j) Construya una ojiva de esos datos. k) Estime , y utilizando la ojiva. =80 =100 =110 l) Construya una gráfica horizontal de caja y patillas para esos datos.
  • 48. 48 m) Comente sobre la aparente simetría o asimetría de esos datos. PARECE QUE LA DISTRIBUCIÓN ES ASIMÉTRICA Y SESGADA A LA IZQUIERDA n) ¿Cómo diferirá una ojiva de asimetría positiva de la de asimetría negativa? LA OJIVA DE UNA DISTRIBUCIÓN ASIMÉTRICA POSITIVA SE ELEVARÍA MUY RÁPIDO DE LA LÍNEA BASE EN EL LADO IZQUIERDO DE LA OJIVA DEBIDO AL CONJUNTO DE VALORES EN LAS REGIONES MÁS BAJAS. POR OTRO LADO, LA OJIVA DE UNA DISTRIBUCIÓN ASIMÉTRICA NEGATIVA NO COMENZARÁ A ELEVARSE RÁPIDAMENTE SINO HASTA QUE ALCANCE LOS VALORES ALTOS EN EL LADO DERECHO DE LA FIGURA. o) ¿Puede suponer cómo podría aparecer la ojiva de una distribución rectangular? UNA LÍNEA RECTA INCLINADA HACIA ARRIBA DESDE EL EXTREMO INFERIOR IZQUIERDO HASTA EL EXTREMO SUPERIOR DERECHO. 2. El siguiente conjunto de datos es de una muestra aleatoria de 50 casos de los datos del HSB. En este caso, los números representan la raza de los individuos, de donde 1 = hispano, 2 = asiático, 3 = negro, 4 = blanco.
  • 49. 49 a) ¿Un polígono de frecuencias es apropiado para graficar esos datos? ¿Por qué? NO, YA QUE ESOS DATOS SON CATEGÓRICOS MÁS QUE CUANTITATIVAMENTE CONTINUOS. b) ¿Es apropiada una gráfica de barras para graficar esos datos? ¿Por qué? UNA EXCELENTE ELECCIÓN, YA QUE LOS DATOS NO TIENEN UN CONTINUO FUNDAMENTAL c) Construya una distribución de frecuencias agrupada para esos datos. (Utilice el método de conteo de Tukey.) d) Construya una columna de porcentajes para esos datos. e) Construya un hístograma de frecuencias para esos datos. f) Etiquete el eje vertical de la figura en el inciso e para indicar frecuencia y porcentajes.
  • 50. 50 g) ¿Habría probablemente brechas entre las columnas del histograma? ¿Por qué? SÍ, YA QUE ES CONGRUENTE CON LOS DATOS CATEGÓRICOS NO CLASIFICABLES
  • 51. 51 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y ESCALAS DE MEDICIÓN. RESUMEN DE CAPÍTULO Los números en un conjunto de datostienen diferentes propiedades dependiendo dela naturaleza de la variable que se mide y de la precisión involucrada en los procedimientos de evaluación. Los cuatro tipos básicos de escalas de medición o nivel de medición se describen como escalasnominal, ordinal, de intervalo y de proporción. Con escalas nominales, los números solo se usan como etiquetas de nombre, y no representan valores o cantidades. Con las escalas ordinales, los números pueden colocarse en orden por rango decantidad o grado. Con escalas de intervalo, los números representan unidades iguales a lo largo deun continuo, pero tienenun punto cero arbitrario. Una escala de proporciónes una escala de intervalo, pero también tiene un cero absoluto. La escala de medición representada por un conjunto de datos depende en parte dela naturaleza de la variable en cuestióny en parte dela calidad de los procedimientos de medición. Las mediciones de variables categóricascontinúan siendo escalas nominalessin importar cuán cuidadosamente sean evaluadas. Las medidas de variables continúas que teóricamente pueden medirse por escalas de intervalo o de proporciónpueden representar solo escalas ordinalessi se emplean procedimientos de medición ordinarios. Hay tres medidas comunes de tendencia central:la media, mediana y moda. La mediaes la medición más ampliamente usada de ―promedio‖tantoen la comunicación de información al público en generalcomoen la investigación empírica. De las tres la media de la muestraes la más precisa(es decir, tiene menos error de muestreo) y tiende a ser mejor para fines inferenciales, es decir, hacer inferencias sobre parámetros de población. El valor de todos los datosinfluye en el valor numérico de la media. En consecuencia, en distribuciones asimétricas, la media es ―halada‖ hacia la cola mas alargadamás que la mediana o la moda.
  • 52. 52 En distribuciones segadas positivamente, se espera que la media exceda ala mediana y a la moda; lo contrario es cierto paradistribuciones sesgadas negativamente. Para distribuciones continuas, la mediana es por lo generalel indicador más significativo de tendencia centralpara fines descriptivos. La medianaes el percentil 50 de una distribución ( ) y parte a un conjunto de valores en el punto medio. La medianaes también el punto en una distribución del cual la suma de las desviaciones absolutas de todos los valores esun mínimo. Si esas diferencias son cuadráticas, sin embargo,el total será menor que la media, no que la mediana. La media, por lo tanto, es la medida de tendencia central que satisface de modo sorprendente el importante criteriode mínimos cuadrados. La moda, a diferencia de la media y la mediana, puede usarse incluso con las escalas nominales. La modaes la observación que ocurre con más frecuencia, pero es menos confiable que la media o la mediana. En distribuciones simétricas unimodales, la moda, la mediana y la mediatienen el mismo valor. Característica MEDIA MEDIANA MODA Más confiable MEDIA Menos confiable MODA Requiere sólo de escalas nominales MODA Requiere sólo observaciones clasificadas MEDIANA Punto debajo del cual y arriba del cual cae la mitad de las observaciones MEDIANA “Centro de gravedad” de una distribución MEDIA Influye en ella el valor específico de cada observación MEDIA Será igual en una distribución simétrica MEDIA MEDIANA Será igual en una distribución normal MEDIA MEDIANA MODA Tendrá el valor más grande en una MEDIA
  • 53. 53 distribución sesgada positivamente Tendrá el valor más grande en una distribución sesgada negativamente MODA Su valor no es ni el más grande ni el más pequeño en distribuciones asimétricas MEDIANA Es en sí misma mejor que otras operaciones aritméticas MEDIA Es la más ampliamente utilizada en métodos estadísticos más avanzados MEDIA Puede estimarse gráficamente de las curvas de ojiva MEDIANA Puede estimarse más rápidamente en histogramas o polígonos de frecuencia MODA Mejor para variables continuas para fines descriptivos MEDIANA Es igual a y MEDIANA REPASO ACTIVO: EJERCICIO CLOZE. Tres medidas comúnmente usadas de TENDENCIA CENTRAL son la media, la moda y la MEDIANA Por lo general los valores se concentran alrededor del valor que ocurre con mayor frecuencia, la MODA. El punto medio que separa la distribución en dos partes de igual tamaño es la MEDIANA. La medida de tendencia central más segura, estable o confiable tiende a serla MEDIA. La MEDIA es sensible al valor de cada dato en la distribución; esto no ocurre en la MODA ola MEDIANA. Lasdistribuciones que son precisamente simétricas y tienen una cierta forma de campana matemáticamente especificada se llaman distribucionesNORMALES. En una distribución normal verdadera, la moda, la mediana y la media tienen el mismo VALOR. Todas las distribuciones normales son SIMÉTRICASpero algunas distribuciones simétricas no sonNORMALES. Una prueba puede ser tan difícil que hay muchos valores BAJOS y pocos extremadamente ALTOS. Tal distribuciónse describirá como sesgada POSITIVAMENTE.
  • 54. 54 En distribuciones asimétricas, la MEDIANA con frecuencia es la medida descriptiva preferida de tendencia central, pero para fines inferenciales la MEDIA tiene el menor error de muestreo. En unaPrueba muy fácil, la MEDIANA será mayor que la MEDIA, pero menor que la MODA. Si se encontrara que la media CI enun grupo fuera 110 y la mediana 100, la distribución probablemente estaría sesgadaPOSITIVAMENTE. Si un grupo tuvierauna media de 89.3 y una mediana de 90.1, el sesgo sería INSIGNIFICANTE. Si este grupo se combinara con un grupo talentoso, la forma de la distribución de los valores de CI compuestos probablemente sería BIMODAL. Si pudiera desarrollarse una prueba de modo que cada valor se obtuviera con igual frecuencia, la forma de la distribución sería SIMÉTRICA y RECTANGULAR y no sería MODA. PRUEBA DE DOMINIO. 1. Hay en general varias formas de medir la misma variable? SÍ. 2. ¿Las diferentes formas de medir una misma variable dan como resultado observaciones igualmente precisas? PROBABLEMENTE NO. 3. ¿Pueden las observaciones en una escala de intervalo o de proporción convertirse en una escala ordinal (rangos)? SÍ. 4. ¿Qué nivel de medición se requiere para cada una de las siguientes afirmaciones? а) X es 25% mayor que Y.PROPORCIÓN. b) X es mayor que Y. ORDINAL. c)Xno es la misma que Y.NOMINAL. d) X es 7 puntos menor que Y. INTERVALO. 5. Suponga que una variable se mide utilizando una escala de intervalo, una ordinal y una de proporción. Ordene las mediciones de menos a más deseable. ORDINAL, INTERVALO y PROPORCIÓN.
  • 55. 55 6. Si = 20, = 14 у = 8, ¿cuál es el valor? de: a) + = 20 + 8 = 28. b) = 20 + 14 + 8 = 42. 7. Cuando las personas se miden en una escala de intervalo, ¿las diferencias entre personas se miden en una escala de proporción? SÍ. 8. Si el aprovechamiento de los alumnos se mide por el número de libros de la biblioteca leídos, ¿representa esto una verdadera escala de proporción? PROBABLEMENTE NO, YA QUE LOS LIBROS VARÍAN EN TAMAÑO Y DIFICULTAD, LA MEDIDA CARECERÍA DE UNIDADES DE MEDICIÓN IGUALES. Las preguntas 9-12 se refieren al siguiente arreglo de observaciones: 0,0,0, 1, 1,2,4, 7, 11. 9. ¿Cuál es el valor numérico de la moda? 0. 10. ¿Cuál es el valor numérico de la mediana? 4. 11. ¿Cuál es el valor numérico? de: a) = 26. b) n = 9 c) la media = = 2.89 12. Describa la forma de la distribución. SESGADA POSITIVAMENTE. 13. En una distribución asimétrica negativa, a) ¿cuál medida de tendencia central tiende a tener el menor valor?MEDIA. b) ¿El mayor valor?MODA. 14. Cuál estadígrafo de la muestra ( , Md o Mo) se espera que difiera menos de su correspondiente parámetro de población? Esas diferencias se describen como ERRORES DE MUESTREO.
  • 56. 56 15. ¿Cuál medida de tendencia central es la más confiable? MEDIA. ¿Cuál es menos confiable?MODA. 16. ¿Cuál medida de tendencia central se preferirá con variables categóricas como grupo étnico o estado civil? MODA. 17. ¿Cuál es el término que menos concuerda con los otros? a) b) c) d) Mediana 18. ¿Cuál es la opción que menos concuerda con las otras? a) Moda b) Mediana c) El valor más popular d) El valor más frecuente 19. Si el salario medio de maestros de escuelas primarias y secundarias en Estados Unidos fuera $38, 000 y si el salario medio fuera de $34, 000, la distribución parecería ser a) Simétrica b) Bimodal c) Sesgada positivamente d) Sesgada negativamente 20. En una clínica de salud mental de un condado grande, un grupo de ocho consejeros centrados en pacientes ve un promedio de cinco pacientes por día, mientras doce terapeutas en modificación de la conducta ve un promedio de diez pacientes por día. ¿Cuál es el número medio de pacientes visto por los veinte terapeutas de la clínica? 8 CLIENTES POR DÍA.
  • 57. 57 21. Si la media y la mediana son iguales, no esperaríamos que la distribución fuera a) Normal b) Rectangular c) Bimodal d) Simétrica e) Asimétrica 22. En una distribución de valores para los que = 65.5, Md = 64 y Mo = 60, se encontró que se ha cometido un error en un valor. En lugar de 70, el valor debería haber sido 90. En consecuencia, ¿cuál de las medidas de tendencia central anteriores sería ciertamente incorrecta? a) Media b) Moda c) Mediana 23. Si hubiera 40 observaciones en la distribución de la pregunta 22, ¿cuál sería el valor correcto para la media? 66. 24. Si el salario medio para 100 empleados de mayor edad en un Hospital de Administración de Veteranos fuera $39, 000 y para 50 empleados jóvenes fuera de $30,000 encuentre el salario medio para todos los empleados combinados. $36, 000. 25. Si la mayoría de los estudiantes de su grupo de estadística han leído y estudiado este capítulo tan cuidadosamente que saben las respuestas a casi todas las preguntas de esta prueba de dominio, la distribución de calificaciones de la prueba probablemente sería a) normalmente distribuida b) sesgada negativamente c) sesgada positivamente 26. Si = 7, = 7, = 8.0 y = 12.0. a) = . =14. b) = .= 10.
  • 58. 58 27. DadaX: 6, 10,2,6. a) = 24 b) n = 4. c) =6. PROBLEMAS Y EJERCICIOS. Los ejercicios 1-10 están basados en los siguientes datos. En un grupo de sexto grado con 36 estudiantes, se administra una técnica sociométrica de "adivina quién" para evaluar el grado de relaciones positivas entre ellos para cada estudiante. Los valores para los 36 estudiantes fueron: 1. Cuál es el rango? Rango = - =52 – 0 = 52. 2. Construya una distribución de frecuencias no agrupada. 3. Construya una distribución de frecuencias agrupada, con w = 5.
  • 59. 59 4. Construya un histograma de esos datos y comente sobre la forma de la distribución. 5. Construya una ojiva. 6. Estime y . = 2 o 3. = 13.5. 7. Calcule la media. = 9.78. 8. Determine la mediana. 5 9. Determine la moda. 1
  • 60. 60 10. Compare la distancia de ( a con la distancia de a . - ES MAYOR QUE - . El patrón sugiere asimetría POSITIVA. 11. Para una década reciente, el incremento en el ingreso medio en el sur fue 74% para blancos y 113% para no blancos. ¿Cuál es el incremento medio para ambos grupos combinados si de cada 100 trabajadores 82 fueron blancos? = .=( )/( )= = = 81%. 12. Suponga que siete amigos viven junto a una autopista y quieren juntarse en la casa de uno de ellos para comer tacos y discutir las medidas de tendencia central y sus tipos favoritos de gráficas. Si sus casas a lo largo de la autopista están situadas de este a oeste en este orden: A, B, C, D, E, F y G, ¿dónde deberían reunirse para minimizar la suma de las distancias recorridas? Md EN EL PUNTO D. Sugerencia:¿de cuál punto se minimiza la suma de las desviaciones? LA SUMA DE LAS DESVIACIONES ABSOLUTAS ES UN MÍNIMO ALREDEDOR DE LA MEDIANA 13. Suponga que una distribución tiene una media de 70, una mediana de 65 y una moda de 55. ¿En qué dirección está sesgada la distribución?ESTA SESGADA A LA DERECHA, ES DECIR, POSITIVAMENTE. 14. Si aplica una prueba de CI a una clase en dos ocasiones separadas, como regla general, comente sobre las diferencias relativas entre las dos medias, las dos medianas y las dos modas. SE ESPERA QUE LAS MEDIAS DIFIERAN MENOS Y QUE LA MODAS DIFIERAN MÁS.
  • 61. 61 Las preguntas 15-16 corresponden a los datos presentados en la tabla 2.2. 15. Mo = 50 16. Md=51
  • 62. 62 CAPÍTULO 4. MEDIDAS DE VARIABILIDAD: ¿Cuán diferentes son las observaciones? RESUMEN DE CAPÍTULO Las medidas de variabilidadson necesarias para cuantificarel grado de dispersión en una distribución. La varianza, la desviación estándar y el rangoson medidas comunes de variabilidad. Si una distribución contiene todas las observaciones de la población, las medidas estadísticas son parámetros. La varianza y la desviación estándar para la población se simbolizan y , respectivamente. Si la distribución contiene sólo una muestra de observaciones de la población, las medidas estadísticas se llaman estadígrafos (o inferencias estadísticas). Las estimaciones de la varianza y de la desviación estándar de la muestra se simbolizan y , respectivamente. La diferencia entre un estadígrafo y el parámetro relevante esel error de muestreo. Las mediciones estadísticas se evalúan en términos deconfiabilidad, consistencia y no sesgo. Consistenciasignifica que el error de muestreo en una estadística disminuye a medida que n aumenta—todas las medidas estadísticas son consistentes. La confiabilidades el grado en el cual las estimaciones de la muestra de un parámetro tienden a tener menos error de muestreo. Las estadísticas más confiablestienen relativamente menos error de muestreopara competir con los índices estadísticos —la mediase prefiere a las otras medidas de tendencia central debido a quea la larga tiene menos error de muestreo para cualquier valor de n; es más confiable y eficiente. Las estadísticas no sesgadasson aquellas para las cuales el valor esperado del estadígrafo esigual al parámetro, haciendo caso omiso de n. La expresión, E( )= , establece quela varianza de una muestra es una estimación no sesgada de la varianza de población. La desviación estándar de la muestra, ,es ligeramente sesgada; tiende a subestimar el parámetro aunque el grado de sesgo sea insignificante, a menos que n sea muy pequeña. El rangopuede ser significativo como una estadística descriptiva,pero tiene un uso limitado en inferencia estadística debido a queestá extremadamente influido por n, entre mayor sea n. mayor es el rango.
  • 63. 63 PRUEBA DE DOMINIO. 1. Complete la analogía:ESTADÍGRAFO es a una muestra como el parámetro es aPOBLACIÓN. Responda las preguntas 2-10 con una de las siguientes medidas de variabilidad: a) RANGO b) DESVIACIÓN ESTÁNDAR c) VARIANZA Cuando se obtienen para una muestra aleatoria de observaciones: 2. ¿Cuál es completamente no sesgada?VARIANZA 3. ¿Cuál contiene el mayor sesgo?RANGO 4. ¿Cuál es menos confiable (estable)?RANGO 5. ¿En cuál influye considerablemente por el tamaño de la muestra?RANGO (Ver Tabla 4.1) 6. ¿Cuál contiene un sesgo que es insignificante si n es 20 o más?DESVIACIÓN ESTÁNDAR 7. ¿Cuál es más fácil de calcular?RANGO 8. ¿Cuál tiene el mismo valor esperado a pesar del tamaño de la muestra?VARIANZA 9. ¿Tienen todas la propiedad de consistencia?SÍ 10. ¿Cuál no está expresada en las mismas unidades que las observaciones originales?VARIANZA 11. ¿Si todos los valores son diferentes, el rango es siempre mayor que la varianza y la desviación estándar? RANGO > , PERO EL RANGO NO SIEMPRE > 12. ¿Para obtener la varianza de la muestra, la suma de cuadrados se dividirá entre el tamaño de la muestra, n, o entre los grados de libertad, = n - 1 ? ENTRE = (n – 1). 13. ¿Cuál símbolo representa el estimador de la varianza de la muestra? 14. ¿Cuál símbolo representa la desviación estándar de población? 15. ¿Cuál símbolo representa el tamaño de la muestra?n 16. ¿Cuál símbolo representa la media de la población? 17. ¿Si se encuentra que la varianza es 100, cuál es la desviación estándar? 10
  • 64. 64 18. Utilizando la tabla 4.1 y suponiendo que una muestra de 100 observaciones se obtiene aleatoriamente de una población con = 10, estime el rango. 5(10)=50 19. ¿En la pregunta 18, cuál tiene el mayor valor, el rango o la varianza? VARIANZA, 100 CONTRA 50. Cuál medida de tendencia central: 20. ¿Sería más apropiada para datos nominales? Mo = MODA 21. ¿Queda mejor con el término "valor medio"? Md = MEDIANA 22. ¿Sería sensible al valor numérico de cada dato? = MEDIA. 23. ¿Variaría menos de muestra a muestra? = MEDIA. ¿Se esperaría que fuera menor en una distribución sesgada negativamente? = MEDIA. Se aplicó la misma prueba de ortografía a una muestra aleatoria de estudiantes de tres escuelas diferentes y el resultado para cada escuela, cuando se gráfico, se aproximó a una curva con forma de campana. El resumen de resultados fue como sigue: Cuál escuela parecería: 24. ¿Ser más homogénea? A 25. ¿Tener más estudiantes con calificaciones arriba de 75? C 26. ¿Tener el mayor rango? C 27. ¿Tener la menor calificación promedio de ortografía? A 28. ¿Cuál de las X de las escuelas se acercará más a su correspondiente ? B
  • 65. 65 29. Encuentre para: a) Escuela A;25 b) Escuela B; 100 c) Escuela C.400 30. Reacomode la ecuación 4.6 y calcule: SC para la escuela A. Donde: ; 31. Si las tres escuelas se juntaran, encuentre la media mayor (ecuación 3.3). Donde: Por tanto:
  • 66. 66 PROBLEMAS Y EJERCICIOS. 1. Una muestra aleatoria de seis estudiantes destacados fue seleccionada y se les aplicó un examen de memoria. Los datos se listan abajo. Para esos datos, calcule: a) la mediana,Md = 5.5 b) la moda,Mo = 5 c) el rango,5 d) los grados de libertad, = 5 e) la media, = 6 f) la suma de cuadrados, SC = = 16 g) la varianza de la muestra = 3.2 h) la desviación estándar de la muestra. = 1.79 2. A una muestra aleatoria de 10 estudiantes de mecanografía de primer semestre se aplicó una prueba de mecanografía de 5 minutos al fin del semestre. La calificación WPM para cada uno se determinó, y los valores se presentan abajo. X: 22, 21, 29, 22, 27, 25, 25, 25, 30, 24 Para esos datos, encuentre: a) la mediana,Md = 25 b) la moda,Mo = 25 c) el rango,9 d) los grados de libertad, = 9 e) la media, = 25 f) la suma de cuadrados, SC = = 80
  • 67. 67 g) la varianza de la muestra = 8.89 h) la desviación estándar de la muestra. = 2.98 3. Para los siguientes datos. Calcule: a) = 5 b) SC = 32 c) =5.33 d) = 2.31 4. Para los siguientes datos. Calcule: a) = 4 b) SC = 26 c) =6.5 d) = 2.55 5. Para los siguientes datos. Calcule: a) = 4 b) SC = 36 c) =5.14 d) = 2.27
  • 68. 68 Ejercicios 6-9. Ocasionalmente, los estadígrafos resumidos como n, y están dados, pero el investigador necesita trabajar las fórmulas "de forma inversa " para determinar y SC. Para cada uno de los siguientes ejercicios, trabaje inversamente para encontrar y SC. 6. = 25. = 10, n = 11. =275; SC=1,000. 7. = 82.4, = 8, n= 10. =824; SC=576. 8. = 110.5, = 20, n=40. =4,420; SC=15,600. 9. = 28.4, = 3, n = 41. =1164.4; SC=360. La siguiente información se aplica a los problemas 10-15. A cada estudiante de un grupo de sexto año se le pidió una lista de sus mejores amigos (anónimamente). Los valores de una muestra representativa de 11 estudiantes se dan abajo. Los valores indican el número de veces que cada uno de los 11 estudiantes fue listado como "mejor amigo " por un compañero de grupo. 1, 0, 2, 1, 0, 0, 1, 0, 2, 4, 0 10. Calcule el rango = 4 - 0 =4 11. Calcule =X/n=11/11=1 12. Calcule la suma de cuadrados usando valores de desviación.SC = 16 13. Calcule SC utilizando una fórmula alterna: SC = =27-11(2)²=16 14. Calcule =1.6 y =1.2649 o 1.26 15. Si 10 puntos se agregan a cada valor, indique si el valor de cada uno de los siguientes cambiaría: a) ; SE INCREMENTARÍA EN 10 b) rango; NO CAMBIA c) ;NO CAMBIA
  • 69. 69 d) , NO CAMBIA 16. Con respecto al error de muestreo, cuál es la diferencia esencial entre parámetro y estadígrafo? LOS PARÁMETROS ESTÁN LIBRES DE ERROR, LOS ESTADÍSTICOS INFERENCIALES CONTIENEN ERRORES DE MUESTRA. 17. ¿Cuál es la diferencia esencial entre muestra y población? SE SELECCIONA UNA MUESTRA DE UNA POBLACIÓN MÁS GRANDE. UNA MUESTRA ES A LA POBLACIÓN COMO UNA PARTE ES AL ENTERO. 18. ¿Cuál es la diferencia esencial entre n y N? N y n SON EL NÚMERO DE OBSERVACIONES EN UNA POBLACIÓN Y EN UNA MUESTRA, RESPECTIVAMENTE. 19. Para los siguientes valores de clasificación de grado de un examen estandarizado de lectura. 6.8, 6.7, 6.5, 6.4, 6.4, 6.3, 6.1, 6.0 Encuentre: a) = 6.4 b) SC = 0.52 c) = 0.52/7=0.0743 d) = =.273 e) rango = 6.8-6.0=0.8 20. ¿Por qué los jugadores de basquetbol de preparatorias grandes tienden a ser más altos que los jugadores depreparatorias pequeñas? EL INTERVALO ES UNA FUNCIÓN DEL TAMAÑO DE LA MUESTRA. CON PROMEDIO, ENTONCES, LOS PEQUEÑOS COLEGIOS DE BACHILLERATO TENDRAN ESTUDIANTES MUY ALTOS CON MUCHO MENOS FRECUENCIA.
  • 70. 70 Los datos de prueba de los datos HSB fueron procesados mediante un programa de computadora y la salida se muestra abajo (N = 200). Variable Rango Calificación T en lectura 52.23 10.25 105.12 48.00 Calificación Ten escritura 52.78 9.48 89.84 36.00 Calificación T en matemáticas 52.64 9.37 87.77 42.00 Calificación Ten ciencias 51.85 9.90 98.03 48.00 Calificación T en civismo 52.40 10.74 115.26 45.00 21. Si una constante de 100 se suma a cada una de las calificaciones de lectura, ¿cuál sería, de la distribución revisada? a) la media, = 152.23 b) la desviación estándar, , NO CAMBIA c) la varianza, ,NO CAMBIA 22. Encuentre: la suma de valores ( ) para los datos de civismo.200(52.4)=10,480 23. El valor de desviación de Hassan para su calificación T en ciencias fue 6.65 a) ¿Cuál es su calificación en ciencias? 58.5 b) Estime su rango percentilar en la distribución de calificaciones de ciencias. HASAN ESTA CERNA A DOS TERCIOS DE UNA DESVIACIÓN ESTÁNDAR ARRIBA DE LA MEDIA. DE AQUÍ QUE HAYA ESPERADO ESTAR CERCANO A 75 PERCENTILES. 24. ¿Le gustan los números grandes? Utilizando la ecuación 4.6, trabaje de forma inversa para encontrar SC para los datos de lectura. SC=
  • 71. 71 25. Realmente el conjunto de datos del HSB es una muestra para un conjunto de datos mucho mayor en el que las cinco pruebas fueron transformadas de modo que la media de cada una fuera 50 y la varianza fuera 100. a) ¿En cuál de los cinco exámenes la media tiene el menor error de muestreo? CIENCIAS. b) Si compara los 5 rangos en el conjunto de datos del HSB con los rangos correspondientes en el conjunto completo de datos, ¿qué esperaría encontrar? SE ESPERARÍA QUE EL INTERVALO EN EL CONJUNTO DE DATOS HSB FUERAN DATOS MÁS PEQUEÑOS QUE EL CONJUNTO DE DATOS.
  • 72. 72 APÉNDICES. APÉNDICE C: Glosario de Símbolos. 1. Símbolos presentados en el capítulo 1, Introducción y visión general. HSB Conjunto de datos de preparatoria y superior, datos del caso de estudio del curso 2. Símbolos presentados en el capítulo 2, Distribuciones de frecuencias f Frecuencia de ocurrencia de un valor n Número de valores en una muestra N Número de valores en una población Punto percentil k-ésimo Cuartil 1, percentil 25 Cuartil 2, percentil 50 Cuartil 3, percentil 75 w Ancho del intervalo para una distribución de frecuencias agrupada X, Y, Z Variables representadas por letras mayúsculas itálicas Xi i-ésima observación o valor para la variableX Xmáx Valor más grande en un conjunto de datos Xmín Valor más pequeño en un conjunto de datos 3. Símbolos presentados en el capítulo 3, Tendencia central. , Medias de la muestra Media de la población Sumatoria de los valores de la variable X . Media principal para muestras combinadas Mo Moda para un conjunto de observaciones Md Mediana para un conjunto de observaciones
  • 73. 73 4. Símbolos presentados en el capítulo 4, Variabilidad x Valor de desviación, diferencia de la media Suma de cuadrados, suma de valores de desviación al cuadrado SC Suma de cuadrados, suma del valor de desviación al cuadrado Varianza de población Desviación estándar de población Varianza de la muestra Desviación estándar de la muestra
  • 74. 74 APÉNDICE E: Glosario de Fórmulas. 1. Fórmulas presentadas en el capítulo 2, Distribuciones de frecuencias: Rango= Xmáx - Xmín…………………………………..(2.1) Para determinar el ancho de intervalo para dar intervalos de clase: …………………………………………………..(2.2) 2. Fórmulas presentadas en el capítulo 3, Tendencia central. y ………………………………..…..(3.1 – 3.2) o ….....(3.3) 3. Fórmulas presentadas en el capítulo 4, Variabilidad ……………………………………………..…..(4.1) Suma de cuadrados = SC = ……....(4.2) ………..…..(4.3) ……………………………………….…...(4.4) Error de muestreo= Estadígrafo- Parámetro…….…....(4.5) …………………….…....(4.6) ……………………………………….…....(4.7) E(estadística no sesgada)=parámetro……..…….…....(4.8) …………………………………………..…....(4.9) Rango= Xmáx - Xmín………………………….….…..(4.10) ……………………………………..…….…..(4.11)
  • 75. 75 APÉNDICE E: Glosario de Términos. ABSCISA.Se refiere al eje horizontal o eje x de una gráfica CONSISTENCIA.Es la propiedad estadística de un estadígrafo que asegura que conforme aumenta eltamaño de la muestra el error de muestreo disminuye. CONSTANTE, en contraste con una variable, es uniforme para todas las unidades en la población. Por ejemplo, la ciudadanía del electorado de Estados Unidos es una constante ya que todos los votantes son ciudadanos de Estados Unidos CRITERIO DE MÍNIMOS CUADRADOS. Se define "mejor" como la estadística (o línea) que tiene el valor mínimo para la suma de valores (residuos) de desviación al cuadrado. CUALITATIVA o nominal, la medición ocurre cuando los numerales asignados se usan como etiquetas o nombres más que para una cuantificación. CUANTITATIVA,medición que asigna números a las observaciones reflejando la cantidad o grado que posee el atributo. CUARTIL.Es uno de los tres puntos ( , , ) que parten la distribución en cuatro segmentos iguales. es el punto que divide el cuarto inferior de la distribución de los tres cuartos superiores; , , . CURVA DE CAMPANA.Se refiere a una curva con forma de campana o normal. CURVA DE PORCENTAJE ACUMULADO, una ojiva formada al graficar los valores de porcentajes acumulados de los límites superiores de intervalos sucesivos de una distribución de frecuencias agrupada conectándolos con segmentos de línea. DATOS CATEGÓRICOS (O NOMINALES),comprenden variables en las que las observaciones notienen un rango u orden inherente o un continuo fundamental, por ejemplo, género, raza y trabajoson variables categóricas.
  • 76. 76 DESVIACIÓN DE CUARTIL o rango semiintercuartil, es la mitad de la diferencia entre y : . DESVIACIÓN ESTÁNDAR ( o ).Es una medida de variabilidad o de las diferencias individuales entre un conjunto de valores. En una distribución normal, cerca de dos tercios de los valores estarán dentro de una desviación estándar a partir de la media. DISTRIBUCIÓN DE FRECUENCIA AGRUPADA.Es un arreglo de intervalos de valores ordenadosque muestran la frecuencia de cada intervalo. DISTRIBUCIÓN DE FRECUENCIA.Es un arreglo de valores ordenados en el que la frecuencia decada valor se reporta o se muestra. DISTRIBUCIÓN NORMAL o curva normal.Es una distribución en forma de campana simétricaque forma la base de muchas estadísticas inferenciales. Una multitud de distribuciones atribuidas que ocurren de manera natural y varias distribuciones de muestras se aproximan a la curvanormal. DISTRIBUCIONES BIMODALES,tienen dos picos distintos, alrededor de los cuales las observaciones tienden a acumularse. EFICIENCIA de un estadígrafo, está relacionada con la magnitud relativa del error de muestreo esperado en una estadística. Por ejemplo, la misma media es más eficiente que la mediana de la muestra. ERROR DE MUESTREO.Es la diferencia entre una muestra estadística obtenida de la muestra y suparámetro de población correspondiente.
  • 77. 77 ESCALA DE PROPORCIÓN de medición, se calibra de un punto cero absoluto y los números sucesivos marcan cantidades iguales del atributo que se mide. ESCALA NOMINAL de medición, se usan números como etiquetas o nombres. Las variables categóricas representan escalas nominales. ESCALA ORDINAL,sus mediciones presuponen un continuo fundamental y proporcionan datos en la forma de rangos. Esto implica que un número mayor indica una cantidad o grado más grande del atributo medido que lo que indica un número más bajo, pero las diferencias entre rangos pueden no ser iguales. ESCALAS DE INTERVALO,tienen un punto cero arbitrario con unidades iguales. ESTADÍSTICA DESCRIPTIVA.Es la rama de la estadística que incluye resumir, organizar y mostrar los datos de una población. ESTADÍSTICA INFERENCIAL.Es aquella rama de la estadística que hace planteamientos acerca de los atributos de la población utilizando probabilidades basadas en muestras aleatorias. ESTADÍSTICAS (o estadísticas inferenciales).Son medidas basadas en datos de la muestra; se usan para estimar los parámetros correspondientes de la población. FRECUENCIA.Es el número de veces que un valor ocurre en una categoría o conjunto de datos. FRECUENCIA ACUMULADA de un punto.Se refiere al número de valores en o debajo de ese punto. GENERALIZACIÓN.Se refiere a si los resultados basados en los datos de la muestra pueden aplicarse a la población.
  • 78. 78 GRADOS DE LIBERTAD, , es una propiedad matemática de un conjunto de datos que está relacionada con el número de restricciones impuestas a los datos. GRÁFICA DE BARRAS.Se compone de barras cuyas longitudes indican la frecuencia o porcentaje para un valor o categoría. GRÁFICA DE DISPERSIÓN.Es un conjunto de puntos en un plano XY, cada uno de los cuales indica simultáneamente el desempeño de un sujeto tanto en la variable X u horizontal como en la variable Y o vertical. GRÁFICA DE PASTEL.Es una gráfica circular compuesta de cuñas o rebanadas, cuyos tamaños se determinan mediante la frecuencia relativa (o porcentaje) de cada segmento de la variable. GRÁFICAS DE CAJA Y PATILLAS (o gráficas de caja),muestran una caja con patillas en los extremos opuestos. La caja representa el 50% central de la distribución, una línea dentro de la caja designa la mediana, y las patillas representan la distancia de los puntos finales prescritos. HISTOGRAMAS,están compuestos de barras cuyas longitudes indican las frecuencias o porcentajes de los intervalos de los valores. HOMOGENEIDAD DE LA VARIANZA,prevalece cuando las varianzas de la población que se comparan no difieren. INTERVALOS DE CLASE.Se forman cuando se combina un rango específico de valores adyacentes. Esas frecuencias del intervalo de clase pueden usarse entonces para construir una distribución defrecuencias agrupada. MEDIA (o media aritmética).Es el promedio aritmético de un conjunto de valores. MEDIA CUADRADA.Es un estimado de la varianza.
  • 79. 79 MEDIA PRINCIPAL.Es la media de todas las observaciones en un conjunto de datos. MEDIANA.Es el punto medio de una distribución de los valores; precisamente la mitad de los valorescae arriba de la mediana; también se le llama percentil 50 o . MEDICIÓN.Es un proceso por el que se asignan números (o cuantificaciones) a las observaciones. MODA.Es el valor (o categoría) con la mayor frecuencia de ocurrencia. MU ( ) Es la media de la población. MUESTRA REPRESENTATIVA.Es aquélla cuyas características y atributos corresponden cercanamente con los de la población correspondiente. MUESTRAS.Son subconjuntos de poblaciones. OJIVA.Es una curva de porcentaje acumulado. ORDENADA.Es el eje vertical o y de una gráfica bidimensional. PARÁMETRO.Es una característica o atributo de la población. PERCENTIL.Es uno de los 99 puntos a lo largo de una distribución que se parte en centésimos. Por ejemplo, es un punto que separa el 28% inferior de la distribución del 72% superior. POBLACIÓN, todos los miembros, elementos, observaciones o valores que se ajustan a un criterio específico. POLÍGONO DE FRECUENCIA.Es una gráfica formada al conectar los puntos que representan lasfrecuencias o los intervalos de clase. PROBABILIDAD.Es la posibilidad de ocurrencia, expresada como proporción.
  • 80. 80 PROPORCIÓN.Es la razón de una parte al total. RANGO.Es la diferencia entre los valores menor y mayor en la distribución. RANGO INTERCUARTIL.Es la diferencia entre los cuartiles y ; incluye el 50% central de las observaciones. RANGO PERCENTILde un valor.Es el porcentaje de la distribución que está en o por debajo de ese valor. RANGO SEMI INTERCUARTIL (o desviación intercuartil).Es la mitad de la diferencia entre elpercentil 25 ( ) y el percentil 75 ( ): . RANGOS,se usan para ordenar un conjunto de observaciones de acuerdo con el criterio de "mayorque". SESGO,describe la falta de simetría en una distribución. Es una tendencia sistemática para una estadística inferencial (por ejemplo, ) a ser consistentemente más grande o más pequeña que el parámetro de población correspondiente (por ejemplo, ). SESGO NEGATIVO,describe distribuciones simétricas en las que la mediana excede a la media; la cola de la distribución es hacia los valores bajos. SESGO POSITIVO,describe distribuciones asimétricas en las que la media excede la mediana; los valores "se alargan" hacia los valores altos. SUMA DE CUADRADOS (SC).Es la suma de los valores de desviación al cuadrado, . TENDENCIA CENTRAL de una distribución, se refiere al valor medio, típico o promedio; la mediana, moda, y media son medidas de tendencia central. VALOR ABSOLUTO.Es la magnitud numérica de un número haciendo caso omiso de su signo algebraico (+ o -); por ejemplo, el valor absoluto de -3 es 3, simbolizado por .
  • 81. 81 VALOR DE DESVIACIÓN.Es el resultado cuando el valor medio se resta de un valor bruto, refleja la distancia de la media al valor bruto (es decir, ). VARIABILIDAD.Se refiere al grado de heterogeneidad en los datos. VARIABLES.Son características o atributos que dan las observaciones que difieren VARIANZA ( ) o media cuadrada (MC).Es el valor promedio de la desviación al cuadrado. La raízcuadrada de la varianza es la desviación estándar.
  • 82. 82 PERSONAJES DE ESTADÍSTICA. 1. W. H. Auden, aparentemente siente que los diez mandamientos bíblicos deberían extenderse a once cuando escribe: "No debéis sentaros entre los estadísticos, ni confiar en una ciencia social". 2. T. M. Porter comento en 1986: La estadística ha llegado a conocerse en el siglo XX como la herramienta matemática para analizar datos experimentales y basados en la observación. Conservada religiosamente por la política pública como la única base confiable para los juicios en torno a la eficacia de procedimientos médicos o a la seguridad de químicos, y adoptada por las empresas para usos como el control de calidad industrial, está evidentemente entre los productos de la ciencia cuya influencia sobre la vida pública y privada ha sido más penetrante. El análisis estadístico ha llegado a ser visto en muchas disciplinas científicas como indispensable para llegar a conclusiones confiables a partir de resultados empíricos... Desde la invención del Cálculo, si acaso, no se ha encontrado un nuevo campo de las matemáticas con tan amplio dominio de aplicación. 3. (Willson, 1980; Goodwin y Goodwin, 1985; Elmore y Woehlke, 1988); Aplicaron la estadística descriptiva e inferencial en la investigación del comportamiento 4. Tanur, Mosteller, Kruskal, Link, Pieters, Rising y Lehmann, 1978; Formaron parte del comite comité conjunto de la Asociación Estadounidense de Estadística y el Consejo Nacional de Maestros de Matemáticas que produjo un libro muy entretenido, Statistics: A Guide to the Unknown (Estadística: una guía hacia lo desconocido); que proporciona muchas aplicaciones interesantes de la estadística en los campos de la salud pública, ciencia política y gobierno, semántica, leyes, negocios, demografía, antropología, economía, sociología, geología, astronomía, genética, contabilidad, agricultura, negocios, comercios, psicología y educación.
  • 83. 83 5. Rock, Hilton, Pollack, Ekstrom y Goertz, 1985; Elaboraron los datos del studio real del libro. 6. Tukey (1977): - sugirió un método alternativo para contar las observaciones cuando n es grande. El método de Tukey cuenta los valores en prácticos grupos convenientes de diez: las primeras cuatro cuentas se denotan por puntos que forman las esquinas de un cuadrado; las siguientes cuatro cuentas son segmentos de línea que forman los lados del cuadrado; la novena cuenta y la décima se indican por líneas diagonales dentro del cuadrado. - En los años recientes, se ha llegado a usar ampliamente LOS GRÁFICOS DE PATILLAS, en gran medida como resultado de su influencia. - En la gráfica de cala, la caja se extiende de Q1, a Q3 (llamados "bisagras" por Tukey) y define el 50% central de la distribución. 7. Glass y Hopkins, 1996: - Sus criterios estadísticos para designar observaciones como externas se incluyen en el software que produce gráficos de caja. - Nos ayudaron a no confundirnos con los términos negativo o positivo con referencia a la asimetría en la DESCRPCIÓN DE DISTRIBUCIONES; los términos positivo o negativo no tienen nada que ver con un desempeño deseable o indeseable; se refieren más bien al signo algebraico (+ o -) del resultado cuando el grado de asimetría se cualifica utilizando un índice de asimetría 8. Tufte (1983); proporciona muchos ejemplos evidentes en su excelente libro para cómo hacer propaganda más que para iluminar con organización de las gráficas y los diagramas. 9. (Wainer, 1992), Manifiesta que la combinación de gráficas necesita ser cuidadosamente examinada.
  • 84. 84 10. Velleman y Wilkinson (1993), quienes afirman: ―Desafortunadamente, el uso de las categorías de Steven para seleccionar o recomendar métodos de análisis estadístico es inapropiado y puede ser erróneo. Tales categorías no describen los atributos de los datos reales que son esenciales para un buen análisis estadístico. Ni proporcionan un esquema de clasificación apropiado para los métodos modernos de análisis de datos.‖ 11. Heerman y Braskamp (1970, pp. 30-110). Borgatta y Bohrnstedt (1980), Townsend y Ashby (1984), Mitchell (1986), Luce, Krantz. Suppes y Tversky (1990), Autores de los principales artículos y estudios sobre Escalas de Medición y estadística.