SUMARIO:                  Tratamiento Estadístico                                de Datos                                 ...
ESTADÍSTICA                                                                                             G. Zurita         ...
ESTADÍSTICA                                                                                                      G. Zurita...
ESTADÍSTICA                                                                                         G. Zurita             ...
ESTADÍSTICA                                                                                                  G. Zurita    ...
ESTADÍSTICA                                                                              G. Zurita                        ...
ESTADÍSTICA                                                                                                G. Zurita      ...
ESTADÍSTICA                                                                                                   G. Zurita   ...
ESTADÍSTICA                                                                           G. Zurita                           ...
ESTADÍSTICA                                                                                                  G. Zurita    ...
ESTADÍSTICA                                                                                                         G. Zur...
ESTADÍSTICA                                                                                                               ...
ESTADÍSTICA                                                                                                      G. Zurita...
ESTADÍSTICA                                                                                                               ...
ESTADÍSTICA                                                                                                               ...
ESTADÍSTICA                                                                                                               ...
ESTADÍSTICA                                                                                               G. Zurita       ...
ESTADÍSTICA                                                                                            G. Zurita          ...
ESTADÍSTICA                                                                                                G. Zurita      ...
ESTADÍSTICA                                                                                   G. Zurita                   ...
ESTADÍSTICA                                                                            G. Zurita                          ...
ESTADÍSTICA                                                                                                      G. Zurita...
ESTADÍSTICA                                                                                              G. Zurita        ...
ESTADÍSTICA                                                                                        G. Zurita              ...
ESTADÍSTICA                                                                                                G. Zurita      ...
ESTADÍSTICA                                                                                               G. Zurita       ...
ESTADÍSTICA                                                                        G. Zurita                              ...
ESTADÍSTICA                                                                                        G. Zurita              ...
ESTADÍSTICA                                                                                                               ...
ESTADÍSTICA                                                                                                              G...
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Estadistica    tratamiento estadistico de datos
Upcoming SlideShare
Loading in...5
×

Estadistica tratamiento estadistico de datos

19,868

Published on

0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
19,868
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
360
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

Estadistica tratamiento estadistico de datos

  1. 1. SUMARIO: Tratamiento Estadístico de Datos 11.1.- Introducción1.2.- Datos e Información1.3.- Algo más Formal sobre Muestras 1.3.1.- Caracterización de Muestras 1.3.2.- Obtención de Información a partir de los Datos de una muestra 1.3.3.- Ordenamiento de Datos 1.3.4.- Tabulación de Datos1.4.- Tabulación de Datos 1.4.1.- Frecuencias absolutas y relativas 1.4.2.- Tablas de Frecuencias1.5.- Gráficos de Frecuencias1.6.- Cuantiles de una Muestra 1.6.1.- Definiciones y Determinación Gráfica 1.6.2.- Diagrama de Caja1.7.- Algoritmos para el Cálculo de Cuantiles1.8.- Medidas de Tendencia Central y Dispersión 1.8.1.- La Media Aritmética y Otras Medidas de Tendencia Central 1.8.2.- La Media y la Mediana de una misma Muestra 1.8.3.- La Media Cortada de una Muestra 1.8.4.- Medidas de Dispersión 1.8.5.- Media y Varianza de Datos Agrupados 1.8.6.- Media y Varianza de Funciones de X1.9.- Más sobre Dispersión 1.9.1.- Simplificación de Cálculos 1.9.2.- Cuantiles y Medidas de Dispersión 1.9.3.- Otros Diagramas y Representaciones Gráficas de una Muestra 1.9.4.- Valores Aberrantes detectados en Diagramas de Caja1.10.- Trabajo con dos o mas Variables 1.10.1.- Coeficiente de variación 1.10.2.- Gráficos Q-Q1.11.- Estadística Descriptiva Multivariada 1.11.1.- Vector de Medias y Matriz de Covarianzas 1.11.2.- Coeficiente de Correlación de Muestras1.12.- Observación de Procesos en el Tiempo 1.12.1.- Series Temporales y Filtros 1.12.2.- Patrones y Filtrado de Datos 1.12.3.- Causas de Variación de un Proceso1.13.- Datos Cualitativos 1.13.1.- Escalas de Medidas 1.13.2.- Escalas de ClasificaciónObjetivos del CapítuloQue el lector llegue a:1) Diferenciar entre dato e información.2) Diferenciar muestra y población objetivo.3) Ser capaz de agrupar los datos de una muestra y construir tablas de frecuencias relativas.4) Ser capaz de entender y determinar estadísticos de orden.5) Ser capaz de construir gráficos de frecuencia relativa como histogramas, ojivas, polígonos ydiagramas de cajas.6) Identificar en la ojiva qué son los cuartiles, deciles y percentiles de una muestra.7) Calcular cualquier cuantil muestral utilizando estadísticos de orden8) Entender los conceptos relacionados con tendencia central y dispersión muestral.9) Calcular medidas de correlación entre dos variables de una misma muestra.10) Identificar fenómenos representables por series temporales y filtrarlas de ser necesario.
  2. 2. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.1.- INTRODUCCIÓN Este capítulo es la presentación de lo que es la Estadística en sus más elemental expresión; todas las secciones, excepto una, el único requerimiento matemático que poseen es el que ostenta un bachiller recién graduado. Se comienza diferenciando información de dato y se instruye al lector acerca de cómo tratar muestras de datos cuantitativos, llevándolo a construir tablas, gráficos y diagramas, así como a calcular cuantiles, particularmente mediana, deciles, percentiles y los cuartiles primero y tercero. Se introduce como medidas de dispersión el rango muestral y el rango intercuartil. Destaca la ojiva entre los gráficos de frecuencia que se construyen. En una siguiente etapa se define y cuantifica la tendencia central de una muestra así como las mas usuales medidas de dispersión muestral; teniendo el capítulo una de sus secciones especialmente trabajadas en la que se hace referencia a la determinación de cuantiles, utilizando estadísticos de orden. La presencia de valores poco usuales o aberrantes es también tratada en este capítulo, se explica su incidencia en los valores que miden tendencia central y se hace uso del diagrama de caja para diagnosticar su presencia. Igualmente se discute ventajas y desventajas del agrupamiento de datos y como determinar indicadores a partir de esta situación. Se presentan también una introducción al tratamiento de datos ligados al tiempo, series temporales, creación de “filtros” para suavizar las series. También se introduce la noción de tratamiento simultáneo de varias características de una misma Población Objetivo, en una sección a la que se denomina ”Estadística Descriptiva Multivariada” y que es la única en la que se requiere conocimiento de operaciones con matrices, para construir matrices de datos y matrices de varianzas y covarianzas e una muestra. Existe una última sección en la que se presentan escalas de datos y se sugiere como tratar variables cualitativas.1.2 .- DATOS E INFORMACIÓN En Estadística tratamos en primer lugar con datos, esto es, conPoblación Objetivo una cantidad n de mediciones no procesadas, sean estasConjunto bien numéricas (cuantitativas) o categóricas (cualitativas), quedefinido de elementosque son objeto de llenan nuestro cuaderno de apuntes o reposan en un instrumentomedición de almacenamiento de datos, sea éste un disco duro, “flash memory”, o sencillamente un CD. Finalmente reposarán en una base de datos para su manejo o en una bodega de datos2
  3. 3. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones (warehouse) para su almacenamiento histórico y posteriorUnidades de tratamiento con Minería de Datos. Estas mediciones sonInvestigación efectuadas a elementos de algún conjunto bien definido, al queElementos de lapoblación objetivo llamaremos población objetivo. A los elementos de la población objetivo, los llamaremos unidades de investigación. Para efectos de este primer análisis vamos a suponer que las medidas efectuadas son cuantitativas. Supondremos además que el tamaño de la población objetivo esMuestra N y que de este conjunto seleccionamos un subconjunto de nSubconjunto de n unidades de investigación, sobre los cuales vamos a efectuarunidades de las mediciones de alguna de sus características. No mediremosinvestigación tomados entonces la característica investigada a todos los elementos de lade la población población objetivo sino a parte de ellos, esto significa que N > n. Sin discutir, por ahora, la manera que efectuamos la selecciónObservación de las n unidades de investigación, al total de los n valoresCada valor incluido medidos los llamaremos muestra. Cada valor incluido en laen la muestra muestra es una observación. Estamos seguros que el lector ha reparado en la sutil, pero importante, diferencia entre “observación” y “unidad de investigación”. Diremos entonces que hemos tomado una muestra de tamaño n de una “población” de tamaño N, o que tenemos una muestra constituida por n observaciones. Ejemplo 1.1 Sea una Población Objetivo que está conformada por seis unidades de investigación, N=6; supongamos que la medida de interés X toma valores, a, b, c, d, e, f. Indicar cómo seleccionar la muestras de tamaño n = 2 de esta población. Desarrollo. El conjunto de valores de donde podemos escoger una de las muestras requeridas es: { a, b, c, d, e, f } Si se necesita tomar una muestra de tamaño n = 2 ; son muchas las opciones que pueden seleccionarse, bien podría ser que la muestra elegida sea {a,b}; también puede ser {a,c} o cualquiera de las opciones como, {a,d}; {a,e}; {a,f}; {a,f}; {b,c}; y así sucesivamente, hasta considerar la opción {e,f}. ♦ Pensando en casos numéricos mas específicos, puede ser que de los N=12537 estudiantes matriculados en una universidad, a cien de ellos, n=100, les preguntemos cuál es el número de materias en las que se encuentran registrados al momento de la 3
  4. 4. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones entrevista, o que a esos mismos estudiantes les midamos su estatura en metros. En el caso de la primera pregunta, las respuestas conforman una muestra de tamaño cien que está constituida por números enteros, en tanto que las cien estaturas lo mas probable es que las representemos como números reales con al menos dos decimales de precisión. Nótese que “medir” en términos estadísticos puede significar que le hagamos una pregunta a quien investiguemos o que utilizando un instrumento cuantifiquemos alguna de sus características distintivas, o que le pidamos se pronuncie sobre un asunto en particular. Algo mas, los elementos de la Población Objetivo, o unidades de investigación, pueden ser también entes irracionales o inanimados, a quienes no es posible hacerles preguntas. Pensemos que la característica que nos interesa es el porcentaje de hierro contenido en las rocas que yacen en el lecho de un río, o que en una provincia del país, nos interesa la proporción de ganado vacuno infectado de fiebre aftosa. Para el primer caso, los datos serán obtenidos en un laboratorio, en el segundo, un veterinario dictaminará la presencia o no de ese mal.1.3.- ALGO MÁS FORMAL SOBRE MUESTRAS1.3.1.- Caracterización de muestras Si representamos por X a una característica de interés de cierta población objetivo, a una muestra de tamaño n tomada de esta población, la representaremos por, {X1, X2, ... , Xn} Es también válido representar esta muestra por un vector X en Rn de la siguiente forma: XT = (X1 X2... Xn) Donde XT representa al vector transpuesto de X. Se usa la transpuesta del vector X y no el vector X en sí, por razones de edición.4
  5. 5. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Ejemplo 1.2 A cinco estudiantes politécnicos se les pregunta en cuántos semestres, a partir del momento de la entrevista, estiman que van a graduarse; determine la muestra si lo que se obtiene como respuesta es: siete, cinco, ocho, cinco y cuatro semestres. Desarrollo. En este caso, n = 5 y además, X1 = 7; X2 = 5; X3 = 8; X4 = 5 y X5 = 4. La muestra igualmente puede ser escrita como: XT = (7 5 8 5 4) ♦ Nótese que hasta el momento, una muestra es solo un conjunto X de datos que no ha recibido procesamiento alguno.1.3.2.- Obtención de información a partir de los datos de una muestra Si bien el proceso de “toma de datos” es vital en Estadística, aInformación tal punto que ha merecido desarrollos teóricos importantes y lasConjunto de datos consecuentes técnicas a ser aplicadas, por el momento no nosprocesados que nos preocuparemos de aquello y supondremos simplemente quepermiten tomar contamos con los datos. Algo mas, los datos, como tales, no sondecisiones racionales mas que materia prima dispuesta a ser procesada, ellos por sí solo poco o nada pueden decirnos. Para que podamos tomar decisiones racionales, necesitamos procesarlos, esto es convertirlos en información. Si nos encontramos frente a una muestra de tamaño n, ¿Qué es lo que nosotros necesitamos hacer para que pase a ser material estadísticamente útil?, esto es, para que pase a ser información. Cuatro son las acciones que con el conocimiento que al momento suponemos maneja el lector, pueden tomarse, y estas son: i) Ordenar los datos; ii) Tabular los datos ordenados; iii) Graficar los datos ordenados utilizando el concepto de frecuencia relativa; y, iv) Calcular a partir de la muestra cantidades que representen “peculiaridades” siempre presente en las muestras que son relevantes para la toma de decisiones.1.3.3.- Ordenamiento de datos La primera acción, esto es ordenar los valores constitutivos de una muestra, es sencilla, aunque pudiera ser tediosa, cuando se 5
  6. 6. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones trabaja con muestras de tamaño relativamente grande y no disponemos de una máquina procesadora de datos. Para representar una muestra ordenada debemos definir que es lo que se entiende por un estadístico de orden. Dada una muestra X de tamaño n, al primer estadístico de orden lo denotamos por X(1) y lo definimos como el mínimo valor que constituye la muestra, esto es, X(1) = min{X1 , X2, ..., Xn} El estadístico de orden n se lo denota como X(n) y lo definimos como el máximo valor que constituye la muestra, esto es, X(n) = max{X1 , X2, ..., Xn} De forma similar definimos al estadístico de orden dos, tres, y así pasando por el i-ésimo orden, llegamos al de orden (n-1) y orden n, esto significa que: X(1) ≤ X(2) ≤ ... ≤ X(i) ≤ … ≤ X(n-1) ≤ X(n) Ejemplo 1.3 A partir del Ejemplo 1.2 determine los estadísticos de orden que correspondan. Desarrollo. En el mencionado ejemplo, consideramos una muestra de tamaño cinco en la que, X1 = 7; X2 = 5; X3 = 8; X4 = 5 y X5 = 4 Concordante con las definiciones previas, X(1) = min{ 7 ; 5 ; 8 ; 5 ; 4}= 4 X(n) = X(5) = max{7 ; 5 ; 8 ; 5 ; 4 }= 8 Considerando ahora la muestra ordenada, X (1) = 4; X (2) = 5; X (3) = 5; X (4) = 7; y X (5)= 8 ♦ Nótese que el número cinco, como valor observado, tiene doble calidad; es el estadístico de orden dos y de orden tres al mismo tiempo, ya que este valor se encuentra repetido en la muestra.6
  7. 7. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.3.4.- Tabulación de Datos Para tabular datos cuantitativos, y así facilitar la exploración estadística de los mismos, se requiere definir algunos términos y efectuar ciertos supuestos. Los términos que necesariamente deben definirse son: clase, marca de clase, frecuencia absoluta, frecuencia relativa, frecuencia acumulada absoluta, frecuencia acumulada relativa y tabla de frecuencias. Cualquier dato en una muestra es mayor o igual a su mínimo valor X(1), pero menor o igual a su máximo valor X(n); teniendo en cuenta esto, vamos a considerar un intervalo cerrado de números reales al que denominaremos A y cuyo extremo inferior lo denominaremos a1 y cuyo extremo superior es ak+1, tal cual se lo bosqueja en la Figura 1.1 Figura 1.1 Intervalo A de Números Reales que incluye todo los datos en la muestra • • • • a1 X(1) X(n) ak+1 A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1) Necesariamente a1 debe ser menor o igual que X(1) así como también que ak+1 debe ser mayor o igual que X(n). Particionamos ahora el intervalo A así definido, en k subintervalos semiabiertos y ordenados de tal manera que dichos subintervalos,Clase a) tengan igual longitud;Intervalos exhaustivosy mutuamente b) su unión sea igual al intervalo A; y,excluyentes en una c) la intersección entre cualquiera de estos subintervalos seamuestra vacía. Diremos que estos intervalos son exhaustivos y mutuamente excluyentes y a cada uno de ellos lo denominaremos clase. Hemos definido entonces k clases para una muestra de tamaño n. Obviamente k es mucho menor que n y dicho valor se lo escoge de acuerdo a las instrucciones que nos dé el profesor en clase, o de acuerdo a la experiencia de la persona que está haciendo el análisis de los datos. Quien no tiene experiencia, ni tiene cercano un profesor pero sí una computadora, verá resuelto su problema consultando o dejando funcionar libremente a paquetes computacionales especializados en Estadística, ya que 7
  8. 8. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones dichos paquetes, tales como MINITAB*, SPSS** o SYSTAT**, realizan automáticamente esta tarea, si así lo requerimos. Un valor sugerido de partida es k ≥ 7. Formalizando lo definido anteriormente se tiene que A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1) Además tenemos: a) Se ha definido, primera clase = [a1, a2) segunda clase = [a2, a3) . . . k-ésima clase = [ak , ak+1) Recuérdese que el intervalo semiabierto [ai , ai+1) = {x∈R ⏐ai ≤ x < ai+1} En tanto que: [ak-1, ak) = {x∈R ⏐ak-1 ≤ x < ak} Existiendo además el supuesto de que la longitud L de cada una de las clases es la misma, esto es, L = d(a1 , a2) = d(a2 , a3) = ... = d(ak , ak+1) Donde la expresión d(a , b) simboliza la “distancia” del número real a al número real b, que no es mas, en este caso, que el valor absoluto de la diferencia entre a y b. Esto es, d(4 , 5) =⏐4-5⏐= d(5 , 4) =⏐5-4⏐ = 1 ó d(-3 , 3) =⏐-3 - 3⏐ = 6. b) La unión de los k subintervalos es A; lo cual significa que: k [a1, a2)∪[a2 , a3)∪...∪[ak , ak+1) = A = U i=1 [ai , ai+1) c) La intersección de los k subintervalos es vacía, esto es, k [a1, a2) ∩ [a2 , a3)∩... ∩ [ak , ak+1) = ∅ = I [ai , ai+1) i=1Marca de Clase Al valor central de cada una de las clases, se lo obtiene sumandoValor central de cada sus extremos y dividiendo para dos, este valor central seuna de las clases denomina marca de clase, lo cual significa que: la primera marca de clase = (a1 + a2)/2; la segunda marca de clase = (a2 + a3)/2; .8
  9. 9. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones . . y, la k-ésima marca de clase = (ak + ak+1)/2.Ejemplo 1.4 Supongamos que se tiene una muestra de tamaño n = 50 datos y que el mínimo X(1) es igual a 42 y el máximo X(50) es 106. Se requiere determinar clases y marcas de clase para la muestra. Desarrollo. Se nos sugiere tomar k = 7, de tal manera que A= {x∈R ⏐40 ≤ x < 110} = [40, 110) Esto hace posible que: la primera clase = [40, 50); la segunda clase = [50 , 60); . . . y, la séptima clase = [ 100 , 110) Bajo estas condiciones, la primera marca de clase es (40+50)/2 =45; la segunda marca de clase es 55; la tercera es 65; y de esta manera hasta llegar a la séptima marca de clase que es 105. ♦Así construida la resolución del problema, la misma goza de lassiguientes características:El intervalo A contiene a todos los n = 50 valores queconforman la muestra ya que X(1) así como también X(50)pertenecen al intervalo A.Cada una de las siete marcas de clase está perfectamenteestablecida y tienen la misma longitud (diez unidades);El intervalo A es igual a la unión de las k = 7 clases (las clasesson exhaustivas); y,Ninguna clase comparte elementos con otra (las clases sonmutuamente excluyentes);Para tener una idea gráfica de lo contenido en este problema,imaginemos una figura como la que denomináramos Figura 1.1en líneas previas y ubique los valores a1 que es 40, a2 que es50; hasta llegar a a8 = 110. Recuérdese que k = 7, pero que 9
  10. 10. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones tenemos que llegar hasta ak+1 que en este caso es 110. A continuación la Figura 1.2 Figura 1.2 Intervalo A (unión de las siete clases) [ ) [ ) [ ) [ ) 40 50 60 70 80 90 100 110 [ ) [ ) [ ) a1 ak+1 A= {x∈R ⏐40 ≤ x < 110} = [40, 110)1.4.- TABULACIÓN DE DATOS1.4.1.- Frecuencias absolutas y relativas Para tabular datos con el propósito de hacer un análisis estadístico exploratorio de los mismos, aun necesitamos efectuar algunas definiciones que se relacionan con el tamaño de la muestra y el número de observaciones que la muestra tiene en cada una de las k clases que hayamos determinado. Supóngase que ya hemos ordenado los datos y que además se han determinado las k clases que creemos pertinentes; vamos a darle un tratamiento adicional a esta muestra ordenada. Recordemos que ordenada o no, la muestra tiene n observaciones y que por la forma que se definen las clases, sin ambigüedad podemos afirmar que todos los elementos de la muestra pertenecen a alguna de las k clases.Frecuencia Absoluta Denotaremos f1 al número de observaciones en la muestra, queNúmero de pertenecen a la primera clase, esto es al intervalo [a1, b1) y a f1 loobservaciones en la denominaremos frecuencia absoluta de la primera clase omuestra que simplemente primera frecuencia absoluta. En el mismopertenecen a cada una contexto f2, será la segunda frecuencia absoluta, y asíde las clases sucesivamente hasta llegar a fk, que es la k-ésima frecuencia absoluta o el número de observaciones que pertenecen a la muestra y que al mismo tiempo se ubican en la k-ésima clase. La suma de las frecuencias absolutas de una muestra es n, esto es, k f1 + f2 + ... + fk = n = ∑ f i i =1Frecuencia RelativaDivisión de la Recuérdese que fi es un número mayor o igual que cero y menorfrecuencia absoluta o igual que n. Pasamos a definir frecuencia relativa de unade cada una de las clase.clases para el tamaño La frecuencia relativa de la primera clase resulta de dividir f1n de la muestra para el tamaño n de la muestra; de manera similar la frecuencia10
  11. 11. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones relativa de la segunda clase se obtiene al dividir f2 para n. Y así pasando por la frecuencia relativa de la i-ésima clase, llegamos a la frecuencia relativa de la k-ésima clase que calculamos dividiendo fk para n. Toda frecuencia relativa es un número mayor o igual a cero pero menor o igual que uno, esto es, f 0≤ i ≤ 1; siendo, i = 1, 2,..., k. n F1, la frecuencia acumulada absoluta de la primera clase, se la define igual a f1; la de la segunda clase F2 = f1 + f2; y así sucesivamente la frecuencia acumulada de la k-ésima clase es: Fk = f1 + f2 + ... + fk-1 + fk Es claro que Fk es igual a n. Véase Figura 1.3 Con estos antecedentes es evidente como definir la frecuencia acumulada relativa de la i-ésima clase, esto es, la misma resulta de dividir Fi para n, siendo i = 1; 2;...; k. Fk Ocurre por tanto que n es igual a uno. Figura 1.3 Definición de Frecuencia Acumulada F1 = f 1 F2 = f 1 + f 2 F3 = f 1 + f 2 + f 3 F4 = f 1 + f 2 + f 3 + f 4 F5 = f 1 + f 2 + f 3 + f 4 + f 5 F6 = f 1 + f 2 + f 3 + f 4 + f 5 + f 6 F7 = f 1 + f 2 + f 3 + f 4 + f 5 + f 6 + f 7 * Para efectos visuales el valor de k es siete (k=7)1.4.2.- Tablas de frecuenciasTabla de Dada una muestra ordenada de tamaño n, una Tabla deFrecuencias frecuencias es un arreglo rectangular que tiene siete columnas yArreglo rectangular k filas, sin incluir la rotulación; la primera columna es para elque tiene siete “ordinal de la clase”, la segunda para definir la clase, luego lacolumnas y k filas, sinincluir la rotulación marca de clase, frecuencia absoluta, frecuencia relativa, frecuencia absoluta acumulada y la séptima columna para la frecuencia relativa acumulada. Véase la Figura 1.4 11
  12. 12. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.4 Tabla General de Frecuencias Frecuencia Frecuencia Marca de Frecuencia Frecuencia Ordinal Clase Absoluta Relativa Clase Absoluta Relativa Acumulada Acumulada 1 [a1,a2) (a1+a2)/2 f1 f1/n F1 F1/n 2 [a2,a3) (a2+a3)/2 f2 f2/n F2 F2/n 3 [a3,a4) (a3+a4)/2 f3 f3/n F3 F3/n . . . . . . . . . . . . . . . . . . . . . k [ak,ak+1) (ak+ak+1)/2 fk fk/n FK= n FK/n = 1 Téngase en cuenta que al multiplicar por cien cualquier tipo de frecuencia relativa se obtiene un porcentaje. Construida una Tabla de frecuencia, estamos en capacidad de efectuar algunas afirmaciones que no podríamos hacer si observáramos solamente al dato “puro” llegado desde el campo u obtenido en el laboratorio. Podríamos decir por ejemplo cuál es la proporción de observaciones que se encuentran en una clase, al utilizar la frecuencia relativa; cuál es el porcentaje de observaciones que pertenecen a una clase y a todas las previas, si utilizamos la frecuencia relativa acumulada multiplicada por cien; o, qué porcentaje de observaciones pertenecen a las clases siguientes a la i-ésima si utilizamos (1-Fi/n).100, etc., etc. Hemos ya dado un paso relevante en la exploración estadística de datos, los comenzamos a convertir en información. Recomendamos siempre utilizar los valores de las frecuencias relativas y no valores de las frecuencias absolutas; la razón de esta sugerencia será obvia cuando en capítulos subsiguientes hagamos inferencias estadísticas sustentadas en principios probabilísticos. Las frecuencias absolutas deben ser utilizadas como valores de paso, cuya utilidad es al final obtener valores relativos con los que se puedan efectuar generalizaciones. Ejemplo 1.5 Se tiene un conjunto de n = 50 datos que luego de ordenarlos, configuran la siguiente muestra: 2 3 3 4 5 6 6 7 9 10 10 12 13 14 14 15 15 15 16 16 17 17 18 18 18 19 19 19 21 21 23 24 24 25 25 25 25 27 28 28 29 29 31 32 33 35 35 36 39 39 Estos cincuenta datos representan el número de fallas cosméticas y estructurales detectados en los edificios de una12
  13. 13. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones comunidad urbana que va a ser regenerada por la municipalidad del cantón. Construir la correspondiente Tabla de Frecuencias. Desarrollo. Dado el resultado del ordenamiento notamos que X(1)= 2 y X(50)= 39. De igual manera optamos por construir k = 8 clases de longitud cinco unidades, siendo la primera definida por el 0+5 intervalo [0, 5), su marca de clase es = 2.5 ; su frecuencia 2 absoluta es cuatro y la frecuencia relativa de esta clase es 4 = 0.080 ; la frecuencia acumulada absoluta F1 es cuatro y la 50 frecuencia acumulada relativa es también 0.080 por ser la primera clase y por tanto no existe clase previa. Para la segunda clase , como puede verse en la Figura 1.5, la frecuencia absoluta f2 es cinco; la frecuencia relativa es 0.10 ; la frecuencia acumulada absoluta F2 es nueve y la marca de clase 7.5. Véanse detalles en la figura que se presenta a continuación. ♦ Figura 1.5 Tabla de Frecuencias Frecuencia Frecuencia Marca de Frecuencia Frecuencia Ordinal Clase Absoluta Relativa Clase Absoluta Relativa Acumulada Acumulada 1 [0,5) 2.5 4 0.080 4 0.080 2 [5,10) 7.5 5 0.100 9 0.180 3 [10,15) 12.5 6 0.120 15 0.300 4 [15,20) 17.5 13 0.260 28 0.560 5 [20,25) 22.5 5 0.100 33 0.660 6 [25,30) 27.5 9 0.180 42 0.840 7 [30,35) 32.5 3 0.060 45 0.900 8 [35,40) 37.5 5 0.100 50 1.0001.5.- GRÁFICOS DE FRECUENCIAS A partir de una tabla de frecuencias obtenida para una muestra X de tamaño n, XT = (X1 X2... Xn) es posible construir representaciones gráficos que revelan de manera sencilla, mucho de la información contenida en la misma. Entre estas representaciones están los histogramas de frecuencia, polígonos de frecuencia, ojivas y diagramas de caja, que pasamos a describir a continuación. 13
  14. 14. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Un histograma de frecuencia es un gráfico bidimensional deHistograma de “barras” en cuyo eje horizontal están señaladas las k clases queFrecuenciaGráfico bidimensional se han determinado para construir la Tabla de Frecuencia; en elde “barras” en cuyo eje vertical se representan las frecuencias relativas de cadaeje horizontal están clase. El gráfico contendrá k barras cuyo “ancho” coincide conseñaladas las k clases, la longitud de la clase y cuya “altura” es igual la frecuenciay en el eje vertical se relativa de la clase. El histograma de frecuencia, debe serrepresentan lasfrecuencias relativas graficado de tal manera que se respeten las escalas, nos presentade cada una de ellas una imagen visual acerca de la información relacionada con la proporción de observaciones en cada clase, las comparaciones e interrelaciones que con ellas pueden hacerse. Véase Figura 1.6 la misma que corresponde a los cincuenta datos presentados en el Ejemplo 1.5. Son ocho clases de longitud cinco, la primera de las cuales es [0,5) y la última (octava) es [35,40) Figura 1.6 Histograma de Frecuencia 0,300 0,250 0,200 Frecuencia Relativa 0,150Polígono de 0,100FrecuenciaGráfico derivado del 0,050histograma defrecuencia que utiliza 0,000 Xcomo vértices los [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40)puntos centrales Intervalos de Clasesuperiores de lasbarras del histogramay que para obtener la Un gráfico derivado del correspondiente histograma deintersección con el ejehorizontal crea frecuencia, es el Polígono de frecuencia, que resulta alartificialmente dos determinar un polígono, utilizando como vértices del mismo, losnuevas “clases”. puntos centrales superiores de las barras del histograma. Para obtener intersección entre el polígono y el eje horizontal se crean artificialmente dos nuevas “clases”, una antes de la primera, a la cual llamaremos “clase cero” y otra luego de la última, que pasa a ser la “clase (k+1)-ésima”. De esta manera, el primer vértice del polígono lo situamos en la marca de clase de la clase cero y el último vértice en la marca de clase de la clase (k+1)-ésima. Véase Figura 1.7 en que se construye un Polígono de Frecuencia con los datos del Ejemplo 1.5. El polígono de frecuencia en términos generales contiene información similar que la presentada por el histograma de frecuencias, sin embargo es recomendable construirlo si la característica que se investiga en la población objetivo, es continua.14
  15. 15. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.7 Polígono de Frecuencia 0,300 0,250 0,200 Frecuencia Relativa 0,150 0,100 0,050 0,000 X [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40) Intervalos de Clase Uno de los mas útiles gráficos en Estadística es la DistribuciónDistribución de de Frecuencia Acumulada o simplemente Ojiva. Este esquemaFrecuencia gráfico, representa en el eje horizontal la característicaAcumulada (Ojiva)Gráfico que cuantitativa X, que estamos investigando y ubica sobre elrepresenta en el eje mismo eje, las k clases en que hemos decidido organizar lahorizontal la muestra de tamaño n, o podríamos decir también la muestracaracterística constituida por n observaciones. En el eje vertical ubicamos lacuantitativa X que se frecuencia acumulada relativa.está investigando y enel eje vertical lafrecuencia acumulada Obviamente que los valores en el eje horizontal dependen de larelativa característica X que medimos; pueden ser dólares si en una “Encuesta de Hogares” investigamos los ingresos de n hogares que constituyen una comunidad; pueden ser centímetros si medimos la estatura de n estudiantes; gramos si lo que hacemos es pesar n camarones que hemos tomado de una piscina de acuicultura, o, resistencia a fuerzas cortantes de un material si en un laboratorio de Mecánica de Sólidos investigamos tal característica. En el eje vertical, no importa qué se investigue, allí se ubica la frecuencia acumulada relativa, esto significa que solo se utilizarán, en este eje, valores que comiencen en cero y terminan siempre en uno. Recordando que la muestra con la que tratamos ya ha sido ordenada y que además se supone ya tenemos determinadas las k clases que se necesitan; el gráfico de una Ojiva se construye determinando (k+1) puntos y luego conectándolos de manera sucesiva y con trazos continuos, de la siguiente manera: El primer punto tiene coordenadas (a1, 0) donde a1 es el extremo inferior de la primera clase, el segundo punto tiene coordenadas (a2, F1/n) siendo a2 el extremo inferior de la segunda clase; el tercer punto tiene coordenadas (a3, F2/n) y así sucesivamente hasta llegar al penúltimo punto que tiene como coordenadas (ak, 15
  16. 16. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Fk-1/n); siendo el último punto el que tiene coordenadas (ak+1, Fk/n). El gráfico de una ojiva es continuo; recuérdese además que Fk/n es igual a uno. Obsérvese la Figura 1.8 Figura 1.8 Distribución de Frecuencia Acumulada (Ojiva) 1 Frecuencia Acumulada Relativa 0,75 0,5 0,25 Q1 Q2 Q3 0 X 4 8 12 16 20 24 28 32 La Ojiva es utilizada con profusión para comparar situaciones en las que bajo distintas circunstancias o a distintos entes se mide una misma característica; por ejemplo, el ingreso mensual en dos distintas comunidades de los jefes de hogares o las notas en dos distintas materias que obtiene un mismo grupo de estudiantes. Obsérvese en la Figura 1.9, las ojivas A y B. Si ellas representaran los ingresos en dólares de dos comunidades, ¿En cuál de las dos quisiera usted vivir?. Si se tratara de las notas obtenidas por un mismo grupo humano en dos cursos diferentes que han tomado en una universidad ¿Cuál curso presenta mayor grado de dificultad para aprobarlo?. Figura 1.9 Ingresos en dólares de Dos Comunidades (A y B) 1 A B Frecuencia Acumulada Relativa 0,75 0,5 0,25 Q1 Q2 Q3 Q1 Q2 Q3 0 X 4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 6816
  17. 17. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.6.- CUANTILES DE UNA MUESTRA1.6.1.- Definiciones y determinación gráficaPrimer Cuartil (Q1) La Ojiva es además un excelente instrumento para ilustrarValor de X tal que definiciones de orden cuantitativo que se efectúan cuando senos mas delveinticinco por ciento exploran estadísticamente los datos de una muestra ordenada,de las observaciones para obtener la información en ella contenida.en la muestra tomanvalores menores o Como definición diremos que el Primer Cuartil o Cuartiliguales que Q1 Inferior de una muestra en la que se investiga una característica continua X, es un valor Q1 de X, tal que no mas del veinticinco por ciento de las observaciones en la muestra ordenada toman valores menores o iguales que Q1.Segundo Cuartil(Q2)Valor de X tal que En tanto que el Segundo Cuartil o Cuartil Central de unanos mas del cincuenta muestra se denota por Q2 y se lo define como el valor de X talpor ciento de las que, no mas del cincuenta por ciento de los valores en laobservaciones en la muestra son menores o iguales que Q2.muestra son menoreso iguales que Q2 Al Tercer Cuartil o Cuartil Superior de una muestra se lo denota Q3 y se lo define en términos del setenta y cinco por ciento de los elementos en la muestra tomando valores menoresTercer Cuartil (Q3) o iguales que Q3, o equivalentemente el veinticinco por cientoValor de X tal que el de los valores en la muestra son mayores que Q3.setenta y cinco porciento de loselementos en la A los tres cuartiles definidos se los puede representar en unamuestra toman ojiva muy claramente como se bosqueja en la Figura 1.8valores menores oiguales que Q3 Se tiene en esta figura una ojiva y en el eje vertical marcados los valores 0.25; 0,50 y 0.75. Para ubicar, sobre el eje horizontal, el valor del primer cuartil Q1, se traza un segmento de recta horizontal que contenga al punto A de coordenadas (0, 0.25) y que sirve además para determinar el punto A´ en el que la ojiva y la recta tiene su intersección; incluyendo A´ se traza un segmento de recta perpendicular al eje horizontal; en la intersección del segmento con este eje se encuentra el valor Q1, que es el Primer Cuartil. Nótese que el Primer Cuartil Q1 no es un punto sobre el plano sino una coordenada sobre el eje horizontal, esto es, Q1 es un valor numérico. Utilizando el mismo procedimiento constructivo, se determinan gráficamente Q2 y Q3 esto es, los cuartiles segundo y tercero ya definidos. Al segundo cuartil de la muestra se lo denomina también Mediana Muestral y en secciones venideras abundaremos sobre este valor y la forma de calcularlo. 17
  18. 18. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Así como se definieron tres cuartiles, es posible definir nueve Deciles y noventa y nueve Percentiles de la muestra. Los deciles muestrales se los denota D1, D2, D3, hasta D9; pudiendo decirse que cuando mas el diez por ciento de los elementos en la muestra toman valores menores o iguales al Primer Decil D1; el veinte por ciento de los elementos en la muestra toman valores menores o iguales a D2; y así hasta llegar al Noveno Decil, D9, cuando el noventa por ciento de las observaciones que conforman la muestra toman valores menores o iguales que D9. Se encarga al lector determinar el significado de los percentiles muestrales P1, P2, ..., P99; indicando que el uno por ciento de los elementos en la muestra toman valores menores o iguales que P1, el Primer Percentil de la muestra, y que el noventa y nueve por ciento son menores o iguales que P99 el Nonagésimo Noveno Percentil de la muestra. De igual manera se exhorta al lector a ubicarlos en el eje horizontal de una ojiva. Es procedente decir que Q1 = P25, que Q2 = D5 = P50 o que Q3 = P75. De igual manera puede complementarse lo hasta aquí expresado sobre estos cuantiles, esto es percentiles, deciles y cuartiles, que cuando mas, el setenta y cinco por ciento de las observaciones en la muestra toman valores mayores a Q1; que el cincuenta por ciento de las observaciones “centrales” de la muestra se encuentra entre Q1 y Q3; que el noventa por ciento de los valores observados está entre P5 y P95, o que el sesenta por ciento de las observaciones se encuentran entre D2 y D8. Insistimos, los cuantiles de una muestra no son puntos en el plano, son valores numéricos; además los cuantiles no tienen que necesariamente ser valores que pertenezcan a la muestra. Téngase en cuenta que la ojiva es una función creciente en X, en realidad monótona creciente, y por tanto cuando se la utiliza para estimar cuantiles, éstos quedan determinados unívocamente.1.6.2.- Diagrama de caja Un subproducto de la ojiva una vez que se han determinado los cuartiles muestrales, es el denominado Diagrama de Caja, esquema gráfico que nos permite obtener de manera rápida, aunque no necesariamente exacta, la distribución de los datos que conforman la muestra. Véase la Figura 1.1018
  19. 19. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.10Diagrama de CajaEsquema gráfico que Diagrama de Cajanos permite obtener Q1 Q2 Q3de manera rápida, • • • • Xaunque nonecesariamenteprecisa, la 1 X(1) X(n)distribución de losdatos que conformanmuestra 0.00 10.00 20.00 30.00 40.00 Si bien este diagrama comúnmente se lo “adosa” a una ojiva, es posible presentarlo aislado, tal cual se lo hace en la Figura 1.10, siempre que se tengan los valores correspondientes a Q1 , Q2 y Q3, así como los valores máximo y mínimo en la muestra, esto es X(n) y X(1). En la Figura 1.10 se presenta un Diagrama de Caja; como puede verse está constituido por un rectángulo (caja) y dos segmentos de recta (bigotes). La longitud de la caja es Q3 – Q1; el bigote del lado izquierdo del lector se inicia en el valor mínimo X(1) y termina en Q1, mientras que el bigote del lado derecho comienza en Q3 y termina en X(n). El segmento de recta punteado, al interior de la caja, determina el valor de la Mediana o Segundo cuartil Q2. En la presencia de Valores Extremos o Valores Aberrantes, se debe reconceptualizar la construcción del Diagrama de Caja, y en particular la longitud de los bigotes. Sobre este tema volveremos en próximas secciones.1.7.- ALGORITMOS PARA EL CÁLCULO DE CUANTILES Dada una muestra XT= (X1 X2... Xn) de tamaño n, el valor mínimo X(1) (o cualquier estadístico de orden i) puede ser también visto como un cuantil, puesto que la proporción p =1/n de los datos observados son menores o iguales a X(1). Recuérdese que de igual manera podemos decir que el (1/n)100 por ciento de los elementos de la muestra son menores o iguales a X(1) . Puede ocurrir eso sí, que el valor (1/n)100 =100/n no sea un número entero y nos enfrentaríamos a un cuantil de tipo aun no definido, particular que trataremos de superar en esta sección. Consideremos dos estadísticos de orden que sean consecutivos, llamémoslos X(i) y X(i+1); i = 1,2,…,n-1 si definimos el 19
  20. 20. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones promedio X(i) y X(i+1) , esto será denotado como X(i.5) y explícitamente: X(i.5) = ( X(i)+ X(i+1))/2 = X(i) +( X(i+1)- X(i))/2 ; = X(i) + 0.50( X(i+1) - X(i)) ; i = 1,2,…,n-1 De manera similar podemos definir: X(i.2 ) = X(i) + 0.20( X(i+1) - X(i)); i = 1,2,…,n-1. X(i.4) = X(i) + 0.40( X(i+1) - X(i)); i = 1,2,…,n-1. ; ó, X(i.95) = X(i) + 0.95( X(i+1) - X(i)); i = 1,2,…,n-1. Podríamos, en general, definir X(i.a), de la siguiente manera: X(i.a) = X(i) + 0.a( X(i+1) - X(i)); i = 1,2,…,n-1 , a real positivo. No intentamos darles nombres específicos a estos estadísticos de orden, pero su significado es aparentemente obvio. Ejemplo 1.6 Supongamos que una muestra de tamaño n=5 es XT = (2 3 8 7 4). Aquí la muestra nos permite determinar que, X(1) = 2; X(2) = 3; X(3 )= 4; X(4) = 7, y que X(5) = 8. El estadístico de orden m es X(m) = X(n+1)/2, donde definimos m como igual a (n + 1)/2; en este caso m es (5+1)/2=3; por tanto X(m) es X(3) =4 , que en este caso (n es un número impar) es el segundo Cuartil Muestral Q(2) o también conocido como Mediana de la Muestra. Alteremos un poco la muestra previamente analizada y supongamos que ella ahora es XT = (2 3 8 5 7 9) y nuevamente intentemos calcular X(m). Tenemos en la nueva muestra X(1 )= 2; X(2) = 3; X(3) = 5; X(4) = 7, X(5 )= 8 y X(6) = 9. Siendo ahora n=6, m ya no es un número entero sino que es igual a 3.5. Para calcular Q2 debemos determinar por tanto X(3.5) , que es el valor que le corresponde a Q(2) Procedamos, primero de la manera tradicional y luego aplicando la definición de X(i.a) : Q2 = (X(4)+ X(3))/2 = 0.5( 7+5)=6. De igual manera20
  21. 21. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Q(2) = X(3.5) = X(3) + 0.5( X(4) - X(3)) = 5 + 0.5( 7-5) = 6 ♦En el caso de la primera muestra su mediana es 3 y a su vez esválido decir que la mediana muestral es un valor que pertenecea la muestra, en el segundo caso la mediana es 6 y este valor, nopertenece a la muestra. En el primer caso el tamaño n de lamuestra es impar y en el segundo es par.Así como hemos calculado el segundo cuartil de la muestra,puede calcularse el primero Q1 o el tercero Q3 haciendo m =0.25(n+1) ó m = 0.75(n+1) respectivamente, sin importar si eltamaño es par o impar.Siguiendo este patrón se puede determinar los percentilesmuestrales que definiéramos previamente y que pasamos ailustrar a continuación.Se aconseja nunca perder el sentido de la realidad.Ejemplo 1.7 En un laboratorio de Química Analítica se determina el número de partes por millón de un metal pesado que se encuentra disuelto en las aguas de un río del litoral ecuatoriano. Luego de efectuar veinte observaciones se obtiene una muestra que es la siguiente. XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Para esta muestra determinar el primer Decil, el Primer Cuartil, Tercer Cuartil, la mediana y el percentil noventa y cinco (nonagésimo quinto). Desarrollo. Muestra ordenada 2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12 Sea m = 0.1(n+1) = 0.1(21) = 2.1 D(1) = X(2,1) = X(2) + 0.1(X(3) - X(2)) = 3 + 0.1(3 - 3) = 3 Sea m = 0.25(n+1) = 0.25(21) = 5.25 Q(1) = X(5,25) = X(5) + 0.25(X(6) - X(5)) = 4 + 0.25(4 - 4) = 4 Sea m = 0.75(n+1) = 0.75(21) = 15.75 21
  22. 22. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Q(3) = X(15,75) = X(15) + 0.75(X(16) - X(15)) = 9 + 0.75(9 - 9) = 9 Sea m = 0.5(n+1) = 0.5(21) = 10.5 Mediana = Q(2) Q(2) = X(10,5) = X(10) + 0.5(X(11) - X(10)) = 6 + 0.5(7 - 6) = 6.5 Sea m = 0.95(n+1) = 0.95(21) = 19.95 P(95) = X(19,95) = X(19) + 0.95(X(20) - X(19)) = 11 + 0.95(12 - 11) = 11.95 ♦1.8.- MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN1.8.1.- La media aritmética y otras medidas de Tendencia Central Las tablas de frecuencias y los gráficos y diagramas que hasta ahora hemos construido, nos han dado una representación visual de lo que es la información contenida en una muestra y los cuantiles alguna información cuantitativa de la misma, sin embargo, aun no hemos puesto suficiente énfasis en el análisis cuantitativo de la información contenida en los n datos muestrales. Comencemos por buscar un valor numérico que pudiera sintetizar o representar todos los datos, estamos hablando de la Tendencia Central o de la Medida de Posición de los mismos. El primero y mas utilizado por su facilidad para calcularlo yMedia Aritmética “por la noción intuitiva ” del mismo es lo que se denominaPromedio de los ndatos contenidos en la Media Aritmética de la Muestra, se lo denota x y se lomuestra define como el promedio de los n datos contenidos en la misma, esto es: n x = (X1 + X2 + ... +Xn)/n = ∑X / n i =1 iMediana (Q2)Valor de X tal quecuando mas el También es una medida de posición o tendencia central elcincuenta por ciento Segundo Cuartil Q2 o Mediana Muestral, que ya hemosde las observacionesen la muestra toman presentado, de manera informal cuando construíamos la Ojivaun valor menor o Muestral; y, de manera formal cuando presentamos la forma deigual a él calcular percentiles utilizando estadísticos de orden.22
  23. 23. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Dijimos que Q2 es también el percentil cincuenta y por tanto, cuando mas el cincuenta por ciento de las observaciones toman un valor menor o igual a él. También dijimos que Q2 es el estadístico de orden m, siendo m=(n + 1)/2, donde como siempre en el contexto de esta capítulo, n es el tamaño de la muestra en consideración. Esto significa que Q2 = X([n + 1]/2) Hay quienes hacen análisis exploratorio de datos y prefieren definir la mediana muestral, considerando si el tamaño de la muestra es par o impar, en cuyo caso señalan que la mediana Q2 es el promedio de los estadísticos de orden X(n/2) y X([n/2]+1) si n es par; y, que es igual a X([n +1]/2) si n es impar. Nótese que las definiciones son equivalentes, cuando hemos definido estadísticos de “orden racional positivo” como X(i.5) y no solo de orden entero positivo como X(i). Sobra decir que estamos hablando de una muestra ordenada, caso contrario no estaríamos en capacidad de determinar estadísticos de orden. Otra medida de tendencia central con alta frecuencia utilizada es la Media Ponderada de la Muestra, la denotaremos por Mw.Media PonderadaSumatoria de cada Cuando calculamos la media aritmética, cada observación Xiobservación Xi tiene igual “peso” o ponderación, en el procedimiento que semultiplicada por su utiliza para determinarla; lo contrario ocurre para determinarpeso o ponderación esta nueva medida de posición que pretendemos introducir, paracorrespondiente wi calcularla, cada observación tiene un peso wi, condicionado a que la suma de los n pesos sumen uno. Definimos de esta manera a la Media Ponderada Mw de la muestra de la siguiente manera: n Mw = w1X1 + w2X2 + … + wnXn. = ∑ w X ; i=1,2,…,n; i =1 i i n ∑w i =1 i =1 Los casos de utilización de esta medida de posición son abundantes, los vive por ejemplo, un estudiante cuando al iniciar el semestre su profesor le indica como va a ser calculada su nota, sobre cien puntos, del curso que toma. Si le dice que obtendrá cinco por ciento por tareas realizadas fuera de clase, veinticinco por ciento por lecciones rendidas en clase y el resto por un examen; esto significa que su nota es una media ponderada de tres notas sobre cien , donde w1=.05; w2 =.25 ; y, w3=.70 . En tanto que X1 es la nota que sobre cien obtenga por “tareas”; X2 es lo que obtendría, sobre cien, por lecciones; y, X3 es su nota del examen, también sobre cien. 23
  24. 24. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Por tanto su nota ponderada, Mw es: Mw = w1X1 + w2X2 +w3X3 Nótese que en principio, la media aritmética es una media ponderada, solo que los ponderadores toman el mismo valor, esto es: 1 w1 = w2 = ... = wn = n1.8.2.- La media y la mediana de una misma muestra Es evidente que si se toman datos en una investigación es para que sean aprovechados lo mas posible; como medida de tendencia central la media aritmética utiliza cada una de las observaciones en la muestra, en tanto que la mediana utiliza cuando mas dos de ellas, claro está que de una muestra ordenada. Puede por tanto decirse que para la determinación de la media aritmética se utilizan todos los datos contenidos en la muestra, sea esta ordenada o no, en tanto que para calcular la mediana, no se lo hace; esto permite a muchos pensar que debe preferirse siempre la media aritmética a la mediana, pero no es tanto así, puesto que en presencia de valores extremos o aberrantes, el efecto de éstos sobre la mediana es imperceptible en tanto que el valor de la media aritmética se ve afectado de manera notoria, pudiendo en el último caso, no ser la media aritmética muestral una buena medida de lo que es la verdadera tendencia central que se trata de determinar. Recuérdese que los valores aberrantes ocurren por múltiples razones, unas indeseables y otras inevitables. Entre los indeseables aparecen los errores de lecturas que se dan en el operativo de campo o en el laboratorio durante investigación, donde, por ejemplo, se apunta una estatura de 2.45 metros para una unidad de investigación, cuando se debió apuntar 1.45; o, en la digitación, donde en el reporte de campo aparece 1.45, pero al digitar se lo ingresa como 2.45. Estos errores no estadísticos o “ajenos al muestreo” se los debe detectar en una de las etapas de una encuesta o experimento, que se denomina “Crítica de Datos” la misma que se efectúa antes y después de la digitación. Antes, para tener la oportunidad de volver al laboratorio y verificar cualquier valor que se salga del patrón que muestren los datos; y, después de la digitación porque no siempre “el dedo humano” ingresa lo que corresponde o porque el lector óptico puede, por mala caligrafía o efectos ambientales, interpretar una cantidad por otra.24
  25. 25. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.8.3.- La Media Cortada de una muestraMedia Cortada de la Un remedio que se ha sugerido para obviar la sensibilidad de laMuestra Media Aritmética a los datos aberrantes y al mismo tiempoMedia aritmética del poder utilizar la mayor cantidad de datos contenidos en la(1-α)100% por ciento muestra, es la construcción de otra medida de tendencia centralde los datos a la que se denomina Media Cortada de la Muestra; se la denota por Tα y se la define como la media aritmética del (1- α).100 por ciento de los datos, suprimiendo, en una muestra α α ordenada, 2 100% de datos de la “parte superior” y 2 100% de la “parte inferior” en la muestra. Este “recorte” supone que los valores extremos, si existen, no serán considerados en el cálculo de Tα. Aunque con una muestra restringida, se aspira que la Media Cortada disfrute simultáneamente de las “virtudes” de la Media Aritmética y la Mediana, esto es, utilización máxima de los datos disponibles e insensibilidad a valores extremos. Lo usual es tomar α = 0.10 es decir, se calcula T.10. Ejemplo 1.8 En el Ejemplo 1.7 se consideró la siguiente muestra, XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Calcular la media aritmética, la mediana y la media cortada T.10. Desarrollo. 20 x = (X1 + X2 + ... +X20)/20 = ∑ X / 20 i =1 i = (7+12+10+3+4+7+3+9+6+9+2+4+6+4+4+9+7+4+7+11)/20 =6.40 Ordenando la muestra, ésta queda compuesta por: 2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12 Esto es: X(1 )= 2; X(2 )= 3; X(3) = 3;…; X(19) = 11; X(20) = 12; Para calculara la media cortada X.10, debemos prescindir, en la muestra original, de X(1) = 2 y de X(20) = 12, por lo que el noventa por ciento restante de la muestra X es el vector, YT= (3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11) 25
  26. 26. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Resultando así que X.10 es: X.10 = (3+3+4+4+4+4+4+6+6+7+7+7+7+9+9+9+10+11)/18 = 6.3333 Calculando la mediana Q(2) = X(10.5) = X10 + 0.5(X(11) – X(10)) = 5.5. En síntesis, la media aritmética de la muestra es 6.40; la media cortada X.10 es 6.33 y la mediana muestral es 5.5, de tal manera, la moda de la muestra, que es el valor que mas se repite es 4, pues aparece cinco veces en la muestra. ♦ En capítulos posteriores hablaremos de cómo evitamos, determinando Tα , una posible “contaminación” de la muestra y que el valor de Tα que lo que obtenemos es un “estimador robusto” del “verdadero” parámetro µ que mide la tendencia central de la población.1.8.4.- Medidas de Dispersión Tener la medida de lo que es la tendencia central es importante, pero no basta; no podemos sorprendernos que dos muestras que posean conformación numérica distinta tengan la misma media aritmética pero represente, estadísticamente, muy diferentes realidades. Veamos las cuatro siguientes muestras: X1T = (1 2 3); X2T = (-5 2 9); X3T = (-10 -3 0 2 3 20); X4T = (0 2 4) Ellas poseen algo en común, las cuatro tienen la misma media aritmética, que es dos, pero difieren en su conformación numérica; nótese que incluso la tercera tiene un tamaño, seis, que es distinto al que tienen las demás, que es tres. El mensaje aquí parecería ser: una medida de tendencia central es relevante pero, no lo dice todo; en realidad falta algo mas. Vamos a observar la distancia desde cada uno de los valores Xi en la muestra a la media aritmética x , esto es, d(Xi , x) =⎟ Xi - x ⎟ Recordando que en todos los casos del ejemplo bajo análisis las muestras tienen media aritmética igual 2, tenemos para la primera muestra: d(1,2) = 1 ; d(2,2) = 0 y d(3,2) = 1. Para la segunda muestra d(-5,2) = 7 ; d(2,2) = 0 y d(9,2) = 7. Para la tercera muestra d(-10,2) = 12 ; d(-3,2) = 5 ; d(0,2) = 2; d(2,2) =0 ; d(3,2) =1 y d(20,2) = 18.26
  27. 27. ESTADÍSTICA G. Zurita Fundamentos y AplicacionesPara la cuarta muestra d(0,2) = 2 ; d(2,2) = 0 y d(4,2) = 2.Si sumásemos las distancias de la media aritmética a cadaobservación obtendríamos una medida de cuan “lejos” odispersos se encuentran cada uno de los datos muestrales conrespecto a la media.Para el primer caso tal suma de distancias es 2; para el segundo14; para el tercero 38, y para el último 4. Véase Figura 1.11 queilustra de manera gráfica lo que de manera numérica hemosdeterminado.Figura 1.11Cuatro Rectas representando cuatro Muestras señalando lasDistancias X1 0 1 2 3 X2 -5 0 2 9 X3 -3 0 2 3 20 X4 0 2 4Puede creerse que el número de observaciones en la terceramuestra obligó a que la suma de las distancias sea mayor, peroaunque es necesario reconocer que el número de observacionespuede influir en la medida de la dispersión de una muestra,piénsese en una muestra en la que todas las observacionestomen el mismo valor, sin importar el tamaño de la muestra,siempre la suma de las distancias que hemos definido será cero.Nótese que esta suma de distancias bajo ninguna circunstanciapuede ser negativa, pues se trata de sumas de distancias“euclideanas” que como tal están definidas en términos devalores absolutos de números reales.Con esta idea de dispersión con respecto a la media aritméticaque hemos desarrollado en líneas previas, trataremos deconstruir de una manera explícita, una o varias medidas paracuantificar esta característica implícita en toda muestra.En primer lugar la dispersión es un valor relacionado o relativoa otro valor, pero este último no tiene necesariamente que serla media aritmética, puede ser algún otro pero tiene sus ventajasque sea la media o al menos un valor que mida la tendenciacentral de la muestra. 27
  28. 28. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Ejemplo 1.9 Dada una muestra XT = (X1 X2 … Xn), determinar la media y la varianza de una muestra y que consiste de las n observaciones cuantitativas de la muestra X a las que se les resta su media aritmética. Desarrollo. Para el caso dado, YT = [ (X1 - x ) (X2 - x ) … (Xn - x ) ] = (Y1 Y2 … Yn) Por lo que, n ∑ Y / n = ∑ (X i − x ) / n n y= i i =1 i =1 = 1 [ (X1 - x ) + (X2 - x ) + … + (Xn - x ) n = 1 [ (X1 + X2 + … + Xn) - n x ) n = 1 [nx -nx]=0 n Por lo tanto, si Yi = Xi - x , i = 1, 2, …, n, entonces: y =0 Como ilustración numérica, Si XT = (1 2 3 4), entonces x =2.5 Si Yi = Xi - x , esto es YT = (-1.5 -0.5 0.5 1.5) Por lo que Y = 0 ♦ Lo primero que se nos ocurriría para medir la dispersión sería n una expresión del tipo ∑ (X − x ) i =1 i , pero existe un inconveniente; no importa cuál sea la muestra, como ya hemos visto, siempre es cierto que, n ∑ ( X − x ) = (X - x ) i =1 i 1 + (X2 - x ) + ... + (Xn- x ) = ΣXi - n x = n x - n x = 0 Por lo tanto éste es un resultado muy relevante, sobre todo para simplificar cálculos, pero no lo es para medir dispersión.28
  29. 29. ESTADÍSTICA G. Zurita Fundamentos y AplicacionesVarianza Muestral Ésta es la razón fundamental por la que para estos fines se usanMedida de Dispersión nde una variable X conrespecto a la media sumas cuadráticas del tipo ∑ (X − x) 2; y, la primera medida de i =1 i dispersión con respecto a la media que utilizaremos será la Varianza Muestral s2 que se la define como: n s2 = ∑ (X − x ) i =1 i 2 /( n –1) Este valor no puede ser negativo y será cero cuando y solo cuando, todas las observaciones adopten el mismo valor, lo cual significa que la media es igual a tal valor y cada una de las diferencias que constituyen la suma cuadrática son cero. La medida de dispersión así definida no viene dada en las mismas unidades que los valores observados, sino en unidades cuadráticas, es decir, que si medimos cantidad de precipitaciónDesviación EstándarRaíz cuadrada pluvial en centímetros cúbicos, la varianza estará enpositiva de la varianza centímetros cúbicos al cuadrado. Por esta razón es común utilizar la raíz cuadrada positiva de la varianza; medida a la que llamamos desviación estándar o desviación típica de la muestra. Se la denota por s y se la define como ya indicáramos, igual a la raíz cuadrada positiva de la varianza, (X i − x ) 2 s= + n −1 Una pregunta que surge inmediatamente después que se repara en cómo está definida la varianza muestral, es la presencia en el denominador de (n-1) cuando nuestra intuición nos dice que mas naturalmente “se ve” n, como es el caso de la Media Aritmética. Una respuesta parcial es “podríamos haberlo utilizado” y de hecho se lo utiliza, pero la respuesta con soporte teórico vendrá en capítulos posteriores, cuando estudiemos “estimación de parámetros poblacionales”, mientras tanto utilizaremos axiomáticamente (n-1) en el denominador de la definición de la varianza muestral. Ejemplo 1.10 Considérese la muestra previamente estudiada, XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Calcúlese su varianza y desviación típica. Desarrollo. 29
  30. 30. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Siendo n = 20 hemos encontrado que x = 6.40 por lo tanto: n s2 = ∑ (X − x ) i =1 i 2 /( n –1) s2 = [(2 - 6.40)2 + (3 - 6.40)2 + … + (11 - 6.40)2 + (12 - 6.40)2]/19 s2 = 8.36 De donde la desviación típica de la muestra es: (Xi − x ) 2 s= + n −1 s = + 8.36 = 2.89 ♦1.8.5.- Media y Varianza de datos agrupados No siempre es obvio para quien comienza a adentrarse en el quehacer estadístico, cómo calcular la Media Aritmética o la Varianza de datos agrupados; aunque en realidad explicando la lógica tras del algoritmo todo parece sencillo. Recordemos que la agrupación de datos se da en k clases y que cada clase tiene una marca de clase. Llamemos Yi a la i-ésima marca de clase y supongamos que fi es la frecuencia absoluta de esa clase. Esto hace que la Media Aritmética X de los datos agrupados sea igual a: k x = ∑ i =1 fi Yi / n En tanto que la varianza de los datos agrupados es igual a: k s2 = ∑ i =1 fi (Yi - x )2 / (n –1) Nótese que las sumatorias tienen k términos y no n. Ejemplo 1.11 Durante cinco horas se efectúa un conteo de vehículos en una calle que corre de norte a sur en Guayaquil. Se reportan datos cada cinco minutos. En la primera columna de la tabla adjunta consta la frecuencia con que ocurren valores en cada una de las clases que se definen en la segunda columna. Cinco veces “pasaron” entre cinco y quince vehículos; ocho veces entre quince y veinticinco, y así hasta que cinco veces pasaron entre 2 sesenta y cinco y setenta y cinco vehículos. Calcular x y s .30

×