Estadistica    tratamiento estadistico de datos
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Estadistica tratamiento estadistico de datos

on

  • 18,484 views

 

Statistics

Views

Total Views
18,484
Views on SlideShare
18,483
Embed Views
1

Actions

Likes
3
Downloads
304
Comments
0

1 Embed 1

https://twitter.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Estadistica tratamiento estadistico de datos Document Transcript

  • 1. SUMARIO: Tratamiento Estadístico de Datos 11.1.- Introducción1.2.- Datos e Información1.3.- Algo más Formal sobre Muestras 1.3.1.- Caracterización de Muestras 1.3.2.- Obtención de Información a partir de los Datos de una muestra 1.3.3.- Ordenamiento de Datos 1.3.4.- Tabulación de Datos1.4.- Tabulación de Datos 1.4.1.- Frecuencias absolutas y relativas 1.4.2.- Tablas de Frecuencias1.5.- Gráficos de Frecuencias1.6.- Cuantiles de una Muestra 1.6.1.- Definiciones y Determinación Gráfica 1.6.2.- Diagrama de Caja1.7.- Algoritmos para el Cálculo de Cuantiles1.8.- Medidas de Tendencia Central y Dispersión 1.8.1.- La Media Aritmética y Otras Medidas de Tendencia Central 1.8.2.- La Media y la Mediana de una misma Muestra 1.8.3.- La Media Cortada de una Muestra 1.8.4.- Medidas de Dispersión 1.8.5.- Media y Varianza de Datos Agrupados 1.8.6.- Media y Varianza de Funciones de X1.9.- Más sobre Dispersión 1.9.1.- Simplificación de Cálculos 1.9.2.- Cuantiles y Medidas de Dispersión 1.9.3.- Otros Diagramas y Representaciones Gráficas de una Muestra 1.9.4.- Valores Aberrantes detectados en Diagramas de Caja1.10.- Trabajo con dos o mas Variables 1.10.1.- Coeficiente de variación 1.10.2.- Gráficos Q-Q1.11.- Estadística Descriptiva Multivariada 1.11.1.- Vector de Medias y Matriz de Covarianzas 1.11.2.- Coeficiente de Correlación de Muestras1.12.- Observación de Procesos en el Tiempo 1.12.1.- Series Temporales y Filtros 1.12.2.- Patrones y Filtrado de Datos 1.12.3.- Causas de Variación de un Proceso1.13.- Datos Cualitativos 1.13.1.- Escalas de Medidas 1.13.2.- Escalas de ClasificaciónObjetivos del CapítuloQue el lector llegue a:1) Diferenciar entre dato e información.2) Diferenciar muestra y población objetivo.3) Ser capaz de agrupar los datos de una muestra y construir tablas de frecuencias relativas.4) Ser capaz de entender y determinar estadísticos de orden.5) Ser capaz de construir gráficos de frecuencia relativa como histogramas, ojivas, polígonos ydiagramas de cajas.6) Identificar en la ojiva qué son los cuartiles, deciles y percentiles de una muestra.7) Calcular cualquier cuantil muestral utilizando estadísticos de orden8) Entender los conceptos relacionados con tendencia central y dispersión muestral.9) Calcular medidas de correlación entre dos variables de una misma muestra.10) Identificar fenómenos representables por series temporales y filtrarlas de ser necesario.
  • 2. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.1.- INTRODUCCIÓN Este capítulo es la presentación de lo que es la Estadística en sus más elemental expresión; todas las secciones, excepto una, el único requerimiento matemático que poseen es el que ostenta un bachiller recién graduado. Se comienza diferenciando información de dato y se instruye al lector acerca de cómo tratar muestras de datos cuantitativos, llevándolo a construir tablas, gráficos y diagramas, así como a calcular cuantiles, particularmente mediana, deciles, percentiles y los cuartiles primero y tercero. Se introduce como medidas de dispersión el rango muestral y el rango intercuartil. Destaca la ojiva entre los gráficos de frecuencia que se construyen. En una siguiente etapa se define y cuantifica la tendencia central de una muestra así como las mas usuales medidas de dispersión muestral; teniendo el capítulo una de sus secciones especialmente trabajadas en la que se hace referencia a la determinación de cuantiles, utilizando estadísticos de orden. La presencia de valores poco usuales o aberrantes es también tratada en este capítulo, se explica su incidencia en los valores que miden tendencia central y se hace uso del diagrama de caja para diagnosticar su presencia. Igualmente se discute ventajas y desventajas del agrupamiento de datos y como determinar indicadores a partir de esta situación. Se presentan también una introducción al tratamiento de datos ligados al tiempo, series temporales, creación de “filtros” para suavizar las series. También se introduce la noción de tratamiento simultáneo de varias características de una misma Población Objetivo, en una sección a la que se denomina ”Estadística Descriptiva Multivariada” y que es la única en la que se requiere conocimiento de operaciones con matrices, para construir matrices de datos y matrices de varianzas y covarianzas e una muestra. Existe una última sección en la que se presentan escalas de datos y se sugiere como tratar variables cualitativas.1.2 .- DATOS E INFORMACIÓN En Estadística tratamos en primer lugar con datos, esto es, conPoblación Objetivo una cantidad n de mediciones no procesadas, sean estasConjunto bien numéricas (cuantitativas) o categóricas (cualitativas), quedefinido de elementosque son objeto de llenan nuestro cuaderno de apuntes o reposan en un instrumentomedición de almacenamiento de datos, sea éste un disco duro, “flash memory”, o sencillamente un CD. Finalmente reposarán en una base de datos para su manejo o en una bodega de datos2
  • 3. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones (warehouse) para su almacenamiento histórico y posteriorUnidades de tratamiento con Minería de Datos. Estas mediciones sonInvestigación efectuadas a elementos de algún conjunto bien definido, al queElementos de lapoblación objetivo llamaremos población objetivo. A los elementos de la población objetivo, los llamaremos unidades de investigación. Para efectos de este primer análisis vamos a suponer que las medidas efectuadas son cuantitativas. Supondremos además que el tamaño de la población objetivo esMuestra N y que de este conjunto seleccionamos un subconjunto de nSubconjunto de n unidades de investigación, sobre los cuales vamos a efectuarunidades de las mediciones de alguna de sus características. No mediremosinvestigación tomados entonces la característica investigada a todos los elementos de lade la población población objetivo sino a parte de ellos, esto significa que N > n. Sin discutir, por ahora, la manera que efectuamos la selecciónObservación de las n unidades de investigación, al total de los n valoresCada valor incluido medidos los llamaremos muestra. Cada valor incluido en laen la muestra muestra es una observación. Estamos seguros que el lector ha reparado en la sutil, pero importante, diferencia entre “observación” y “unidad de investigación”. Diremos entonces que hemos tomado una muestra de tamaño n de una “población” de tamaño N, o que tenemos una muestra constituida por n observaciones. Ejemplo 1.1 Sea una Población Objetivo que está conformada por seis unidades de investigación, N=6; supongamos que la medida de interés X toma valores, a, b, c, d, e, f. Indicar cómo seleccionar la muestras de tamaño n = 2 de esta población. Desarrollo. El conjunto de valores de donde podemos escoger una de las muestras requeridas es: { a, b, c, d, e, f } Si se necesita tomar una muestra de tamaño n = 2 ; son muchas las opciones que pueden seleccionarse, bien podría ser que la muestra elegida sea {a,b}; también puede ser {a,c} o cualquiera de las opciones como, {a,d}; {a,e}; {a,f}; {a,f}; {b,c}; y así sucesivamente, hasta considerar la opción {e,f}. ♦ Pensando en casos numéricos mas específicos, puede ser que de los N=12537 estudiantes matriculados en una universidad, a cien de ellos, n=100, les preguntemos cuál es el número de materias en las que se encuentran registrados al momento de la 3
  • 4. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones entrevista, o que a esos mismos estudiantes les midamos su estatura en metros. En el caso de la primera pregunta, las respuestas conforman una muestra de tamaño cien que está constituida por números enteros, en tanto que las cien estaturas lo mas probable es que las representemos como números reales con al menos dos decimales de precisión. Nótese que “medir” en términos estadísticos puede significar que le hagamos una pregunta a quien investiguemos o que utilizando un instrumento cuantifiquemos alguna de sus características distintivas, o que le pidamos se pronuncie sobre un asunto en particular. Algo mas, los elementos de la Población Objetivo, o unidades de investigación, pueden ser también entes irracionales o inanimados, a quienes no es posible hacerles preguntas. Pensemos que la característica que nos interesa es el porcentaje de hierro contenido en las rocas que yacen en el lecho de un río, o que en una provincia del país, nos interesa la proporción de ganado vacuno infectado de fiebre aftosa. Para el primer caso, los datos serán obtenidos en un laboratorio, en el segundo, un veterinario dictaminará la presencia o no de ese mal.1.3.- ALGO MÁS FORMAL SOBRE MUESTRAS1.3.1.- Caracterización de muestras Si representamos por X a una característica de interés de cierta población objetivo, a una muestra de tamaño n tomada de esta población, la representaremos por, {X1, X2, ... , Xn} Es también válido representar esta muestra por un vector X en Rn de la siguiente forma: XT = (X1 X2... Xn) Donde XT representa al vector transpuesto de X. Se usa la transpuesta del vector X y no el vector X en sí, por razones de edición.4
  • 5. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Ejemplo 1.2 A cinco estudiantes politécnicos se les pregunta en cuántos semestres, a partir del momento de la entrevista, estiman que van a graduarse; determine la muestra si lo que se obtiene como respuesta es: siete, cinco, ocho, cinco y cuatro semestres. Desarrollo. En este caso, n = 5 y además, X1 = 7; X2 = 5; X3 = 8; X4 = 5 y X5 = 4. La muestra igualmente puede ser escrita como: XT = (7 5 8 5 4) ♦ Nótese que hasta el momento, una muestra es solo un conjunto X de datos que no ha recibido procesamiento alguno.1.3.2.- Obtención de información a partir de los datos de una muestra Si bien el proceso de “toma de datos” es vital en Estadística, aInformación tal punto que ha merecido desarrollos teóricos importantes y lasConjunto de datos consecuentes técnicas a ser aplicadas, por el momento no nosprocesados que nos preocuparemos de aquello y supondremos simplemente quepermiten tomar contamos con los datos. Algo mas, los datos, como tales, no sondecisiones racionales mas que materia prima dispuesta a ser procesada, ellos por sí solo poco o nada pueden decirnos. Para que podamos tomar decisiones racionales, necesitamos procesarlos, esto es convertirlos en información. Si nos encontramos frente a una muestra de tamaño n, ¿Qué es lo que nosotros necesitamos hacer para que pase a ser material estadísticamente útil?, esto es, para que pase a ser información. Cuatro son las acciones que con el conocimiento que al momento suponemos maneja el lector, pueden tomarse, y estas son: i) Ordenar los datos; ii) Tabular los datos ordenados; iii) Graficar los datos ordenados utilizando el concepto de frecuencia relativa; y, iv) Calcular a partir de la muestra cantidades que representen “peculiaridades” siempre presente en las muestras que son relevantes para la toma de decisiones.1.3.3.- Ordenamiento de datos La primera acción, esto es ordenar los valores constitutivos de una muestra, es sencilla, aunque pudiera ser tediosa, cuando se 5
  • 6. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones trabaja con muestras de tamaño relativamente grande y no disponemos de una máquina procesadora de datos. Para representar una muestra ordenada debemos definir que es lo que se entiende por un estadístico de orden. Dada una muestra X de tamaño n, al primer estadístico de orden lo denotamos por X(1) y lo definimos como el mínimo valor que constituye la muestra, esto es, X(1) = min{X1 , X2, ..., Xn} El estadístico de orden n se lo denota como X(n) y lo definimos como el máximo valor que constituye la muestra, esto es, X(n) = max{X1 , X2, ..., Xn} De forma similar definimos al estadístico de orden dos, tres, y así pasando por el i-ésimo orden, llegamos al de orden (n-1) y orden n, esto significa que: X(1) ≤ X(2) ≤ ... ≤ X(i) ≤ … ≤ X(n-1) ≤ X(n) Ejemplo 1.3 A partir del Ejemplo 1.2 determine los estadísticos de orden que correspondan. Desarrollo. En el mencionado ejemplo, consideramos una muestra de tamaño cinco en la que, X1 = 7; X2 = 5; X3 = 8; X4 = 5 y X5 = 4 Concordante con las definiciones previas, X(1) = min{ 7 ; 5 ; 8 ; 5 ; 4}= 4 X(n) = X(5) = max{7 ; 5 ; 8 ; 5 ; 4 }= 8 Considerando ahora la muestra ordenada, X (1) = 4; X (2) = 5; X (3) = 5; X (4) = 7; y X (5)= 8 ♦ Nótese que el número cinco, como valor observado, tiene doble calidad; es el estadístico de orden dos y de orden tres al mismo tiempo, ya que este valor se encuentra repetido en la muestra.6
  • 7. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.3.4.- Tabulación de Datos Para tabular datos cuantitativos, y así facilitar la exploración estadística de los mismos, se requiere definir algunos términos y efectuar ciertos supuestos. Los términos que necesariamente deben definirse son: clase, marca de clase, frecuencia absoluta, frecuencia relativa, frecuencia acumulada absoluta, frecuencia acumulada relativa y tabla de frecuencias. Cualquier dato en una muestra es mayor o igual a su mínimo valor X(1), pero menor o igual a su máximo valor X(n); teniendo en cuenta esto, vamos a considerar un intervalo cerrado de números reales al que denominaremos A y cuyo extremo inferior lo denominaremos a1 y cuyo extremo superior es ak+1, tal cual se lo bosqueja en la Figura 1.1 Figura 1.1 Intervalo A de Números Reales que incluye todo los datos en la muestra • • • • a1 X(1) X(n) ak+1 A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1) Necesariamente a1 debe ser menor o igual que X(1) así como también que ak+1 debe ser mayor o igual que X(n). Particionamos ahora el intervalo A así definido, en k subintervalos semiabiertos y ordenados de tal manera que dichos subintervalos,Clase a) tengan igual longitud;Intervalos exhaustivosy mutuamente b) su unión sea igual al intervalo A; y,excluyentes en una c) la intersección entre cualquiera de estos subintervalos seamuestra vacía. Diremos que estos intervalos son exhaustivos y mutuamente excluyentes y a cada uno de ellos lo denominaremos clase. Hemos definido entonces k clases para una muestra de tamaño n. Obviamente k es mucho menor que n y dicho valor se lo escoge de acuerdo a las instrucciones que nos dé el profesor en clase, o de acuerdo a la experiencia de la persona que está haciendo el análisis de los datos. Quien no tiene experiencia, ni tiene cercano un profesor pero sí una computadora, verá resuelto su problema consultando o dejando funcionar libremente a paquetes computacionales especializados en Estadística, ya que 7
  • 8. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones dichos paquetes, tales como MINITAB*, SPSS** o SYSTAT**, realizan automáticamente esta tarea, si así lo requerimos. Un valor sugerido de partida es k ≥ 7. Formalizando lo definido anteriormente se tiene que A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1) Además tenemos: a) Se ha definido, primera clase = [a1, a2) segunda clase = [a2, a3) . . . k-ésima clase = [ak , ak+1) Recuérdese que el intervalo semiabierto [ai , ai+1) = {x∈R ⏐ai ≤ x < ai+1} En tanto que: [ak-1, ak) = {x∈R ⏐ak-1 ≤ x < ak} Existiendo además el supuesto de que la longitud L de cada una de las clases es la misma, esto es, L = d(a1 , a2) = d(a2 , a3) = ... = d(ak , ak+1) Donde la expresión d(a , b) simboliza la “distancia” del número real a al número real b, que no es mas, en este caso, que el valor absoluto de la diferencia entre a y b. Esto es, d(4 , 5) =⏐4-5⏐= d(5 , 4) =⏐5-4⏐ = 1 ó d(-3 , 3) =⏐-3 - 3⏐ = 6. b) La unión de los k subintervalos es A; lo cual significa que: k [a1, a2)∪[a2 , a3)∪...∪[ak , ak+1) = A = U i=1 [ai , ai+1) c) La intersección de los k subintervalos es vacía, esto es, k [a1, a2) ∩ [a2 , a3)∩... ∩ [ak , ak+1) = ∅ = I [ai , ai+1) i=1Marca de Clase Al valor central de cada una de las clases, se lo obtiene sumandoValor central de cada sus extremos y dividiendo para dos, este valor central seuna de las clases denomina marca de clase, lo cual significa que: la primera marca de clase = (a1 + a2)/2; la segunda marca de clase = (a2 + a3)/2; .8
  • 9. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones . . y, la k-ésima marca de clase = (ak + ak+1)/2.Ejemplo 1.4 Supongamos que se tiene una muestra de tamaño n = 50 datos y que el mínimo X(1) es igual a 42 y el máximo X(50) es 106. Se requiere determinar clases y marcas de clase para la muestra. Desarrollo. Se nos sugiere tomar k = 7, de tal manera que A= {x∈R ⏐40 ≤ x < 110} = [40, 110) Esto hace posible que: la primera clase = [40, 50); la segunda clase = [50 , 60); . . . y, la séptima clase = [ 100 , 110) Bajo estas condiciones, la primera marca de clase es (40+50)/2 =45; la segunda marca de clase es 55; la tercera es 65; y de esta manera hasta llegar a la séptima marca de clase que es 105. ♦Así construida la resolución del problema, la misma goza de lassiguientes características:El intervalo A contiene a todos los n = 50 valores queconforman la muestra ya que X(1) así como también X(50)pertenecen al intervalo A.Cada una de las siete marcas de clase está perfectamenteestablecida y tienen la misma longitud (diez unidades);El intervalo A es igual a la unión de las k = 7 clases (las clasesson exhaustivas); y,Ninguna clase comparte elementos con otra (las clases sonmutuamente excluyentes);Para tener una idea gráfica de lo contenido en este problema,imaginemos una figura como la que denomináramos Figura 1.1en líneas previas y ubique los valores a1 que es 40, a2 que es50; hasta llegar a a8 = 110. Recuérdese que k = 7, pero que 9
  • 10. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones tenemos que llegar hasta ak+1 que en este caso es 110. A continuación la Figura 1.2 Figura 1.2 Intervalo A (unión de las siete clases) [ ) [ ) [ ) [ ) 40 50 60 70 80 90 100 110 [ ) [ ) [ ) a1 ak+1 A= {x∈R ⏐40 ≤ x < 110} = [40, 110)1.4.- TABULACIÓN DE DATOS1.4.1.- Frecuencias absolutas y relativas Para tabular datos con el propósito de hacer un análisis estadístico exploratorio de los mismos, aun necesitamos efectuar algunas definiciones que se relacionan con el tamaño de la muestra y el número de observaciones que la muestra tiene en cada una de las k clases que hayamos determinado. Supóngase que ya hemos ordenado los datos y que además se han determinado las k clases que creemos pertinentes; vamos a darle un tratamiento adicional a esta muestra ordenada. Recordemos que ordenada o no, la muestra tiene n observaciones y que por la forma que se definen las clases, sin ambigüedad podemos afirmar que todos los elementos de la muestra pertenecen a alguna de las k clases.Frecuencia Absoluta Denotaremos f1 al número de observaciones en la muestra, queNúmero de pertenecen a la primera clase, esto es al intervalo [a1, b1) y a f1 loobservaciones en la denominaremos frecuencia absoluta de la primera clase omuestra que simplemente primera frecuencia absoluta. En el mismopertenecen a cada una contexto f2, será la segunda frecuencia absoluta, y asíde las clases sucesivamente hasta llegar a fk, que es la k-ésima frecuencia absoluta o el número de observaciones que pertenecen a la muestra y que al mismo tiempo se ubican en la k-ésima clase. La suma de las frecuencias absolutas de una muestra es n, esto es, k f1 + f2 + ... + fk = n = ∑ f i i =1Frecuencia RelativaDivisión de la Recuérdese que fi es un número mayor o igual que cero y menorfrecuencia absoluta o igual que n. Pasamos a definir frecuencia relativa de unade cada una de las clase.clases para el tamaño La frecuencia relativa de la primera clase resulta de dividir f1n de la muestra para el tamaño n de la muestra; de manera similar la frecuencia10
  • 11. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones relativa de la segunda clase se obtiene al dividir f2 para n. Y así pasando por la frecuencia relativa de la i-ésima clase, llegamos a la frecuencia relativa de la k-ésima clase que calculamos dividiendo fk para n. Toda frecuencia relativa es un número mayor o igual a cero pero menor o igual que uno, esto es, f 0≤ i ≤ 1; siendo, i = 1, 2,..., k. n F1, la frecuencia acumulada absoluta de la primera clase, se la define igual a f1; la de la segunda clase F2 = f1 + f2; y así sucesivamente la frecuencia acumulada de la k-ésima clase es: Fk = f1 + f2 + ... + fk-1 + fk Es claro que Fk es igual a n. Véase Figura 1.3 Con estos antecedentes es evidente como definir la frecuencia acumulada relativa de la i-ésima clase, esto es, la misma resulta de dividir Fi para n, siendo i = 1; 2;...; k. Fk Ocurre por tanto que n es igual a uno. Figura 1.3 Definición de Frecuencia Acumulada F1 = f 1 F2 = f 1 + f 2 F3 = f 1 + f 2 + f 3 F4 = f 1 + f 2 + f 3 + f 4 F5 = f 1 + f 2 + f 3 + f 4 + f 5 F6 = f 1 + f 2 + f 3 + f 4 + f 5 + f 6 F7 = f 1 + f 2 + f 3 + f 4 + f 5 + f 6 + f 7 * Para efectos visuales el valor de k es siete (k=7)1.4.2.- Tablas de frecuenciasTabla de Dada una muestra ordenada de tamaño n, una Tabla deFrecuencias frecuencias es un arreglo rectangular que tiene siete columnas yArreglo rectangular k filas, sin incluir la rotulación; la primera columna es para elque tiene siete “ordinal de la clase”, la segunda para definir la clase, luego lacolumnas y k filas, sinincluir la rotulación marca de clase, frecuencia absoluta, frecuencia relativa, frecuencia absoluta acumulada y la séptima columna para la frecuencia relativa acumulada. Véase la Figura 1.4 11
  • 12. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.4 Tabla General de Frecuencias Frecuencia Frecuencia Marca de Frecuencia Frecuencia Ordinal Clase Absoluta Relativa Clase Absoluta Relativa Acumulada Acumulada 1 [a1,a2) (a1+a2)/2 f1 f1/n F1 F1/n 2 [a2,a3) (a2+a3)/2 f2 f2/n F2 F2/n 3 [a3,a4) (a3+a4)/2 f3 f3/n F3 F3/n . . . . . . . . . . . . . . . . . . . . . k [ak,ak+1) (ak+ak+1)/2 fk fk/n FK= n FK/n = 1 Téngase en cuenta que al multiplicar por cien cualquier tipo de frecuencia relativa se obtiene un porcentaje. Construida una Tabla de frecuencia, estamos en capacidad de efectuar algunas afirmaciones que no podríamos hacer si observáramos solamente al dato “puro” llegado desde el campo u obtenido en el laboratorio. Podríamos decir por ejemplo cuál es la proporción de observaciones que se encuentran en una clase, al utilizar la frecuencia relativa; cuál es el porcentaje de observaciones que pertenecen a una clase y a todas las previas, si utilizamos la frecuencia relativa acumulada multiplicada por cien; o, qué porcentaje de observaciones pertenecen a las clases siguientes a la i-ésima si utilizamos (1-Fi/n).100, etc., etc. Hemos ya dado un paso relevante en la exploración estadística de datos, los comenzamos a convertir en información. Recomendamos siempre utilizar los valores de las frecuencias relativas y no valores de las frecuencias absolutas; la razón de esta sugerencia será obvia cuando en capítulos subsiguientes hagamos inferencias estadísticas sustentadas en principios probabilísticos. Las frecuencias absolutas deben ser utilizadas como valores de paso, cuya utilidad es al final obtener valores relativos con los que se puedan efectuar generalizaciones. Ejemplo 1.5 Se tiene un conjunto de n = 50 datos que luego de ordenarlos, configuran la siguiente muestra: 2 3 3 4 5 6 6 7 9 10 10 12 13 14 14 15 15 15 16 16 17 17 18 18 18 19 19 19 21 21 23 24 24 25 25 25 25 27 28 28 29 29 31 32 33 35 35 36 39 39 Estos cincuenta datos representan el número de fallas cosméticas y estructurales detectados en los edificios de una12
  • 13. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones comunidad urbana que va a ser regenerada por la municipalidad del cantón. Construir la correspondiente Tabla de Frecuencias. Desarrollo. Dado el resultado del ordenamiento notamos que X(1)= 2 y X(50)= 39. De igual manera optamos por construir k = 8 clases de longitud cinco unidades, siendo la primera definida por el 0+5 intervalo [0, 5), su marca de clase es = 2.5 ; su frecuencia 2 absoluta es cuatro y la frecuencia relativa de esta clase es 4 = 0.080 ; la frecuencia acumulada absoluta F1 es cuatro y la 50 frecuencia acumulada relativa es también 0.080 por ser la primera clase y por tanto no existe clase previa. Para la segunda clase , como puede verse en la Figura 1.5, la frecuencia absoluta f2 es cinco; la frecuencia relativa es 0.10 ; la frecuencia acumulada absoluta F2 es nueve y la marca de clase 7.5. Véanse detalles en la figura que se presenta a continuación. ♦ Figura 1.5 Tabla de Frecuencias Frecuencia Frecuencia Marca de Frecuencia Frecuencia Ordinal Clase Absoluta Relativa Clase Absoluta Relativa Acumulada Acumulada 1 [0,5) 2.5 4 0.080 4 0.080 2 [5,10) 7.5 5 0.100 9 0.180 3 [10,15) 12.5 6 0.120 15 0.300 4 [15,20) 17.5 13 0.260 28 0.560 5 [20,25) 22.5 5 0.100 33 0.660 6 [25,30) 27.5 9 0.180 42 0.840 7 [30,35) 32.5 3 0.060 45 0.900 8 [35,40) 37.5 5 0.100 50 1.0001.5.- GRÁFICOS DE FRECUENCIAS A partir de una tabla de frecuencias obtenida para una muestra X de tamaño n, XT = (X1 X2... Xn) es posible construir representaciones gráficos que revelan de manera sencilla, mucho de la información contenida en la misma. Entre estas representaciones están los histogramas de frecuencia, polígonos de frecuencia, ojivas y diagramas de caja, que pasamos a describir a continuación. 13
  • 14. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Un histograma de frecuencia es un gráfico bidimensional deHistograma de “barras” en cuyo eje horizontal están señaladas las k clases queFrecuenciaGráfico bidimensional se han determinado para construir la Tabla de Frecuencia; en elde “barras” en cuyo eje vertical se representan las frecuencias relativas de cadaeje horizontal están clase. El gráfico contendrá k barras cuyo “ancho” coincide conseñaladas las k clases, la longitud de la clase y cuya “altura” es igual la frecuenciay en el eje vertical se relativa de la clase. El histograma de frecuencia, debe serrepresentan lasfrecuencias relativas graficado de tal manera que se respeten las escalas, nos presentade cada una de ellas una imagen visual acerca de la información relacionada con la proporción de observaciones en cada clase, las comparaciones e interrelaciones que con ellas pueden hacerse. Véase Figura 1.6 la misma que corresponde a los cincuenta datos presentados en el Ejemplo 1.5. Son ocho clases de longitud cinco, la primera de las cuales es [0,5) y la última (octava) es [35,40) Figura 1.6 Histograma de Frecuencia 0,300 0,250 0,200 Frecuencia Relativa 0,150Polígono de 0,100FrecuenciaGráfico derivado del 0,050histograma defrecuencia que utiliza 0,000 Xcomo vértices los [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40)puntos centrales Intervalos de Clasesuperiores de lasbarras del histogramay que para obtener la Un gráfico derivado del correspondiente histograma deintersección con el ejehorizontal crea frecuencia, es el Polígono de frecuencia, que resulta alartificialmente dos determinar un polígono, utilizando como vértices del mismo, losnuevas “clases”. puntos centrales superiores de las barras del histograma. Para obtener intersección entre el polígono y el eje horizontal se crean artificialmente dos nuevas “clases”, una antes de la primera, a la cual llamaremos “clase cero” y otra luego de la última, que pasa a ser la “clase (k+1)-ésima”. De esta manera, el primer vértice del polígono lo situamos en la marca de clase de la clase cero y el último vértice en la marca de clase de la clase (k+1)-ésima. Véase Figura 1.7 en que se construye un Polígono de Frecuencia con los datos del Ejemplo 1.5. El polígono de frecuencia en términos generales contiene información similar que la presentada por el histograma de frecuencias, sin embargo es recomendable construirlo si la característica que se investiga en la población objetivo, es continua.14
  • 15. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.7 Polígono de Frecuencia 0,300 0,250 0,200 Frecuencia Relativa 0,150 0,100 0,050 0,000 X [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40) Intervalos de Clase Uno de los mas útiles gráficos en Estadística es la DistribuciónDistribución de de Frecuencia Acumulada o simplemente Ojiva. Este esquemaFrecuencia gráfico, representa en el eje horizontal la característicaAcumulada (Ojiva)Gráfico que cuantitativa X, que estamos investigando y ubica sobre elrepresenta en el eje mismo eje, las k clases en que hemos decidido organizar lahorizontal la muestra de tamaño n, o podríamos decir también la muestracaracterística constituida por n observaciones. En el eje vertical ubicamos lacuantitativa X que se frecuencia acumulada relativa.está investigando y enel eje vertical lafrecuencia acumulada Obviamente que los valores en el eje horizontal dependen de larelativa característica X que medimos; pueden ser dólares si en una “Encuesta de Hogares” investigamos los ingresos de n hogares que constituyen una comunidad; pueden ser centímetros si medimos la estatura de n estudiantes; gramos si lo que hacemos es pesar n camarones que hemos tomado de una piscina de acuicultura, o, resistencia a fuerzas cortantes de un material si en un laboratorio de Mecánica de Sólidos investigamos tal característica. En el eje vertical, no importa qué se investigue, allí se ubica la frecuencia acumulada relativa, esto significa que solo se utilizarán, en este eje, valores que comiencen en cero y terminan siempre en uno. Recordando que la muestra con la que tratamos ya ha sido ordenada y que además se supone ya tenemos determinadas las k clases que se necesitan; el gráfico de una Ojiva se construye determinando (k+1) puntos y luego conectándolos de manera sucesiva y con trazos continuos, de la siguiente manera: El primer punto tiene coordenadas (a1, 0) donde a1 es el extremo inferior de la primera clase, el segundo punto tiene coordenadas (a2, F1/n) siendo a2 el extremo inferior de la segunda clase; el tercer punto tiene coordenadas (a3, F2/n) y así sucesivamente hasta llegar al penúltimo punto que tiene como coordenadas (ak, 15
  • 16. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Fk-1/n); siendo el último punto el que tiene coordenadas (ak+1, Fk/n). El gráfico de una ojiva es continuo; recuérdese además que Fk/n es igual a uno. Obsérvese la Figura 1.8 Figura 1.8 Distribución de Frecuencia Acumulada (Ojiva) 1 Frecuencia Acumulada Relativa 0,75 0,5 0,25 Q1 Q2 Q3 0 X 4 8 12 16 20 24 28 32 La Ojiva es utilizada con profusión para comparar situaciones en las que bajo distintas circunstancias o a distintos entes se mide una misma característica; por ejemplo, el ingreso mensual en dos distintas comunidades de los jefes de hogares o las notas en dos distintas materias que obtiene un mismo grupo de estudiantes. Obsérvese en la Figura 1.9, las ojivas A y B. Si ellas representaran los ingresos en dólares de dos comunidades, ¿En cuál de las dos quisiera usted vivir?. Si se tratara de las notas obtenidas por un mismo grupo humano en dos cursos diferentes que han tomado en una universidad ¿Cuál curso presenta mayor grado de dificultad para aprobarlo?. Figura 1.9 Ingresos en dólares de Dos Comunidades (A y B) 1 A B Frecuencia Acumulada Relativa 0,75 0,5 0,25 Q1 Q2 Q3 Q1 Q2 Q3 0 X 4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 6816
  • 17. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.6.- CUANTILES DE UNA MUESTRA1.6.1.- Definiciones y determinación gráficaPrimer Cuartil (Q1) La Ojiva es además un excelente instrumento para ilustrarValor de X tal que definiciones de orden cuantitativo que se efectúan cuando senos mas delveinticinco por ciento exploran estadísticamente los datos de una muestra ordenada,de las observaciones para obtener la información en ella contenida.en la muestra tomanvalores menores o Como definición diremos que el Primer Cuartil o Cuartiliguales que Q1 Inferior de una muestra en la que se investiga una característica continua X, es un valor Q1 de X, tal que no mas del veinticinco por ciento de las observaciones en la muestra ordenada toman valores menores o iguales que Q1.Segundo Cuartil(Q2)Valor de X tal que En tanto que el Segundo Cuartil o Cuartil Central de unanos mas del cincuenta muestra se denota por Q2 y se lo define como el valor de X talpor ciento de las que, no mas del cincuenta por ciento de los valores en laobservaciones en la muestra son menores o iguales que Q2.muestra son menoreso iguales que Q2 Al Tercer Cuartil o Cuartil Superior de una muestra se lo denota Q3 y se lo define en términos del setenta y cinco por ciento de los elementos en la muestra tomando valores menoresTercer Cuartil (Q3) o iguales que Q3, o equivalentemente el veinticinco por cientoValor de X tal que el de los valores en la muestra son mayores que Q3.setenta y cinco porciento de loselementos en la A los tres cuartiles definidos se los puede representar en unamuestra toman ojiva muy claramente como se bosqueja en la Figura 1.8valores menores oiguales que Q3 Se tiene en esta figura una ojiva y en el eje vertical marcados los valores 0.25; 0,50 y 0.75. Para ubicar, sobre el eje horizontal, el valor del primer cuartil Q1, se traza un segmento de recta horizontal que contenga al punto A de coordenadas (0, 0.25) y que sirve además para determinar el punto A´ en el que la ojiva y la recta tiene su intersección; incluyendo A´ se traza un segmento de recta perpendicular al eje horizontal; en la intersección del segmento con este eje se encuentra el valor Q1, que es el Primer Cuartil. Nótese que el Primer Cuartil Q1 no es un punto sobre el plano sino una coordenada sobre el eje horizontal, esto es, Q1 es un valor numérico. Utilizando el mismo procedimiento constructivo, se determinan gráficamente Q2 y Q3 esto es, los cuartiles segundo y tercero ya definidos. Al segundo cuartil de la muestra se lo denomina también Mediana Muestral y en secciones venideras abundaremos sobre este valor y la forma de calcularlo. 17
  • 18. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Así como se definieron tres cuartiles, es posible definir nueve Deciles y noventa y nueve Percentiles de la muestra. Los deciles muestrales se los denota D1, D2, D3, hasta D9; pudiendo decirse que cuando mas el diez por ciento de los elementos en la muestra toman valores menores o iguales al Primer Decil D1; el veinte por ciento de los elementos en la muestra toman valores menores o iguales a D2; y así hasta llegar al Noveno Decil, D9, cuando el noventa por ciento de las observaciones que conforman la muestra toman valores menores o iguales que D9. Se encarga al lector determinar el significado de los percentiles muestrales P1, P2, ..., P99; indicando que el uno por ciento de los elementos en la muestra toman valores menores o iguales que P1, el Primer Percentil de la muestra, y que el noventa y nueve por ciento son menores o iguales que P99 el Nonagésimo Noveno Percentil de la muestra. De igual manera se exhorta al lector a ubicarlos en el eje horizontal de una ojiva. Es procedente decir que Q1 = P25, que Q2 = D5 = P50 o que Q3 = P75. De igual manera puede complementarse lo hasta aquí expresado sobre estos cuantiles, esto es percentiles, deciles y cuartiles, que cuando mas, el setenta y cinco por ciento de las observaciones en la muestra toman valores mayores a Q1; que el cincuenta por ciento de las observaciones “centrales” de la muestra se encuentra entre Q1 y Q3; que el noventa por ciento de los valores observados está entre P5 y P95, o que el sesenta por ciento de las observaciones se encuentran entre D2 y D8. Insistimos, los cuantiles de una muestra no son puntos en el plano, son valores numéricos; además los cuantiles no tienen que necesariamente ser valores que pertenezcan a la muestra. Téngase en cuenta que la ojiva es una función creciente en X, en realidad monótona creciente, y por tanto cuando se la utiliza para estimar cuantiles, éstos quedan determinados unívocamente.1.6.2.- Diagrama de caja Un subproducto de la ojiva una vez que se han determinado los cuartiles muestrales, es el denominado Diagrama de Caja, esquema gráfico que nos permite obtener de manera rápida, aunque no necesariamente exacta, la distribución de los datos que conforman la muestra. Véase la Figura 1.1018
  • 19. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.10Diagrama de CajaEsquema gráfico que Diagrama de Cajanos permite obtener Q1 Q2 Q3de manera rápida, • • • • Xaunque nonecesariamenteprecisa, la 1 X(1) X(n)distribución de losdatos que conformanmuestra 0.00 10.00 20.00 30.00 40.00 Si bien este diagrama comúnmente se lo “adosa” a una ojiva, es posible presentarlo aislado, tal cual se lo hace en la Figura 1.10, siempre que se tengan los valores correspondientes a Q1 , Q2 y Q3, así como los valores máximo y mínimo en la muestra, esto es X(n) y X(1). En la Figura 1.10 se presenta un Diagrama de Caja; como puede verse está constituido por un rectángulo (caja) y dos segmentos de recta (bigotes). La longitud de la caja es Q3 – Q1; el bigote del lado izquierdo del lector se inicia en el valor mínimo X(1) y termina en Q1, mientras que el bigote del lado derecho comienza en Q3 y termina en X(n). El segmento de recta punteado, al interior de la caja, determina el valor de la Mediana o Segundo cuartil Q2. En la presencia de Valores Extremos o Valores Aberrantes, se debe reconceptualizar la construcción del Diagrama de Caja, y en particular la longitud de los bigotes. Sobre este tema volveremos en próximas secciones.1.7.- ALGORITMOS PARA EL CÁLCULO DE CUANTILES Dada una muestra XT= (X1 X2... Xn) de tamaño n, el valor mínimo X(1) (o cualquier estadístico de orden i) puede ser también visto como un cuantil, puesto que la proporción p =1/n de los datos observados son menores o iguales a X(1). Recuérdese que de igual manera podemos decir que el (1/n)100 por ciento de los elementos de la muestra son menores o iguales a X(1) . Puede ocurrir eso sí, que el valor (1/n)100 =100/n no sea un número entero y nos enfrentaríamos a un cuantil de tipo aun no definido, particular que trataremos de superar en esta sección. Consideremos dos estadísticos de orden que sean consecutivos, llamémoslos X(i) y X(i+1); i = 1,2,…,n-1 si definimos el 19
  • 20. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones promedio X(i) y X(i+1) , esto será denotado como X(i.5) y explícitamente: X(i.5) = ( X(i)+ X(i+1))/2 = X(i) +( X(i+1)- X(i))/2 ; = X(i) + 0.50( X(i+1) - X(i)) ; i = 1,2,…,n-1 De manera similar podemos definir: X(i.2 ) = X(i) + 0.20( X(i+1) - X(i)); i = 1,2,…,n-1. X(i.4) = X(i) + 0.40( X(i+1) - X(i)); i = 1,2,…,n-1. ; ó, X(i.95) = X(i) + 0.95( X(i+1) - X(i)); i = 1,2,…,n-1. Podríamos, en general, definir X(i.a), de la siguiente manera: X(i.a) = X(i) + 0.a( X(i+1) - X(i)); i = 1,2,…,n-1 , a real positivo. No intentamos darles nombres específicos a estos estadísticos de orden, pero su significado es aparentemente obvio. Ejemplo 1.6 Supongamos que una muestra de tamaño n=5 es XT = (2 3 8 7 4). Aquí la muestra nos permite determinar que, X(1) = 2; X(2) = 3; X(3 )= 4; X(4) = 7, y que X(5) = 8. El estadístico de orden m es X(m) = X(n+1)/2, donde definimos m como igual a (n + 1)/2; en este caso m es (5+1)/2=3; por tanto X(m) es X(3) =4 , que en este caso (n es un número impar) es el segundo Cuartil Muestral Q(2) o también conocido como Mediana de la Muestra. Alteremos un poco la muestra previamente analizada y supongamos que ella ahora es XT = (2 3 8 5 7 9) y nuevamente intentemos calcular X(m). Tenemos en la nueva muestra X(1 )= 2; X(2) = 3; X(3) = 5; X(4) = 7, X(5 )= 8 y X(6) = 9. Siendo ahora n=6, m ya no es un número entero sino que es igual a 3.5. Para calcular Q2 debemos determinar por tanto X(3.5) , que es el valor que le corresponde a Q(2) Procedamos, primero de la manera tradicional y luego aplicando la definición de X(i.a) : Q2 = (X(4)+ X(3))/2 = 0.5( 7+5)=6. De igual manera20
  • 21. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Q(2) = X(3.5) = X(3) + 0.5( X(4) - X(3)) = 5 + 0.5( 7-5) = 6 ♦En el caso de la primera muestra su mediana es 3 y a su vez esválido decir que la mediana muestral es un valor que pertenecea la muestra, en el segundo caso la mediana es 6 y este valor, nopertenece a la muestra. En el primer caso el tamaño n de lamuestra es impar y en el segundo es par.Así como hemos calculado el segundo cuartil de la muestra,puede calcularse el primero Q1 o el tercero Q3 haciendo m =0.25(n+1) ó m = 0.75(n+1) respectivamente, sin importar si eltamaño es par o impar.Siguiendo este patrón se puede determinar los percentilesmuestrales que definiéramos previamente y que pasamos ailustrar a continuación.Se aconseja nunca perder el sentido de la realidad.Ejemplo 1.7 En un laboratorio de Química Analítica se determina el número de partes por millón de un metal pesado que se encuentra disuelto en las aguas de un río del litoral ecuatoriano. Luego de efectuar veinte observaciones se obtiene una muestra que es la siguiente. XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Para esta muestra determinar el primer Decil, el Primer Cuartil, Tercer Cuartil, la mediana y el percentil noventa y cinco (nonagésimo quinto). Desarrollo. Muestra ordenada 2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12 Sea m = 0.1(n+1) = 0.1(21) = 2.1 D(1) = X(2,1) = X(2) + 0.1(X(3) - X(2)) = 3 + 0.1(3 - 3) = 3 Sea m = 0.25(n+1) = 0.25(21) = 5.25 Q(1) = X(5,25) = X(5) + 0.25(X(6) - X(5)) = 4 + 0.25(4 - 4) = 4 Sea m = 0.75(n+1) = 0.75(21) = 15.75 21
  • 22. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Q(3) = X(15,75) = X(15) + 0.75(X(16) - X(15)) = 9 + 0.75(9 - 9) = 9 Sea m = 0.5(n+1) = 0.5(21) = 10.5 Mediana = Q(2) Q(2) = X(10,5) = X(10) + 0.5(X(11) - X(10)) = 6 + 0.5(7 - 6) = 6.5 Sea m = 0.95(n+1) = 0.95(21) = 19.95 P(95) = X(19,95) = X(19) + 0.95(X(20) - X(19)) = 11 + 0.95(12 - 11) = 11.95 ♦1.8.- MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN1.8.1.- La media aritmética y otras medidas de Tendencia Central Las tablas de frecuencias y los gráficos y diagramas que hasta ahora hemos construido, nos han dado una representación visual de lo que es la información contenida en una muestra y los cuantiles alguna información cuantitativa de la misma, sin embargo, aun no hemos puesto suficiente énfasis en el análisis cuantitativo de la información contenida en los n datos muestrales. Comencemos por buscar un valor numérico que pudiera sintetizar o representar todos los datos, estamos hablando de la Tendencia Central o de la Medida de Posición de los mismos. El primero y mas utilizado por su facilidad para calcularlo yMedia Aritmética “por la noción intuitiva ” del mismo es lo que se denominaPromedio de los ndatos contenidos en la Media Aritmética de la Muestra, se lo denota x y se lomuestra define como el promedio de los n datos contenidos en la misma, esto es: n x = (X1 + X2 + ... +Xn)/n = ∑X / n i =1 iMediana (Q2)Valor de X tal quecuando mas el También es una medida de posición o tendencia central elcincuenta por ciento Segundo Cuartil Q2 o Mediana Muestral, que ya hemosde las observacionesen la muestra toman presentado, de manera informal cuando construíamos la Ojivaun valor menor o Muestral; y, de manera formal cuando presentamos la forma deigual a él calcular percentiles utilizando estadísticos de orden.22
  • 23. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Dijimos que Q2 es también el percentil cincuenta y por tanto, cuando mas el cincuenta por ciento de las observaciones toman un valor menor o igual a él. También dijimos que Q2 es el estadístico de orden m, siendo m=(n + 1)/2, donde como siempre en el contexto de esta capítulo, n es el tamaño de la muestra en consideración. Esto significa que Q2 = X([n + 1]/2) Hay quienes hacen análisis exploratorio de datos y prefieren definir la mediana muestral, considerando si el tamaño de la muestra es par o impar, en cuyo caso señalan que la mediana Q2 es el promedio de los estadísticos de orden X(n/2) y X([n/2]+1) si n es par; y, que es igual a X([n +1]/2) si n es impar. Nótese que las definiciones son equivalentes, cuando hemos definido estadísticos de “orden racional positivo” como X(i.5) y no solo de orden entero positivo como X(i). Sobra decir que estamos hablando de una muestra ordenada, caso contrario no estaríamos en capacidad de determinar estadísticos de orden. Otra medida de tendencia central con alta frecuencia utilizada es la Media Ponderada de la Muestra, la denotaremos por Mw.Media PonderadaSumatoria de cada Cuando calculamos la media aritmética, cada observación Xiobservación Xi tiene igual “peso” o ponderación, en el procedimiento que semultiplicada por su utiliza para determinarla; lo contrario ocurre para determinarpeso o ponderación esta nueva medida de posición que pretendemos introducir, paracorrespondiente wi calcularla, cada observación tiene un peso wi, condicionado a que la suma de los n pesos sumen uno. Definimos de esta manera a la Media Ponderada Mw de la muestra de la siguiente manera: n Mw = w1X1 + w2X2 + … + wnXn. = ∑ w X ; i=1,2,…,n; i =1 i i n ∑w i =1 i =1 Los casos de utilización de esta medida de posición son abundantes, los vive por ejemplo, un estudiante cuando al iniciar el semestre su profesor le indica como va a ser calculada su nota, sobre cien puntos, del curso que toma. Si le dice que obtendrá cinco por ciento por tareas realizadas fuera de clase, veinticinco por ciento por lecciones rendidas en clase y el resto por un examen; esto significa que su nota es una media ponderada de tres notas sobre cien , donde w1=.05; w2 =.25 ; y, w3=.70 . En tanto que X1 es la nota que sobre cien obtenga por “tareas”; X2 es lo que obtendría, sobre cien, por lecciones; y, X3 es su nota del examen, también sobre cien. 23
  • 24. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Por tanto su nota ponderada, Mw es: Mw = w1X1 + w2X2 +w3X3 Nótese que en principio, la media aritmética es una media ponderada, solo que los ponderadores toman el mismo valor, esto es: 1 w1 = w2 = ... = wn = n1.8.2.- La media y la mediana de una misma muestra Es evidente que si se toman datos en una investigación es para que sean aprovechados lo mas posible; como medida de tendencia central la media aritmética utiliza cada una de las observaciones en la muestra, en tanto que la mediana utiliza cuando mas dos de ellas, claro está que de una muestra ordenada. Puede por tanto decirse que para la determinación de la media aritmética se utilizan todos los datos contenidos en la muestra, sea esta ordenada o no, en tanto que para calcular la mediana, no se lo hace; esto permite a muchos pensar que debe preferirse siempre la media aritmética a la mediana, pero no es tanto así, puesto que en presencia de valores extremos o aberrantes, el efecto de éstos sobre la mediana es imperceptible en tanto que el valor de la media aritmética se ve afectado de manera notoria, pudiendo en el último caso, no ser la media aritmética muestral una buena medida de lo que es la verdadera tendencia central que se trata de determinar. Recuérdese que los valores aberrantes ocurren por múltiples razones, unas indeseables y otras inevitables. Entre los indeseables aparecen los errores de lecturas que se dan en el operativo de campo o en el laboratorio durante investigación, donde, por ejemplo, se apunta una estatura de 2.45 metros para una unidad de investigación, cuando se debió apuntar 1.45; o, en la digitación, donde en el reporte de campo aparece 1.45, pero al digitar se lo ingresa como 2.45. Estos errores no estadísticos o “ajenos al muestreo” se los debe detectar en una de las etapas de una encuesta o experimento, que se denomina “Crítica de Datos” la misma que se efectúa antes y después de la digitación. Antes, para tener la oportunidad de volver al laboratorio y verificar cualquier valor que se salga del patrón que muestren los datos; y, después de la digitación porque no siempre “el dedo humano” ingresa lo que corresponde o porque el lector óptico puede, por mala caligrafía o efectos ambientales, interpretar una cantidad por otra.24
  • 25. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.8.3.- La Media Cortada de una muestraMedia Cortada de la Un remedio que se ha sugerido para obviar la sensibilidad de laMuestra Media Aritmética a los datos aberrantes y al mismo tiempoMedia aritmética del poder utilizar la mayor cantidad de datos contenidos en la(1-α)100% por ciento muestra, es la construcción de otra medida de tendencia centralde los datos a la que se denomina Media Cortada de la Muestra; se la denota por Tα y se la define como la media aritmética del (1- α).100 por ciento de los datos, suprimiendo, en una muestra α α ordenada, 2 100% de datos de la “parte superior” y 2 100% de la “parte inferior” en la muestra. Este “recorte” supone que los valores extremos, si existen, no serán considerados en el cálculo de Tα. Aunque con una muestra restringida, se aspira que la Media Cortada disfrute simultáneamente de las “virtudes” de la Media Aritmética y la Mediana, esto es, utilización máxima de los datos disponibles e insensibilidad a valores extremos. Lo usual es tomar α = 0.10 es decir, se calcula T.10. Ejemplo 1.8 En el Ejemplo 1.7 se consideró la siguiente muestra, XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Calcular la media aritmética, la mediana y la media cortada T.10. Desarrollo. 20 x = (X1 + X2 + ... +X20)/20 = ∑ X / 20 i =1 i = (7+12+10+3+4+7+3+9+6+9+2+4+6+4+4+9+7+4+7+11)/20 =6.40 Ordenando la muestra, ésta queda compuesta por: 2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12 Esto es: X(1 )= 2; X(2 )= 3; X(3) = 3;…; X(19) = 11; X(20) = 12; Para calculara la media cortada X.10, debemos prescindir, en la muestra original, de X(1) = 2 y de X(20) = 12, por lo que el noventa por ciento restante de la muestra X es el vector, YT= (3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11) 25
  • 26. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Resultando así que X.10 es: X.10 = (3+3+4+4+4+4+4+6+6+7+7+7+7+9+9+9+10+11)/18 = 6.3333 Calculando la mediana Q(2) = X(10.5) = X10 + 0.5(X(11) – X(10)) = 5.5. En síntesis, la media aritmética de la muestra es 6.40; la media cortada X.10 es 6.33 y la mediana muestral es 5.5, de tal manera, la moda de la muestra, que es el valor que mas se repite es 4, pues aparece cinco veces en la muestra. ♦ En capítulos posteriores hablaremos de cómo evitamos, determinando Tα , una posible “contaminación” de la muestra y que el valor de Tα que lo que obtenemos es un “estimador robusto” del “verdadero” parámetro µ que mide la tendencia central de la población.1.8.4.- Medidas de Dispersión Tener la medida de lo que es la tendencia central es importante, pero no basta; no podemos sorprendernos que dos muestras que posean conformación numérica distinta tengan la misma media aritmética pero represente, estadísticamente, muy diferentes realidades. Veamos las cuatro siguientes muestras: X1T = (1 2 3); X2T = (-5 2 9); X3T = (-10 -3 0 2 3 20); X4T = (0 2 4) Ellas poseen algo en común, las cuatro tienen la misma media aritmética, que es dos, pero difieren en su conformación numérica; nótese que incluso la tercera tiene un tamaño, seis, que es distinto al que tienen las demás, que es tres. El mensaje aquí parecería ser: una medida de tendencia central es relevante pero, no lo dice todo; en realidad falta algo mas. Vamos a observar la distancia desde cada uno de los valores Xi en la muestra a la media aritmética x , esto es, d(Xi , x) =⎟ Xi - x ⎟ Recordando que en todos los casos del ejemplo bajo análisis las muestras tienen media aritmética igual 2, tenemos para la primera muestra: d(1,2) = 1 ; d(2,2) = 0 y d(3,2) = 1. Para la segunda muestra d(-5,2) = 7 ; d(2,2) = 0 y d(9,2) = 7. Para la tercera muestra d(-10,2) = 12 ; d(-3,2) = 5 ; d(0,2) = 2; d(2,2) =0 ; d(3,2) =1 y d(20,2) = 18.26
  • 27. ESTADÍSTICA G. Zurita Fundamentos y AplicacionesPara la cuarta muestra d(0,2) = 2 ; d(2,2) = 0 y d(4,2) = 2.Si sumásemos las distancias de la media aritmética a cadaobservación obtendríamos una medida de cuan “lejos” odispersos se encuentran cada uno de los datos muestrales conrespecto a la media.Para el primer caso tal suma de distancias es 2; para el segundo14; para el tercero 38, y para el último 4. Véase Figura 1.11 queilustra de manera gráfica lo que de manera numérica hemosdeterminado.Figura 1.11Cuatro Rectas representando cuatro Muestras señalando lasDistancias X1 0 1 2 3 X2 -5 0 2 9 X3 -3 0 2 3 20 X4 0 2 4Puede creerse que el número de observaciones en la terceramuestra obligó a que la suma de las distancias sea mayor, peroaunque es necesario reconocer que el número de observacionespuede influir en la medida de la dispersión de una muestra,piénsese en una muestra en la que todas las observacionestomen el mismo valor, sin importar el tamaño de la muestra,siempre la suma de las distancias que hemos definido será cero.Nótese que esta suma de distancias bajo ninguna circunstanciapuede ser negativa, pues se trata de sumas de distancias“euclideanas” que como tal están definidas en términos devalores absolutos de números reales.Con esta idea de dispersión con respecto a la media aritméticaque hemos desarrollado en líneas previas, trataremos deconstruir de una manera explícita, una o varias medidas paracuantificar esta característica implícita en toda muestra.En primer lugar la dispersión es un valor relacionado o relativoa otro valor, pero este último no tiene necesariamente que serla media aritmética, puede ser algún otro pero tiene sus ventajasque sea la media o al menos un valor que mida la tendenciacentral de la muestra. 27
  • 28. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Ejemplo 1.9 Dada una muestra XT = (X1 X2 … Xn), determinar la media y la varianza de una muestra y que consiste de las n observaciones cuantitativas de la muestra X a las que se les resta su media aritmética. Desarrollo. Para el caso dado, YT = [ (X1 - x ) (X2 - x ) … (Xn - x ) ] = (Y1 Y2 … Yn) Por lo que, n ∑ Y / n = ∑ (X i − x ) / n n y= i i =1 i =1 = 1 [ (X1 - x ) + (X2 - x ) + … + (Xn - x ) n = 1 [ (X1 + X2 + … + Xn) - n x ) n = 1 [nx -nx]=0 n Por lo tanto, si Yi = Xi - x , i = 1, 2, …, n, entonces: y =0 Como ilustración numérica, Si XT = (1 2 3 4), entonces x =2.5 Si Yi = Xi - x , esto es YT = (-1.5 -0.5 0.5 1.5) Por lo que Y = 0 ♦ Lo primero que se nos ocurriría para medir la dispersión sería n una expresión del tipo ∑ (X − x ) i =1 i , pero existe un inconveniente; no importa cuál sea la muestra, como ya hemos visto, siempre es cierto que, n ∑ ( X − x ) = (X - x ) i =1 i 1 + (X2 - x ) + ... + (Xn- x ) = ΣXi - n x = n x - n x = 0 Por lo tanto éste es un resultado muy relevante, sobre todo para simplificar cálculos, pero no lo es para medir dispersión.28
  • 29. ESTADÍSTICA G. Zurita Fundamentos y AplicacionesVarianza Muestral Ésta es la razón fundamental por la que para estos fines se usanMedida de Dispersión nde una variable X conrespecto a la media sumas cuadráticas del tipo ∑ (X − x) 2; y, la primera medida de i =1 i dispersión con respecto a la media que utilizaremos será la Varianza Muestral s2 que se la define como: n s2 = ∑ (X − x ) i =1 i 2 /( n –1) Este valor no puede ser negativo y será cero cuando y solo cuando, todas las observaciones adopten el mismo valor, lo cual significa que la media es igual a tal valor y cada una de las diferencias que constituyen la suma cuadrática son cero. La medida de dispersión así definida no viene dada en las mismas unidades que los valores observados, sino en unidades cuadráticas, es decir, que si medimos cantidad de precipitaciónDesviación EstándarRaíz cuadrada pluvial en centímetros cúbicos, la varianza estará enpositiva de la varianza centímetros cúbicos al cuadrado. Por esta razón es común utilizar la raíz cuadrada positiva de la varianza; medida a la que llamamos desviación estándar o desviación típica de la muestra. Se la denota por s y se la define como ya indicáramos, igual a la raíz cuadrada positiva de la varianza, (X i − x ) 2 s= + n −1 Una pregunta que surge inmediatamente después que se repara en cómo está definida la varianza muestral, es la presencia en el denominador de (n-1) cuando nuestra intuición nos dice que mas naturalmente “se ve” n, como es el caso de la Media Aritmética. Una respuesta parcial es “podríamos haberlo utilizado” y de hecho se lo utiliza, pero la respuesta con soporte teórico vendrá en capítulos posteriores, cuando estudiemos “estimación de parámetros poblacionales”, mientras tanto utilizaremos axiomáticamente (n-1) en el denominador de la definición de la varianza muestral. Ejemplo 1.10 Considérese la muestra previamente estudiada, XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Calcúlese su varianza y desviación típica. Desarrollo. 29
  • 30. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Siendo n = 20 hemos encontrado que x = 6.40 por lo tanto: n s2 = ∑ (X − x ) i =1 i 2 /( n –1) s2 = [(2 - 6.40)2 + (3 - 6.40)2 + … + (11 - 6.40)2 + (12 - 6.40)2]/19 s2 = 8.36 De donde la desviación típica de la muestra es: (Xi − x ) 2 s= + n −1 s = + 8.36 = 2.89 ♦1.8.5.- Media y Varianza de datos agrupados No siempre es obvio para quien comienza a adentrarse en el quehacer estadístico, cómo calcular la Media Aritmética o la Varianza de datos agrupados; aunque en realidad explicando la lógica tras del algoritmo todo parece sencillo. Recordemos que la agrupación de datos se da en k clases y que cada clase tiene una marca de clase. Llamemos Yi a la i-ésima marca de clase y supongamos que fi es la frecuencia absoluta de esa clase. Esto hace que la Media Aritmética X de los datos agrupados sea igual a: k x = ∑ i =1 fi Yi / n En tanto que la varianza de los datos agrupados es igual a: k s2 = ∑ i =1 fi (Yi - x )2 / (n –1) Nótese que las sumatorias tienen k términos y no n. Ejemplo 1.11 Durante cinco horas se efectúa un conteo de vehículos en una calle que corre de norte a sur en Guayaquil. Se reportan datos cada cinco minutos. En la primera columna de la tabla adjunta consta la frecuencia con que ocurren valores en cada una de las clases que se definen en la segunda columna. Cinco veces “pasaron” entre cinco y quince vehículos; ocho veces entre quince y veinticinco, y así hasta que cinco veces pasaron entre 2 sesenta y cinco y setenta y cinco vehículos. Calcular x y s .30
  • 31. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.12 Tabla de Datos Frecuencia Marca de Clase Absoluta Clase 5 [5,15) 10 8 [15,25) 20 10 [25,35) 30 15 [35,45) 40 10 [45,55) 50 7 [55,65) 60 5 [65,75) 70 Desarrollo. Este es un caso de datos agrupados, n = 60 y k = 7 X= número de vehículos que “pasan” cada cinco minutos Las correspondientes marcas de clase son: 10, 20, 30, 40, 50, 60, 70. Por tanto: k x = ∑i =1 fi Yi / n , donde Yi son las ocho marcas de clase, no las sesenta observaciones. 5(10) + 8( 20) + 10(30) + 15( 40) + 10(50) + 7(60) + 5(70) x= = 39.67 60 Calculando la varianza de estos datos agrupados. 5(10 − 39.67) 2 + 8(20 − 39.67) 2 + ... + 5(70 − 39.67) 2 s2 = = 288.023 60 − 1 Mientras que la desviación estándar S de los datos agrupados es: s = + 288.023 = 16.97 ♦1.8.6.- Media y Varianza de funciones de X Supóngase que dada una muestra X de tamaño n en la que se investiga una característica X, definimos Yi = αXi + β. Donde α y β son constantes reales y el subíndice i varía de 1 hasta n. Pretendemos encontrar el valor de la media y la varianza de Y=αX + β. 31
  • 32. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Por definición: n n Y = ∑ i =1 Yi /n = ∑ (αXi + β)/n i =1 n = α( ∑ Xi/n) + nβ/n = α x + β . i =1 Por lo tanto la media aritmética de Y es igual a α que multiplica a la media aritmética x de X, mas el valor de la constante β. De manera similar se puede probar que el valor de la varianza de Y, cuando Yi = αXi + β, es igual a: n Var(Y) = s 2 = ∑ [(αXi + β) −(α x + β )] 2/( n- 1)  y i =1 n = α2 ∑ (Xi − x ) 2/( n- 1) i =1 = α2 Var(X) = α2 s 2 . x Lo cual significa que el coeficiente α que multiplica a X aparece de manera cuadrática en el valor de la varianza de Y, pero la constante β no afecta al valor de s 2 . y Ejemplo 1.12 Dada una muestra XT = (X1 X2 … Xn) “estandarizarla” y calcular su media y su varianza. Desarrollo. “Estandarizar” una muestra significa definir una nueva variables Y, en términos de los valores observados X, de tal manera que: Xi − x Yi = s La muestra estandarizada sería por tanto, ⎛ ⎛ X1 − x ⎞ ⎛ X2 − x ⎞ ⎛ X − x ⎞⎞ YT = ⎜⎜ ⎟ ⎜ ⎟ ... ⎜ n ⎟⎟ ⎜⎜ sx ⎟ ⎜ s ⎟ ⎜ s ⎟⎟ ⎝⎝ ⎠ ⎝ x ⎠ ⎝ x ⎠⎠ Siendo sx la desviación típica de X. Con lo desarrollado en el ejemplo primero Y = 0; veamos cuanto resulta ser la varianza n s2 = y ∑ (Y − Y ) i =1 i 2 (n - 1)32
  • 33. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones n n = 1 n -1 ∑ ((X − x S ) − Y) i =1 i x 2 = 1 n −1 ∑ [(X − x ) S ] i =1 i x 2 ∑ [X i − x ] S x = 1 = S 2y 1 n 2 = n − 1 i =1 Consecuentemente, toda muestra estandarizada, tiene media cero y varianza uno. Si a la muestra XT = (1 2 3 4) la “estandarizamos” se ⎛ 1 − 2. 5 2 − 2. 5 3 − 2 .5 4 − 2 .5 ⎞ transforma en YT = ⎜ ⎟ ⎝ 1.291 1.291 1.291 1.291 ⎠ Puesto que Sx = ⎡(1− 2.5)2 + (2 − 2.5)2 + (3 − 2.5)2 + (4 − 2.5)2⎤ 3 = 1.291. ⎢ ⎣ ⎥ ⎦ Realizando los cálculos correspondientes, resulta que: YT = (− 1.1619 − 0.3873 0.3873 1.1619 ) De donde y = 0 y, s2 = y 1 4 ∑ Y −Y 3 i =1 i 2 ( ) = (− 1.1619 − 0)2 + (− 0.3873 − 0)2 + (0.3873 − 0)2 + (1.1619 − 0)2 3 1.3500 + 0.1500 + 0.1500 + 1.3500 3 = = =1 3 3 Luego Yi = X i − x ⇒ Y = 0 ∧ s y = 1 ♦ sx1.9.- MÁS SOBRE DISPERSIÓN1.9.1.- Simplificación de cálculosDesviación Estándar Obviamente que también existe una Desviación EstándarCortada “cortada” sα en la que se calcula el valor de la desviación,Valor de la desviaciónestándar muestral eliminado el α100% de las observaciones superiores eeliminando α100% de inferiores, de la misma manera que señaláramos para la Medialas observaciones Cortada Tα.superiores e inferiores Es conocido que no siempre las expresiones que definen una medida estadística son las más adecuadas para efectuar los cálculos que permiten determinarla numéricamente, es el caso de la Varianza Muestral. Optaremos por encontrar una expresión 33
  • 34. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones que facilite el cálculo para que a un estudiante al igual que un experto pueda programar en un lenguaje computacional. Observemos que: n n n ∑ i =1 (Xi − x )2 = ∑i =1 Xi2 − 2 x ∑ i =1 Xi + n x 2 de donde, n n n = ∑ Xi2 − 2 ∑ Xi/n ∑ Xi + n x 2 i =1 i =1 i =1 n n n = ∑ Xi2 − [2( ∑ Xi)2 /n]+ n( ∑ Xi)2/n2 . i =1 i =1 i =1 n n = [n ∑ Xi2 − ( ∑ Xi)2] /n i =1 i =1 Este resultado nos permite calcular la varianza muestral de X de una manera que computacionalmente es mucho más simple que la dada en la definición: n n n s 2 = ∑ (Xi − x )2/( n −1) = [n ∑ Xi2 − ( ∑ Xi)2]/n(n – 1) x i =1 i =1 i =1 Ejemplo 1.13 Calcular la varianza de la muestra XT = (1 2 3 4) aplicando las expresiones determinadas en la presente sección. Desarrollo. n n Necesitamos ∑ Xi y i =1 ∑X i =1 2 i 4 ∑X i =1 i = 1 + 2 + 3 + 4 = 10 4 ∑X i =1 2 i = 12 + 22 + 32 + 42 = 1 + 4 + 9 + 16 = 30 Por tanto, 4 ∑ (X − x ) = [ 4(30) – (10)2]/4 = [120 - 100]/4 = 5 2 i i =1 Por lo tanto ( s 2 = ∑ X i − x / 3 = 5 / 3 = 1.667 x )2 Verificándose además que sx = 1.291 ♦34
  • 35. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.9.2.- Cuantiles y medidas de dispersiónRango Muestral (R) Es también medida de dispersión el Rango Muestral R, que seDiferencia entre el define como:valor máximo y elvalor mínimo de lamuestra R= X(n) - X(1) Este valor mide la dispersión de la muestra en términos de sus valores extremos, es decir con la longitud (mínima) de un intervalo en el que se ubica el 100% de las observaciones queRango Intercuartil constituyen la muestra.(RI)Diferencia entre eltercer cuartil y el Otra medida de dispersión es el denominado Rangoprimero. Intervalo que Intercuartil, RI, que se define como la diferencia entre elincluye el cincuenta tercer cuartil y el primero, determinando así la longitud de unpor ciento central de intervalo que incluye el “cincuenta por ciento central” deobservaciones en la observaciones en la muestra. El Rango Intercuartilmuestra matemáticamente se lo expresa como: RI = Q(3) – Q(1) . Ejemplo 1.14 En el ejemplo 1.8 se utiliza la muestra de tamaño 20, XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Determinar el Rango y el Rango Intercuartil de esta muestra. Desarrollo. Se determinó ya que X(1) = 2 y X(n) = X(20) = 12, por lo tanto el rango muestral es R = 12 – 2 = 10 Con los algoritmos estudiados en la sección 1.7 e ilustrados en los Ejemplos 1.6 y 1.7 se encuentra que Q1 = X(5.25) = 4 y Q3 = X(15.75) = 9 Por lo que el Rango Intercuartil de la muestra es R=9–4=5 ♦1.9.3.- Otros Diagramas y Representaciones Gráficas de una Muestra Si bien los Histogramas de Frecuencia ya aparecen en los medios de comunicación masiva y son asimilados por sus 35
  • 36. ESTADÍSTICA G. Zurita Fundamentos y AplicacionesPasteles lectores o televidentes, las primeras y mas comprensiblesCírculos cuya representaciones estadísticas que se popularizaron entre el gransuperficie aparece público, son los “Pasteles”, que no son mas que círculos cuyarepartida en k superficie aparece repartida en k diferentes secciones; el área dediferentes secciones, cada una de estas secciones es proporcional al “peso” ocada una de las cualeses proporcional al ponderación que en un todo, tengan cada una de sus k partes.peso que en un todotengan cada una de Si por ejemplo una compañía que elabora productos cárnicos,sus k partes tiene cuatro proveedores de materia prima, y uno de ellos, A, le entrega el 45% del total de la materia prima; otro, B, le entrega el 20%; un tercero, C, el 15%; y el último, D, entrega el 20% restante. Un pastel que represente esta situación será un círculo con el 45% de su área para A; el 20% para B; el 15% para C; y, el 20% de su área para D. Véase Figura 1.13 Figura 1.13 Gráfico de Pastel Proveedor D 20% Proveedor A 45% Proveedor C 15% 20% Proveedor B Existen detractores del agrupamiento de datos, y sus razones tienen, ya que al agrupar se gana la idea de clasificación grupal y distribución espacial de los datos, pero se pierde la individualidad del dato y lo mejor que se consigue es que los fi datos individuales ubicados en la i-ésima clase sean representados por un solo valor, la i-ésima marca de clase. Esta situación ha llevado a reconocer méritos a los denominados Diagramas de Tallo y Hojas. Observemos una ilustración en el Esquema que presentamos en la Figura 1.14 para comprender este tipo de diagrama. Figura 1.14 Diagrama de Tallo y Hojas fi Tronco Hojas 8 40 12233579 10 50 1244558889 (14) 60 23334444566677 9 70 123466788 6 80 034679 3 90 567 Longitud de cada hoja = 1.36
  • 37. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Se tienen 50 observaciones distribuidas en seis clases de diez unidades de longitud, la primera clase es [40,50) y la sexta [90,100). Existen ocho observaciones en la primera clase, diez en la segunda, catorce en la tercera y así hasta llegar a la sexta clase que contiene tres observaciones. El primer “tronco” de este árbol es 40; el segundo 50; y, el sexto 90. En la primera clase las ocho observaciones están determinadas por los ocho dígitos que constituyen las “hojas” del “árbol” y sus valores son: 41; 42; 42; 43; 43; 45; 47; y, 49. En la segunda clase las diez observaciones son: 51; 52; 54; 54; 55; 55; 58; 58; 58; y, 59. Las tres observaciones en la sexta clase son: 95; 96; y, 97.Diagrama de Tallo yHojas Debemos reconocer que con el Diagrama de Tallo y Hojas, aConserva la vez que conservamos la individualidad de las observaciones ,individualidad deobservaciones y nos tenemos idea también de su distribución espacial, tal cual loda la idea de su hace un histograma de frecuencias.distribución espacial Nótese que, en la ilustración dada, la frecuencia de la tercera clase aparece entre paréntesis, eso significa que en esta clase se encuentra la Mediana Muestral que es:Clases InferioresClases que contienenobservaciones de Q2 =X([n+1]/2) = X(25.5) =(X(25)+ X(26))/2 = ( 64 + 64)/2 =64.menor valor que lasde la clase que No olvidar que el tamaño n de la muestra considerada es 50.contiene la medianamuestral A fin de definir la Profundidad de un Conjunto de Datos llamaremos, en una muestra ordenada XT= (X(1) X(2) ... X(n)) , clases inferiores a aquellas que contiene observaciones de menor valor que las de la clase que contiene la medianaClases Superiores muestral; y, clases superiores a las que se ubican luego de laClases que se ubican que contiene la mediana.luego de la clase quecontiene la mediana Supongamos que los datos se han distribuido en k clases, la Profundidad de una clase, para las clases inferiores, es igual a su frecuencia acumulada absoluta. Para el caso de las clases superiores la profundidad de la k- ésima clase es fk; la de la clase (k–1) es (fk + fk-1); la de la clase (k-2) es (fk + fk-1 + fk-2); y con este patrón de cálculo, hasta llegar a la clase previa a la que incluye la mediana. Para el ejemplo en el que presentáramos los diagramas de tallo y hojas, la profundidad de la primera clase es 8; la de la segunda 18; la de la sexta 3; la de la quinta 9; la de la cuarta 18; la clase central contiene a la Mediana, tiene catorce observaciones. La primera y la segunda son clases inferiores, en tanto que la cuarta, quinta y sexta son superiores. 37
  • 38. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.9.4.- Valores aberrantes detectados en diagramas de caja En Estadística, los valores aberrantes o valores extremos son motivo de notable preocupación y estudio; y, en la misma línea que se construye la media cortada Tα, es cada vez mas difundido, sobre todo entre los fabricantes de “paquetes estadístico computacionales” restringir la muestra utilizando el concepto de Rango intercuartil RI, lo cual permite construir las denominadas Cercas; la Cerca Interior y la Cerca Exterior de la muestra. Utilizando un diagrama de caja, se considera que una observación constituye un presunto valor aberrante, si se ubica a 1.5RI abajo de Q1 o 1.5RI arriba de Q3. La Cerca Interior de un conjunto de datos está a 1.5RI a la izquierda de Q1, mientras que la Cerca Exterior está a 1.5RI, a la derecha de Q3. Véase Figura 1.15 Formalizando, un valor observado se constituye en un presunto valor aberrante si: a) toma un valor menor que max[ X(1) , Q1 – 1.5RI ]; o, b) toma un valor mayor que min[ X(n) , Q3 + 1.5RI ] Si realmente el valor bajo sospechas es “aberrante”, esto es, no proviene de la población objetivo de la que se ha tomado la muestra, debe ser determinado a través de un análisis de consistencia de los datos. Ejemplo 1.15 En el ejemplo 1.13 se encontró que Q1 = 4 y Q3 = 9. Determine que valores observados serían “sospechosos” de convertirse en valores aberrantes. Desarrollo. Tenemos que, RI = Q3 – Q1 = 9 – 4 = 5 Luego, (1.5)RI = 1.5(5) = 7.5 Por tanto una observación podría ser un valor aberrante si es mayor que: (7.5) + 9 = 16.5 = (1.5)RI + Q3 O si es menor que:38
  • 39. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones 4 – 7.5 = -3.5 = Q1 – (1.5) RI Por lo tanto, en la muestra XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) No existe valor aberrante ya que X(1) > -3.5 y X(20) < 16.5 ♦ En la Figura 1.15 encontramos el caso donde el diagrama de cajas enuncia observaciones sospechosas de ser valores aberrantes, cuatro en el extremo superior y tres en el inferior, allí se grafica el significado de 1.5RI. Figura 1.15 Valores Aberrantes detectados en un Diagrama de Caja RI 1.5RI 1.5RI -30 -20 -10 0 10 20 30 40 50 60 701.10.- TRABAJO CON DOS O MÁS VARIABLES1.10.1.- El Coeficiente de Variación En las secciones previas hemos estudiado una muestra de tamaño n, sobre la que se investiga una sola característica, mas, lo usual es que al tener una Población Objetivo constituida por N unidades de investigación, tratemos de conocer mas de una característica de la misma y probablemente, la idea sea buscar relaciones entre las distintas características objeto de estudio. Con tal fin, en esta sección presentaremos técnicas estadísticas que permiten establecer relaciones entre distintas características de una misma población. Dos características correspondientes a una misma población objetivo, pueden cuantitativamente diferir en escala por estar medidas en diferentes unidades o por que comparativamente difieren aun estando medidas en las mismas unidades; esto se lo detecta graficando de manera simultánea los dos diagramas de caja de cada una de ellas y estableciendo las comparaciones que 39
  • 40. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones correspondan. Las diferencias en tendencia central y dispersión quedan establecidas claramente en la Figura 1.16 Figura 1.16 Diagramas de Caja Diferenciados Variable 2 Variable 1 -2.50 0.00 2.50 5.00 7.50 10.00 12.50 Si bien el Coeficiente de Variación V está definido para una muestra, permite, de alguna forma comparar dos variables o características. Dada una muestra XT = (X1 X2 ... Xn) que tiene media aritmética x y desviación estándar s, se define a V=s/ x . Se supone que mide la “dispersión relativa” de X con respecto a x , de igual manera puede servir como una medida comparativa entre dos variables X y Y, cuando las escalas en que se las mide, difieren de manera notoria; dígase por ejemplo que X es estatura en centímetros y que Y es ingreso en dólares.1.10.2.- Gráficos Q - Q Otro instrumento de alta utilidad para comparar variables de una misma muestra o una misma variable correspondiente a distintas muestras, son los denominados Gráficos Q-Q; estos gráficos ubican los cuantiles de una variable en el eje horizontal y los de la otra en el eje vertical. Si las variables cuyo Gráfico Q-Q se obtiene, son equivalentes, el gráfico será una recta con pendiente uno y cuya intersección con el eje vertical es cero. Si la pendiente de la recta es mayor que uno, esto significa que la variabilidad de la característica representada en el eje horizontal es mayor que la de la representada en el eje vertical. El argumento se revierte cuando la pendiente es menor que uno. La utilidad de los Gráficos Q-Q ha sido realzada por quienes efectúan Control de Calidad en distintos ámbitos productores de bienes o servicios.40
  • 41. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.11.- ESTADÍSTICA DESCRIPTIVA MULTIVARIADA1.11.1- Vector de Medias y Matriz de Covarianzas Si se investigan p características a las unidades de una población objetivo, a través de una muestra aleatoria de tamaño n, se van a generar nxp valores, contenidos en n vectores de la forma, Xi = [ xi1 xi2 ... xip]T; i = 1; 2; … ; n. Cada uno de estos vectores Xi contiene los datos que se reportan en uno de los n formularios o cuestionarios que se hayan administrado y llenado en la investigación; ellos constituyen las columnas de una matriz Y∈Mpxn, la que se denomina Matriz de Datos, esto es, ⎡ x11 x12 x1n ⎤ ⎢x x 22 x2n ⎥ Y = [X1 X2 ... Xn] = ⎢ 21 ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ x p1 x p2 x pn ⎥ ⎣ ⎦ La fila i-ésima de Y representa las n lecturas de la i-ésima característica investigada en la población objetivo, mientras que el valor xij corresponde al j-ésimo valor de la i-ésima característica. Recuérdese que i varía de uno a n y j varía de uno a p. Las medias aritméticas muestrales n ∑x − 1 xi = n ij j=1 así como las covarianzas muestrales n ∑ (x 1 sik = n − 1 ij − x i )( x kj − x k ) = ski j=1 Es posible conformar un Vector de Medias Muestrales x = [ x 1 x 2 ... x n ]T y una Matriz de Varianzas y Covarianzas Muestrales S=( sik) ; i, k=1,2, ...p 41
  • 42. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Podría parecer extremadamente complicado calcular el vector de medias muestrales así como la matriz S de varianzas y covarianzas muestrales, sin embargo, si utilizamos matrices esto se vuelve relativamente simple, mucho mas si disponemos de los paquetes estadísticos adecuados. El vector 1n∈Rn, es definido como 1n = (1 1 ... 1)T , lo constituyen n números uno y nos permite, con la ayuda adicional de la matriz de datos Y, definir el vector de medias muestrales de la siguiente manera, x = 1 Y1n n Mientras que la matriz S es igual a, 1 1 S= Y (I - 1n 1nT )YT. n −1 n En la última expresión I es la matriz identidad nxn. Nótese que sii es igual a s i2 , esto es, la covarianza muestral entre Xi y Xi es la varianza muestral de Xi. Ejemplo 1. 16 A cinco estudiantes de nivel superior se les pregunta durante una encuesta piloto, su edad en años, número de hermanos e ingreso promedio mensual de su hogar, en dólares, respondiendo ellos de la siguiente manera: Figura 1.17 Tabla de Datos Número de Ingreso Estudiante Edad Hermanos Mensual 1 19 3 930 2 18 0 750 3 19 4 785 4 21 1 1230 5 20 3 955 Se requiere determinar el vector de medias aritméticas de la muestra y la correspondiente matriz de covarianzas. Desarrollo. Se cuenta con p = 3 características de una población objetivo constituida por estudiantes de nivel superior. X1 que es la edad de los estudiantes, X2 es el número de hermanos y X3 constituye el ingreso mensual en dólares de sus42
  • 43. ESTADÍSTICA G. Zurita Fundamentos y Aplicacionescorrespondientes hogares.El tamaño de la muestra es n = 5.Los vectores que constituyen la muestra son: X1 = [ 19 3 930 ] X2 = [ 18 0 750 ] X3 = [ 19 4 785 ] X4 = [ 21 1 1230] X5 = [ 20 3 955]Cada vector está constituido por los p=3 datos que entregacada uno de los n=5 informantes; estos cinco vectoresconstituyen las cinco columnas de la Matriz de Datos Y, queconsecuentemente es una matriz 3x5; por lo que la matriz dedatos es : Y = [ X1 X2 X3 X4 X5]Reemplazando los valores numéricos extraídos de la Figura1.17, tenemos que ⎡ 19 18 19 21 20⎤ Y = ⎢3 0 4 1 3⎥ ⎢ ⎥ ⎢930 750 785 1230 955 ⎣ ⎥ ⎦Para obtener el vector de medias aritméticas que es igual1 Y15 , siendo 15 la matriz 5x1 que tiene el número “uno” en5cada una de sus cinco posiciones que la constituyen, enrealidad 15 ∈R5. 1 Y15 = [19.40 2.20 930]T 5Significando esto, que la edad promedio de los entrevistados es19.40 años; el número promedio de hermanos es 2,20; y, elingreso medio de los correspondientes hogares es 930 dólaresal mes.La matriz de varianzas y covarianzas S de la muestra es unamatriz simétrica 3x3, que como quedó establecido es igual aS= 1 Y(I - 1 1n 1nT )YT. Siendo n = 5; esta matriz se la n −1 npresenta a continuación: ⎡ 1.30 0.15 201.25 ⎤ S = ⎢ 0.15 2.70 − 51.25 ⎥ ⎢ ⎥ ⎢201.25 − 51.25 36012.50⎥ ♦ ⎣ ⎦ 43
  • 44. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.11.2.- Coeficiente de correlación de muestrasCoeficiente de Talvez el mas utilizado indicador de relaciones entre dosCorrelación Lineal variables X y Y de una misma muestra, esto es, se han medidoMide la fortaleza de dos distintas características de una misma población objetivo, esla relación lineal que el denominado Coeficiente de Correlación Lineal rxy de unaexiste entre dosvariables X y Y muestra, cuyo objetivo es medir la “fortaleza” de la relación lineal que existe entre dos variables X y Y. Este “coeficiente” Se lo define y denota de la siguiente manera: n rxy = ∑ i =1 (X i − x )(Yi − y) (Xi − x ) 2 (Yi − y) 2 = Corr(X,Y) Se supone que X y Y son medidas de forma “pareada”, es decir Xi y Yi son medidas de dos diferentes características de la misma unidad de investigación, llamémosla ui; puede ser por ejemplo que a un grupo humano se le pregunte al mismo tiempo su edad y el número de hijos; o, que a una mata de banano se le registre su altura y edad; o, que a un mismo circuito eléctrico se le mida su impedancia y amperaje. Centraremos nuestra explicación en dos variables, pero será obvio que la misma puede ser extendida a las p variables motivo de estudio, que usualmente se presentan en lo que se denomina la matriz de datos Y que ya hemos comentado e ilustrado en líneas previas. La definición dada para rij es equivalente a: s ij r ij = s is j Donde sij es la covarianza entre Xi y Xj, mientras que si es la desviación típica de Xi y sj la de Xj. Como ya la señaláramos esta definición de correlación lineal puede ser extendida a mas de dos variables, digamos que a p de ellas lo cual hace posible que calculemos dos, tres o mas “correlaciones”, la de X1 con X2; la de X1 con X3; y, la de X2 con X3 si fuera el caso de p = 3. Nótese que de acuerdo con la definición de coeficiente de correlación se tiene que Corr(Xi ,Xj) = Corr(Xj ,Xi) = rij. Si p = 3, podemos construir una matriz simétrica R que es 3x3 y que en la posición (i,j) contenga Corr(Xi ,Xj) = rij. Esta matriz se denomina matriz de correlación de la muestra, R = ( rij)∈S3x344
  • 45. ESTADÍSTICA G. Zurita Fundamentos y AplicacionesDonde S3x3 es el conjunto de las matrices simétricas3x3. ⎡ r11 r12 r13 ⎤ ⎢ r23 ⎥ r = ⎢r21 r22 ⎥ ⎢ r31 ⎣ r32 r33 ⎥ ⎦Nótese que rii es “uno” y representa la correlación entre Xi y Xi,lo cual significa que todos los elementos de una diagonal deesta matriz de correlación son unos.Se puede probar que rij toma valores entre –1 y 1. Un valor derij igual a uno indica la existencia de una relación lineal“perfecta” entre X y Y, dicha relación tiene pendiente positivalo que significa que si X crece Y también crece; si rij toma elvalor –1, la relación lineal es decreciente, es decir que mientrasX crece, Y decrece y viceversa. Valores intermedio de rij (entre1 y 0 o entre -1 y 0) significan que la relación lineal vadeteriorándose y cuando llega a cero, sea desde la izquierda odesde la derecha, la relación lineal desaparece.Téngase en cuenta que cuando se miden n veces dos o mascaracterísticas de una misma población objetivo, la muestra yano es un vector en Rn sino una matriz de p filas y n columnas. Sise midieran tres características X1, X2, y X3 a cuatro personas lamatriz de datos Y, que representa la muestra sería, ⎡ X 11 X 12 X 13 ⎤ ⎢X X 22 X 23 ⎥ YT = ⎢ 21 ⎥ ⎢ X 31 X 32 X 33 ⎥ ⎢ ⎥ ⎣ X 41 X 42 X 43 ⎦Siendo Xij la j-ésima característica medida a la i-ésima persona.Ejemplo 1.17 Con los datos del problema previo calcular la matriz R y con ello los tres coeficientes de correlación. Desarrollo. Téngase en cuenta que s ij rij = si s j Donde sij es la covarianza muestral entre la característica i-ésima, Xi, y la característica j-ésima, Xj. Además si es la desviación típica de Xi y sj la de Xj. Aplicando lo 45
  • 46. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones previamente señalado, obtenemos que R es la matriz simétrica siguiente: ⎡ 1 0.080 0.930 ⎤ R= ⎢ ⎢0.080 1 − 0.164⎥ ⎥ ⎢0.930 − 0.164 ⎣ 1 ⎥ ⎦ 0.080 es r12, 0.930 es r13, y -0.64 es r23. Esto nos dice que existe una fuerte relación lineal entre X1 y X3, y que es positiva, mientras que la relación entre X2 y X3 es negativa y relativamente débil. Sobre la diagonal existen números “uno” que son en realidad varianzas de las variables Xi “estandarizadas”. ♦1.12.- OBSERVACIÓN DE PROCESOS EN EL TIEMPO1.12.1.- Series Temporales y Filtros Siempre estaremos preocupados de la distribución de frecuencias de una variable, de su tendencia central y dispersión, sin embargo es cada vez mas frecuente hacer mediciones de una variable aleatoria X con igual espaciamiento en el tiempo t, durante un periodo finito T o un lapso abierto. Todos podemos observar el valor X(t) que toma la cantidad de Kilovatios hora que consumimos cada mes en nuestro hogar o en el lugar que trabajamos, o la cantidad de dólares que mensualmente ganamos o lo que en cada edición de los periódicos aparece que no son mas que los precios de acciones en la bolsa de valores. Este mismo tipo de series están presentes en los procesos industriales cuando cada hora anotamos el valor de una característica de un producto que está en la línea de producción, con lo que pretendemos verificar la calidad del producto y el estado mismo del proceso. Hablamos de Series Temporales o Series de Tiempo. En la Figura 1.18 aparece una Serie de tiempo, (t,X(t)), que representa un proceso temporal que realmente ha ocurrido, se trata de la serie semanal del número de “robos agravados” denunciados en el Ministerio Público de la ciudad de Guayaquil, durante el año 2006 y el primer semestre el año 2007. Esta es una investigación realizada por el Centro de Estudios e Investigaciones Estadísticas, en colaboración con la Fiscalía del Guayas, y el Municipio de Guayaquil.46
  • 47. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.18 Serie Temporal del Delito: Robo Agravado* Correspondiente al período de 31 de Diciembre de 2005 a 13 de Abril de 2007 180 166 160 152 154 137 136 146 140 136 129 130 128 129 125 126 124 131 131Número de Delitos 122 120 118 117 117 116 112 109 108 110 111 118 106 109 119 111 103 99 105 104 112 100 98 9696 107 107 105 100 99 100 97 99 100 100 101 98 94 94 94 98 89 96 93 80 86 89 84 87 81 83 78 78 71 60 40 20 S Robo Agravado e 0 Año 2006 Año 2007 Semanas Fuente de datos: Ministerio Fiscal de Guayaquil Elaborado por: Centro de Estudios e Investigaciones Estadísticas ICM-ESPOL Lo primero que se trata de descubrir en una serie temporal es si es “estacionaria” esto es si se estabiliza alrededor de algún valor Ruido o si no es estacionaria pero tiene tendencia a crecer o decrecer Perturbaciones no a partir de indeterminado valor del tiempo. Si bien el análisis de controladas dentro del proceso las tendencias de una serie temporal es motivo de cursos especializados; para efectos de este libro nos centraremos en la presencia de perturbaciones no controladas dentro del proceso, también denominadas ruido, perturbaciones que producen valores que hacen difícil determinar la presencia de un determinado patrón de comportamiento de la serie temporal bajo consideración. Filtro de Medias Una forma de reducir este ruido es mediante la construcción de Móviles de k- filtros supresores de oscilaciones extremas. Muchas son las términos Reemplazo de cada técnicas de filtrado que pueden utilizarse, pero una muy popular observación X(t) por y ampliamente utilizada por su simplicidad y eficiencia es la de el promedio de ese Filtros de Medias Móviles, que consiste en reemplazar cada valor y los (k-1) observación X(t) por el promedio de ese valor y los (k-1) valores previamente valores previamente observados, éste es un Filtro de Medias observados Móviles de k-términos. En definitiva, al aplicar un filtro de medias móviles de k- términos, la observación X(t) leída al tiempo t del proceso, se la reemplaza por el valor Y(t) definido como: 1 Y( t ) = [(X( t ) + X( t − 1) + ... + X( t − k + 1)] k 47
  • 48. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones En la Figura 1.19 se muestra la serie temporal del delito denominado “robo simple”, en el mismo período que la anterior serie de delito; también se observa la serie filtrada, o suavizada, utilizando un filtro de cuatro términos. Nótese que X(1) y Y(1) coinciden; que Y(2) es el promedio de solo dos términos previamente observados; Y(3) solo de tres valores observado; y, recién Y(4) y los posteriores valores calculados, son el resultado de aplicar, en su extensión un filtro de cuatro términos. Véase tabla adjunta a Figura 1.19 Figura 1.19 Serie Temporal del Delito: Robo Simple Correspondiente al período de 31 de Diciembre de 2005 a 13 de Abril de 2007 350 300 300 285 287 287 265 257 259 250 251255 248 250 238 240 235 233 246 246 231 225Número de Delitos 218 230 229 232 208 206 211 223 202 200 198 217 204 200 209 205 211 204 180176 178 184 187 194 191 174 186 188 193 193 161 173 173 155 169 172 150 166 162 152 154 151 135 143 128 131 120 123 100 108 112 50 S Robo Simple 0 Año 2006 Año 2007 Semanas Fuente de datos: Ministerio Fiscal de Guayaquil Elaborado por: Centro de Estudios e Investigaciones Estadísticas ICM-ESPOL 1.12.2.- Causas de Variación de un Proceso Una vez filtrada la serie, es importante observar su gráfico para así intentar descubrir patrones que denuncien si la serie es estacionaria o si crece o decrece en determinado lapso y a partir de un punto específico; es también relevante reflexionar sobre las causas que producen estas variaciones. Todo proceso está sujeto a variación, puede que las causas que lo hacen variar le sean inmanentes o pudiera que se trate de efectos impredecibles o que se presentan periódicamente. El primer tipo de causas de variación se denominan causas comunes y el segundo tipo causas especiales. Para remover una causa común, se requiere modificar el proceso en sí, en cambio las causas especiales se las puede remediar con medidas de detección y corrección durante el proceso. 48
  • 49. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones1.12.3.- Cartas de Control Cuando a mediados del siglo veinte se da pábulo a la filosofía de la “calidad sobre la cantidad” ya se contaba con uno de los instrumentos hasta hoy profusamente utilizados en ingeniería de la calidad y particularmente en el Control Estadístico de la Calidad: las Cartas de Control. Estos instrumentos fueron inventados por Schewart, en las primeras décadas del siglo veinte, para controlar la variabilidad en el tiempo de una característica cuantitativa que corresponde a un producto, sea este bien o servicio, que esté en proceso de elaboración. En la Figura 1.20 se presenta como luce una de estas cartas; consiste de un gráfico en el plano en el que destacan tres líneas, una Central, una superior y otra inferior, estas dos últimas equidistantes de la central. La primera de las nombradas se denomina Línea Central de la Carta, y representa el nivel medio deseado para la característica; la superior se denomina Línea Superior de Control y se encuentra a tres desviaciones típicas arriba de la Línea Central. Debajo de la Línea central y a tres desviaciones de distancia se encuentra la Línea Inferior de Control. Estas cartas tienen sus reglas de decisiones, que permiten declarar a un sistema de producción, “fuera de control” o “bajo control”. Figura 1.20 Cartas de Control 20 Característica de Interés 15 Línea Superior 10 Línea Central 5 Línea Inferior 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 t1.13.-DATOS CUALITATIVOS1.13.1.- Escalas de medidas De lo desarrollado hasta el momento parecería que las técnicas estadísticas son solo aplicables a mediciones cuantitativas, lo cual no es cierto, pues si bien estas técnicas se desarrollan en base a principios matemáticos y por tanto bajo nociones cuantitativas, siempre es posible habilitar un camino que permita tratar estadísticamente variables no cuantitativas, inclusive en el caso de que ellas no tengan un orden establecido. 49
  • 50. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Una variable cualitativa puede tener un orden, por ejemplo nivelEscala NominalEscala utilizada de educación formal, tipo de delito, o punto de vista sobrecuando la medición determinado asunto de interés de las personas entrevistada; oefectuada no solo que puede que no tenga un orden, como el color de los ojos de lasestá exenta de una personas, la raza de un grupo humano, el género o la religión.noción cuantitativa Uno de los primeros instrumentos que utiliza la Estadística parasino que tampocopuede asignársele a tratar variables cualitativas son las Escalas; el primer tipo es lasus valores una Escala Nominal, utilizada cuando la medición efectuada noposición u orden, solo que está exenta de una noción cuantitativa sino quesimplemente se les tampoco puede asignársele a sus valores una posición u orden,asigna categorías simplemente se les asigna categorías, esto último hace que a las variables cualitativas no ordenables también se las denomina variables categóricas. Son ejemplos de variables categóricas laVariables raza humana, con sus valores negro, amarillo y blanco y suscategóricas diferentes mezclas; el colegio donde se graduó un bachillerVariables cualitativasno ordenables ecuatoriano, con sus valores fiscal, particular laico, particular religioso, fisco misional e internacional. Si bien en caso de escalas nominales puede ocurrir que a cada uno de los valores que tome la variable, para efectos del tratamiento informático, se le asigne un código numérico a sus valores, este código no sirve de modo alguno para calcular medias, varianzas o cuantiles ya que la noción cuantitativa u ordinal está ausente. En la Figura 1.21 se muestra un diagrama de barras de la variable categórica “tipo de bachiller graduado en la ESPOL”. Figura 1.21 Diagrama de Barras de la variable categórica “Tipo de Bachiller graduado en la ESPOL” Físico M at emát ico 0,73 Elect ricidad 0,08 Informát ica 0,06 Quí mico Biólogo 0,03 M ecánica 0,03 Elect rónica 0,02 Ciencias 0,02 Sociales 0,01 Ot ras 0,01 0,00 0,20 0,40 0,60 0,80 Esto es solo una muestra de cómo agrupar y mostrar algún tratamiento estadístico de datos categóricos, en posteriores capítulos volveremos a tratar este tipo de variable a fin de determinar la “independencia” de dos o mas de este tipo de variables. Cuando está presente algún tipo de ordenamiento en los valores de una variable cualitativa, es posible utilizar Escalas50
  • 51. ESTADÍSTICA G. Zurita Fundamentos y AplicacionesEscala Ordinal Ordinales, este tipo de escala produce un escalafón oEscala en la que está “ranking”. Quien logra el número 1 es el que muestra la mayorpresente algún tipo de cantidad de la variable medida, puede ser la cantidad deordenamiento en los ansiedad que muestren las personas bajo ciertas condiciones ovalores de una la posición en la que arriben en una competencia un grupo devariables cualitativa.Produce un escalafón atletas. La escala ordinal sin embargo, no determina diferenciaso ranking entre posiciones consecutivas, en cuanto a magnitud de la variable; bien puede ser que el atleta que llega en la primera posición tenga una diferencia de dos segundos con el que llega en la segunda posición, pero el tercero llega a un minuto del segundo. La escala solo provee información sobre orden, no sobre cuanto de la variable medida existe. Este tipo de escalas son usualmente una primera etapa de clasificación, para posteriormente lograr medidas de mas alta precisión.1.13.2.- Escalas de ClasificaciónEscalas de Cuando se trata de dar una opinión o establecer una posiciónClasificaciónLlamadas también usualmente se plantea al entrevistado una proposición sobre laescalas Likert. que debe pronunciarse, y de esta forma son requeridas lasRequieren que el Escalas de Clasificación, o escalas Likert, las mismas queinformante se requieren que el informante se pronuncie sobre una proposición,pronuncie sobre una no sobre una pregunta; el pronunciamiento tiene que efectuarseproposición, no sobreuna pregunta y el concordante con una escala arbitraria que comienza en elpronunciamiento tiene número uno, que debe ser marcado por quienes están enque efectuarse “Completo Desacuerdo” con la proposición, hasta llegar alconcordante con una número cinco cuyo valor es marcado por quienes están enescala arbitraria que “Completo Acuerdo” con lo propuesto; el dos es “Desacuerdo”comienza en elnúmero uno por el tres “Indiferencia” y el cuatro “Acuerdo” pero no “Completoquienes están en Acuerdo” que como ya dijimos, se lo señala con cinco.“CompletoDesacuerdo” hasta En la Figura 1.22 se presenta el histograma de una proposiciónllegar al número cinco que se les consultara a un grupo de graduados de la Politécnicapor quienes están en“Completo Acuerdo” del Litoral durante el proceso de Autoevaluación de dichacon lo propuesto institución el año 2006; en la Figura 1.23 se presentan gráficos simultáneos de las respuestas dadas por una misma población, a varias proposiciones. En esta última figura se puede observar cómo el pronunciamiento de un grupo humano sobre distintos tópicos, puede compararse de manera efectiva, utilizando un gráfico sumamente sencillo. Figura 1.22 Proposición: “En la enseñanza que ofrece la ESPOL se equilibra lo teórico y lo práctico” 0 .50 0.44 0 .4 5 0.40 0 .3 5 0.31 0.30 0 .2 5 0.20 0.13 0.15 0.08 0 .10 0.04 0 .0 5 0.00 Complet o Parcial Desacuerdo Desacuerdo Indif erencia Parcial A cuerdo Complet o A cuerdo 51
  • 52. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Fuente: Centro de Estudios e Investigaciones Estadísticas ICM ESPOL Figura 1.23 Gráficos Simultáneos de características consultadas a un grupo de graduados de la ESPOL durante su proceso de Autoevaluación institucional el año 2006 Características Generales Fuente: Centro de Estudios e Investigaciones Estadísticas ICM ESPOL 1,00 1,00 El Profesional Politécnico desarrolla su actividad favoreciendo al medio ambiente y haciendo uso racional de los recursos puestos a su disposición. 0,90 0,90 Programas de educación a distancia y semipresenciales son opciones válidas en el contexto de la educación politécnica. 0,80 0,80 Cada vez son mas escasas las oportunidades de trabajo, por lo que el profesional de hoy y del futuro debe poseer “ Espíritu Emprendedor” , para en muchos casos generar su propia 0,70 0,70 ocupación. Una vez que me he graduado y realizado actividades fuera de las aulas politécnicas, comprendo que es importante aprender con la ayuda de un profesor, pero mas importante es que se llegue a “ saber aprender” sin esa ayuda. 0,60 0,60 No siempre el Profesional Politécnico recibe una remuneración concordante con su preparación. 0,50 0,50 La receptividad del empleador es siempre lo suficientemente amplia para que se le permita al profesional politécnico sugerir e implantar nuevos esquemas de trabajo, para los procesos que efectúa la empresa. 0,40 0,40 La carrera de la que soy graduado de la ESPOL cumplió con mis expectativas. 0,30 0,30 La formación que la ESPOL da a sus graduados supera los requerimientos de los puestos en las organizaciones ecuatorianas. 0,20 0,20 La ESPOL se preocupa de mantener una comunicación con sus graduados. 0,10 0,10 La ESPOL a través de su actividad docente da respuestas válidas a las necesidades de desarrollo del país. 0,00 0,00 Es evidente, que la ESPOL es una institución con capacidad para mejorar Co mpleto P arcial Indiferencia P arcial A cuerdo Co mpleto de manera permanente y continua, en lo Desacuerdo Desacuerdo A cuerdo referente a las actividades que como centro de educación superior ejecuta.52
  • 53. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Acerca de la ESPOL Fuente: Centro de Estudios e Investigaciones Estadísticas ICM ESPOL1,00 1,00 En t érminos generales la f ormación que da la ESPOL garant iza el éxit o de los prof esionales que f orma. La f ormación Mat emát ica que recibí durant e mi est adí a como est udiant e en la ESPOL0,90 0,90 f ue la adecuada. La f ormación en Ciencias Nat urales (Fí sica, Quí mica, Biologí a) que recibí durant e mi est adí a como est udiant e en la ESPOL f ue la adecuada. La f ormación en Ciencias Humaní st icas que recibí0,80 0,80 durant e mi est adí a como est udiant es en la ESPOL f ue la adecuada. La f ormación en Inf ormát ica que recibí durant e mi est adí a como est udiant e en la ESPOL f ue la adecuada.0,70 0,70 En la enseñanza que of rece la ESPOL se equilibra lo t eórico y lo práct ico. La ESPOL deberí a involucrarse de f orma cont inua en Proyect os de Invest igación que sean t rascendent es para0,60 0,60 la sociedad. Desde mi perspect iva como prof esional polit écnico, en est e moment o puedo asegurar que la calidad del prof esorado por el cual f ui f ormado, t ení a un nivel t eórico y de práct ica prof esional que era sat isf act orio.0,50 0,50 La present ación y comport amient o de un graduado de la ESPOL son siempre adecuados para la ocasión. Uno de los mayores obst áculos para el desarrollo del prof esional polit écnico es su escasa f ormación en0,40 0,40 comunicación oral. Uno de los mayores obst áculos para el desarrollo del prof esional polit écnico es su escasa f ormación en comunicación escrit a. Uno de los mayores obst áculos para el desarrollo del0,30 0,30 prof esional polit écnico es su escasa habilidad para relacionarse con t erceros. Uno de los mayores obst áculos para el desarrollo del prof esional polit écnico es su escasa habilidad para t rabajar en equipo.0,20 0,20 Uno de los mayores obst áculos para el desarrollo del prof esional polit écnico es su escasa habilidad para organizar y planif icar. Uno de los mayores obst áculos para el desarrollo del0,10 0,10 prof esional polit écnico es su escasa habilidad para t omar decisiones oport unas. Uno de los mayores obst áculos para el desarrollo del prof esional polit écnico es su escasa capacidad para adapt arse a los cambios.0,00 0,00 Uno de los mayores obst áculos para el desarrollo del Co mpleto P arcial Indiferencia P arcial A cuerdo Co mpleto prof esional polit écnico es su escasa habilidad para innovar Desacuerdo Desacuerdo A cuerdo y crear. Un grupo de variables cualitativas han sido cuantitativamente analizadas dando una magnitud a las respuestas de los entrevistados. Este tipo de escalas, de clasificación, pueden también ser utilizadas cuando se desea investigar características humanas o de productos que sean representables por los distintos grados que toma un adjetivo y su negación. En el extremo izquierdo, inferior, coincidiendo con el “cero” está el adjetivo Deshonesto, por ejemplo y en el extremo derecho o “superior” coincidiendo con el número cinco, está el adjetivo honesto. Se le puede proponer a los miembros de la Población Objetivo que se 53
  • 54. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones pronuncie en esa escala, cuando la proposición es “Todo funcionario público es honesto”. Quien crea que los funcionarios públicos son en general deshonesto le asignará el valor “cero” y quienes lo tipifiquen como honesto marcarán el “cinco”. Todo lo intermedio puede ser utilizado, por ejemplo un tres para quienes les resulte indiferente el tema, o un cinco para quienes estén convencidos que los funcionarios públicos son honestos. El autor ha ensayado con recomendable éxito, escalas de clasificación en la que se le pide al informante calificar el grado de acuerdo o aceptación que sienten frente a una proposición, con un número entre cero y diez, siendo cero completo desacuerdo y diez completa satisfacción o completo acuerdo. Teniendo en cuenta que no todos los miembros de la población objetivo están obligados a diferenciar entre número real y número entero; se les sugiere no escribir mas de dos decimales de precisión, con esto se ha logrado que los mas ilustrados sepan con qué “grado de precisión” pueden trabajar y los menos ilustrados saben que pueden ir mas allá de los enteros. Se presenta en la Figura 1.24 un cuadro utilizado en un reporte técnico efectuado con “escala real” por el Centro de Estudios e Investigaciones Estadísticas ICM-ESPOL. Figura 1.24 Cuadro con Escala Real Población Objetivo: Estudiantes Escriba en esta columna No Proposición su Calificación (Sobre Diez) En términos generales, se puede afirmar que el profesorado de la 1.- ESPOL emplea técnicas e instrumental didáctico moderno para el 8.50 desarrollo del proceso enseñanza aprendizaje. Fuente: Centro de Estudios e Investigaciones Estadísticas ICM ESPOL54