Modulo 5 medidas descriptivas
Upcoming SlideShare
Loading in...5
×
 

Modulo 5 medidas descriptivas

on

  • 1,569 views

 

Statistics

Views

Total Views
1,569
Views on SlideShare
1,569
Embed Views
0

Actions

Likes
3
Downloads
56
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Modulo 5 medidas descriptivas Modulo 5 medidas descriptivas Presentation Transcript

    • Módulo 3
    • Medidas DescriptivasPara condensar y describir los datos se utilizan las medidas deTendencia central , las medidas de dispersión y las medidas deAsimetría y forma.A las medidas de tendencia central se les conocen así, ya quepueden condensar en un solo valor central alrededor del cualtodos los datos se distribuyenVariabilidad o dispersión: se refiere a la extensión de los datos deuna distribución, es decir el grado en que las observaciones sedistribuyenForma o Sesgo: las curvas que representan los puntos de un conjuntode datos pueden ser sesgadas o simétricas.En una curva simétrica una línea vertical que pase por el punto más alto de la curva divideel área en dos partes iguales.En una curva sesgada los valores de su distribución de frecuencias están concentrados enel extremo inferior o en el superior de la escalad e medición horizontal
    • Medidas DescriptivasTendencia Central Variabilidad FormaY Posición • Media • Rango • Sesgo • Mediana • Desviación Típica • Curtosis • Moda •Varianza • Simetría • Cuartiles • Coeficiente de • Deciles Variación • Percentiles
    • Tendencia Central o de PosiciónLas medidas de tendencia central son valores numéricos queseñalan un tipo de centro de un conjunto de datos, centroque se utiliza para representar el conjunto.Las medidas de posición facilitan información sobre la serie dedatos que se está analizando.Estas medidas permiten conocer diversas características deuna serie de datos.
    • Las medidas de posición son de dos tipos:•Medidas de posición central:Informan sobre los valores medios de la serie de datos.Son medidas que buscan posiciones (valores) con respecto a losque los datos muestran tendencia a agruparse.•Medidas de posición no centrales:•Informan de como se distribuye el resto de los valores de la serie.Permiten conocer otros puntos característicos de la distribuciónque no son los valores centrales.
    • Medidas de posición central Media Mediana Moda Medidas de posición no centrales CuartilesCUANTILES Deciles Percentiles
    • MediaEs el valor medio ponderado de la serie de datos. Sepueden calcular diversos tipos de media, siendo lasmás utilizadas:Media aritméticaMedia geométricaMedia armónica
    • Media Aritmética o Promedio• Es la media aritmética de los valores de una variable.• Es la suma de los valores dividido por el tamaño muestral.• Conveniente cuando los datos se concentran simétricamente con respecto a ese valor.• Muy sensible a valores extremos.• Es el centro de gravedad de un conjunto de datos.
    • SIMBOLOGIAESTADISTICAS POBLACION MUESTRADESCRIPTIVASMEDIAARITMETICA  x
    • Media Aritmética Para Datos No agrupadosPara un conjunto de datos X1 ………XN, de una población, en suforma no agrupada, la media aritmética se obtiene sumando todaslas observaciones del conjunto de datos y se divide por el númerototal de observaciones de la población , tal como se expresa en laecuación: N X   i 1 N i ( Población)
    • Para un conjunto de datos x1 ………xn, de una muestra, en suforma no agrupada, la media aritmética se obtiene sumando todaslas observaciones del conjunto de datos y se divide por el númerototal de observaciones de la muestra : n x i x i 1 n ( Muestra)
    • Recordando el concepto de datos agrupados….. Un conjunto de datos no agrupados se convierten en un conjunto de datos agrupados cuando éstos son organizados en una distribución de frecuencias de clase.
    • DI Media Aritmética Para Datos AgrupadosSTRI CLASES MC (Xi) fi (Xi)(fi)B 1 X1 f1 (X1)(f1)UC 2 X2 f2 (X2)(f2)IO 3 X3 f3 (X3)(f3)N 4 X4 f4 (X4)(f4)DE . . . . . . . .FR . . . .EC . . . .UE . . . .NC m Xm fm (Xm)(fm)I m m f XA TOTALES i i fi i 1 i 1
    • m X i fiPara la población  i 1 m i 1 fi m X i fi Para la muestra X  i 1 m i 1 fi Nota: El cálculo es el mismo, solo cambia la simbología utilizada
    • La media armónica resulta poco influida por la existencia dedeterminados valores mucho más grandes que el conjunto de losotros, siendo en cambio sensible a valores mucho más pequeñosque el conjunto.La media armónica no está definida en el caso de la existencia en elconjunto de valores nulos.
    • La media armónica, representada por H, de una cantidad finita denúmeros es igual al recíproco, o inverso, de la media aritmética delos recíprocos de dichos númerosAsí, dados los números a1,a2, ... , an, (NO AGRUPADOS) la mediaarmónica será igual a:
    • m f i 1 i M . Armónica   m  1     X  * fi i 1  i MGeometric  ( X1 f i ) * ( X 2 f 2 ) * ........( X m f m ) a
    • OTROS TIPOS DE MEDIAMedia geométrica (no agrupados)Se eleva cada valor al número de veces que se ha repetidoSe multiplican todo estos resultados y al producto final se lecalcula la raíz "n" (siendo "n" el total de datos de la muestra). 1 X  ( X 1  X 2  X 3  ........ X n ) n1 n2 n3 nn n
    • Por ejemplo, la media geométrica de 2 y 18 es Otro ejemplo, la media de 1, 3 y 9 seria
    • Sólo es relevante la media geométrica si todos los números sonpositivos. Si uno de ellos es 0, entonces el resultado es 0. Si hayun número negativo (o una cantidad impar de ellos) entonces lamedia geométrica es, o bien negativa o bien inexistente en losnúmeros reales.En muchas ocasiones se utiliza su trasformación en el manejoestadístico de variables con distribución no normal.La media geométrica es relevante cuando varias cantidades sonsumadas para producir un total.
    • Ventajas: Se trata de un concepto familiar para la mayoría de las personas y es intuitivamente claro. Cada conjunto de datos tiene una media, es una medida que puede calcularse y es única debido a que cada conjunto de datos posee una y sólo una media. MEDIA Es útil para llevar a cabo procedimientos estadísticos comoARITMETICA la comparación de medias de varios conjuntos de datos. Desventajas: Puede verse afectada por valores extremos que no son representativos del resto de los datos. Resulta tedioso calcular la media debido a que se utilizan cada uno de los puntos de datos en su cálculo. No se puede calcular la media para un conjunto de datos que tiene clases de extremo abierto, ya sea en el inferior o en el superior de la escala.
    • Según el tipo de datos que se analice será más apropiado utilizar lamedia aritmética o la media geométrica:• La media geométrica se suele utilizar en series de datos como tiposde interés anuales, inflación, etc., donde el valor de cada año tiene unefecto multiplicativo sobre el de los años anteriores.• En todo caso, la media aritmética es la medida de posición centralmás utilizada.• Lo más positivo de la media es que en su cálculo se utilizan todoslos valores de la serie, por lo que no se pierde ninguna información.• Sin embargo, presenta el problema de que su valor (tanto en el casode la media aritmética como geométrica) se puede ver muy influidopor valores extremos, que se aparten en exceso del resto de la serie.Estos valores anómalos podrían condicionar en gran medida el valorde la media, perdiendo ésta representatividad.
    • Se denomina media (aritmética) ponderada de un conjunto de númerosal resultado de multiplicar cada uno de los números por un valorparticular para cada uno de ellos, llamado su peso, obteniendo acontinuación la suma de estos productos, y dividiendo el resultado deesta suma de productos entre la suma de los pesos.Este "peso" depende de la importancia o significancia de cada uno delos valores.O dicho de otro modo es un promedio en el que cada valor deobservación se pondera con algún índice de acuerdo a su importancia.
    • Para una serie de datos X = { x1, x2, ..., xn}a la que corresponden los pesos W = { w1, w2, ..., wn}la media ponderada se calcula como:o: Un ejemplo es la obtención de la media ponderada de las notas de una materia en la que se asigna distinta importancia (peso) a cada una de las pruebas de que consta la evaluación.
    • La Media Pesada ó ponderada: permite calcular elpromedio que toma en cuenta la importancia de cadavalor con respecto al total. X p= Σ (wx)/ ΣwDonde w es el peso asignado a cada observación
    • Mediana Es el valor del elemento central, cuando los datos están dispuestos en orden ascendente o descendente.• Es el valor de la serie de datos ordenados que se sitúa justamente en el centro de lamuestra (un 50% de valores son inferiores y otro 50% son superiores)• Es conveniente cuando los datos son asimétricos.• No presentan el problema de estar influido por los valores extremos, pero en cambiono utiliza en su cálculo toda la información de la serie de datos (no pondera cada valorpor el número de veces que se ha repetido).
    • CALCULO DE LA MEDIANAPara Datos No agrupados• Con un número impar deobservaciones: Para Datos Agrupados . Se ordenan las observaciones por orden • Se ubica hasta quede magnitud. intervalo hay 50% de las . Se ubica la observación que está en el observaciones.medio del conjunto de datos. • Se aplica la fórmula con los• Con un número par de observaciones: datos de la distribución de frecuencias. . Se ordenan las observaciones pormagnitud. . Se calcula el promedio de las dos observaciones centrales.
    • Fórmula para el Cálculo de la Mediana de un Conjunto de Datos Agrupados  ( n  1) / 2  f acumuladaa Me  LRI   nterior   cr  f me  LRI: límite real inferior de la clase mediana n: frecuencia total f acumuladaa nterior : frecuencia acumulada anterior al intervalo donde esta localizada la mediana f me : frecuencia del intervalo donde está localizada la mediana Cr: ancho real del intervalo
    • ModaEs el valor que ocurre con mayor frecuencia en un conjuntode datosEs el/los valor/es donde la distribución de frecuencia alcanzaun máximo.Para Datos No agrupados Para Datos Agrupados• Es el valor que se repite con • Se ubica el intervalo con la frecuencia mayormayor frecuencia • Se aplica la fórmula• Si hay dos valores que se correspondiente pararepiten con mayor frecuencia encontrar la modaentonces existen dos modas
    • Fórmula para el cálculo de la Moda de un conjunto de Datos Agrupados  d1  Mo  LRI    * cr  (d1  d 2  LRI: Límite real inferior de la clase modal d1: frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente por debajo de ella. d2: frecuencia de la clase modal menos la frecuencia de la clase que está por encima de ella Cr: ancho del intervalo modal
    • De acuerdo al número de modas de un conjuntode datos se pueden dar los siguientes casos: UNIMODAL BIMODAL MULTIMODAL
    • Ventajas y desventajas de la moda:•La moda, al igual que la mediana, se puede utilizar como una posición central para datostanto cualitativos como cuantitativos.•También, al igual que la mediana, la moda no se ve mayormente afectada por los valoresextremos. Incluso si los valores extremos son muy altos o muy bajos, se escoge el valormás frecuente del conjunto de datos como el valor modal.•Se puede utilizar la moda sin importar qué tan grandes o qué tan pequeños sean losvalores del conjunto de datos, e independientemente de cuál sea su dispersión.•Se puede utilizar aun cuando una o más clases sean de extremo abierto.•Muy a menudo, no existe un valor modal debido a que el conjunto de datos no contienevalores que se presenten más de una vez.•En otras ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismonúmero de veces. Cuando los datos contienen dos, tres o más modas, resultan difíciles de• interpretar y comparar.
    • ¿Cuál medida de tendencia central se debe utilizar?• La media aritmética debe utilizarse cuando el conjunto de datos eshomogéneo.• En una distribución simétrica las tres medidas coinciden, por lo cual sepuede utilizar cualquiera.• Cuando los datos no son homogéneos se debe utilizar la mediana, ya queesta no es sensible a los valores extremos, y además no se ve altamenteinfluida por la frecuencia de aparición de un solo valor.• Cuando la población está sesgada ya sea positiva o negativamente lamediana resulta ser la mejor medida de posición.• La moda se utiliza más que todo para datos categóricos.
    • Medidas de Posición no centralesLos cuantiles son medidas de posición que se determinanmediante un método que determina la ubicación de los valoresque dividen un conjunto de observaciones en partes iguales.Son los valores de la distribución que la dividen en partes iguales,es decir, en intervalos que comprenden el mismo número de valores.Cuando la distribución contiene un número alto de intervaloso de marcas y se requiere obtener un promedio de una parte de ella,se puede dividir la distribución en cuatro, en diez o en cien partes.
    • Estadísticos de posición• Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a.• Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
    • Cuartiles, Deciles y PercentilesCuartiles: son 3 valores que distribuyen la serie de datos,ordenada de forma creciente o decreciente, en cuatro tramosiguales, en los que cada uno de ellos concentra el 25% de losresultados. Dividen el conjunto de datos en 4 partes igualesDeciles: son 9 valores que distribuyen la serie de datos,ordenada de forma creciente o decreciente, en diez tramosiguales, en los que cada uno de ellos concentra el 10% de losresultados. Dividen el conjunto de datos en 10 partesigualesPercentiles: son 99 valores que distribuyen la serie de datos,ordenada de forma creciente o decreciente, en cien tramosiguales, en los que cada uno de ellos concentra el 1% de losresultados. Dividen el conjunto de datos en 100 partesiguales
    • • Percentil de orden k = cuantil de orden k/100 – La mediana es el percentil 50. – El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%.• Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. – Primer cuartil = Percentil 25 = Cuantil 0,25. – Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana. – Tercer cuartil = Percentil 75 = cuantil 0,75.
    • – Ejemplos: El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”? • Percentil 5 o cuantil 0,05.– ¿Qué peso es superado sólo por el 25% de los individuos? • Percentil 75.– El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales. ¿Entre qué valores se encuentran los individuos normales? • Entre el percentil 5 y el 95.– ¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población? • Entre el cuartil 1º y 3º.
    • Los cuartiles son los tres valores que dividen al conjunto de datosordenados en cuatro partes porcentualmente iguales.Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartiles precisamente la mediana. El primer cuartil, es el valor en el cual o pordebajo del cual queda un cuarto (25%) de todos los valores de lasucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajodel cual quedan las tres cuartas partes (75%) de los datos. Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son también un caso particular de los percentiles. Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc. Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento académico.
    • Los percentiles son, tal vez, las medidas más utilizadas parapropósitos de ubicación o clasificación de las personascuando atienden características tales como peso, estatura, etc.Los percentiles son ciertos números que dividen la sucesiónde datos ordenados en cien partes porcentualmente iguales.Estos son los 99 valores que dividen en cien partes iguales elconjunto de datos ordenados. Los percentiles (P1, P2,... P99),leídos primer percentil,..., percentil 99.
    • Cálculo de los CuantilesPara Datos No agrupados• Se ordenan las observaciones Para Datos Agrupadospor magnitud • Se ubica hasta que intervalo están el 25% ó el• Se divide el conjunto de datos 10% de las observacionesen 4 partes iguales, o 10 partesiguales o 100 partes iguales • Se aplica la fórmula• Luego se localizan losvalores de los cuantiles
    • Fórmula General para los Cuantiles Datos AgrupadosMe = LRI + [( k(n+1)/p – faca)/ fmp] * CrLRI: límite real inferior del cuantiln: frecuencia totalfaca: frecuencia acumulada anterior al intervalo donde está localizadoel cuantilfmp: frecuencia del intervalo donde está localizado el cuantilCr: ancho real del intervaloSi se desean calcular los cuartiles p =4Si se desea calcular los deciles p= 10Si se desea calcular los percentiles p= 100
    • Medidas DescriptivasTendencia Central Variabilidad FormaY Posición • Media • Rango • Sesgo • Curtosis • Mediana • Desviación Típica • Simetría • Moda •Varianza • Cuartiles • Coeficiente de • Deciles Variación • Percentiles
    • Medidas de VariabilidadSe refiere a la extensión de los datos de una distribución, esdecir el grado en que las observaciones se distribuyen • Rango • Desviación Típica • Varianza • Coeficiente de Variación
    • Importancia de la dispersión Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos. Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersión antes de abordar esos problemas. Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de valores con respecto al centro de distribución o ésto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones más grandes.
    • Ejemplo pg 71lind marchal wathen
    • Medidas De Variabilidad Rango : mide la amplitud de los valores de la población o de una muestra Es la diferencia entre el valor mayor y el valor menor de un conjunto de datos R  Vmayor  Vmenor Datos no agrupadosR  LRSloultimointervalo  LRI primerint ervalo Datos agrupados
    • Varianza :Mide la distancia existente entre los valores de la serie y lamedia. Se calcula como la sumatoria de las diferencias al cuadradoentre cada valor y la media, multiplicadas por el número deveces que se ha repetido cada valor.Es la dispersión de los datos alrededor de la media.Es un indicador de la variabilidad expresado en unidadescuadradas.
    • Desviación Típica ó estándarEs la raíz cuadrada de la sumatoria de los cuadrados de lasdesviaciones respecto a la media.Es un indicador de la variabilidad expresado en unidadesabsolutas.
    • Calculo de Varianza para Datos No Agrupados N 2  (Xi  )   2 i 1 Población N N (X i  X) 2  2 i 1 Muestra S n 1
    • Cálculo de Desviación Estándar Datos No Agrupados N (X i  ) 2 Población  i 1 N N (X i  X) 2 Muestra S i 1 n 1
    • Ecuaciones para el cálculo de lavarianza y la desviación estándar paradatos agrupados
    • SIMBOLOGIAESTADISTICAS POBLACION MUESTRADESCRIPTIVASVARIANZA  2 2 SDESVIACIONSTANDARD  S
    • Para un conjunto de datos de una población que se agrupa en una distribución de frecuencias CLASES MC (Xi) fi ( X i   ) ( X i   ) fi 2 2 1 X1 f1 ( X 1   ) ( X 1   ) f1 2 2 2 X2 f2 ( X 2  ) 2 ( X 2   )2 f 2 3 X3 f3 ( X 3   )2 ( X 3   )2 f3 . . . . . . . . . . . . . . . . . . . . . . . . . m Xm fm . . m m Totales f i 1 i (X i 1 i  ) f i 2
    • DE LOS DATOS DE LA TABLA ANTERIOR SEOBTIENE EL CALCULO DE LA VARIANZA DE LAPOBLACION POR LA EXPRESION: m 2  ( Xi  ) fi  2  i 1 m  f i 1 i
    • CALCULO DE LA DESVIACION ESTANDAR DE LA POBLACION m 2  (Xi  ) fi  i 1 m  f i 1 i
    • Para una muestraCLASES MC (Xi) fi ( X i  X ) ( X i  X ) fi 2 2 1 X1 f1 ( X1  X ) ( X1  X ) f1 2 2 2 X2 f2 ( X 2  X ) ( X 2  X ) f2 2 2 3 X3 f3 ( X 3  X )2 ( X 3  X )2 f3 . . . . . . . . . . . . . . . . . . . . . . . . . m Xm fm . . m m Totales f i 1 i (X i 1 i X ) f i 2
    • CALCULO DE LA VARIANZA DE LA MUESTRA m 2  ( xi  x ) fi 2 i 1  m S  f 1  n 1 i 1 i¿Por qué utilizamos n – 1 como denominador en lugar de n? Los especialistas enestadística pueden demostrar que si tomamos muchas muestras de una población dada, siencontramos la varianza de la muestra para cada muestra y promediamos los resultados,entonces este promedio no tiende a tomar el valor de la varianza de la población, a menosque tomemos n – 1 como denominador de los cálculos.
    • CALCULO DE LA DESVIACION ESTANDAR DE LA MUESTRA m 2  ( xi  x ) fi S i 1 m  f 1 i 1 i
    • Usos de la desviación estándarTeorema de ChebyshevLa desviación estándar nos permite determinar, con un buengrado de precisión, dónde están localizados los valores de unadistribución de frecuencias con relación a la media. Elteorema de Chebyshev dice que no importa qué forma tenga ladistribución, al menos 75% de los valores caen dentro de + 2desviaciones estándar a partir de la media de la distribución, yal menos 89% de los valores caen dentro de + 3 desviacionesestándar a partir de la media.
    • Pgs 81 y 82 lind marchalwatten
    • Para distribuciones simétricas:Teorema de la NormalAproximadamente 68% de los valores de la población caedentro de + 1 desviación estándar a partir de la media.Aproximadamente 95% de los valores estará dentro de + 2desviaciones estándar a partir de la media.Aproximadamente 99% de los valores estará en el intervaloque va desde tres desviaciones estándar por debajo de lamedia hasta tres desviaciones estándar por arriba de la media.
    • Coeficiente de VariaciónEs una medida relativa de dispersión, en la cual se expresa ladesviación estándar como un porcentaje de la media.Resulta útil al comparar la cantidad de variación en grupos dedatos que posean medias diferentes.Se calcula como cociente entre la desviación típica y la media.El interés del coeficiente de variación es que al ser unporcentaje permite comparar el nivel de dispersión de dosmuestras. Esto no ocurre con la desviación típica, ya que vieneexpresada en las mismas unidades que los datos de la serie.Por ejemplo, para comparar el nivel de dispersión de una seriede datos de la altura de los alumnos de una clase y otra seriecon el peso de dichos alumnos, no se puede utilizar lasdesviaciones típicas (una viene expresada en cm y la otra enkg). En cambio, sus coeficientes de variación son ambosporcentajes, por lo que sí se pueden comparar.
    • Coeficiente de variaciónLa desviación estándar es una medida absoluta de la dispersión que expresa lavariación en las mismas unidades que los datos originales.La desviación estándar no puede ser la única base para la comparación de dosdistribuciones. Si tenemos una desviación estándar de 10 y una media de 5, losvalores varían en una cantidad que es el doble de la media misma. Si, por otro lado,tenemos una desviación estándar de 10 y una media de 5.000, la variación conrespecto a la media es insignificante. En consecuencia, no podemos conocer ladispersión de un conjunto de datos hasta que conocemos su desviación estándar, sumedia y cómo se compara la desviación estándar con respecto a la media.Lo que necesitamos es una medida relativa que nos proporcione una estimación de lamagnitud de la desviación con respecto a la magnitud de la media. El coeficiente devariación es una de estas medidas relativas de dispersión. Se relaciona la desviaciónestándar y la media, expresando la desviación estándar como porcentaje de la media.
    • Coeficiente de variación• Es la razón entre la desviación típica y la media. S – Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media” CV  – También se la denomina variabilidad relativa. – Es frecuente mostrarla en porcentajes x • Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)• Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. – Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.• No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente. – Por ejemplo 0ºC ≠ 0ºF
    • PARA LA POBLACION CV   SPARA LA MUESTRA cv  X
    • ESTADISTICAS POBLACION MUESTRADESCRIPTIVASMEDIA  xVARIANZA  2 2 SDESVIACIONSTANDARD  SCOEFICIENTEDE VARIACION CV cv
    • Otras Medidas de Dispersión• Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa.• Amplitud o Rango („range‟): La diferencia entre las observaciones extremas. – 2,1,4,3,8,4. El rango es 8-1=7 – Es muy sensible a los valores extremos.• Rango intercuartílico („interquartile range‟): – Es la distancia entre el primer y tercer cuartil. • Rango intercuartílico = P75 - P25 – Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. – No es tan sensible a valores extremos.
    • Fr 10.75 0.50.25 Recorrido o rango intercuartílico 0 P25 P50 P75 x Q1 Q2 Q3 mediana
    • Medidas de forma: Grado de concentraciónLas medidas de forma permiten conocer que forma tiene la curva que representa laserie de datos de la muestra. Forma es el patrón de distribución de los valores de losdatos a través del rango de todos los valores.La distribución puede ser simétrica cuando los valores pequeños y grandes se equilibranentre si. Puede ser asimétrica cuando muestra un desequilibrio entre los valorespequeños y grandes.En concreto, podemos estudiar las siguientes características de la curva:Concentración: mide si los valores de la variable están más o menos uniformementerepartidos a lo largo de la muestra.Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro dela misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierdason similares.Curtosis: mide si los valores de la distribución están más o menos concentradosalrededor de los valores medios de la muestra.
    • Para medir el nivel de concentración de una distribución defrecuencia se pueden utilizar distintos indicadores, entreellos el Indice de Gini.Este índice se calcula aplicando la siguiente fórmula:En donde los valores de la fórmula se basan en lasproporciones acumuladas de las dos variables que se analizan.
    • El Indice Gini (IG) puede tomar valores entre 0 y 1:IG = 0 : concentración mínima. La muestra estáuniformemente repartida a lo largo de todo su rango.IG = 1 : concentración máxima. Un sólo valor de lamuestra acumula el 100% de los resultados.
    • Asimetría El concepto de asimetría se refiere a si la curva que forman losvalores de la serie presenta la misma forma a izquierda y derechade un valor central (media aritmética)Para medir el nivel de asimetría se utiliza el llamado Coeficientede Asimetría de Fisher, que viene definido:
    • Los resultados pueden ser los siguientes:g1 = 0 (distribución simétrica; existe la mismaconcentración de valores a la derecha y a laizquierda de la media)g1 > 0 (distribución asimétrica positiva; existemayor concentración de valores a la izquierda de lamedia que a su derecha)g1 < 0 (distribución asimétrica negativa; existemayor concentración de valores a la derecha de lamedia que a su izquierda)
    • Asimetría o sesgo• Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.• En las distribuciones simétricas la media y la mediana coinciden. Si sólo hay una moda también coincide.• La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.• La media tiende a desplazarse hacia las valores extremos (colas). Media < mediana asimétrica negativa o sesgo negativo La mayoría de los valores están en la parte inferior de la distribución. La distorsión hacia la izquierda es provocada por algunos valores muy pequeños. Media = mediana simétrica o asimetría cero. Media > mediana asimétrica o positiva o sesgo derecho La mayoría de los valores están en la parte superior de la distribución. La distorsión hacia la derecha es provocada por algunos valores muy grandes.• Las discrepancias entre las medidas de centralización son indicación de asimetría.
    • Las curvas que representan los puntos de datos de un conjunto de datos puedenser simétricas o sesgadas. Las curvas simétricas, tienen una forma tal que una línea vertical que pase porel punto más alto de la curva dividirá el área de ésta en dos partes iguales. Cadaparte es una imagen espejo de la otra.En las curvas sesgadas, los valores de su distribución de frecuencias estánconcentrados en el extremo inferior o en el superior de la escala de medicióndel eje horizontal. Los valores no están igualmente distribuidos.Las curvas pueden estar sesgadas hacia la derecha (positivamente sesgadas) osesgadas hacia la izquierda (negativamente sesgadas).
    • El Coeficiente de Curtosis analiza el grado de concentraciónque presentan los valores alrededor de la zona central de ladistribución. La curtosis nos indica el grado de apuntamiento(aplastamiento) de una distribución con respecto a ladistribución normal o gaussiana. Es adimensional.Se definen 3 tipos de distribuciones según su grado decurtosis:Distribución mesocúrtica: presenta un grado deconcentración medio alrededor de los valores centrales de lavariable (el mismo que presenta una distribución normal).Distribución leptocúrtica: presenta un elevado grado deconcentración alrededor de los valores centrales de la variable.Distribución platicúrtica: presenta un reducido grado deconcentración alrededor de los valores centrales de la variable.
    • El Coeficiente de Curtosis viene definido por la siguiente fórmula:
    • Los resultados pueden ser los siguientes: g2 = 0 (distribución mesocúrtica) . g2 > 0 (distribución leptocúrtica) . g2 < 0 (distribución platicúrticaCuando medimos la curtosis de una distribución,estamos midiendo su grado de agudeza.
    • Los gráficos poseen la misma media y desviación típica, pero diferente grado de apuntamiento o curtosis. 300 400160140 300 200120100 200 10080 Frecuencia 100 Frecuencia60 040 0 27 37 45 53 61 69 77 85 93 45 48 51 54 57 60 63 66 69 72 75 78 81 84 3 27 37 47 57 67 77 87 97 108 32 41 49 57 65 73 81 89 99 16 32 42 52 62 72 82 92 102 138 Platicúrtica Mesocúrtica Leptocúrtica
    • ¿Cómo seleccionar una medida de tendencia que represente los datos?Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar lamedia, la mediana o la moda como medidas de tendencia central. Las distribucionessimétricas que sólo contienen una moda, siempre tienen el mismo valor para la media, lamediana y la moda. En tales casos, no es necesario escoger la medida de tendencia central,pues ya está hecha la selección.En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la modatodavía se encuentra en el punto más alto de la distribución, la mediana está hacia laderecha de la moda y la media se encuentra todavía más a la derecha de la moda y lamediana.En una distribución negativamente sesgada, la moda sigue siendo el punto más alto de ladistribución, la mediana está hacia la izquierda de ella y la media se encuentra todavía mása la izquierda de la moda y la mediana.Cuando la población está sesgada negativa o positivamente, con frecuencia la medianaresulta ser la mejor medida de posición, debido a que siempre está entre la moda y la media.La mediana no se ve altamente influida por la frecuencia de aparición de un solo valorcomo es el caso de la moda, ni se distorsiona con la presencia de valores extremos como lamedia. Resumiendo