Estadisticos 1

1,692 views

Published on

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,692
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
55
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Estadisticos 1

  1. 1. Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga. Tema 2: Estadísticos 1
  2. 2. Parámetros y estadísticos  Parámetro: Es una cantidad numérica calculada sobre una población    La altura media de los individuos de un país La idea es resumir toda la información que hay en la población en unos pocos números (parámetros). Estadístico: Ídem (cambiar población por muestra)  La altura media de los que estamos en este aula.   Somos una muestra (¿representativa?) de la población. Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador. Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a *TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean próximos. Más adelante veremos como elegir muestras para que el error sea “confiablemente” pequeño. Tema Bioestadística. U. Málaga. 2: Estadísticos 2
  3. 3. Tema Bioestadística. U. Málaga. 2: Estadísticos 3
  4. 4. Un brevísimo resumen sobre estadísticos  Posición  Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.   Centralización  Indican valores con respecto a los que los datos parecen agruparse.   Media, mediana y moda Dispersión  Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización.   Cuantiles, percentiles, cuartiles, deciles,... Desviación típica, coeficiente de variación, rango, varianza Forma  Asimetría  Apuntamiento o curtosis Tema Bioestadística. U. Málaga. 2: Estadísticos 4
  5. 5. Estadísticos de posición  Se define el cuantil de orden α como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada α.  Casos particulares son los percentiles, cuartiles, deciles, quintiles,... Tema Bioestadística. U. Málaga. 2: Estadísticos 5
  6. 6. Estadísticos de posición  Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50  El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%   Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. Primer cuartil = Percentil 25 = Cuantil 0,25  Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana  Tercer cuartil = Percentil 75 = cuantil 0,75  Tema Bioestadística. U. Málaga. 2: Estadísticos 6
  7. 7. Ejemplos  El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”?  Percentil 5 o cuantil 0,05 15 10 5 0 frecuencia 20 25 Percentil 5 del peso 1 2 3 Peso al nacer (Kg) de 100 niños Tema Bioestadística. U. Málaga. 2: Estadísticos 4 5 7
  8. 8. Ejemplos ¿Qué peso es superado sólo por el 25% de los individuos?  Percentil 75 o tercer cuartil 20 15 10 5 0 frecuencia 25 30 Percentil 75 del peso 50 55 60 65 70 75 80 85 Peso (Kg) de 100 deportistas Tema Bioestadística. U. Málaga. 2: Estadísticos 8
  9. 9. Ejemplos  El colesterol se distribuye simétricamente en la población. Supongamos que se consideran patológicos los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales? 10 5 0 frecuencia 15 20 Percentiles 5 y 95 180 200 220 Colesterol en 100 personas Tema Bioestadística. U. Málaga. 2: Estadísticos 240 260 9
  10. 10. Ejemplos  ¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población? Entre el cuartil 1º y 3º Percentiles 25 y 75 15 10 5 0 frecuencia 20  150 160 170 180 190 Altura (cm) en 100 varones Tema Bioestadística. U. Málaga. 2: Estadísticos 10
  11. 11. Diagrama de cajas de Tukey: Resumen en 5 números  0.06 La zona central, ‘caja’, contiene al 50% central de las observaciones.  P25 Mín. 0.02  Mínimo, cuartiles y máximo. Suelen dar una buena idea de la distribución. P50 P75 Máx. 0.00  0.04 Resumen con 5 números: densidad  0.08 Diagramas de Tukey 40 45 50 55 60 65 Velocidad (Km/h) de 200 vehículos en ciudad Su tamaño se llama ‘rango intercuartílico’ (R.I.) Más allá de esa distancia se consideran anómalas, y así se marcan. 0.03 0.02 P25 Mín. 0.01  P50 P75 Máx. 0.00 Es costumbre que ‘los bigotes’, no lleguen hasta los extremos, sino hasta las observaciones que se separan de la caja en no más de 1,5 R.I. densidad  0.04 Diagrama de cajas de Tukey: Resumen en 5 números 80 90 100 110 120 130 140 Velocidad (Km/h) de 200 vehículos en autovía Tema Bioestadística. U. Málaga. 2: Estadísticos 11
  12. 12. Ejemplo Estadísticos Número de años de escolarización 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total Frecuencia 5 5 6 12 25 68 56 73 85 461 130 175 73 194 43 45 22 30 1508 Porcentaje ,3 ,3 ,4 ,8 1,7 4,5 3,7 4,8 5,6 30,6 8,6 11,6 4,8 12,9 2,9 3,0 1,5 2,0 100,0 Porcentaje acumulado ,3 ,7 1,1 1,9 3,5 8,0 11,7 16,6 22,2 52,8 61,4 73,0 77,9 90,7 93,6 96,6 98,0 100,0 ≥20%? Número de años de escolarización N Válidos 1508 Perdidos 0 Media 12,90 Mediana 12,00 Moda 12 Percentiles 10 9,00 20 11,00 25 12,00 30 12,00 40 12,00 50 12,00 60 13,00 70 14,00 75 15,00 80 16,00 90 16,00 ≥ 90%? Tema Bioestadística. U. Málaga. 2: Estadísticos 12
  13. 13. Estadísticos de centralización Añaden unos cuantos casos particulares a las medidas de posición. En este caso son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse.  Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral.  Media de 2,2,3,7 es (2+2+3+7)/4=3,5  Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos.  Centro de gravedad de los datos  Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales.  Mediana de 1,2,4,5,6,6,8 es 5  Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5  Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos.   Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7! Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia alcanza un máximo. Tema Bioestadística. U. Málaga. 2: Estadísticos 13
  14. 14. Altura mediana Tema Bioestadística. U. Málaga. 2: Estadísticos 14
  15. 15. Algunas fórmulas  Datos sin agrupar: x1, x2, ..., xn  ∑x x= Media i i n  Datos organizados en tabla  si está en intervalos usar como xi las marcas de clase. Si no ignorar la columna de intervalos. ∑ xn x= i  Variable fr.  Cuantil de orden α  i es el menor intervalo que tiene frecuencia acumulada superior a α ·n  α=0,5 es mediana α ⋅n − N n fr. ac. L0 – L 1 x1 n1 N1 L1 – L 2 x2 n2 N2 xk nk Nk ... Lk-1 – Lk Media n Tema Bioestadística. U. Málaga. 2: Estadísticos i i Cα = Li −1 + ni i −1 ( Li − Li −1 ) 15
  16. 16. Ejemplo con variable en intervalos Peso M. Clase frec Fr. acum. 40 – 50 45 5 5 50 – 60 55 10 15 60 – 70 65 21 36 70 - 80 75 11 47 80 - 90 85 5 52 90 - 100 95 3 55 100 – 130 115 3 58 En el histograma se identifica “unidad de área” con “individuo”. Para calcular la media es necesario elegir un punto representante del intervalo: La marca de clase. La media se desplaza hacia los valores extremos. No coincide con la mediana. Es un punto donde el histograma “estaría en equilibrio” si tuviese masa. Tema Bioestadística. U. Málaga. 2: Estadísticos 16
  17. 17. Ejemplo (continuación) Peso M. Clase Fr. Fr. ac. 40 – 50 45 5 5 50 – 60 55 10 15 60 – 70 65 21 36 70 - 80 75 11 47 80 - 90 85 5 52 90 - 100 95 3 55 100 – 130 115 3 58 ∑ xn x= i n i i = 45 ⋅ 5 + 55 ⋅10 +  + 115 ⋅ 3 = 69,3 58 0,5 ⋅ 58 − N i −1 ( Li − Li −1 ) ni  0,5 ⋅ 58 − 15 = 60 + (70 − 60) = 66,6 21 Mediana = C0,5 = Li −1 + 58 P75 = C0, 75 = Li −1 +  0,75 ⋅ 58 − N i −1 43,5 − 36 ( Li − Li −1 ) = 70 + (80 − 70) = 76,8 ni 11 Moda = marca de clase de (60,70] = 65  Cada libro ofrece una fórmula diferente para la moda (difícil estar al día.) Tema Bioestadística. U. Málaga. 2: Estadísticos 17
  18. 18. Variabilidad o dispersión  Los estudiantes de Bioestadística reciben diferentes calificaciones en la asignatura (variabilidad). ¿A qué puede deberse?  Diferencias individuales en el conocimiento de la materia.  ¿Podría haber otras razones (fuentes de variabilidad)?  Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.  Dormir poco el día del examen, el croissant estaba envenenado...   El examen no es una medida perfecta del conocimiento.   Diferencias individuales en la habilidad para hacer un examen. Variabilidad por error de medida. En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala Variabilidad por azar, aleatoriedad. Tema Bioestadística. U. Málaga. 2: Estadísticos  18
  19. 19. Medidas de dispersión P25 P50 P75 Máx. 0.03 Amplitud o Rango (‘range’): Diferencia entre observaciónes extremas.  2,1,4,3,8,4. El rango es 8-1=7  Es muy sensible a los valores extremos. 0.02  Mín. 0.04 0.05 Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. 25% 25% 25% 25% Rango intercuartílico (‘interquartile range’): Rango  Es la distancia entre primer y tercer cuartil.  Rango intercuartílico = P - P 75 25 150 160 170 180  Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. 0.00  0.01 Rango intercuartílico  No es tan sensible a valores extremos. Tema Bioestadística. U. Málaga. 2: Estadísticos 190 19
  20. 20.  Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. 1 2 S = ∑ ( xi − x ) n i 2  Es sensible a valores extremos (alejados de la media).  Sus unidades son el cuadrado de las de la variable. De interpretación difícil para un principiante.  La expresión es fea, pero de gran belleza ‘natural’ (físicamente). Contiene la información geométrica relevante en muchas situaciones donde la energía interna de un sistema depende de la posición de sus partículas.  Energía de rotación (vía el coeficiente de inercia): patinadores con brazos extendidos (dispersos) o recogidos (poco dispersos)  Energía elástica: Muelles ‘estirados’ con respecto a su posición de equilibrio (dispersos) frente a muelles en posición cercana a su posición de equilibrio (poco dispersos) Tema Bioestadística. U. Málaga. 2: Estadísticos 20
  21. 21. Desviación típica (‘standard deviation’) Es la raíz cuadrada de la varianza   Tiene las misma dimensionalidad (unidades) que la variable. Versión ‘estética’ de la varianza. Cierta distribución que veremos más adelante (normal o gaussiana) quedará completamente determinada por la media y la desviación típica.  A una distancia de una desv. típica de la media hay más de la ‘más de la mitad’. S= S 50 40 30 20 10 Desv. típ. = 568,43 Media = 2023 N = 407,00 0 0 30 3. 0 90 2. 0 50 2. 0 10 2. 0 70 1. 0 30 1. Tema Bioestadística. U. Málaga. 2: Estadísticos 0 90 A una distancia de dos desv. típica de la media las tendremos casi todas. 0 50  2 Peso recién nacidos en partos gemelares 21
  22. 22. 0.01 0.01 0.02 0.02 0.03 0.03 0.04 0.04 0.05 0.05 Dispersión en distribuciones ‘normales’ x±s x ± 2s 68.5 % 0.00 0.00 95 % 150 160 170 180 190 150 160 170 180 190  Centrado en la media y a una desv. típica de distancia hay aproximadamente el 68% de las observaciones.  A dos desviaciones típicas tenemos el 95% (aprox.) Tema Bioestadística. U. Málaga. 2: Estadísticos 22
  23. 23. 95 % 0.1 x ± 2s 66 % x ± 2s 94 % 0.0 x ±s 71 % 0.0 0.1 x±s 0.2 densidad 0.2 densidad 0.3 Datos ‘casi normales’. Eje ‘x’ medido en desviaciones típicas…  ¿Encuentras relación entre rango intercuartílico y desviación típica?  ¿Y entre los ‘bigotes’ y dos desviaciones típicas? ¿Podrías caracterizar las observaciones anómalas? 0.3  -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 0.1 x±s 68 % 0.2 densidad 0.2 0.1 densidad 0.3 0.3 0.4 -3 x ± 2s 94 % 0.0 0.0 x ±s 70 % x ± 2s 94 % -3 -2 -1 0 1 2 3 Tema Bioestadística. U. Málaga. 2: Estadísticos -3 -2 -1 0 1 2 3 23
  24. 24. Coeficiente de variación Es la razón entre la desviación típica y la media.  Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”  También se la denomina variabilidad relativa.  Es frecuente mostrarla en porcentajes   S CV = x Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa) Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.  Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.  No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente  Por ejemplo 0ºC ≠ 0ºF  Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso). Tema Bioestadística. U. Málaga. 2: Estadísticos 24
  25. 25. Asimetría o Sesgo  Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.  En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide  La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.  La media tiende a desplazarse hacia las valores extremos (colas).  Las discrepancias entre las medidas de centralización son indicación de asimetría. Tema Bioestadística. U. Málaga. 2: Estadísticos 25
  26. 26. Estadísticos para detectar asimetría Hay diferentes estadísticos que sirven para detectar asimetría.  Basado en diferencia entre estadísticos de tendencia central.  Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.  Basados en desviaciones con signo al cubo con respecto a la media.  En función del signo del estadístico diremos que la asimetría es positiva o negativa.  Distribución simétrica  asimetría nula. 0.15 0.05 0.1 0.05 0.2 0.10 0.10 0.3 0.15 0.4 0.20 0.5  Los calculados con ordenador. Es pesado de hacer a mano. 0.20  x±s 0.00 78 % 0.0 0.00 78 % x±s 66 % x±s 8 10 12 14 16 18 20 -2 -1 0 Tema Bioestadística. U. Málaga. 2: Estadísticos x x 1 2 3 0 2 4 6 8 x 10 12 14 26
  27. 27. Apuntamiento o curtosis La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional. Platicúrtica (aplanada): curtosis < 0 En el curso serán de especial interés las mesocúrticas y simétricas (parecidas a la normal). Mesocúrtica (como la normal): curtosis = 0 Leptocúrtica (apuntada): curtosis > 0 Apuntada como la normal Apuntada 0.4 0.2 0.5 0.1 1.0 0.2 0.6 1.5 0.3 0.8 2.0 Aplanada x± s x±s x± s 68 % 0.0 82 % 0.0 0.0 57 % 0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 Tema Bioestadística. U. Málaga. 2: Estadísticos 0 1 2 3 -2 -1 0 1 27 2
  28. 28. Ejercicio: descriptiva con SPSS 28% Descriptivos para Número de hijos Límite inferior Límite superior Error típ. ,045 25% n=375 25% 1,81 17% 20% Porcentaje Media Intervalo de confianza para la media al 95% Estadístico 1,90 n=419 1,99 Media recortada al 5% 1,75 n=255 14% n=215 15% 8% n=127 10% 4% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil 2,00 3,114 1,765 0 8 8 n=54 5% 2% 1% n=24 n=23 n=17 0 1 2 3 4 5 6 7 Ocho o más Número de hijos  Está sombreado lo que sabemos interpretar hasta ahora. Verifica que comprendes todo. ¿Qué unidades tiene cada estadístico? ¿Variabilidad relativa?  Calcula los estadísticos que puedas basándote sólo en el gráfico de barras. 3,00 Asimetría Curtosis 2% 1,034 1,060 ,063 ,126 Tema Bioestadística. U. Málaga. 2: Estadísticos 28
  29. 29. ¿Qué hemos visto?    Parámetros Estadísticos y estimadores Clasificación  Posición (cuantiles, percentiles,...)   Medidas de centralización: Media, mediana y moda   Diagramas de cajas Diferenciar sus propiedades. Medidas de dispersión   con unidades: rango, rango intercuartílico, varianza, desv. típica sin unidades: coeficiente de variación   Asimetría   positiva negativa    ¿Qué usamos para comparar dispersión de dos poblaciones? ¿Podemos observar asimetría sin mirar la gráfica? ¿Cómo me gustan los datos? Medidas de apuntamiento (curtosis)  ¿Cómo me gustan los datos? Tema Bioestadística. U. Málaga. 2: Estadísticos 29

×