20121010141000
Upcoming SlideShare
Loading in...5
×
 

20121010141000

on

  • 566 views

 

Statistics

Views

Total Views
566
Views on SlideShare
566
Embed Views
0

Actions

Likes
0
Downloads
8
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    20121010141000 20121010141000 Presentation Transcript

    • TEMA 03:MEDIDASESTADISTICAS1Docente: Ms. Selene Yengle Del Castillo
    • 2PARÁMETROS Y ESTADÍSTICOSParámetro: Es una cantidad numérica calculadasobre una población. Ejm.:Rendimiento académico medio de los alumnos delas universidades de un país.La idea es resumir toda la información que hay enla población en unos pocos números (parámetros). Estadístico: Es una cantidad numérica calculadasobre una muestra. Ejm.:El Rendimiento Académico medio de los queestamos en esta aula.Somos una muestra (¿representativa?) de lapoblación. Si un estadístico se usa para aproximarun parámetro también se le suele llamarestimador.Normalmente nos interesa conocer un parámetro, pero por ladificultad que conlleva estudiar a *TODA* la población,calculamos un estimador sobre una muestra y “confiamos” enque sean próximos. Más adelante veremos como elegir muestraspara que el error sea “confiablemente” pequeño.
    • 3CLASES DE MEDIDAS DE ESTADISTICAS:
    • UN BREVÍSIMO RESUMEN SOBREESTADÍSTICOS Posición Dividen un conjunto ordenado de datos en grupos con la mismacantidad de individuos. Cuantiles: percentiles, cuartiles, deciles,... Centralización Indican valores con respecto a los que los datos parecenagruparse. Media, mediana y moda Dispersión Indican la mayor o menor concentración de los datos conrespecto a las medidas de centralización. Desviación típica, coeficiente de variación, rango, varianza Forma Asimetría Apuntamiento o curtosis4
    • 5MEDIDAS DE TENDENCIA CENTRALSON AQUELLAS MEDIDAS QUE NOS INDICAN LA POSICIÓN DEUN VALOR RESPECTO A LA VARIABLE Y ADEMÁS NOS INDICACOMO LOS DATOS TIENDEN A AGRUPARSE. MEDIA ARITMÉTICA (‘mean’).- se representa por: . Es lamedia aritmética (promedio) de los valores de una variable.Suma de los valores dividido por el tamaño muestral.a)Fórmula para Datos No Agrupados: x1, x2, ..., xnEjm: Hallar la Media de los siguientes datos: 2,2, 3, 7 es(2+2+3+7)/4=3,5La media aritmética es conveniente cuando los datos seconcentran simétricamente con respecto a ese valor. Muysensible a valores extremos. Representa el centro degravedad de los datos.nxxnii∑== 1x
    • 6B) FÓRMULA PARA DATOS AGRUPADOS: SI ESTÁ ENINTERVALOS USAR COMO XI LAS MARCAS DE CLASE.SI NO IGNORAR LA COLUMNA DE INTERVALOS.Intervalos de claseXi(Variable)fi XifiL0 – L1 x1 f1 X1f1L1 – L2 x2 f2 X2f2... … … …Lk-1 – Lk xk fk XkfkTOTAL nnfxxkiii∑== 1∑==kiiihxx1La media aritmética también se puede calcular tomando comoponderaciones a las frecuencias relativas simples (hi);
    • 7 MEDIANA (‘median’).- Se representa por: Me. Es un valor quedivide a las observaciones en dos grupos con el mismo númerode individuos; de tal manera que el 50% de los datos sonmenores que el valor mediano y el otro 50% son valores mayoresque la mediana.a) Fórmulas para Datos No Agrupados:a.1) Si el número de datos es impar, se elige la media deldato central y se utiliza la sgte. Fórmula:Ejm.: Hallar la Mediana de 1, 2, 4,5 ,6 ,6 ,8 es 5a.2)Si el número de datos es par, se elige la media de losdos datos centrales y se utiliza la sgte. Fórmula:Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5La Mediana es conveniente cuando los datos son asimétricos.No es sensible a valores extremos. Ejemplo:E jm.: Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!21valordelPosición+=nMe+= 12;2valordelPosiciónnnMe
    • 8B) FÓRMULAS PARA DATOS AGRUPADOS: CONSIDEREMOS DOSCASOS:Caso a: Cuando Fi-1 = n/2; Me = Y’i-1Caso b: Cuando Fi-1 < n/2;Caso a: Cuando Fi-1 < n/2; Me = YiCaso b: Cuando Fi-1 = n/2;Variable DiscretaVariable Continua21 ii YYMe+= −( )AfFnYMeiii−+=−11-2´Donde:Fi-1 : Frecuencia absoluta acumulada anterior al intervalo ó posición mediana.Yi : Marca de clase de la posición mediana.Yi-1 : Marca de clase anterior a la posición mediana.A : Amplitud del intervalo de clase.n/2 : Número de datos dividido entre dos.fi : Frecuencia absoluta simple del intervalo ó posición mediana.Y’i-1 : Límite Real Inferior del intervalo mediano.
    • 9PASOS A SEGUIR EN EL CÁLCULO DE LAMEDIANA: Obtener las frecuencias absolutas acumuladas . Buscar la mitad de las observaciones, por medio de n/2. Localizar el resultado anterior (n/2) en la columna de las frecuenciasabsolutas acumuladas y denominarle Fi-1 . Si no aparece el valor n/2, alvalor inmediatamente anterior se denomina Fi-1 y al inmediatamentesuperior se denomina Fi. Si Fi-1 es menor que n/2 ó igual que n/2, entonces el valor de la medianaserá igual aplicando las formulas de los casos antes mencionados.• MODA (‘mode’).- Se representa por: Mo. Es el/los valor/es donde ladistribución de frecuencia alcanza un máximo. También se define comoaquel valor de la variable que presenta la mayor frecuencia (absolutasimple) ó el valor que más se repite.La fórmula es: Mo = Yi (igual a la marca de clase de la mayorfrecuencia absoluta simple).
    • 10Moda en datos agrupados en intervalos declase. Para hallar la moda se procede así: Se determina el intervalo que contiene a la moda(intervalo de mayor frecuencia)Se aplica la fórmula:Mo= LRI + A ( donde)211∆+∆∆11 −−=∆ ii ff 12 +−=∆ ii ff yEl valor más frecuente se denomina fi, el valorinmediatamente anterior fi-1 y el valorinmediatamente superior en posición fi+1.
    • ESTADÍSTICOS DE POSICIÓN11 Se define el cuantil de orden α como un valor de la variable por debajodel cual se encuentra una frecuencia acumulada α. Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
    • ESTADÍSTICOS DE POSICIÓN12 Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de lasobservaciones. Por encima queda el 85% Cuartiles: Dividen a la muestra en 4 grupos confrecuencias similares. Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75
    • 13CUARTILES.- DIVIDE A LA MUESTRA EN 4 GRUPOS CON FRECUENCIASSIMILARES. SE REPRESENTA POR QI, DONDE I=1,2,3. LA FÓRMULA ES LASIGUIENTE:( )AfFniYQiiii−+=−11-4´DECILES.- Divide a la muestra en 10 grupos con frecuencias similares.Se representa por Di, donde i=1,2,3,4,5,6,7,8,9. La fórmula es la siguiente:( )AfFniYDiiii−+=−11-10´PERCENTILES Ó CENTILES.- Divide a la muestra en 100 grupos confrecuencias similares. Se representa por Pi, donde i=1,2,3,…,99. La fórmulaes la siguiente:( )AfFniYPiiii−+=−11-100´Q1 Q2 Q310% 10% 10% 10% 10% 10% 10% 10% 10% 10%25% 25% 25% 25%1% 1%1%1%1% …………………………. 1%D1 D2 D3 D4 D5 D6 D7 D8 D9P1 P2 P3 P4 P5 …. P50 ……… P99
    • 14EJEMPLOS El 5% de los recién nacidos tiene un peso demasiadobajo. ¿Qué peso se considera “demasiado bajo”? Percentil 5Percentil 5 del pesoPeso al nacer (Kg) de 100 niñosfrecuencia1 2 3 4 50510152025
    • 15EJEMPLONúmero de años de escolarización5 ,3 ,35 ,3 ,76 ,4 1,112 ,8 1,925 1,7 3,568 4,5 8,056 3,7 11,773 4,8 16,685 5,6 22,2461 30,6 52,8130 8,6 61,4175 11,6 73,073 4,8 77,9194 12,9 90,743 2,9 93,645 3,0 96,622 1,5 98,030 2,0 100,01508 100,034567891011121314151617181920TotalFrecuencia PorcentajePorcentajeacumuladoEstadísticosNúmero de años de escolarización1508012,9012,00129,0011,0012,0012,0012,0012,0013,0014,0015,0016,0016,00VálidosPerdidosNMediaMedianaModa1020253040506070758090Percentiles≥20%?≥ 90%?
    • 16EJEMPLO CON VARIABLE EN INTERVALOSPeso M.ClasefrecFr.acum.40 – 50 45 5 550 – 60 55 10 1560 – 70 65 21 3670 - 80 75 11 4780 - 90 85 5 5290 -10095 3 55100 –130115 3 58En el histograma se identifica “unidad de área” con “individuo”.Para calcular la media es necesario elegir un punto representante del intervalo: La marca de clase.La media se desplaza hacia los valores extremos. No coincide con la mediana. Es un punto donde el histograma “estaríaen equilibrio” si tuviese masa.
    • 17EJEMPLO (CONTINUACIÓN)Peso M. Clase fi Fi40 – 50 45 5 550 – 60 55 10 1560 – 70 65 21 3670 - 80 75 11 4780 - 90 85 5 5290 - 100 95 3 55100 – 130 115 3 5858( ) 8,76)10(11365,4370101136100587570)(100´1175 =−+=−+=−+=−− AfFniYPiii3,6958)3(115)10(55)5(45=+++==∑ nfxx i ii( ) 6,661021152960)10(211525860)(2´11= −+=−+=−+=−− AfFnYMedianaiii
    • 18MEDIDAS DE DISPERSIÓNMiden el grado de dispersión (variabilidad) de losdatos, independientemente de su causa.Amplitud o Rango (‘range’):Diferencia entre observaciónes extremas.2,1,4,3,8,4. El rango es 8-1=7Es muy sensible a los valores extremos. Rango intercuartílico (‘interquartile range’):Es la distancia entre primer y tercer cuartil. Rango intercuartílico = P75 - P25Parecida al rango, pero eliminando las observacionesmás extremas inferiores y superiores. No es tan sensible a valores extremos.150 160 170 180 1900.000.010.020.030.040.05150 160 170 180 19025% 25% 25% 25%Mín. P25 P50 P75 Máx.Rango intercuartílicoRango
    • 19 Varianza S2(‘Variance’): Mide el promedio de las desviaciones (alcuadrado) de las observaciones con respecto a la media. Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable. De interpretación difícilpara un principiante. La expresión es fea, pero de gran belleza ‘natural’ (físicamente). Contiene lainformación geométrica relevante en muchas situaciones donde la energíainterna de un sistema depende de la posición de sus partículas. Energía de rotación (vía el coeficiente de inercia): patinadores conbrazos extendidos (dispersos) o recogidos (poco dispersos) Energía elástica: Muelles ‘estirados’ con respecto a su posición deequilibrio (dispersos) frente a muelles en posición cercana a suposición de equilibrio (poco dispersos)} agrupadosNoDatosxxnSii )(1 22∑ −=} agrupadosDatos)(11 22iii fxxnS ∑ −−=
    • 20Desviación típica (‘standarddeviation’)Es la raíz cuadrada de lavarianzaTiene las misma dimensionalidad(unidades) que la variable.Versión ‘estética’ de la varianza.Cierta distribución que veremosmás adelante (normal ogaussiana) quedarácompletamente determinada porla media y la desviación típica.A una distancia de una desv. típicade la media hay más de la ‘más de lamitad’.A una distancia de dos desv. típica dela media las tendremos casi todas.2SS =20Estadística U.N.C.Peso recién nacidos en partos gemelares3.3002.9002.5002.1001.7001.30090050050403020100Desv. típ. = 568,43Media = 2023N = 407,00
    • 21Coeficiente de variaciónEs la razón entre la desviación típica y la media. Mide la desviación típica en forma de“qué tamaño tiene con respecto a la media” También se la denomina variabilidad relativa. Es frecuente mostrarla en porcentajes Si la media es 80 y la desviación típica 20 entoncesCV=20/80=0,25=25% (variabilidad relativa). Es una cantidad adimensional. Interesante para compararla variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuospresentan más dispersión en peso que en altura. No debe usarse cuando la variable presenta valores negativoso donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0ºC ≠ 0ºF Esta Medida de Dispersión es útil para comparar ladispersión entre dos o más distribuciones de variables condiferentes unidades de medida.( )%100xSCV =21Estadística U.N.C.
    • 22MEDIDAS DE FORMAAsimetría o Sesgo: Se utilizan para medir el grado de deformación de unadistribución de frecuencias tomando como referencia laDistribución Normal. En las distribuciones SIMÉTRICAS media y medianacoinciden. Si sólo hay una moda también coincide.M(x)=Me=Mo y As=O La asimetría es positiva o negativa en función de a quélado se encuentra la cola de la distribución.Distrib. Asimétrica positiva: M(x)>Me>Mo y As > ODistrib. Asimétrica Negativa: M(x)<Me<Mo y As < O La media tiende a desplazarse hacia las valores extremos(colas). Las discrepancias entre las medidas de centralizaciónson indicación de asimetría. Las fórmulas del Coeficiente de Asimetría (As) son:22( )sMexAssMoxAs−=−=3
    • 23APUNTAMIENTO O KURTOSISLa kurtosis nos indica el grado de apuntamiento(aplastamiento) o levantamiento de una distribución conrespecto a la distribución normal o gaussiana. Esadimensional.Platicúrtica (aplanada): curtosis < 3Mesocúrtica (como la normal): curtosis = 3Leptocúrtica (apuntada): curtosis > 3Apuntada como la normal-3 -2 -1 0 1 2 30.00.10.20.3-3 -2 -1 0 1 2 3x± s68 %Aplanada0.0 0.2 0.4 0.6 0.8 1.00.00.51.01.52.00.0 0.2 0.4 0.6 0.8 1.0x± s57 %Apuntada-2 -1 0 1 20.00.20.40.60.8-2 -1 0 1 2x± s82 %23En el curso seránde especial interéslas mesocúrticas ysimétricas(parecidas a lanormal).( ) ( )( ) ( )nfxxnfxxkiiikiiismmsmmmK∑==∑====−=−1214224224224y:Donde;
    • ¿QUÉ HEMOS VISTO? Parámetros Estadísticos y estimadores Clasificación Posición (cuantiles, percentiles,...) Diagramas de cajas Medidas de centralización: Media, mediana y moda Diferenciar sus propiedades. Medidas de dispersión con unidades: rango, rango intercuartílico, varianza, desv.típica sin unidades: coeficiente de variación ¿Qué usamos para comparar dispersión de dos poblaciones? Asimetría positiva negativa ¿Podemos observar asimetría sin mirar la gráfica? ¿Cómo me gustan los datos? Medidas de apuntamiento (curtosis) ¿Cómo me gustan los datos?24