Segunda unidad de estadistica

315
-1

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
315
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Segunda unidad de estadistica

  1. 1. María Romualda López Hernández Instituto tecnológico superior de la sierra negra de Ajalpan ESTADÍSTICA II Unidad II conceptos Ingeniería en administración 4° SEMESTRE Pruebas de la bondad del ajuste y análisis de Varianza2.1 Análisis Ji-Cuadrada2.1.1 Prueba de independencia
  2. 2. 2.1.2 Prueba de la bondad del ajuste2.1.3 Tablas de contingencia2.2 Análisis de varianza2.2.1 Inferencia sobre una varianza de población (Anova).2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova).2.3 Software de aplicación
  3. 3. 2.- Análisis Ji-cuadradaCuando los datos son de tipo categórico, puede utilizarse laJi cuadrada para determinar lo significativo de lasDiferencias entre dos grupos independientes.La medida implicada puede ser tan débil como una escalaNominal.La prueba plantea que los grupos difieren en algunasCaracterísticas y por tanto respecto a la frecuencia relativa con que los miembros de losgrupos caen dentro de algunascategorías.Para probar esta hipótesis, contamos el número de casos decada grupo que caen en las distintas categorías ycomparamos la proporción de casos de un grupo en las distintas variables, con laproporción de casos del otro grupo en las mismas variables.Si las proporciones no son las mismas, entonces no hayinteracción; en caso contrario, hay una interacciónEl centro de la prueba se ubica en si las diferencias en lasproporciones excede a aquellasesperadas por oportunidado por desviaciones al azar de la proporcionalidad.No siempre los datos a analizar provienen de mediciones, es decir, hay ocasiones en que senecesita analizar variables discretas y estas necesitan un trato diferente de las variablescontinuas. Algunos ejemplos podrían ser: Clasificación de palmas en compactas, súper compactas, normales. Clasificación de individuos en muertas, enfermas, sanas. Clasificación de individuos por colores. Clasificación de individuos en hembras y machos. 2.1.1 Prueba de independenciaLa independencia de dos variables consiste en que la distribución de una de las variables essimilar sea cual sea el nivel que examinemos de la otra. Esto se traduce en una tabla de
  4. 4. contingencia en que las frecuencias de las filas (y las columnas) son aproximadamenteproporcionales. Posiblemente sea más cómodo reconocerlo usando en la tabla decontingencia los porcentajes por filas (o columnas) y observando si estos son similares.La prueba de independencia ji-cuadrado (chi-cuadrado) contrasta la hipótesis de que lasvariables son independientes, frente a la hipótesis alternativa de que una variable sedistribuye de modo diferente para diversos niveles de la otra.En la siguiente tabla se muestra el estudio con escolares de 10 a 12 años se les pregunto aque dan más prioridad de entre 3 posibilidades: tener buenas notas, destacar en los deporteso ser popular entre los compañeros. prioridad deportes notas Popular Totalsexo niña 17 101 75 193 Niño 51 95 38 184total 68 196 113 377Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A yB, admitiendo el primero a posibilidades diferentes y b el segundo, la representación de lasfrecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla decontingencia. Los datos se disponen de la forma siendo nij el número de individuos quepresentan simultáneamente la i-ésima modalidad del carácter A y la j-ésima del B.La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de formaindependiente en los individuos de la población de la cual se extrae la muestra; siendo laalternativa la dependencia estocástica entre ambos caracteres. La realización de esta pruebarequiere el cálculo del estadístico donde: y son las frecuencias absolutas marginales y eltamaño muestra total.El estadístico L se distribuye como una con (a - 1) (b - 1) grados de libertad. El contraste serealiza con un nivel de significación del 5%. 2.1.2 Prueba de la bondad del ajusteLas pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a unadeterminadadistribución, esta distribución puede estar completamente especificada(hipótesis simple) operteneciente a una clase paramétrica (hipótesis compuesta).
  5. 5. Test Â2 Están diseñados para variables aleatorias discretas con un número finito de valores,siesto no ocurriese los valores de la variable se agrupan en un número finito de clases.1. Hipótesis nula simple H0: X ´ F0Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en lasclasesC1;Ck, seaOi = no de individuos de la muestra en la clase Ci y sea pi = P(X 2 Ci).Con esta formulación lo que se contrasta esH0: pi = PF0(X 2 Ci) = p0 i 8i y se puede hacer por dos procedimientos: mediante elestadístico de la razón de verosimilitudeso mediante el estadístico de Pearson.Ambos procedimientos se basan en la comparación de la frecuencia observada en cadaclaseOi con la frecuencia esperada bajo la hipótesis nula Ei = np0i = no de individuos esperadosen la clase Ci, bajo H0; si esta fuese cierta no deberíanpresentarse grandes discrepancias. 2.1.3 Tablas de contingenciaEn estadística las tablas de contingencia se emplean para registrar y analizar la relaciónentre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales).Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y lasegunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variablesen una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingenciapara expresar la relación entre estas dos variables, del siguiente modo: Diestro Zurdo TOTAL Hombre 43 9 52 Mujer 44 4 48 TOTAL 87 13 100Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuenciasmarginales y la cifra situada en la esquina inferior derecha es el gran total.La tabla nos permite ver de un vistazo que la proporción de hombres diestros esaproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas
  6. 6. proporciones no son idénticas y la significación estadística de la diferencia entre ellaspuede ser evaluada con la prueba χ² de Pearson, supuesto que las cifras de la tabla son unamuestra aleatoria de una población. Si la proporción de individuos en cada columna varíaentre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Sino existe asociación se dice que ambas variables son independientes.El grado de asociación entre dos variables se puede evaluar empleando distintoscoeficientes: el más simple es el coeficiente phi que se define por φ = √(χ2 / N)Donde:χ2se deriva del test de Pearson.N es el total de observaciones -el gran total.Φ puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito.A diferencia de otras medidas de asociación, el coeficiente Φ de Cramer no está acotado.Un método útil para clasificar los datos obtenidos en un recuento es mediante las tablas decontingencia.Se trata de tablas en cuyas celdas figuran probabilidades, y en la cual podemos determinarunas probabilidades conociendo otras de la tabla.EjemploSe sortea un viaje a Roma entre los 120 mejores clientes de una agencia de automóviles. Deellos, 65 son mujeres, 80 están casados y 45 son mujeres casadas. Se pide:1¿Cuál será la probabilidad de que le toque el viaje a un hombre soltero?2Si del afortunado se sabe que es casado, ¿cuál será la probabilidad de que sea una mujer?
  7. 7. 2.2 ANÁLISIS DE VARIANZAEn estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, segúnterminología inglesa) es una colección de modelos estadísticos y sus procedimientosasociados, en el cual la varianza está particionada en ciertos componentes debidos adiferentes variables explicativas.Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico ygenetistaR. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anovade Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fishercomo parte del contraste de hipótesis.Supónganse k muestras aleatorias independientes, de tamaño n, extraídas de una únicapoblación normal. A partir de ellas existen dos maneras independientes de estimar lavarianza de la población 2:1) Una llamada varianza dentro de los grupos (ya que sólo contribuye a ella la varianzadentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmenterepresentada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calculacomo la media de las k varianzas muéstrales (cada varianza muestral es un estimadorcentrado de 2 y la media de k estimadores centrados es también un estimador centrado ymás eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma decuadrados del error y se representa por SSE y al denominador grados de libertad por ser lostérminos independientes de la suma de cuadrados. 2.2.1 Inferencia sobre una varianza de población (Anova).
  8. 8. El análisis de varianza (anova) es uno de los métodos estadísticos más utilizados y máselaborados en la investigación moderna. El análisis de la varianza, no obstante sudenominación se utiliza para probar hipótesis preferentes a las medias de población másque a las varianzas de población. Las técnicas anovas se han desarrollado para el análisis dedatos en diseños estadísticos muy complicados.Veamos cuando se tienen puntuaciones de CI en 5 muestras de adulto.Grupos 1 2 3 4 5 102 103 100 108 121 2 15 12 12 14 10Se aprecia que varían las medias de los grupos. Esta variación de las medias de grupo apartir de la media total o global de todos los grupos, se conoce como varianza intergrupal,la variabilidad promedio de las puntuaciones en cada grupo se denominan varianzaintergrupal. Ahora se colocan todas las puntuaciones de CI en una gran urna y se mezclanen forma adecuada. Puede desentenderse por el momento cuáles puntuaciones pertenecen aque grupos. Estas puntuaciones varían. La variación de estas puntuaciones individuales sedenomina variación total. El meollo del análisis de varianza radica en el siguiente hecho: silos grupos son muestras aleatorias provenientes de la misma población, las varianzas,intergrupal e intergrupal, son estimaciones insesgadas de la misma varianza poblacional. Seprueba la significación de la diferencia de los 2 tipos mediante la prueba F.Supuestos que fundamentan la aplicación de análisis de varianza.Cuando se utiliza la técnica anova se deben cumplir los siguientes supuestos:Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio,a partir de poblaciones normalmente distribuidas. La varianza de los subgrupos debe serhomogénea.Las muestras que constituyen los grupos deben ser independientes. Amenos de que lasmuestras sean independientes, y que por lo tanto, generen estimaciones de varianzaindependientes, la razón de las varianzas inter e intra no adoptará la distribución F. 2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova).
  9. 9. De manera que, si las varianzas poblacionales son iguales, dicha razón es 1 y podríamosafirmar que las dos poblaciones tienen una distribución homogénea; es decir, los datos seencuentran igualmente dispersos. Una forma clara de interpretación de la importancia de lahomogeneidad de varianzas se puede apreciar en el siguiente ejemplo:Supongamos que estamos comparando el rendimiento promedio de los alumnos de unaasignatura dividida en dos secciones, cada una de las cuales están asignadas a diferentesprofesores. Podría ocurrir que el rendimiento promedio de ambas secciones sea la misma;pero sin embargo, las notas pueden tener diferente variabilidad.Observe las dos curvas en el siguiente gráfico. Las dos tienen el mismo promedio, pero, porla forma de la campana, tienen diferente varianza.Esto justifica la necesidad de establecer una prueba de hipótesis para una razón devarianzas, a fin de comprobar si ellas son homogéneas o no.Una aplicación de esta razón podría ser bastante significativa en un caso en el que lasmedias no son muy explicativas.Por otro lado, así como se realiza inferencia sobre la estimación y prueba de hipótesis de ladiferencia de medias o proporciones muestrales en el caso de dos poblaciones, así tambiénpodemos plantear el estudio de la razón de las varianzas de dos poblaciones definiendo alparámetro q como y su estimador . Este estudio lo haremostomando en cuenta el intervalo de confianza y la prueba de hipótesis para q.
  10. 10. Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extraída a partir una población N(m1,s1²) y se Y1, Y2, ..., Yn2 una muestra aleatoria extraída a partir una población N(m2, s2²).
  11. 11. Pruebas de la bondad del ajuste y análisis de VarianzaLas pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a unadeterminadadistribución, esta distribución puede estar completamente especificada(hipótesis simple) operteneciente a una clase paramétrica (hipótesis compuesta).Test Â2 Están diseñados para variables aleatorias discretas con un número finito de valores,siesto no ocurriese los valores de la variable se agrupan en un número finito de clases.1. Hipótesis nula simple H0: X ´ F0Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en lasclasesC1;Ck, seaOi = no de individuos de la muestra en la clase Ci y sea pi = P(X 2 Ci).Con esta formulación lo que se contrasta esH0: pi = PF0(X 2 Ci) = p0 i 8i y se puede hacer por dos procedimientos: mediante elestadístico de la razón de verosimilitudeso mediante el estadístico de Pearson.Ambos procedimientos se basan en la comparación de la frecuencia observada en cadaclaseOi con la frecuencia esperada bajo la hipótesis nula Ei = np0
  12. 12. i = no de individuos esperadosen la clase Ci, bajo H0; si esta fuese cierta no deberíanpresentarse grandes discrepancias.

×