Upcoming SlideShare
Loading in …5
×

# S08 ad4001 ss

308 views
188 views

Published on

Sesión 08
Estadística en las Organizaciones
ANOVA
Dr. Jorge Ramírez Medina
EGADE BS CEM

0 Comments
0 Likes
Statistics
Notes
• Full Name
Comment goes here.

Are you sure you want to Yes No
Your message goes here
• Be the first to comment

• Be the first to like this

No Downloads
Views
Total views
308
On SlideShare
0
From Embeds
0
Number of Embeds
61
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
• An apple juice manufacturer is planning to develop a new product -a liquid concentrate.
The marketing manager has to decide how to market the new product.
Three strategies are considered
Emphasize convenience of using the product.
Emphasize the quality of the product.
Emphasize the product’s low price.
An experiment was conducted as follows:
In three cities an advertisement campaign was launched .
In each city only one of the three characteristics (convenience, quality, and price) was emphasized.
The weekly sales were recorded for twenty weeks following the beginning of the campaigns.
• The weekly sales were recorded for twenty weeks following the beginning of the campaigns
The problem objective is to compare sales in three cities.
We hypothesize that the three population means are equal
• The weekly sales were recorded for twenty weeks following the beginning of the campaigns
The problem objective is to compare sales in three cities.
We hypothesize that the three population means are equal
To build the statistic needed to test thehypotheses use the following notation:
• Variable de respuesta: Las ventas semanales
Observaciones: valor de las venta real
Unidad de análisis: Las tres ciudades
Tratamiento :Criterio por el cual se clasifican las poblaciones (los tratamientos). En este problemas  el factor es la estrategia de mercadotecnia.Niveles de los tratamientos:  Las diferentes estrategias de mercadotecnia; Conveniencia, Precio, Calidad.
• Si las medias de tres poblaciones son iguales cabe esperar que las tres medias de las muestras se aproximen entre si. De hecho mientras más próximas estén la medias de las tres muestras habrá más evidencia para concluir que las medias poblacionales son iguales. En forma alternativa, cuanto más distintas sean las medias muestrales, más evidencias tendremos para llegar a la conclusión de que las medias poblacionales no son iguales.
Si la variabilidad entre las medias de las muestras es “pequeña” se respalda H0; si es “grande” Ha se respalda.
Si Ho es cierta podemos usar la variabilidad entre las medias de las muestra para determinar un estimado de la varianza poblacional 2.
Media general de la muestra
2=(n*(estimación de sx2) estimación de 2 entre tratamientos
Estimación de la variabilidad entre tratamientos
• Cuando las medias de la población no son iguales , la estimación entre tratamientos agrandará o sobreestimará la varianza poblacional s2. La variación dentro de cada una de las muestras también tiene un efecto sobre la conclusión a la que se puede llegar en un análisis de la varianza. Cuando se toma una muestra aleatoria simple de cada población, cada una de las varianzas de la muestra es una estimación insesgada de s2 (poblacional). Por consiguiente podemos combinar las estimaciones individuales de s2 , en una estimación general , la cual se denomina estimación combinada o dentro de tratamientos de s2.
variación dentro de cada una de las muestras,
• En resumen , la racionalidad del análisis de varianza se basa en el cálculo de dos estimaciones independientes de la varianza poblacional s2 común. Una estimación se basa en la variabilidad entre las medias de las muestras mismas(entre las muestras), y la otra en la variabilidad de los datos dentro de cada muestra. Si se comparan ambas, se podrá determinar si las medias de la población son iguales.
The total variation in Y, denoted by SSy, can be decomposed into two components:
SSy = SSbetween + SSwithin
where the subscripts between and within refer to the categories of X.
SSbetween is the variation in Y related to the variation in the means of the categories of X. For this reason, SSbetween is also denoted as SSx.
SSwithin is the variation in Y related to the variation within each category of X. SSwithin is not accounted for by X. Therefore it is referred to as SSerror.
• The figure shows the rejection region associated with a level of significance equal to  where F denotes the critical value
• La idea gral. en ANOVA es que cuando las medias de las muestras están muy aparte significa que las medias de la población no son iguales.
Cuando los diagramas de caja no se sobreimponen mucho el valor p tiende a ser pequeño
1- Ponga todos los tamaños de muestra en 10. Ponga todas las medias iguales y presione el botón de Sample. Repita varias veces grabando el valor de p de la última columna en la caja en la parte baja de la pantalla. Con p&lt;0.05 rechazamos H0. ¿fallá el rechazar la hipótesis nula la mayor parte de las veces?
2- Ponga la media de las tres curvas en 5 y repita el ejercicio 1. debemos esperar que nuestra respuesta cambie cuando el valor de la media de la población común cambia?
3- Incremente el tamaño de la muestra a 50 y repita el ejercicio. Cambia la respuesta cuando cambia el tamaño de la muestra?
4- Ahora intente hacerlo moviendo las medias lejos de las otras. (rechazamos H0 cuando p&lt;0.05)
la racionalidad del análisis de varianza se basa en el cálculo de dos estimaciones independientes de la varianza poblacional s2 común.
Una estimación se basa en la variabilidad entre las medias de las muestras mismas, SSbetween
y la otra en la variabilidad de los datos dentro de cada muestra. Sswithin
• http://www.stat.tamu.edu/~west/applets/chisqdemo1.html
• Para presentar de manera adecuada los cálculos anteriores se usa una tabla conocida como ANOVA
(presentación depende del paquete estadístico usado)
HACER AQUÍ EL EJEMPLO DE LA PLANTA CON ANOVA USANDO EXCEL
• Tres propuestas para reducir el estrés en el trabajo
Pero cada quién lo maneja a su modo
CME fuente de variación del grupo depende de las variaciones individuales de los empleados también
Quitar estas diferencias con diseño de bloque aleatorizado
Ejercicios en clase/Estrés
• Un experimento factorial es un diseño experimental que permite obtener simultáneamente conclusiones de dos o más facotres.
El termino factorial se debe a que incluye todas las posibles combinaciones
Estudiantes de tres licenciaturas aplican un examen en donde hay tres apoyos
Suponga que se toma una muestra de dos estudiantes para cada una de las combinaciones de tratamientos (dos replicaciones)
De cada licenciatura se tomarán seis estudiantes
• -- a dependent variable -- is generally predicted or explained by means of the other(s) -- independent variables and covariates. These are called dependence methods. Ejemplo: multiple regression and analysis of variance
• Multiple regression analysis enables the researcher to predict the level of magnitude of a dependent variable based on the levels of more than one
independent variable.
Multiple discriminant analysis enables the researcher to predict group membership on the basis of two or more independent variables.
Conjoint analysis provides a basis to estimate the utility that consumers associate with different product features or attributes.
• http://onlinestatbook.com/stat_sim/reg_by_eye/index.html
El truco es minimizar las desviaciones a la media =&gt; se usa……
• ### S08 ad4001 ss

1. 1. Sesión 8 Dos Poblaciones y ANOVA Estadística en las organizaciones CD4001 Dr. Jorge Ramírez Medina
2. 2. Análisis de Varianza • Analysis of variance (ANOVA) . Es utilizado para probar la media de dos o más poblaciones. La hipótesis nula, típicamente, es que todas las medias son iguales. • Esta técnica es una extensión de la prueba t de dos muestras. • Adicional a conocer las diferencias entre las medias, puede ser de interés conocer cuál media difiere. • El análisis de varianza y covarianza se examinan diferencias en los valores medios de la variable dependiente asociados con el efecto de las variables controladas, después de tomar en cuenta la influencia de las variables independientes no controladas Dr Jorge Ramírez Medina EGADE Business School
3. 3. Tomemos un ejemplo ¿Cómo promocionar un nuevo producto (concentrado de manzana) • Convenience Dr Jorge Ramírez Medina EGADE Business School
4. 4. Tomemos un ejemplo Convnce Weekly sales Dr Jorge Ramírez Medina EGADE Business School 529 658 793 514 663 719 711 606 461 Weekly 529 sales 498 663 604 495 485 557 353 557 542 614 Quality 804 630 774 717 679 604 620 697 706 615 492 719 787 699 572 Weekly 523 sales 584 634 580 624 Price 672 531 443 596 602 502 659 689 675 512 691 733 698 776 561 572 469 581 679 532
5. 5. Solución H0: µ1 = µ2= µ3 H1: At least two means differ Dr Jorge Ramírez Medina EGADE Business School
6. 6. Notación Muestras independientes tomadas de k poblaciones (tratamientos). 1 Segunda observación, Segunda muestra Tamaño de la muestra k X11 x21 . . . Xn1,1 n1 Primera observación, Primera muestra 2 X12 x22 . . . Xn2,2 X1k x2k . . . Xnj,k n2 nj x1 Media de la muestra x2 xj X es la “variable de respuesta”. Los valores son llamados “observaciones” Dr Jorge Ramírez Medina EGADE Business School
7. 7. Notación En el contexto de este Problema: Variable de respuesta: Las ventas semanales  Observaciones: valor de las venta real Unidad de análisis: Las tres ciudades Tratamiento :Criterio por el cual se clasifican las poblaciones (los  tratamientos). En este problemas  el factor es la estrategia de  mercadotecnia. Niveles de los tratamientos:  Las diferentes estrategias de  mercadotecnia; Conveniencia, Precio, Calidad. Dr Jorge Ramírez Medina EGADE Business School
8. 8. Análisis de Varianza σx x3 µ x2 2 σ2 = n x1 Las medias de las muestras están “cercanas entre sí”, porque sólo hay una distribución muestral cuando H0 es verdadera Dr Jorge Ramírez Medina EGADE Business School
9. 9. Análisis de Varianza x3 µ3 µ2 x2 Las medias de las muestras provienen de distintas distribuciones muestrales y no están tan cercanas entre sí cuando H0 no verdadera  Dr Jorge Ramírez Medina EGADE Business School x1 µ1
10. 10. Descomposición de la variación • SSentre.  Estimación de la variabilidad entre tratamientos, también se le  denota por SSx, esta es la variación en X relacionada a la variación en  las medias de cada muestra. Se le conoce como SCTR suma de los cuadrados debido a los tratamientos.  • SSdentro. variación dentro de cada una de las muestras, también  denotada como SSerror, es la variación en X debido a la variación  dentro de cada una de las muestras. Se le conoce como SCE, suma de cuadrados debido al error • SSy.  Es la variación total. Se le conoce como STC, suma de cuadrados del total STC = SCTR + SCE Dr Jorge Ramírez Medina EGADE Business School
11. 11. El estadístico F Hipótesis: H0:  µ1 = µ2 = µ3 = .  .  . = µk Ha:  No todas las medias de la               población son iguales Estadístico de prueba: Regla de rechazo:              Rechazar H0 if F > Fα Donde el valor de Fα  esta basado en una  distribución F  con  k - 1 grados de libertad  en el numerador y  nT - 1 grados de libertad  en el denominador Dr Jorge Ramírez Medina EGADE Business School
12. 12. Distribución de muestreo de CMTR/CME No rechazar H0 Rechazar H0 Fα Valor Crítico Dr Jorge Ramírez Medina EGADE Business School CMTR/CME
13. 13. Análisis de Varianza Dr Jorge Ramírez Medina EGADE Business School
14. 14. Acerca de los grados de libertad • Distribución χ2 s 2 ( n − 1) σ2 • Demostración de grados de libertad Dr Jorge Ramírez Medina EGADE Business School
15. 15. Tabla ANOVA s 2 ( n − 1) σ2 Dr Jorge Ramírez Medina EGADE Business School
16. 16. Ejemplo; Estrés laboral Sistema B Sistema A Dr. Jorge Ramírez Medina ITESM EGADE Sistema C
17. 17. ANOVA dos factores ía un d de R ma epa ra so rog P de so Cur n sema 0 de 1 as tre s hor Ingeniería Cie ncia s ón i ra c t inis dm A Dr. Jorge Ramírez Medina EGADE Business School as
18. 18. Qué tipo de relación se examina? Dependencia Interdependencia Cuántas son las variables a predecir? Múltiples relaciones de Variables dependientes e independientes Varias variables dependientes en una sola relación Métrica Correlación canónica Cuál es la escala de medición de la variable dependiente? Cuál es la escala de medición de la variable dependiente? SEM Métrica Una variable dependientes en una sola relación No Métrica Cuál es la escala de medición de la variable predictora? No Métrica Análisis Multivariado de varianza (Manova) Correlación canónica con variables dummy Métrica Regresión múltiple Análisis Conjoint No Métrica Análisis discriminante múltiple Modelos de probabilidad lineal (logit Analysis)
19. 19. Correlación canónica Y1+Y2+Y3+…+Yn = métrica, no métrica X1+X2+X3+…+Xn métrica, no métrica Manova Y1+Y2+Y3+…+Yn = métrica X1+X2+X3+…+Xn no métrica Análisis de Varianza Y1 = Relación entre los métodos de dependencia multivariados métrica X1+X2+X3+…+Xn no métrica Análisis discriminante múltiple Y1= no métrica (dicotómica) X1+X2+X3+…+Xn métrica Análisis de regresión múltiple Y1= métrica X1+X2+X3+…+Xn métrica, no métrica Análisis Cojoint Y1= métrica, no métrica X1+X2+X3+…+Xn no métrica SEM Y1 = Y2 = Ym = X11+X12+X13+…+X1n X21+X22+X23+…+X2n Xm1+Xm2+Xm3+…+Xmn
20. 20. Modelo de regresión lineal simple • Modelo de regresión lineal simple y = β0 + β1x + ε • Ecuación de regresión lineal simple E(y) = β0 + β1x • Ecuación estimada de regresión lineal simple ^ y = b0 + b1x Dr Jorge Ramírez Medina EGADE Business School
21. 21. When ANOVA is the Correct Test
22. 22. Evaluación final Dr. Jorge Ramírez Medina EGADE Business School
23. 23. Fin Sesión Ocho