Anova2

Analiza Wariancji
ANOVA
Iwona Sienicka
Henryk Kalinowski

Plan prezentacji:
 Podstawy analizy wariancji.
 Jednoczynnikowa ANOVA.
 Dwuczynnikowa ANOVA.

Analiza wariancji :
 Pozwala ustalić wpływ przynależności jednostki
do określonej grupy na wartość badanej
zmiennej.
 Możemy porównywać więcej niż dwie grupy.
 Pozwala na wprowadzenie więcej niż jednego
kryterium klasyfikacji.
 Umożliwienie zmierzenia nie tylko istotności
różnicy, ale również jej siły.

Analiza Wariancji
 Hipoteza zerowa
H0 : Średnie w populacji są równe
m1 = m2 = m3 = m4
 Hipoteza alternatywna
H1 : Co najmniej jedna para średnich nie jest sobie
równa
m1 ≠ m2 ≠ m3 ≠ m4

Założenia analizy wariancji:
 odchylenia od średnich grupowych mają rozkładodchylenia od średnich grupowych mają rozkład
normalnynormalny
 homogeniczność wariancji w poszczególnychhomogeniczność wariancji w poszczególnych
podgrupachpodgrupach
 poszczególne obserwacje są od siebieposzczególne obserwacje są od siebie
niezależneniezależne
 działania poszczególnych czynników sądziałania poszczególnych czynników są
addytywne (gdy jest ich więcej niż 1)addytywne (gdy jest ich więcej niż 1)

Całkowita wariancja
Wariancja niewyjaśniona
przez eksperyment
Wariancja wewnątrzgrupowa
Wariancja błędu
Wariancja wyjaśniona
przez eksperyment
Wariancja międzygrupowa
Wariancja kontrolowana
(SST - suma odchyleń obserwacji od średniej w całej próbie)
MST=SST/(N-1)
(SSTR - suma odchyleń średnich w grupach
od średniej w całej próbie - ważonych liczbą
obserwacji w każdej grupie)
MSTR=SSTR/(G-1)
(SSE - suma odchyleń obserwacji od
odpowiadających im średnich
grupowych)
MSE=SSE/(N-G)
N-liczba przypadków, G-liczba grup
Im wyższe MSTR a niższe MSE, tym w większym stopniu wyodrębniony czynnik
wyjaśnia nam zróżnicowanie badanej zmiennej.

Statystyka F:
F = MSTR /F = MSTR /
MSEMSE
Na podstawie danych obliczamy statystykę testuNa podstawie danych obliczamy statystykę testu FF. Obszar. Obszar
krytyczny wyznaczamy w oparciu o tablice rozkładukrytyczny wyznaczamy w oparciu o tablice rozkładu FF..
Jeżeli statystyka testu jest większa od wielkości obszaruJeżeli statystyka testu jest większa od wielkości obszaru
krytycznego dla poziomu istotności 0,05, to odrzucamykrytycznego dla poziomu istotności 0,05, to odrzucamy
hipotezę zerową.hipotezę zerową.

SPSS
 Analyze -> Compare Means ->One-Way
ANOVA
 Dependent list: ile godzin w Internecie,
Factor: dostęp do internetu

ANOVA
Analiza 
Porównywanie średnich 
Jednoczynnikowa ANOVA
Zmienna zależna – zmienna
ilościowa, której średnie w grupach
porównujemy. Można wybrać
więcej niż jedną –
przeprowadzone będą oddzielne
analizy dla każdej zmiennej.
Czynnik – zmienna
jakościowa. Średnie
są porównywane w
grupach tworzonych
przez kategorie
czynnika. / Zmienna,
której wpływ na
zmienną zależną
badamy.
Sprawdzanie wpływu zmiennej
jakościowej (czynnika) na
ilościową (zmienną zależną).
Badana jest hipoteza o
równości średnich zmiennej
zależnej w grupach
tworzonych przez poziomy
(kategorie) czynnika.

ANOVA Opcje...
Możliwość obliczenia dodatkowych
statystyk:
- Opisowych
- Efektów stałych i losowych (w
zależności od rodzaju analizy
wariancji – czy kontrolujemy czynnik
(efekt stały), czy też jest on
losowy(efekt losowy))
- Testu jednorodności wariancji
(równość wariancji w grupach)
- Testów Browna-Forsytha i
Welcha – są to mocna testy
równości średnich, stosowane kiedy
wariancje nie jest spełnione założenie
o równości wariancji w grupach
- Wykresu średnich
Jeśli wykonuje się analizę wariancji
dla więcej niż jednej zmiennej
zależnej. Obserwacje z brakami
danych, dla którejś z
analizowanych zmiennych mogą
być wyłączane w każdej analizie
(wyłączanie wszystkich obserwacji
z brakami) lub tylko w analizie z
udziałem tej zmiennej (wyłączanie
obserwacji analiza po analizie)

Porównywanie średnich
Istotność jest mniejsza od
założonej wartości (np.
0,05), więc odrzucamy
hipotezę o równości
średnich w grupach
zdefiniowanych przez
zmienną niezależną.
ANOVA
Ile godzin w Internecie
5322,513 3 1774,171 18,016 ,000
36043,615 366 98,480
41366,127 369
Between Groups
Within Groups
Total
Sum of
Squares df Mean Square F Sig.

Sprawdzenie założeń
Test Levene’a wskazuje, że założenie o homogeniczności
wariancji w poszczególnych podgrupach nie jest spełnione.
ANOVA jest jednak stosunkowo odporna na niespełnienie tego
założenia.
Test of Homogeneity of Variances
11,205 3 367 ,000
Levene
Statistic df1 df2 Sig.

ANOVA
Wybrane statystyki dla zmiennej zależnej: ogółem i dla
grup zdefiniowanych poziomami czynnika.
Descriptives
91 8,2423 8,54407 ,89548 6,4633 10,0213 1,00 60,00
196 14,6900 11,88089 ,84773 13,0181 16,3619 1,00 80,00
6 10,8827 6,31813 2,58255 4,2382 17,5273 5,00 21,00
77 5,9433 4,70589 ,53559 4,8766 7,0100 1,00 30,00
371 11,2230 10,57871 ,54949 10,1425 12,3035 1,00 80,00
9,92370 ,51546 10,2093 12,2366
2,95800 1,8093 20,6366 22,04725
tak, przez modem
tak, przez stale lacze
tak, inny
nie
Total
Fixed Effects
Random Effects
Model
N Mean Std. Deviation Std. Error Lower Bound Upper Bound
95% Confidence Interval for
Mean
Minimum Maximum
Between-
Component
Variance

ANOVA
Wykres średnich
Means PlotMeans Plot
Średnia dla osób nie
posiadających dostępu do
Internetu.
Można na nim
sprawdzić, które
średnie różnią się
między sobą.

ANOVA
Mocne testy równości średnich można zastosować kiedy
wariancje w grupach nie są równe – nie jest spełnione
jedno z założeń analizy wariancji.
Istotność jest mniejsza od
założonej wartości (np.
0,05), więc odrzucamy
hipotezę o równości średniej
w grupach zdefiniowanych
poziomami czynnika.
Robust Tests of Equality of Means
29,863 3 85,934 ,000Brown-Forsythe
Statistic
a
df1 df2 Sig.
Asymptotically F distributed.a.

Testy Post Hoc:
 Za ich pomocą dokonujemy porównań
parami średnich we wszystkich
kombinacjach
Jeśli mamy cztery grupy: 1-2; 1-3; 1-4; 2-3; 2-
4; 3-4
 Porównania parami kontrolują poziomu
błędu I rodzaju

ANOVA Post hoc... 
Testy zakładające
równość wariacji
w grupach.
Testy do zastosowania,
kiedy wariancje nie są
równe.
Testy wielokrotnych
porównań parami (Tukey’a,
GT2 Hochberga, Gabriela,
Scheffe’a, Bonferroniego, Sidaka,
Dunnett’a, NIR i wszystkie dla
nierównych wariancji) pozwalają
stwierdzić, które średnie różnią
się między sobą. Każda średnia
porównana jest z każdą inną.
Testy rozstępu (Tukey’a, GT2 Hochberga, Gabriela,
Scheffe’a, b Tukey’a, F R-E-G-W, Q R-E-G-W, S-N-K,
Dunkana, Wallera-Dunkana) identyfikują podzbiory średnich
nie różniących się istotnie między sobą).

ANOVA Istotność jest
mniejsza od
założonej wartości
(np. 0,05),
oznacza to, że
średnie dla
posiadaczy
modemu i stałego
łącza różnią się
istotnie.
Porównania wielokrotne – porównywane są wszystkie średnie w
grupach ze wszystkimi.
Multiple Comparisons
Dependent Variable: Ile godzin w Internecie
Tamhane
-6,44775* 1,23310 ,000 -9,7195 -3,1760
-2,64047 2,73339 ,937 -12,9708 7,6899
2,29899 1,04343 ,163 -,4845 5,0825
6,44775* 1,23310 ,000 3,1760 9,7195
3,80728 2,71812 ,757 -6,5588 14,1734
8,74674* 1,00275 ,000 6,0891 11,4044
2,64047 2,73339 ,937 -7,6899 12,9708
-3,80728 2,71812 ,757 -14,1734 6,5588
4,93946 2,63750 ,521 -5,6806 15,5595
-2,29899 1,04343 ,163 -5,0825 ,4845
-8,74674* 1,00275 ,000 -11,4044 -6,0891
-4,93946 2,63750 ,521 -15,5595 5,6806
(J) Dostep do Internetu
tak, inny
nie
tak, przez modem
tak, inny
nie
tak, przez modem
nie
tak, przez modem
tak, inny
(I) Dostep do Internetu
tak, przez modem
tak, inny
nie
Mean
Difference
(I-J) Std. Error Sig. Lower Bound Upper Bound
95% Confidence Interval
The mean difference is significant at the .05 level.*.

DwuczynnikowaDwuczynnikowa analizaanaliza
wariancjiwariancji
Two-factorwo-factor ANOVAANOVA

Analiza wariancji z klasyfikacją
wielokrotną
pozwala nam zbadać, jaki wpływ na
populację mają kombinacje czynników
np. w przypadku dwuczynnikowej
ANOVy – czynnika A i B.

W rezultacie otrzymamy trzy efekty – efekty swoiste
czynnika A oraz B oraz efekt interakcji AB.
Efekt swoisty - efekt działania każdego z
czynników z osobna (bez względu na poziom
drugiego czynnika).
Efekt interakcji - występuje, gdy efekt uzyskany
przy danym poziomie jednego czynnika zależy od
poziomu drugiego; nie miałby miejsca bez
połączenia dwóch czynników na danym poziomie.
Jeżeli interakcja nie zachodzi, to czynniki są
addytywne.

ModelModel
 Badamy daną cechę populacji (jej natężenie -
średnią) w podgrupach ze względu na
działanie dwóch czynników A i B.
 Otrzymujemy n*k kombinacji poziomów (gdyż
istnieje n poziomów czynnika A i k poziomów
czynnika B)
 Jako pierwszą sprawdzamy zawsze hipotezę
dotyczącą interakcji, gdyż interpretacja
wyników testów na efekty swoiste zależy od
tego, czy czynniki są addytywne, czy nie.

Założenia:
 Normalność i identyczna wariancja
rozkładu ze względu na badaną cechę w
każdej podpróbie
 Obserwacje pochodzą z losowych prób
 Liczba obserwacji o poszczególnych
kombinacjach poziomów czynników jest
identyczna

ModelModel
Xijk=xsr+ai+bj+(ab)ij+eijk
Xsr – średnia ogólna, dla całej populacji
ai – efekt działania czynnika A na poziomie i (i=1,2,...,n)
bi – efekt działania czynnika B na poziomie i (i=1,2,...,k)
(ab)ij – efekt interakcji czynników A i B na poziomach
odpowiednio i oraz j
eijk – błąd losowy o rozkładzie normalnym, średniej równej
zero i stałej wariancji

ModelModel
SST = SSTR + SSE
Zmienność (wariancja) całkowita =
zmienność wynikająca ze zróżnicowania grup (wyjaśniona,
międzygrupowa)
+
błędy losowe (zmienność niewyjaśniona, wewnątrzgrupowa)
SSTR = SSA + SSB + SS(AB)
zmienność wyjaśniona =
zmienność wynikająca z czynnika A + zmienność wynikająca z
czynnika B + zmienność wynikająca z interakcji czynników

Testowanie hipotezTestowanie hipotez
1.Test na efekt swoisty czynnika A
Ho: dla każdego i=1,2,...,n ai=0
H1: istnieje i, dla którego ai ≠ 0
Test sprawdza, czy istnieją statystycznie istotne różnice między
średnimi badanej cechy, wynikające z zastosowania czynnika A
na określonym poziomie
2. Test na efekt swoisty czynnika B
(analogicznie)
3. Test na interakcję
Ho: dla każdego i=1,2,...,n oraz j=1,2,...,k (ab)ij=0
H1: istnieje i oraz j, dla którego (ab)ij ≠ 0

Statystyki testująceStatystyki testujące
 Efekty swoiste:
- czynnika A
F=MSA/MSE, df: (n-1) i nk(N-1)
- czynnika B
F=MSB/MSE, df: (k-1) i nk(N-1)
 Efekt interakcji:
F=MS(AB)/MSE df: (n-1)(k-1) i nk(N-1)
Gdzie:
MSA=SSA/(n-1),
MSB=SSB/(k-1),
MS(AB)=SS(AB)/(n-1)(k-1),
MSE=SSE/nk(N-1)

SPSS
Analyse -> General Linear Model ->
Univariate
Analiza -> Ogólny Model Liniowy -> Jednej Zmienne

PrzykładPrzykład
Zbadajmy wpływ roku studiów i płci na
czas spędzany w internecie.
Between-Subjects Factors
95
71
97
111
Kobieta 192
Mezczyzna 182
1
2
3
4
Rok
studiow
1
2
Płeć
Value Label N

Tests of Between-Subjects Effects
Dependent Variable: Ile godzin w Internecie
3917,517a 7 559,645 5,624 ,000
42850,271 1 42850,271 430,627 ,000
1810,807 3 603,602 6,066 ,000
1612,418 1 1612,418 16,204 ,000
552,058 3 184,019 1,849 ,138
36419,440 366 99,507
85679,000 374
40336,957 373
Source
Corrected Model
Intercept
C12
C10
C12 * C10
Error
Total
Corrected Total
Type III Sum
of Squares df Mean Square F Sig.
R Squared = ,097 (Adjusted R Squared = ,080)a.
Z testu wynika, że efekt swoisty zarówno pierwszego jak i drugiego
czynnika jest istotny statystycznie, zaś efekt interakcji jest nieistotny
statystycznie.

Przecięcie się krzywych wskazuje na występowanie
interakcji między czynnikami

Anova2

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Anova2

Similar to Anova2 (9)

Anova2