3. Analiza wariancji :
Pozwala ustalić wpływ przynależności jednostki
do określonej grupy na wartość badanej
zmiennej.
Możemy porównywać więcej niż dwie grupy.
Pozwala na wprowadzenie więcej niż jednego
kryterium klasyfikacji.
Umożliwienie zmierzenia nie tylko istotności
różnicy, ale również jej siły.
5. Analiza Wariancji
Hipoteza zerowa
H0 : Średnie w populacji są równe
m1 = m2 = m3 = m4
Hipoteza alternatywna
H1 : Co najmniej jedna para średnich nie jest sobie
równa
m1 ≠ m2 ≠ m3 ≠ m4
6. Założenia analizy wariancji:
odchylenia od średnich grupowych mają rozkładodchylenia od średnich grupowych mają rozkład
normalnynormalny
homogeniczność wariancji w poszczególnychhomogeniczność wariancji w poszczególnych
podgrupachpodgrupach
poszczególne obserwacje są od siebieposzczególne obserwacje są od siebie
niezależneniezależne
działania poszczególnych czynników sądziałania poszczególnych czynników są
addytywne (gdy jest ich więcej niż 1)addytywne (gdy jest ich więcej niż 1)
7. Całkowita wariancja
Wariancja niewyjaśniona
przez eksperyment
Wariancja wewnątrzgrupowa
Wariancja błędu
Wariancja wyjaśniona
przez eksperyment
Wariancja międzygrupowa
Wariancja kontrolowana
(SST - suma odchyleń obserwacji od średniej w całej próbie)
MST=SST/(N-1)
(SSTR - suma odchyleń średnich w grupach
od średniej w całej próbie - ważonych liczbą
obserwacji w każdej grupie)
MSTR=SSTR/(G-1)
(SSE - suma odchyleń obserwacji od
odpowiadających im średnich
grupowych)
MSE=SSE/(N-G)
N-liczba przypadków, G-liczba grup
Im wyższe MSTR a niższe MSE, tym w większym stopniu wyodrębniony czynnik
wyjaśnia nam zróżnicowanie badanej zmiennej.
8. Statystyka F:
F = MSTR /F = MSTR /
MSEMSE
Na podstawie danych obliczamy statystykę testuNa podstawie danych obliczamy statystykę testu FF. Obszar. Obszar
krytyczny wyznaczamy w oparciu o tablice rozkładukrytyczny wyznaczamy w oparciu o tablice rozkładu FF..
Jeżeli statystyka testu jest większa od wielkości obszaruJeżeli statystyka testu jest większa od wielkości obszaru
krytycznego dla poziomu istotności 0,05, to odrzucamykrytycznego dla poziomu istotności 0,05, to odrzucamy
hipotezę zerową.hipotezę zerową.
9. SPSS
Analyze -> Compare Means ->One-Way
ANOVA
Dependent list: ile godzin w Internecie,
Factor: dostęp do internetu
10. ANOVA
Analiza
Porównywanie średnich
Jednoczynnikowa ANOVA
Zmienna zależna – zmienna
ilościowa, której średnie w grupach
porównujemy. Można wybrać
więcej niż jedną –
przeprowadzone będą oddzielne
analizy dla każdej zmiennej.
Czynnik – zmienna
jakościowa. Średnie
są porównywane w
grupach tworzonych
przez kategorie
czynnika. / Zmienna,
której wpływ na
zmienną zależną
badamy.
Sprawdzanie wpływu zmiennej
jakościowej (czynnika) na
ilościową (zmienną zależną).
Badana jest hipoteza o
równości średnich zmiennej
zależnej w grupach
tworzonych przez poziomy
(kategorie) czynnika.
11. ANOVA Opcje...
Możliwość obliczenia dodatkowych
statystyk:
- Opisowych
- Efektów stałych i losowych (w
zależności od rodzaju analizy
wariancji – czy kontrolujemy czynnik
(efekt stały), czy też jest on
losowy(efekt losowy))
- Testu jednorodności wariancji
(równość wariancji w grupach)
- Testów Browna-Forsytha i
Welcha – są to mocna testy
równości średnich, stosowane kiedy
wariancje nie jest spełnione założenie
o równości wariancji w grupach
- Wykresu średnich
Jeśli wykonuje się analizę wariancji
dla więcej niż jednej zmiennej
zależnej. Obserwacje z brakami
danych, dla którejś z
analizowanych zmiennych mogą
być wyłączane w każdej analizie
(wyłączanie wszystkich obserwacji
z brakami) lub tylko w analizie z
udziałem tej zmiennej (wyłączanie
obserwacji analiza po analizie)
12. Porównywanie średnich
Istotność jest mniejsza od
założonej wartości (np.
0,05), więc odrzucamy
hipotezę o równości
średnich w grupach
zdefiniowanych przez
zmienną niezależną.
ANOVA
Ile godzin w Internecie
5322,513 3 1774,171 18,016 ,000
36043,615 366 98,480
41366,127 369
Between Groups
Within Groups
Total
Sum of
Squares df Mean Square F Sig.
13. Sprawdzenie założeń
Test Levene’a wskazuje, że założenie o homogeniczności
wariancji w poszczególnych podgrupach nie jest spełnione.
ANOVA jest jednak stosunkowo odporna na niespełnienie tego
założenia.
Test of Homogeneity of Variances
Ile godzin w Internecie
11,205 3 367 ,000
Levene
Statistic df1 df2 Sig.
14. ANOVA
Wybrane statystyki dla zmiennej zależnej: ogółem i dla
grup zdefiniowanych poziomami czynnika.
Descriptives
Ile godzin w Internecie
91 8,2423 8,54407 ,89548 6,4633 10,0213 1,00 60,00
196 14,6900 11,88089 ,84773 13,0181 16,3619 1,00 80,00
6 10,8827 6,31813 2,58255 4,2382 17,5273 5,00 21,00
77 5,9433 4,70589 ,53559 4,8766 7,0100 1,00 30,00
371 11,2230 10,57871 ,54949 10,1425 12,3035 1,00 80,00
9,92370 ,51546 10,2093 12,2366
2,95800 1,8093 20,6366 22,04725
tak, przez modem
tak, przez stale lacze
tak, inny
nie
Total
Fixed Effects
Random Effects
Model
N Mean Std. Deviation Std. Error Lower Bound Upper Bound
95% Confidence Interval for
Mean
Minimum Maximum
Between-
Component
Variance
15. ANOVA
Wykres średnich
Means PlotMeans Plot
Średnia dla osób nie
posiadających dostępu do
Internetu.
Można na nim
sprawdzić, które
średnie różnią się
między sobą.
16. ANOVA
Mocne testy równości średnich można zastosować kiedy
wariancje w grupach nie są równe – nie jest spełnione
jedno z założeń analizy wariancji.
Istotność jest mniejsza od
założonej wartości (np.
0,05), więc odrzucamy
hipotezę o równości średniej
w grupach zdefiniowanych
poziomami czynnika.
Robust Tests of Equality of Means
Ile godzin w Internecie
29,863 3 85,934 ,000Brown-Forsythe
Statistic
a
df1 df2 Sig.
Asymptotically F distributed.a.
17. Testy Post Hoc:
Za ich pomocą dokonujemy porównań
parami średnich we wszystkich
kombinacjach
Jeśli mamy cztery grupy: 1-2; 1-3; 1-4; 2-3; 2-
4; 3-4
Porównania parami kontrolują poziomu
błędu I rodzaju
18. ANOVA Post hoc...
Testy zakładające
równość wariacji
w grupach.
Testy do zastosowania,
kiedy wariancje nie są
równe.
Testy wielokrotnych
porównań parami (Tukey’a,
GT2 Hochberga, Gabriela,
Scheffe’a, Bonferroniego, Sidaka,
Dunnett’a, NIR i wszystkie dla
nierównych wariancji) pozwalają
stwierdzić, które średnie różnią
się między sobą. Każda średnia
porównana jest z każdą inną.
Testy rozstępu (Tukey’a, GT2 Hochberga, Gabriela,
Scheffe’a, b Tukey’a, F R-E-G-W, Q R-E-G-W, S-N-K,
Dunkana, Wallera-Dunkana) identyfikują podzbiory średnich
nie różniących się istotnie między sobą).
19. ANOVA Istotność jest
mniejsza od
założonej wartości
(np. 0,05),
oznacza to, że
średnie dla
posiadaczy
modemu i stałego
łącza różnią się
istotnie.
Porównania wielokrotne – porównywane są wszystkie średnie w
grupach ze wszystkimi.
Multiple Comparisons
Dependent Variable: Ile godzin w Internecie
Tamhane
-6,44775* 1,23310 ,000 -9,7195 -3,1760
-2,64047 2,73339 ,937 -12,9708 7,6899
2,29899 1,04343 ,163 -,4845 5,0825
6,44775* 1,23310 ,000 3,1760 9,7195
3,80728 2,71812 ,757 -6,5588 14,1734
8,74674* 1,00275 ,000 6,0891 11,4044
2,64047 2,73339 ,937 -7,6899 12,9708
-3,80728 2,71812 ,757 -14,1734 6,5588
4,93946 2,63750 ,521 -5,6806 15,5595
-2,29899 1,04343 ,163 -5,0825 ,4845
-8,74674* 1,00275 ,000 -11,4044 -6,0891
-4,93946 2,63750 ,521 -15,5595 5,6806
(J) Dostep do Internetu
tak, przez stale lacze
tak, inny
nie
tak, przez modem
tak, inny
nie
tak, przez modem
tak, przez stale lacze
nie
tak, przez modem
tak, przez stale lacze
tak, inny
(I) Dostep do Internetu
tak, przez modem
tak, przez stale lacze
tak, inny
nie
Mean
Difference
(I-J) Std. Error Sig. Lower Bound Upper Bound
95% Confidence Interval
The mean difference is significant at the .05 level.*.
21. Analiza wariancji z klasyfikacją
wielokrotną
pozwala nam zbadać, jaki wpływ na
populację mają kombinacje czynników
np. w przypadku dwuczynnikowej
ANOVy – czynnika A i B.
22. W rezultacie otrzymamy trzy efekty – efekty swoiste
czynnika A oraz B oraz efekt interakcji AB.
Efekt swoisty - efekt działania każdego z
czynników z osobna (bez względu na poziom
drugiego czynnika).
Efekt interakcji - występuje, gdy efekt uzyskany
przy danym poziomie jednego czynnika zależy od
poziomu drugiego; nie miałby miejsca bez
połączenia dwóch czynników na danym poziomie.
Jeżeli interakcja nie zachodzi, to czynniki są
addytywne.
23. ModelModel
Badamy daną cechę populacji (jej natężenie -
średnią) w podgrupach ze względu na
działanie dwóch czynników A i B.
Otrzymujemy n*k kombinacji poziomów (gdyż
istnieje n poziomów czynnika A i k poziomów
czynnika B)
Jako pierwszą sprawdzamy zawsze hipotezę
dotyczącą interakcji, gdyż interpretacja
wyników testów na efekty swoiste zależy od
tego, czy czynniki są addytywne, czy nie.
24. Założenia:
Normalność i identyczna wariancja
rozkładu ze względu na badaną cechę w
każdej podpróbie
Obserwacje pochodzą z losowych prób
Liczba obserwacji o poszczególnych
kombinacjach poziomów czynników jest
identyczna
25. ModelModel
Xijk=xsr+ai+bj+(ab)ij+eijk
Xsr – średnia ogólna, dla całej populacji
ai – efekt działania czynnika A na poziomie i (i=1,2,...,n)
bi – efekt działania czynnika B na poziomie i (i=1,2,...,k)
(ab)ij – efekt interakcji czynników A i B na poziomach
odpowiednio i oraz j
eijk – błąd losowy o rozkładzie normalnym, średniej równej
zero i stałej wariancji
26. ModelModel
SST = SSTR + SSE
Zmienność (wariancja) całkowita =
zmienność wynikająca ze zróżnicowania grup (wyjaśniona,
międzygrupowa)
+
błędy losowe (zmienność niewyjaśniona, wewnątrzgrupowa)
SSTR = SSA + SSB + SS(AB)
zmienność wyjaśniona =
zmienność wynikająca z czynnika A + zmienność wynikająca z
czynnika B + zmienność wynikająca z interakcji czynników
27. Testowanie hipotezTestowanie hipotez
1.Test na efekt swoisty czynnika A
Ho: dla każdego i=1,2,...,n ai=0
H1: istnieje i, dla którego ai ≠ 0
Test sprawdza, czy istnieją statystycznie istotne różnice między
średnimi badanej cechy, wynikające z zastosowania czynnika A
na określonym poziomie
2. Test na efekt swoisty czynnika B
(analogicznie)
3. Test na interakcję
Ho: dla każdego i=1,2,...,n oraz j=1,2,...,k (ab)ij=0
H1: istnieje i oraz j, dla którego (ab)ij ≠ 0
28. Statystyki testująceStatystyki testujące
Efekty swoiste:
- czynnika A
F=MSA/MSE, df: (n-1) i nk(N-1)
- czynnika B
F=MSB/MSE, df: (k-1) i nk(N-1)
Efekt interakcji:
F=MS(AB)/MSE df: (n-1)(k-1) i nk(N-1)
Gdzie:
MSA=SSA/(n-1),
MSB=SSB/(k-1),
MS(AB)=SS(AB)/(n-1)(k-1),
MSE=SSE/nk(N-1)
29. SPSS
Analyse -> General Linear Model ->
Univariate
Analiza -> Ogólny Model Liniowy -> Jednej Zmienne
30. PrzykładPrzykład
Zbadajmy wpływ roku studiów i płci na
czas spędzany w internecie.
Between-Subjects Factors
95
71
97
111
Kobieta 192
Mezczyzna 182
1
2
3
4
Rok
studiow
1
2
Płeć
Value Label N
31. Tests of Between-Subjects Effects
Dependent Variable: Ile godzin w Internecie
3917,517a 7 559,645 5,624 ,000
42850,271 1 42850,271 430,627 ,000
1810,807 3 603,602 6,066 ,000
1612,418 1 1612,418 16,204 ,000
552,058 3 184,019 1,849 ,138
36419,440 366 99,507
85679,000 374
40336,957 373
Source
Corrected Model
Intercept
C12
C10
C12 * C10
Error
Total
Corrected Total
Type III Sum
of Squares df Mean Square F Sig.
R Squared = ,097 (Adjusted R Squared = ,080)a.
Z testu wynika, że efekt swoisty zarówno pierwszego jak i drugiego
czynnika jest istotny statystycznie, zaś efekt interakcji jest nieistotny
statystycznie.