Materiały z zajęć z Analizy danych

Analiza danych
(konwersatorium)
dr hab. Radosław Mącik, prof. UMCS

Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
O mnie…
2

Zarządzanie II st.
Zainteresowania zawodowe
 Zachowania konsumentów,
szczególnie w zakresie wpływu ICT na
nie,
 Badania marketingowe – ilościowe i
jakościowe, badania internetowe
 Analiza danych ilościowych i
jakościowych – psychometria i
ekonometria
 E-commerce, e-marketing
 Logistyka miejska i aglomeracyjna
3

Zarządzanie II st.
Projekty badawcze i doradcze – ciekawsze
4

Zarządzanie II st.
Moje oczekiwania
 Zaangażowanie i pasja:
 Nienawidzę: kombinatorstwa, zachowań nieetycznych i
braku szczerości.
5

Zarządzanie II st.
Kontakt
 Konsultacje:
– środa, 9.30-11.00, p. 506
 Dyżur:
– czwartek, 9.30-12:00, p. 506 lub 301
(za wyjątkiem dni obrad Rady Wydziału)
 E-mail:
– radoslaw.macik@umcs.lublin.pl  ogólny do kontaktu
– rmacik@hektor.umcs.lublin.pl  do przesyłania ćwiczeń
temat maila stacjonarne: [AD], niestacjonarne [AD_NS]
 Informacje:
– http://radoslawmacik.wordpress.com
6

Zarządzanie II st.
Profil osobowy, „stara strona”, blog dydaktyczny
7

Zarządzanie II st.
Zaliczenie przedmiotu
 Udział w badaniach prowadzącego:
– 2-3 razy w ciągu semestru, udział osobisty lub
rekrutacja właściwego uczestnika
 Zadania/case study
– Nieobecności nie upoważniają do nie wykonywania
ćwiczeń
– 3-cia nieobecność powoduje skreślenie z listy
 Zaliczenie praktyczne:
– w środku semestru i na koniec – na komputerze
– więcej szczegółów w swoim czasie
8

Zarządzanie II st.
Zaliczenie przedmiotu – st. niestacjonarne
 Udział w badaniach prowadzącego:
– Max. 2 razy w ciągu semestru, udział osobisty lub
rekrutacja właściwego uczestnika
 Zadania/case study
– Nieobecności nie upoważniają do nie wykonywania
ćwiczeń
– 3-cia nieobecność powoduje skreślenie z listy
 Zaliczenie praktyczne:
– na koniec semestru – na komputerze
– więcej szczegółów w swoim czasie
9

Zarządzanie II st.
Literatura
 Anna Malarska, STATYSTYCZNA ANALIZA
DANYCH WSPOMAGANA PROGRAMEM SPSS,
Predictive Solutions, Kraków 2010
 Jarosław Górniak, Janusz Wachnicki,
PIERWSZE KROKI W ANALIZIE DANYCH,
Predictive Solutions, Kraków 2011
 ANALIZA DANYCH ZASTANYCH PRZEWODNIK
DLA STUDENTÓW, red. nauk. Marta
Makowska, Wyd. SCHOLAR, Warszawa 2013
 Piotr Francuz, Rafał Mackiewicz, LICZBY NIE
WIEDZĄ, SKĄD POCHODZĄ. PRZEWODNIK PO
METODOLOGII I STATYSTYCE NIE TYLKO DLA
PSYCHOLOGÓW, Wyd. KUL, Lublin 2007
 Screencasty i webcasty – do znalezienia np.
na YouTube itd.
slajd 10

Zarządzanie II st.
Zbieramy dane do analizy…
 Proszę wypełnić samodzielnie kwestionariusz
pod adresem:
https://www.surveymonkey.com
/r/esurvey_perception
slajd 12

Zarządzanie II st.
Dane  …
slajd 13
Mądrość
Wiedza
Informacja
Dane

Zarządzanie II st.
Dane, informacja, wiedza - zależności
slajd 14

Zarządzanie II st.
Czym jest analiza danych?
 Analiza danych jest procesem kontroli,
czyszczenia, transformacji i modelowania danych
w celu uzyskania z nich użytecznych informacji,
zasugerowania wniosków i wsparcia
podejmowania decyzji.
 Analiza danych ma wiele aspektów i podejść
obejmujących różne techniki analityczne
(występujące często pod różnymi nazwami) w
różnych dziedzinach – biznesie, naukach
przyrodniczych, czy też społecznych.

Zarządzanie II st.
Skalowanie wielowymiarowe
Stress = 0,098
R2 = 0,946

Zarządzanie II st.
Model ścieżkowy

Zarządzanie II st.
Alternatywne modele
– co jest artefaktem, a co jest rzeczywistością ?
18

Zarządzanie II st.
SPSS
 Dzisiaj to rodzina IBM SPSS Statistics + AMOS

Zarządzanie II st.
Ćwiczenie 1
 Przygotowanie pliku danych i wprowadzanie danych –
bezpośrednio do SPSS
– Najpierw ćwiczymy samodzielnie
 Import danych z pliku Excela
– http://marketing.umcs.lublin.pl/rmacik/dane.xls
– Na co uważać?
– Sprawdzamy: http://marketing.umcs.lublin.pl/rmacik/dane.sav
 Plik „kompletny”:
http://marketing.umcs.lublin.pl/rmacik/dane2.sav

a
Rozkład normalny
i rozkłady od niego odbiegające

Zarządzanie II st.
Rozkład normalny
 To jeden z najważniejszych
rozkładów prawdopodobieństwa,
jego potwierdzenie upoważnia do
stosowania wielu metod i testów
statystycznych nazywanych
parametrycznymi. Wykres funkcji
prawdopodobieństwa tego
rozkładu jest krzywą w kształcie
dzwonu (krzywa normalna)
 Wiele zjawisk w naturze posiada
rozkład zbliżony do normalnego.
 Rozkład normalny to rozkład
ciągły, w praktyce wiele
rozkładów ma charakter
dyskretny (nieciągły) co utrudnia
uznanie za rozkład normalny.
22
Gęstość
prawdopodobieństwa
Dystybuanta
(skumulowane
prawdopodobieństwo)

Zarządzanie II st.
Reguła trzech sigm
 Istnieje nieskończenie wiele rozkładów normalnych.
 We wszystkich rozkładach normalnych funkcja gęstości jest
symetryczna względem wartości średniej rozkładu.
 Około 68,3% pola pod wykresem krzywej znajduje się w odległości
jednego odchylenia standardowego od średniej, około 95,5% w
odległości dwóch odchyleń standardowych i około 99,7% w
odległości trzech (reguła trzech sigm).
 Punkt przegięcia krzywej znajduje się
w odległości jednego odchylenia
standardowego od średniej.
23

Zarządzanie II st.
Parametry rozkładu
 Wartość oczekiwana – wartość określająca spodziewany wynik
doświadczenia losowego. Estymatorem wartości oczekiwanej rozkładu
cechy w populacji jest średnia arytmetyczna.
 Mediana (drugi kwartyl) – wartość cechy w szeregu uporządkowanym,
powyżej i poniżej której znajduje się jednakowa liczba obserwacji. Odporna
na wartości odstające.
 Wariancja - miara zmienności, jest średnią arytmetyczną kwadratów
odchyleń poszczególnych wartości cechy od wartości oczekiwanej
 Odchylenie standardowe – miara zmienności - jest pierwiastkiem
kwadratowym z wariancji. Im mniejsze odchylenie tym obserwacje są
bardziej skupione wokół średniej.
 Skośność rozkładu odnosi się do jego asymetrii
 Kurtoza
24

Zarządzanie II st.
Skośność
 Współczynnik skośności
przyjmuje wartości:
– zero dla rozkładu symetrycznego,
– wartości ujemne dla lewostronnej
asymetrii (wydłużone lewe ramię
rozkładu)
– wartości dodatnie dla prawostronnej
asymetrii (wydłużone prawe ramię
rozkładu).
 Jeśli rozkład ma „lewy ogon dłuższy" to nazywamy go lewostronnie skośnym,
ujemnie skośnym, lewostronnie asymetrycznym. Rozkład taki ma wartość
oczekiwaną (średnią) mniejszą od mediany. Sprawdza się relacja: Dominanta >
Mediana > Średnia
 Jeśli rozkład ma "prawy ogon dłuższy" to nazywamy go prawostronnie
skośnym, dodatnio skośnym, prawostronnie asymetrycznym. Rozkład taki ma
wartość oczekiwaną (średnią) większą od mediany. Sprawdza się relacja:
Dominanta < Mediana < Średnia
25

Zarządzanie II st.
Kurtoza
 Kurtoza to miara zagęszczenia (koncentracji) wyników wokół wartości
centralnej. To druga obok skośności miara kształtu rozkładu.
– Kurtoza w rozkładzie normalnym przyjmuje wartość „0”.
– Kurtoza większa od zera oznacza rozkład leptokurtycznym (wysmukły).
– Kurtoza mniejsza od zera oznacza rozkład platokurtyczny (spłaszczony).
26
K < 0  platokurtyczny
K > 0  leptokurtyczny
K = 0  mezokurtyczny

Zarządzanie II st.
Rozkłady dyskretne, w tym mniej typowe
 Co można powiedzieć o ich normalności?
27

Zarządzanie II st.
Sprawdzenie normalności rozkładu
 Hipotezy:
– H0: Rozkład jest normalny
(o empirycznie ustalonej średniej i odchyleniu standardowym)
– H1: Rozkład odbiega od normalnego
 Typowe testy:
– Shapiro-Wilka (oryginalnie dla prób 3-50 obserwacji,
współcześnie do 5000 obserwacji, test mocny)
– Kołmogorowa-Smirnowa (może też służyć do innych
celów)
 H0 odrzucamy na rzecz H1 jeśli p0,05
28

Zarządzanie II st.
Ćwiczenie 2
 Sprawdzanie rozkładów
– Plik: http://marketing.umcs.lublin.pl/rmacik/rozkl.sav
– Zazwyczaj pożądany jest rozkład normalny lub
jednostajny (zm. grupujące)
 Analizy tabelaryczne
– Plik: http://marketing.umcs.lublin.pl/rmacik/dane2.sav
– Tabele liczebności
– Tabele krzyżowe – niezależność zmiennych – test χ2
(chi-kwadrat)

Zarządzanie II st.
Rozkład zbliżony do normalnego
 Czasem, szczególnie dla zmiennych o dużej dyskretyzacji
rozkładu trudno potwierdzić jego normalność, pomimo że
wygląda na „normalny” ;)
 Za pomocą histogramu i wykresu QQ (kwartyl-kwartyl)
można wtedy zdecydować o traktowaniu rozkładu jako
zbliżonego do normalnego, pomimo wartości testów
normalności wskazujących na odrzucenie hipotezy co do
normalności rozkładu (oczywiście przy
prawdopodobieństwie zwykle większym niż 0,000!)
 Robimy to jednak na własne ryzyko
30

Zarządzanie II st.
Normalność a wykresy QQ
 Rozkład normalny Rozkład odbiegający od normalnego
31
Shapiro-Wilk Test
PERF_D
W 0,981273
p-value 0,050467
alpha 0,05
normal yes
-3
-2
-1
0
1
2
3
0 1 2 3 4 5
StdNormal
Data
QQ Plot
Shapiro-Wilk Test
PERF_CM
W 0,944177
p-value 0,000019
alpha 0,05
normal no
-3
-2
-1
0
1
2
3
4
0 1 2 3 4 5
StdNormal
Data
QQ Plot

Zarządzanie II st.
Histogramy o różnych wartościach „koszyka”
 Bin=0,25 bin=0,5 bin=1
 Rozmiar „koszyka” wyrażony jest w jednostkach skali
pomiaru zmiennej
32
0
5
10
15
20
25
30
35
1.08
1.33
1.58
1.83
2.08
2.33
2.58
2.83
3.08
3.33
3.58
3.83
4.08
4.33
Frequency
Bin
Histogram
0
10
20
30
40
50
60
1.33
1.83
2.33
2.83
3.33
3.83
4.33
Frequency
Bin
Histogram
0
10
20
30
40
50
60
70
80
1.33
2.33
3.33
4.33
Frequency
Bin
Histogram

Zarządzanie II st.
Obserwacje odstające (outliers)
 Obserwacja odstająca (outlier) – obserwacja posiadająca nietypową
wartość zmiennej niezależnej (objaśniającej) lub nietypowe wartości
obydwu zmiennych – zależnej (objaśnianej) i objaśniającej, co oznacza,
że związek między Xi a Yi dla danej obserwacji jest inny niż dla reszty
obserwacji w zbiorze danych.
 Obserwacje odstające są na ogół spowodowane błędami w danych, na
skutek błędów pomiaru, pomyłek w kodowaniu itp. Duża liczba
elementów odstających może też być sygnałem dobrania złego modelu.
 Obserwacje odstające utrudniają a nawet uniemożliwiają analizę. Mało
odporne na nie są metody bazujące na założeniu rozkładu normalnego i
zależnościach liniowych, takie jak korelacja Pearsona, regresja liniowa
 Konieczne jest więc albo usuwanie obserwacji odstających, albo
stosowanie odpornych metod statystycznych np. metod rangowych (np.
korelacji rang Spearmana albo tau Kendalla).
34

Zarządzanie II st.
Wykrywanie obserwacji odstających (1)
 Wizualnie na wykresie, głównie dla szeregów czasowych – niedokładne
 W oparciu kryterium kwartylowe (metoda Tukeya):
– oblicza się pierwszy (𝑄1) i trzeci kwartyl (𝑄3) oraz rozstęp
międzykwartylowy 𝐼𝑄𝑅 = 𝑄3 – 𝑄1 (interquartile range IQR).
– obserwacje podejrzane za odstające to te, których wartości wykraczają poza
przedział 𝑄1– 1,5𝐼𝑄𝑅, 𝑄3 + 1,5𝐼𝑄𝑅
– obserwacje ekstremalnie odstające to te, których wartości wykraczają poza
przedział 𝑄1– 3𝐼𝑄𝑅, 𝑄3 + 3𝐼𝑄𝑅
 W oparciu o odchylenie standardowe:
– dane standaryzuje się do rozkładu normalnego o średniej 𝑀 = 0 i odchyleniu
standardowym 𝑆𝐷 = 1, tj. 𝑁 0,1
– obserwacje odstające to te które wykraczają poza przedział −2,5𝑆𝐷, +2,5𝑆𝐷
 Test Grubbsa  http://www.statystycy.pl/t4873_test_grubbsa.php
 Wg odległości (np. euklidesowych) między danymi - wielowymiarowe
35

Zarządzanie II st.
Obserwacje odstające w szeregu czasowym
36

Zarządzanie II st.
Ćwiczenie 3
 Sprawdzanie poprawności danych
 Plik: http://marketing.umcs.lublin.pl/rmacik/dane-2zaj.sav
 Co sprawdzamy:
– Obecność wartości spoza zakresu:
• Potencjalne błędy kodowania – jak wykryć, kiedy i jak korygować?
• Nie zdefiniowane wartości zmiennej
– Obserwacje odstające:
• Co to takiego i w czym przeszkadzają?
• Jak zidentyfikować?
• Co z nimi robić?
– Rozkład zmiennej
• Zazwyczaj pożądany jest rozkład normalny lub jednostajny (zm. grupujące)

Zarządzanie II st.
Metoda kwartylowa i test Grubbsa
 Plik P1.xlsx
 Główna seria danych to liczba użytkowanych samochodów
dostawczych w badanej firmie
 Sprawdzamy czy są obserwacje odstające metodą kwartylową:
– Obliczamy kwartyle: Q1 i Q3 oraz rozstęp międzykwartylowy IQR
=KWARTYL(zakres,nr_kwartyla)
– Obliczamy granice przedziałów dla obserwacji odstających i ekstremalnych –
oddzielnie dolną i górną
– Formułujemy warunek przynależności do przedziałów względem granic
 Test Grubbsa (jeżeli mamy narzędzia by go obliczyć):
– Z dodatku Real Statistics wybieramy opcję Descriptive Statistics and Normality
– Zaznaczamy w oknie dialogowym test Grubbsa, wpisujemy testowaną liczbę
obserwacji odstających, np. 6, 8 itd.
38

Zarządzanie II st.
Metoda kwartylowa - rozwiązanie
39
Q1 1
Q3 3
IQR 2
odst_dół -2
odst_góra 6
ekstr_dół -5
ekstr_góra 9
Q1 =KWARTYL(B2:B82;1)
Q3 =KWARTYL(B2:B82;3)
IQR =I2-I1
odst_dół =I1-1,5*I3
odst_góra =I2+1,5*I3
ekstr_dół =I1-3*I3
ekstr_góra =I2+3*I3
odstająca ekstremalna
=JEŻELI(LUB(B2<$I$5;B2>$I$6);"tak";"nie") =JEŻELI(LUB(B2<$I$7;B2>$I$8);"tak";"nie")
Nr respondentaile pojazdówDominująca marka odstająca ekstremalna
297 20 lublin tak tak
298 4 LUBLIN,HONKER nie nie
299 3 Lublinek nie nie
300 1 Lublin nie nie
303 2 Citroen nie nie
316 2 lublin nie nie
318 3 Ford Transit nie nie
319 5 HONKER nie nie
321 2 renault nie nie
324 3 Mercedes nie nie
325 200 żuk lublin tak tak
Formuły
Wyniki

Zarządzanie II st.
Obserwacje odstające w dwu wymiarach
 Trudniej wykrywalne, czasem łatwiej zauważyć wizualnie
niż wykryć analitycznie
40
Liniami przerywanymi
zaznaczono granice
przedziałów
⟨𝑄1– 1,5𝐼𝑄𝑅, 𝑄3 + 1,5𝐼𝑄𝑅⟩
dla obu zmiennych
Obserwacja
odstająca

Zarządzanie II st.
Ćwiczenie 4
 Tabele krzyżowe
– Co mówi test niezależności?
– Kiedy wolno posługiwać się korelacjami?
– Plik danych:
http://marketing.umcs.Lublin.pl/rmacik/dane2.sav
 Ćwiczenie samodzielne do wysłania na maila:
– Plik danych: http://marketing.umcs.Lublin.pl/rmacik/ai.sav
– Analiza jak preferencje udziału w ankietach internetowych zależą
od wybranych zmiennych grupujących  Pytanie q0003
względem pytań q0014 i q0017 (łącznie z wiekiem – zmienna
wieku kodowana do wybranej liczby grup – procedura RECODE)
41

a
Wprowadzenie
do weryfikacji hipotez

Zarządzanie II st.
Weryfikacja hipotez statystycznych
 Weryfikacja hipotez statystycznych to sprawdzanie sądów o
populacji przez badanie jej wycinka (próby).
 Stąd, w większości przypadków, nie ma sensu testowanie hipotez
statystycznych w badaniach wyczerpujących.
 Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu
populacji generalnej (jego postaci funkcyjnej lub wartości
parametrów).
 Testem statystycznym nazywamy regułę postępowania, która każdej
możliwej próbie przyporządkowuje decyzję odrzucenia hipotezy lub
braku podstaw do jej odrzucenia.
43

Zarządzanie II st.
Hipotezy badawcze a hipotezy statystyczne
 Nie można ich ze sobą utożsamiać!
 Hipoteza badawcza jest przypuszczalną odpowiedzią na pytanie
badawcze.
 Weryfikacja hipotezy badawczej (np. w badaniach jakościowych)
może być opisowa.
 Hipoteza badawcza zwykle ma postać hipotezy alternatywnej
(zakłada np. istnienie różnic między grupami, niezerową wartość
średniej).
 Hipotezę badawczą można weryfikować za pomocą co najmniej
jednej hipotezy statystycznej, weryfikując hipotezę zerową (a więc o
braku różnic między grupami, zerowej wartości średniej itd.), i ją
odrzucając, bądź stwierdzając brak podstaw do tego.
44

Zarządzanie II st.
Warunki stosowalności testów
 Stosowanie większości testów statystycznych wymaga spełnienia
wielu założeń, czasem nawet mało realistycznych w prawdziwych
badaniach. Naruszenie założeń skutkuje wynikami, które wprowadzają
w błąd, a w skrajnym przypadku są zupełnie nieodpowiednie
 Typowe założenia co do danych to:
– Normalność – dane powinny mieć rozkład normalny lub zbliżony do
normalnego (bez silnej asymetrii)
– Jednorodność wariancji w grupach – równa wariancja we wszystkich
analizowanych grupach, dla wielu testów istnieją warianty dla grup
niespełniających tego założenia, ale ich moc jest mniejsza
– Liniowość – liniowe zależności między zmiennymi
– Niezależność – obserwacje powinny być niezależne od siebie (chyba że
testujemy dane zależne – schemat!)
 Minimalna liczebność każdej grupy – ok. 16-20 obserwacji, rzadko mniej
45

Zarządzanie II st.
Błędy I-go i II-go rodzaju
Hipoteza zerowa
Prawdziwa
Brak podstaw do
odrzucenia H0
Odrzucono H0,
błędnie
przyjmując H1 
błąd I rodzaju
Fałszywa
Błędnie uznano,
że brak podstaw
do odrzucenia H0
 błąd II rodzaju
Odrzucono H0,
przyjmując H1
46

Zarządzanie II st.
Typowa procedura weryfikacji hipotez stat.
 Sformułowanie hipotezy zerowej i alternatywnej
 Wybór statystyki testowej
 Określenie poziomu istotności α
 Wyznaczenie obszaru krytycznego testu
 Obliczenie statystyki na podstawie próby
 Podjęcie decyzji weryfikacyjnej
47

Zarządzanie II st.
Typowa interpretacja wyników testów
 Narzędzia obliczeniowe i pakiety statystyczne podają poziom
prawdopodobieństwa P-value (krytyczny poziom istotności;
prawdopodobieństwo testowe).
 Jest to najmniejszy poziom istotności przy którym dla
zaobserwowanej wartości statystyki testowej odrzucilibyśmy
hipotezę zerową.
 Hipotezę zerową odrzucamy, gdy wyliczone prawdopodobieństwo
testowe (𝑝) okaże się nie większe od przyjętego przez nas poziomu
istotności (zwykle 0,05)  𝑝 ≤ 𝑃𝑣𝑎𝑙𝑢𝑒
 Posługiwanie się unormowaną wielkością, w przeciwieństwie do
różnorodnych statystyk testowych (Z, F, t, itd.) pozwala bezpośrednio
ocenić wynik weryfikacji hipotezy poprzez proste porównanie
wartości 𝑝 z poziomem istotności, np. 0,05; 0,1 czy też 0,001
48

Zarządzanie II st.
Testy jednostronne i dwustronne
 Test dwustronny:
𝐻 𝑜: 𝜃 = 𝜃0
𝐻 𝑜: 𝜃 ≠ 𝜃0
 Test lewostronny:
𝐻 𝑜: 𝜃 ≥ 𝜃0
𝐻 𝑜: 𝜃 < 𝜃0
 Test prawostronny:
𝐻 𝑜: 𝜃 ≤ 𝜃0
𝐻 𝑜: 𝜃 > 𝜃0
49
Obszarykrytyczne

b
Główne testy istotności

Zarządzanie II st.
Schemat wyboru testu
Sytuacja
Cel testowania
Testy
Związek
między
zmiennymi
Ten sam
poziom
pomiaru
Różne
poziomy
pomiaru
Porównania
między-
grupowe
Grupy
niezależne
Grupy
zależne
51

Zarządzanie II st.
Schemat wyboru testu – testowanie związku
Typ testu
Poziom pomiaru
Sytuacja
Cel testowania
Związek
między
zmiennymi
Ten sam
poziom
pomiaru
nominalny
Chi-kwadrat
niezależności
porządkowy
Rho Spearmana,
Tau Kendalla
ilościowy
r Pearsona
Różne
poziomy
pomiaru
nominalny x
porządkowy
Gdy mało grup:
chi-kwadrat,
porównania
międzygrupowe
nominalny x
ilościowy
Porównania
międzygrupowe
porządkowy
x ilościowy
Rho Spearmana,
Tau Kendalla
52
W większości  dzień 2  współzmienność

Zarządzanie II st.
Porównania międzygrupowe – grupy niezależne
Typ testu
Rozkład
Poziom pomiaru
Liczba grup
Cel testowania
Grupy
niezależne
2 grupy
Nomi-
nalny
Chi-
kwadrat
Porząd-
kowy
U
Manna-
Whitneya
Ilościo-
wy
Odbiegający
od
normalnego
U
Manna-
Whitneya
Normalny
lub
zbliżony
t dla prób
niezależ-
nych
3 lub
więcej
grup
Nomi-
nalny
Chi-
kwadrat,
Porząd-
kowy
H
Kruskala
-Wallisa
Ilościo-
wy
Odbiegający
od
normalnego
H
Kruskala
-Wallisa
Normalny
lub
zbliżony
F
ANOVA
53

Zarządzanie II st.
Porównania międzygrupowe – grupy zależne
Typ testu
Rozkład
Poziom pomiaru
Liczba grup
Cel testowania
Grupy
zależne
2 grupy
Nomi-
nalny
Q
Cochrana
Porząd-
kowy
Test
rango-
wanych
znaków
Ilościo-
wy
Odbiegający
od
normalnego
Test
rango-
wanych
znaków
Normalny
lub
zbliżony
t dla prób
zależ-
nych
3 lub
więcej
grup
Nomi-
nalny
Q
Cochrana
Porząd-
kowy
Test
Friedma-
na
Ilościo-
wy
Odbiegający
od
normalnego
Test
Friedma-
na
Normalny
lub
zbliżony
Powta-
rzane
pomiary
ANOVA
54

Zarządzanie II st.
Porównanie
3+ grup
niezależnych
55

Zarządzanie II st.
Ćwiczenie 5
 Porównania 2 grup
– Plik danych: http://marketing.umcs.Lublin.pl/rmacik/dane2.sav
– 2 grupy niezależne i 2 grupy zależne – testy parametryczne i
nieparametryczne  schemat!
 Ćwiczenie samodzielne do wysłania na maila:
– Plik danych j.w.
– Analiza porównania częstości dokonywania zakupów w różnych
formatów sklepów (itemy P2) względem płci (grupy niezależne)
– Analiza porównania częstości dokonywania zakupów w różnych
formatach sklepów względem siebie u tych samych osób (grupy
zależne)
– Wybieramy po 4 dowolne itemy z P2
56

Zarządzanie II st.
Testy - ćwiczenia
 Plik http://marketing.umcs.Lublin.pl/rmacik/dane2_v3.sav
 Sprawdzamy losowość i normalność rozkładu  wyciągamy wnioski
 Przygotowujemy roboczy arkusz ze zmiennymi według grup
 Zaczynamy od porównań międzygrupowych
– Porównajmy różnice w częstości kupowania w różnych formatach
sklepów wg płci respondenta (jakie testy?)
– J.w. ale według kategorii miejsca zamieszkania – uwaga na liczebność
grup! (jakie testy)
– Czy częstość kupowania w jednym formacie sklepu wiąże się z
częstością kupowania w innym formacie (dla tych samych osób) – jakie
testy
– Czy można porównać testami dla prób zależnych częstość kupowania w
określonym formacie sklepów z jego lubieniem? (dlaczego tak/nie???)
57

Zarządzanie II st.
Test serii
 Test serii (test serii Walda-Wolfowitza) to nieparametryczny test
losowości próby.
 Hipotezę zerową i alternatywną formułujemy w sposób następujący:
– H0: dobór jednostek do próby jest losowy.
– H1: dobór jednostek do próby nie jest losowy.
 Seria to każdy ciąg identycznych elementów w zbiorze
uporządkowanym według przyjętego kryterium
– Np. ciąg danych wg płci ma 8 serii: M M Ż Ż M Ż Ż Ż M M Ż M Ż Ż Ż.
– Dane ilościowe należy zdychotomizować w oparciu o medianę.
 Ogólna liczba serii w ciągu n-elementowym jest zmienną losową K o
znanym i ujętym w tablice rozkładzie.
– Zliczoną w próbie liczbę serii 𝑘 porównujemy z wartościami krytycznymi testu.
– Jeżeli i 𝑘 ≤ 𝑘1 lub 𝑘 ≥ 𝑘2, odrzucamy H0 na rzecz H1  próba nie jest losowa
58


Wielowymiarowe
metody analizy danych

Zarządzanie II st.
Główne cele stosowania metod
wielowymiarowych
 Redukcja liczby wymiarów
– Dla 2-3 wymiarów możliwa interpretacja graficzna
 Odkrycie ukrytych struktur
– Określenie (nie)podobieństwa zmiennych lub
obiektów
– Wskazanie naturalnych skupień obiektów
60

Zarządzanie II st.
Rzetelność i trafność pomiaru
 Rzetelność -
powtórzenie
pomiaru w tych
samych
warunkach daje
ten sam rezultat
 Trafność -
instrument mierzy
tę cechę, którą
chcemy zmierzyć
 Wysoka rzetelność
= mały błąd
przypadkowy
 Wysoka trafność =
mały błąd
systematyczny
61
Pomiar
mało
trafny
i mało
rzetelny
Pomiar
trafny
ale mało
rzetelny
Pomiar
mało
trafny
ale
rzetelny
Pomiar
trafny
rzetelny

Zarządzanie II st.
Praktyka ustalania trafności i rzetelności
 Ustalenie trafności czynnikowej  EFA
 Określenie rzetelności dla każdego czynnika 
 Cronbacha lub CR
 Modyfikacje na podstawie analizy pozycji i
sugestii z EFA
 Potwierdzenie istnienia wymiarów 
Konfirmacyjna analiza czynnikowa (CFA)
62

a
Eksploracyjne
analizy czynnikowe

Zarządzanie II st.
Analizy czynnikowe
 Jedna z metod redukcji wymiarów – celem analizy czynnikowej jest
zredukowanie dużej liczby zmiennych do mniejszego zbioru, co
uzyskujemy przez założenie, że pewne grupy zmiennych reprezentują
zmienność tych samych czynników.
 Główne zastosowania to odnajdywanie ukrytych wymiarów lub struktur
w zbiorze zmiennych.
 Dwa podejścia:
– eksploracyjna analiza czynnikowa (EFA - Exploratory Factor Analysis) - czynniki
są początkowo nieznane i zostają wyodrębnione dzięki analizie posiadanych
danych, to podejście jest bardziej rozpowszechnione,
– konfirmacyjna analiza czynnikowa (CFA - Confirmatory Factor Analysis) -
zakładamy istnienie pewnego określonego zbioru czynników i
przyporządkowania zmiennych do tych czynników - badamy zasadność naszego
przypuszczenia poprzez modelowanie równań strukturalnych  np. w AMOS
64

Zarządzanie II st.
Eksploracyjne analizy czynnikowe - procedura
 Sprawdzenie własności macierzy korelacji
– miara KMO > 0,7;
– test sferyczności Bartletta – p<0,05 (odrzucamy H0 że macierz
współczynników korelacji jest macierzą jednostkową, co oznacza, że nie ma
istotnych korelacji między zmiennymi; odrzucenie H0 jest potwierdzeniem, że
analiza przyniesie sensowny rezultat.
 Wybór metody wyodrębniania czynników – typowo: PCA – analiza
głównych składowych i rotacji czynników – zwykle Varimax (czynniki
ortogonalne) lub Oblimin (czynniki ukośne)
 Kryteria wyboru liczby czynników:
– Skumulowany procent wariancji – czynniki mają wyjaśnić > 60% wariancji
– Wartość własna czynnika > 1 (Kryterium Kaisera) – czynnik ma zastąpić więcej
niż jedną zmienną wejściową (czasem po rotacji)
– Test osypiska (kryterium Cattella) – wybrać tyle czynników ile nie leży w
osypisku
65

Zarządzanie II st.
Wykres osypiska
66
Osypisko się wypłaszcza
przy 3-4 czynnikach
Ponieważ wartość własna
4 czynnika (bez rotacji)
jest bliska 1,
prawdopodobnie 4
czynniki są lepszym
wyborem

Zarządzanie II st.
EFA – procedura (2)
 Dla wybranej liczby czynników analizujemy macierz
rotowanych składowych
 Zmienne z ładunkami czynnikowymi >0,7 pasują dobrze
do danej składowej, między 0,58 a 0,7 słabiej, ale jeśli nie
ma ładunków krzyżowych (podobnej wartości ładunków
w różnych składowych) można je zaliczyć do danej
składowej.
 Nazywamy wyodrębnione składowe – trudność nazwania
– trudność interpretacji czynnika
67

Zarządzanie II st.
EFA – przykładowe wyniki
 Macierz danych - OK
 2 czynniki, wybór na
podstawie testu
osypiska, wyjaśniają
prawie 81% wariancji
 Przyporządkowanie
zmiennych do
składowych
zaznaczono
68
Uwaga:
Ładunek
krzyżowy,
jeszcze nie
przeszkadza
bardzo, ale
jest

b
Rzetelność skali
i analiza pozycji

Zarządzanie II st.
Obliczenie rzetelności skali
 Sposób:
– Dawniej: Test – retest lub metoda połówkowa
– Dzisiaj: Poprzez zgodność wewnętrzną: współczynnik  Cronbacha
lub wzór KR-20, lepiej też użyć współczynnika CR (Composite
Reliability – tzw. rzetelność łączna)
 Pożądana wartość współczynników  i CR to:
0,7<<0,95
 >0,95 sugeruje współliniowość pozycji skali – pytamy
respondentów „w kółko” o to samo – zazwyczaj niepotrzebnie
 Dla skali krótkiej - o 2-3 stwierdzeniach dopuszcza się >0,6
 Wykonaj analizę pozycji – być może trzeba jeszcze coś
poprawić, usunąć, dodać – to jest już podejście empiryczne!

Zarządzanie II st.
Rzetelność i analiza pozycji - przykład
71
Chętnie
zmieniam
marki, które
kupuję

Zarządzanie II st.
Analiza skupień - klasteryzacja
 Analiza skupień (cluster analysis) - jest to metoda
grupowania elementów we względnie jednorodne klasy.
 Podstawą grupowania w większości algorytmów jest
podobieństwo/niepodobieństwo pomiędzy elementami –
wyrażone przy pomocy funkcji (metryki) podobieństwa –
zwykle określonej miary odległości między elementami
grupowanego zbioru
 Jest to metoda eksploracyjna, generalnie służąca
klasyfikacji, odkrywaniu nieznanej struktury
analizowanych danych (która „ukrywa” się w wielu
wymiarach
73

Zarządzanie II st.
Typowe miary odległości
 Euklidesowa 𝑑 𝑒 = 𝑖=1
𝑘
𝑏𝑖 − 𝑎𝑖
2
tutaj: 𝑑 𝑒 = 5 − 1 2 + 4 − 1 2 = 16 + 9 = 5
 Kwadrat odległości euklidesowej 𝑑 𝑒2 = 𝑑 𝑒
2
tu: 𝑑 𝑒2 = 52 = 25
 Miejska (Manhattan) 𝑑 𝑚 = 𝑖=1
𝑘
𝑏𝑖 − 𝑎𝑖
tu: 𝑑 𝑚 = 4 + 3 = 7
 Czebyszewa 𝑑 𝑐 = 𝑚𝑎𝑥 𝑏𝑖 − 𝑎𝑖
tu: 𝑑 𝑐 = 4
 Użycie odległości euklidesowej przy wielu wymiarach „spłaszcza”
różnice, jej kwadratu lub odległości miejskiej – uwypukla,
 dla odległości Czebyszewa znaczenie ma tylko jeden wymiar z
największą różnicą, inne są pomijane.
74
0
1
2
3
4
5
0 1 2 3 4 5 6

Zarządzanie II st.
Odległość euklidesowa a miejska
75
Ile wynosi odległość euklidesowa,
a ile miejska w tym przypadku?

Zarządzanie II st.
Algorytmy skupiania
 metody hierarchiczne – algorytm tworzy dla zbioru obiektów hierarchię
klasyfikacji, istnieją dwa rodzaje metod hierarchicznych:
– procedury aglomeracyjne (ang. agglomerative) – tworzą macierz podobieństw
klasyfikowanych obiektów, a następnie w kolejnych krokach łączą w skupienia
obiekty najbardziej do siebie podobne,
– procedury deglomeracyjne (ang. divisive) – odwrotnie, tj. zaczynają od skupienia
obejmującego wszystkie obiekty, a następnie w kolejnych krokach dzielą je na
mniejsze grupy.
 metoda k-średnich (ang. k-means) - grupowanie polega na wstępnym
podzieleniu populacji na z góry założoną liczbę klas. Następnie uzyskany
podział jest poprawiany przez iteracyjne przenoszenie niektórych elementów
do innych klas, tak, aby uzyskać minimalną wariancję wewnątrz skupień.
 metody rozmytej analizy skupień (ang. fuzzy clustering), wśród których
najbardziej znaną jest metoda c-średnich (c-means). Metody rozmytej analizy
skupień mogą przydzielać element do więcej niż jednej kategorii z określonym
prawdopodobieństwem.
76

Zarządzanie II st.
Metody hierarchiczne
 Skupiamy:
– Zmienne – redukcja wymiarów
– Obserwacje – segmentacja, poszukiwanie ukrytych struktur
 Typowe algorytmy skupiania:
– Średniej odległości między skupieniami – maksymalizuje ją
– Warda – minimalizuje wariancję wewnątrz skupienia
 Wizualny efekt – dendrogram
 Przykłady:
– Zmienne –
http://marketing.umcs.lublin.pl/rmacik/a6_sklepy.sav
– Obserwacje -
http://marketing.umcs.lublin.pl/rmacik/a6_powiaty.sav
77

Zarządzanie II st.
Dendrogram: Podobieństwo rynku pracy woj. lubelskiego do innychwojewództw
Według
wskaźników
charakteryzujących
aktywność
zawodową, poziom
zatrudnienia i
bezrobocie (łącznie
13 zmiennych – po
odrzuceniu
zmiennych wysoko
ze sobą
skorelowanych
Źródło: Opracowanie własne na podstawie danych Banku Danych Lokalnych, GUS.
78

Zarządzanie II st.
Dendrogram: Podobieństwo rynku pracy woj. lubelskiego do innychwojewództw
Według udziałów
sektorów
gospodarczych
w zatrudnieniu
(łącznie 5
zmiennych)
Źródło: Opracowanie własne na podstawie danych Banku Danych Lokalnych, GUS.
79

Zarządzanie II st.
Dendrogram: podobieństwo formatów sklepów
 Skupiane zmienne,
 Odległość euklidesowa
 Wiązanie Warda
80

Zarządzanie II st.
Porady
 Jak dobrać zmienne?
– Unikamy bardzo wysokich dodatnich korelacji – współliniowość
jest niepożądana
 Co jeśli wartości zmiennych mają różne rzędy wielkości?
– Standaryzujemy dane
 Ile wybrać skupień?
– Szukamy rozwiązania stabilnego – kiedy przez dłuższy czas „nic
się nie dzieje”
 Trudności w interpretacji?
– Zmieniamy miarę odległości i/lub algorytm skupiania – wolno
nam, bo analiza skupień jest metodą eksploracyjną
81

Zarządzanie II st.
Metoda k-średnich (Quick Cluster)
 Grupowanie po wstępnym podzieleniu populacji na z góry
założoną liczbę klas iteracyjnie jest poprawiane tak, by
uzyskać minimalną wariancję wewnątrz klas.
 Podstawowy algorytm:
– losowy wybór środków (centroidów) klas (skupień),
– przypisanie punktów do najbliższych centroidów,
– wyliczenie nowych środków skupień,
– powtarzanie algorytmu aż do osiągnięcia kryterium zbieżności (do
kroku, w którym nie zmieniła się przynależność punktów do klas).
 Nadaje się do klasyfikacji nowych obiektów do istniejących klas
 Tabela ANOVA jako wskaźnik efektywności grupowania
82

Zarządzanie II st.
Rozrzut w 3 wymiarach
83

Zarządzanie II st.
Wyniki k-średnich
84

Zarządzanie II st.
Segmentacja za pomocą analizy skupień
 Hierarchiczna analiza – przegląd dendrogramu –
wybór orientacyjnej liczby skupień
 Lub: powtórzenie analizy za pomocą k-średnich
dla wybranej liczby skupień (przy dodawaniu nowych
obiektów do istniejących skupień tylko klasyfikacja po wczytaniu z
pliku centrów skupień)
 Profilowanie skupień/segmentów [wykres
profilowy]
85

Zarządzanie II st.
Profile segmentów
86
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
1
2
3
4
5

Dziękuję za uwagę :)
Kontakt:
radoslaw.macik@umcs.pl

Materiały z zajęć z Analizy danych

Recommended

Recommended

More Related Content

More from Radosław Mącik

More from Radosław Mącik (20)

Materiały z zajęć z Analizy danych