Prezentacja wykładu z Badan rynku dla studentów kierunku Prawno-biznesowego. Uwaga, część 4 nie dotyczy studentów zaocznych - wyjątek, slajdy: 76-82 i 97-102
Jakościowe badania marketingowe / Badania jakościowe - materiały z wykładu (z...Radosław Mącik
Materiały z wykładu z Jakościowych badań marketingowych dla studentów III r. Zarządzania I-go stopnia (specjalność RiNKF) oraz z zajęć z Badań jakościowych dla studentów Analityki gospodarczej II r. I-go stopnia - semestr zimowy 2017/18
Prezentacja zawiera podstawowe zasady dbania o higienę układu nerwowego i zdrowie psychiczne człowieka, a także omawia podstawowe choroby neurologiczne i psychiczne.
Prezentacja wykładu z Badan rynku dla studentów kierunku Prawno-biznesowego. Uwaga, część 4 nie dotyczy studentów zaocznych - wyjątek, slajdy: 76-82 i 97-102
Jakościowe badania marketingowe / Badania jakościowe - materiały z wykładu (z...Radosław Mącik
Materiały z wykładu z Jakościowych badań marketingowych dla studentów III r. Zarządzania I-go stopnia (specjalność RiNKF) oraz z zajęć z Badań jakościowych dla studentów Analityki gospodarczej II r. I-go stopnia - semestr zimowy 2017/18
Prezentacja zawiera podstawowe zasady dbania o higienę układu nerwowego i zdrowie psychiczne człowieka, a także omawia podstawowe choroby neurologiczne i psychiczne.
Materiały z wykładu z Podstaw badań marketingowych dla studentów Ekonomii (studia I stopnia). Nie uwzględniają zagadnień budowy narzędiz pomiarowych i skal - omawiane na ćwiczeniach.
Konsument w świecie e-handlu. Quasi-eksperyment z porównywarką cenowąRadosław Mącik
Wyróżniona prezentacja z obchodów 50-lecia Wydziału Ekonomicznego UMCS. Przedstawia wybrane wyniki badania z wiosny 2015 r. na temat czynników wyboru produktu i miejsca zakupu w środowisku losowo przydzielonej badanemu porównywarki cenowej (Ceneo lub Skąpiec). Badanie w formie quasi-eksperymentu.
Osobista innowacyjność w dziedzinie IT a wirtualizacja zachowań konsumentaRadosław Mącik
Prezentacja referatu wygłoszonego 5 grudnia 2014 r. na konferencji MarketInfo2014 - Politechnika Gdańska, Gdańsk, Polska
Jak osobista innowacyjność w dziedzinie IT (PIIT) wpływa na nasze zachowania konsumenckie? Na częstość zachowań typu ROPO i reverse ROPO oraz korzystania z internetowych pomocy zakupowych... A jak to się ma w odniesieniu do demografii? Co oddziałuje silniej? Zapraszam do zapoznania się z wynikami badań.
Short presentation from Social media training for scientistsRadosław Mącik
This document discusses multi-channel consumer decision making processes. It notes that consumers now use both traditional and ICT-based environments at most stages of purchasing. This can include gathering information online and in-store, getting recommendations from various channels, and comparing prices across channels. The type of product, consumer demographics and decision-making styles influence which channels are used. Charts are presented showing perception of retail formats and the TV purchase process of 18-25 year olds across different channels. Research methods used over time are also listed.
Odczuwana prywatność w wirtualnym i fizycznym kanale sprzedażyRadosław Mącik
Prezentacja referatu pt. Odczuwana prywatność a zachowania konsumenta w wirtualnym i fizycznym kanale sprzedaży w świetle wyników badań własnych,
wygłoszonego 27 maja 2014 r. na konferencji "Badania marketingowe - podejścia jakościowe i ilościowe".
Prezentacja z XVIII Warsztatów Metodologicznych im. prof. Stefana Mynarskiego dotycząca percepcji ankiet internetowych przez respondentów i marketerów stosujących je w pracy zawodowej
Materiały z wykładu z Podstaw badań marketingowych dla studentów Ekonomii (studia I stopnia). Nie uwzględniają zagadnień budowy narzędiz pomiarowych i skal - omawiane na ćwiczeniach.
Konsument w świecie e-handlu. Quasi-eksperyment z porównywarką cenowąRadosław Mącik
Wyróżniona prezentacja z obchodów 50-lecia Wydziału Ekonomicznego UMCS. Przedstawia wybrane wyniki badania z wiosny 2015 r. na temat czynników wyboru produktu i miejsca zakupu w środowisku losowo przydzielonej badanemu porównywarki cenowej (Ceneo lub Skąpiec). Badanie w formie quasi-eksperymentu.
Osobista innowacyjność w dziedzinie IT a wirtualizacja zachowań konsumentaRadosław Mącik
Prezentacja referatu wygłoszonego 5 grudnia 2014 r. na konferencji MarketInfo2014 - Politechnika Gdańska, Gdańsk, Polska
Jak osobista innowacyjność w dziedzinie IT (PIIT) wpływa na nasze zachowania konsumenckie? Na częstość zachowań typu ROPO i reverse ROPO oraz korzystania z internetowych pomocy zakupowych... A jak to się ma w odniesieniu do demografii? Co oddziałuje silniej? Zapraszam do zapoznania się z wynikami badań.
Short presentation from Social media training for scientistsRadosław Mącik
This document discusses multi-channel consumer decision making processes. It notes that consumers now use both traditional and ICT-based environments at most stages of purchasing. This can include gathering information online and in-store, getting recommendations from various channels, and comparing prices across channels. The type of product, consumer demographics and decision-making styles influence which channels are used. Charts are presented showing perception of retail formats and the TV purchase process of 18-25 year olds across different channels. Research methods used over time are also listed.
Odczuwana prywatność w wirtualnym i fizycznym kanale sprzedażyRadosław Mącik
Prezentacja referatu pt. Odczuwana prywatność a zachowania konsumenta w wirtualnym i fizycznym kanale sprzedaży w świetle wyników badań własnych,
wygłoszonego 27 maja 2014 r. na konferencji "Badania marketingowe - podejścia jakościowe i ilościowe".
Prezentacja z XVIII Warsztatów Metodologicznych im. prof. Stefana Mynarskiego dotycząca percepcji ankiet internetowych przez respondentów i marketerów stosujących je w pracy zawodowej
2. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
O mnie…
2
3. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Zainteresowania zawodowe
Zachowania konsumentów,
szczególnie w zakresie wpływu ICT na
nie,
Badania marketingowe – ilościowe i
jakościowe, badania internetowe
Analiza danych ilościowych i
jakościowych – psychometria i
ekonometria
E-commerce, e-marketing
Logistyka miejska i aglomeracyjna
3
4. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Projekty badawcze i doradcze – ciekawsze
4
5. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Moje oczekiwania
Zaangażowanie i pasja:
Nienawidzę: kombinatorstwa, zachowań nieetycznych i
braku szczerości.
5
6. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Kontakt
Konsultacje:
– środa, 9.30-11.00, p. 506
Dyżur:
– czwartek, 9.30-12:00, p. 506 lub 301
(za wyjątkiem dni obrad Rady Wydziału)
E-mail:
– radoslaw.macik@umcs.lublin.pl ogólny do kontaktu
– rmacik@hektor.umcs.lublin.pl do przesyłania ćwiczeń
temat maila stacjonarne: [AD], niestacjonarne [AD_NS]
Informacje:
– http://radoslawmacik.wordpress.com
6
7. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Profil osobowy, „stara strona”, blog dydaktyczny
7
8. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Zaliczenie przedmiotu
Udział w badaniach prowadzącego:
– 2-3 razy w ciągu semestru, udział osobisty lub
rekrutacja właściwego uczestnika
Zadania/case study
– Nieobecności nie upoważniają do nie wykonywania
ćwiczeń
– 3-cia nieobecność powoduje skreślenie z listy
Zaliczenie praktyczne:
– w środku semestru i na koniec – na komputerze
– więcej szczegółów w swoim czasie
8
9. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Zaliczenie przedmiotu – st. niestacjonarne
Udział w badaniach prowadzącego:
– Max. 2 razy w ciągu semestru, udział osobisty lub
rekrutacja właściwego uczestnika
Zadania/case study
– Nieobecności nie upoważniają do nie wykonywania
ćwiczeń
– 3-cia nieobecność powoduje skreślenie z listy
Zaliczenie praktyczne:
– na koniec semestru – na komputerze
– więcej szczegółów w swoim czasie
9
10. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Literatura
Anna Malarska, STATYSTYCZNA ANALIZA
DANYCH WSPOMAGANA PROGRAMEM SPSS,
Predictive Solutions, Kraków 2010
Jarosław Górniak, Janusz Wachnicki,
PIERWSZE KROKI W ANALIZIE DANYCH,
Predictive Solutions, Kraków 2011
ANALIZA DANYCH ZASTANYCH PRZEWODNIK
DLA STUDENTÓW, red. nauk. Marta
Makowska, Wyd. SCHOLAR, Warszawa 2013
Piotr Francuz, Rafał Mackiewicz, LICZBY NIE
WIEDZĄ, SKĄD POCHODZĄ. PRZEWODNIK PO
METODOLOGII I STATYSTYCE NIE TYLKO DLA
PSYCHOLOGÓW, Wyd. KUL, Lublin 2007
Screencasty i webcasty – do znalezienia np.
na YouTube itd.
slajd 10
12. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Zbieramy dane do analizy…
Proszę wypełnić samodzielnie kwestionariusz
pod adresem:
https://www.surveymonkey.com
/r/esurvey_perception
slajd 12
13. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Dane …
slajd 13
Mądrość
Wiedza
Informacja
Dane
14. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Dane, informacja, wiedza - zależności
slajd 14
15. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Czym jest analiza danych?
Analiza danych jest procesem kontroli,
czyszczenia, transformacji i modelowania danych
w celu uzyskania z nich użytecznych informacji,
zasugerowania wniosków i wsparcia
podejmowania decyzji.
Analiza danych ma wiele aspektów i podejść
obejmujących różne techniki analityczne
(występujące często pod różnymi nazwami) w
różnych dziedzinach – biznesie, naukach
przyrodniczych, czy też społecznych.
16. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Skalowanie wielowymiarowe
Stress = 0,098
R2 = 0,946
17. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Model ścieżkowy
18. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Alternatywne modele
– co jest artefaktem, a co jest rzeczywistością ?
18
19. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
SPSS
Dzisiaj to rodzina IBM SPSS Statistics + AMOS
20. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Ćwiczenie 1
Przygotowanie pliku danych i wprowadzanie danych –
bezpośrednio do SPSS
– Najpierw ćwiczymy samodzielnie
Import danych z pliku Excela
– http://marketing.umcs.lublin.pl/rmacik/dane.xls
– Na co uważać?
– Sprawdzamy: http://marketing.umcs.lublin.pl/rmacik/dane.sav
Plik „kompletny”:
http://marketing.umcs.lublin.pl/rmacik/dane2.sav
22. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rozkład normalny
To jeden z najważniejszych
rozkładów prawdopodobieństwa,
jego potwierdzenie upoważnia do
stosowania wielu metod i testów
statystycznych nazywanych
parametrycznymi. Wykres funkcji
prawdopodobieństwa tego
rozkładu jest krzywą w kształcie
dzwonu (krzywa normalna)
Wiele zjawisk w naturze posiada
rozkład zbliżony do normalnego.
Rozkład normalny to rozkład
ciągły, w praktyce wiele
rozkładów ma charakter
dyskretny (nieciągły) co utrudnia
uznanie za rozkład normalny.
22
Gęstość
prawdopodobieństwa
Dystybuanta
(skumulowane
prawdopodobieństwo)
23. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Reguła trzech sigm
Istnieje nieskończenie wiele rozkładów normalnych.
We wszystkich rozkładach normalnych funkcja gęstości jest
symetryczna względem wartości średniej rozkładu.
Około 68,3% pola pod wykresem krzywej znajduje się w odległości
jednego odchylenia standardowego od średniej, około 95,5% w
odległości dwóch odchyleń standardowych i około 99,7% w
odległości trzech (reguła trzech sigm).
Punkt przegięcia krzywej znajduje się
w odległości jednego odchylenia
standardowego od średniej.
23
24. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Parametry rozkładu
Wartość oczekiwana – wartość określająca spodziewany wynik
doświadczenia losowego. Estymatorem wartości oczekiwanej rozkładu
cechy w populacji jest średnia arytmetyczna.
Mediana (drugi kwartyl) – wartość cechy w szeregu uporządkowanym,
powyżej i poniżej której znajduje się jednakowa liczba obserwacji. Odporna
na wartości odstające.
Wariancja - miara zmienności, jest średnią arytmetyczną kwadratów
odchyleń poszczególnych wartości cechy od wartości oczekiwanej
Odchylenie standardowe – miara zmienności - jest pierwiastkiem
kwadratowym z wariancji. Im mniejsze odchylenie tym obserwacje są
bardziej skupione wokół średniej.
Skośność rozkładu odnosi się do jego asymetrii
Kurtoza
24
25. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Skośność
Współczynnik skośności
przyjmuje wartości:
– zero dla rozkładu symetrycznego,
– wartości ujemne dla lewostronnej
asymetrii (wydłużone lewe ramię
rozkładu)
– wartości dodatnie dla prawostronnej
asymetrii (wydłużone prawe ramię
rozkładu).
Jeśli rozkład ma „lewy ogon dłuższy" to nazywamy go lewostronnie skośnym,
ujemnie skośnym, lewostronnie asymetrycznym. Rozkład taki ma wartość
oczekiwaną (średnią) mniejszą od mediany. Sprawdza się relacja: Dominanta >
Mediana > Średnia
Jeśli rozkład ma "prawy ogon dłuższy" to nazywamy go prawostronnie
skośnym, dodatnio skośnym, prawostronnie asymetrycznym. Rozkład taki ma
wartość oczekiwaną (średnią) większą od mediany. Sprawdza się relacja:
Dominanta < Mediana < Średnia
25
26. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Kurtoza
Kurtoza to miara zagęszczenia (koncentracji) wyników wokół wartości
centralnej. To druga obok skośności miara kształtu rozkładu.
– Kurtoza w rozkładzie normalnym przyjmuje wartość „0”.
– Kurtoza większa od zera oznacza rozkład leptokurtycznym (wysmukły).
– Kurtoza mniejsza od zera oznacza rozkład platokurtyczny (spłaszczony).
26
K < 0 platokurtyczny
K > 0 leptokurtyczny
K = 0 mezokurtyczny
27. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rozkłady dyskretne, w tym mniej typowe
Co można powiedzieć o ich normalności?
27
28. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Sprawdzenie normalności rozkładu
Hipotezy:
– H0: Rozkład jest normalny
(o empirycznie ustalonej średniej i odchyleniu standardowym)
– H1: Rozkład odbiega od normalnego
Typowe testy:
– Shapiro-Wilka (oryginalnie dla prób 3-50 obserwacji,
współcześnie do 5000 obserwacji, test mocny)
– Kołmogorowa-Smirnowa (może też służyć do innych
celów)
H0 odrzucamy na rzecz H1 jeśli p0,05
28
29. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Ćwiczenie 2
Sprawdzanie rozkładów
– Plik: http://marketing.umcs.lublin.pl/rmacik/rozkl.sav
– Zazwyczaj pożądany jest rozkład normalny lub
jednostajny (zm. grupujące)
Analizy tabelaryczne
– Plik: http://marketing.umcs.lublin.pl/rmacik/dane2.sav
– Tabele liczebności
– Tabele krzyżowe – niezależność zmiennych – test χ2
(chi-kwadrat)
30. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rozkład zbliżony do normalnego
Czasem, szczególnie dla zmiennych o dużej dyskretyzacji
rozkładu trudno potwierdzić jego normalność, pomimo że
wygląda na „normalny” ;)
Za pomocą histogramu i wykresu QQ (kwartyl-kwartyl)
można wtedy zdecydować o traktowaniu rozkładu jako
zbliżonego do normalnego, pomimo wartości testów
normalności wskazujących na odrzucenie hipotezy co do
normalności rozkładu (oczywiście przy
prawdopodobieństwie zwykle większym niż 0,000!)
Robimy to jednak na własne ryzyko
30
31. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Normalność a wykresy QQ
Rozkład normalny Rozkład odbiegający od normalnego
31
Shapiro-Wilk Test
PERF_D
W 0,981273
p-value 0,050467
alpha 0,05
normal yes
-3
-2
-1
0
1
2
3
0 1 2 3 4 5
StdNormal
Data
QQ Plot
Shapiro-Wilk Test
PERF_CM
W 0,944177
p-value 0,000019
alpha 0,05
normal no
-3
-2
-1
0
1
2
3
4
0 1 2 3 4 5
StdNormal
Data
QQ Plot
32. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Histogramy o różnych wartościach „koszyka”
Bin=0,25 bin=0,5 bin=1
Rozmiar „koszyka” wyrażony jest w jednostkach skali
pomiaru zmiennej
32
0
5
10
15
20
25
30
35
1.08
1.33
1.58
1.83
2.08
2.33
2.58
2.83
3.08
3.33
3.58
3.83
4.08
4.33
Frequency
Bin
Histogram
0
10
20
30
40
50
60
1.33
1.83
2.33
2.83
3.33
3.83
4.33
Frequency
Bin
Histogram
0
10
20
30
40
50
60
70
80
1.33
2.33
3.33
4.33
Frequency
Bin
Histogram
34. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Obserwacje odstające (outliers)
Obserwacja odstająca (outlier) – obserwacja posiadająca nietypową
wartość zmiennej niezależnej (objaśniającej) lub nietypowe wartości
obydwu zmiennych – zależnej (objaśnianej) i objaśniającej, co oznacza,
że związek między Xi a Yi dla danej obserwacji jest inny niż dla reszty
obserwacji w zbiorze danych.
Obserwacje odstające są na ogół spowodowane błędami w danych, na
skutek błędów pomiaru, pomyłek w kodowaniu itp. Duża liczba
elementów odstających może też być sygnałem dobrania złego modelu.
Obserwacje odstające utrudniają a nawet uniemożliwiają analizę. Mało
odporne na nie są metody bazujące na założeniu rozkładu normalnego i
zależnościach liniowych, takie jak korelacja Pearsona, regresja liniowa
Konieczne jest więc albo usuwanie obserwacji odstających, albo
stosowanie odpornych metod statystycznych np. metod rangowych (np.
korelacji rang Spearmana albo tau Kendalla).
34
35. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Wykrywanie obserwacji odstających (1)
Wizualnie na wykresie, głównie dla szeregów czasowych – niedokładne
W oparciu kryterium kwartylowe (metoda Tukeya):
– oblicza się pierwszy (𝑄1) i trzeci kwartyl (𝑄3) oraz rozstęp
międzykwartylowy 𝐼𝑄𝑅 = 𝑄3 – 𝑄1 (interquartile range IQR).
– obserwacje podejrzane za odstające to te, których wartości wykraczają poza
przedział 𝑄1– 1,5𝐼𝑄𝑅, 𝑄3 + 1,5𝐼𝑄𝑅
– obserwacje ekstremalnie odstające to te, których wartości wykraczają poza
przedział 𝑄1– 3𝐼𝑄𝑅, 𝑄3 + 3𝐼𝑄𝑅
W oparciu o odchylenie standardowe:
– dane standaryzuje się do rozkładu normalnego o średniej 𝑀 = 0 i odchyleniu
standardowym 𝑆𝐷 = 1, tj. 𝑁 0,1
– obserwacje odstające to te które wykraczają poza przedział −2,5𝑆𝐷, +2,5𝑆𝐷
Test Grubbsa http://www.statystycy.pl/t4873_test_grubbsa.php
Wg odległości (np. euklidesowych) między danymi - wielowymiarowe
35
36. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Obserwacje odstające w szeregu czasowym
36
37. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Ćwiczenie 3
Sprawdzanie poprawności danych
Plik: http://marketing.umcs.lublin.pl/rmacik/dane-2zaj.sav
Co sprawdzamy:
– Obecność wartości spoza zakresu:
• Potencjalne błędy kodowania – jak wykryć, kiedy i jak korygować?
• Nie zdefiniowane wartości zmiennej
– Obserwacje odstające:
• Co to takiego i w czym przeszkadzają?
• Jak zidentyfikować?
• Co z nimi robić?
– Rozkład zmiennej
• Zazwyczaj pożądany jest rozkład normalny lub jednostajny (zm. grupujące)
38. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Metoda kwartylowa i test Grubbsa
Plik P1.xlsx
Główna seria danych to liczba użytkowanych samochodów
dostawczych w badanej firmie
Sprawdzamy czy są obserwacje odstające metodą kwartylową:
– Obliczamy kwartyle: Q1 i Q3 oraz rozstęp międzykwartylowy IQR
=KWARTYL(zakres,nr_kwartyla)
– Obliczamy granice przedziałów dla obserwacji odstających i ekstremalnych –
oddzielnie dolną i górną
– Formułujemy warunek przynależności do przedziałów względem granic
Test Grubbsa (jeżeli mamy narzędzia by go obliczyć):
– Z dodatku Real Statistics wybieramy opcję Descriptive Statistics and Normality
– Zaznaczamy w oknie dialogowym test Grubbsa, wpisujemy testowaną liczbę
obserwacji odstających, np. 6, 8 itd.
38
39. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Metoda kwartylowa - rozwiązanie
39
Q1 1
Q3 3
IQR 2
odst_dół -2
odst_góra 6
ekstr_dół -5
ekstr_góra 9
Q1 =KWARTYL(B2:B82;1)
Q3 =KWARTYL(B2:B82;3)
IQR =I2-I1
odst_dół =I1-1,5*I3
odst_góra =I2+1,5*I3
ekstr_dół =I1-3*I3
ekstr_góra =I2+3*I3
odstająca ekstremalna
=JEŻELI(LUB(B2<$I$5;B2>$I$6);"tak";"nie") =JEŻELI(LUB(B2<$I$7;B2>$I$8);"tak";"nie")
Nr respondentaile pojazdówDominująca marka odstająca ekstremalna
297 20 lublin tak tak
298 4 LUBLIN,HONKER nie nie
299 3 Lublinek nie nie
300 1 Lublin nie nie
303 2 Citroen nie nie
305 4 Lublin nie nie
316 2 lublin nie nie
318 3 Ford Transit nie nie
319 5 HONKER nie nie
321 2 renault nie nie
324 3 Mercedes nie nie
325 200 żuk lublin tak tak
326 2 Lublin nie nie
Formuły
Wyniki
40. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Obserwacje odstające w dwu wymiarach
Trudniej wykrywalne, czasem łatwiej zauważyć wizualnie
niż wykryć analitycznie
40
Liniami przerywanymi
zaznaczono granice
przedziałów
⟨𝑄1– 1,5𝐼𝑄𝑅, 𝑄3 + 1,5𝐼𝑄𝑅⟩
dla obu zmiennych
Obserwacja
odstająca
41. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Ćwiczenie 4
Tabele krzyżowe
– Co mówi test niezależności?
– Kiedy wolno posługiwać się korelacjami?
– Plik danych:
http://marketing.umcs.Lublin.pl/rmacik/dane2.sav
Ćwiczenie samodzielne do wysłania na maila:
– Plik danych: http://marketing.umcs.Lublin.pl/rmacik/ai.sav
– Analiza jak preferencje udziału w ankietach internetowych zależą
od wybranych zmiennych grupujących Pytanie q0003
względem pytań q0014 i q0017 (łącznie z wiekiem – zmienna
wieku kodowana do wybranej liczby grup – procedura RECODE)
41
43. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych to sprawdzanie sądów o
populacji przez badanie jej wycinka (próby).
Stąd, w większości przypadków, nie ma sensu testowanie hipotez
statystycznych w badaniach wyczerpujących.
Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu
populacji generalnej (jego postaci funkcyjnej lub wartości
parametrów).
Testem statystycznym nazywamy regułę postępowania, która każdej
możliwej próbie przyporządkowuje decyzję odrzucenia hipotezy lub
braku podstaw do jej odrzucenia.
43
44. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Hipotezy badawcze a hipotezy statystyczne
Nie można ich ze sobą utożsamiać!
Hipoteza badawcza jest przypuszczalną odpowiedzią na pytanie
badawcze.
Weryfikacja hipotezy badawczej (np. w badaniach jakościowych)
może być opisowa.
Hipoteza badawcza zwykle ma postać hipotezy alternatywnej
(zakłada np. istnienie różnic między grupami, niezerową wartość
średniej).
Hipotezę badawczą można weryfikować za pomocą co najmniej
jednej hipotezy statystycznej, weryfikując hipotezę zerową (a więc o
braku różnic między grupami, zerowej wartości średniej itd.), i ją
odrzucając, bądź stwierdzając brak podstaw do tego.
44
45. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Warunki stosowalności testów
Stosowanie większości testów statystycznych wymaga spełnienia
wielu założeń, czasem nawet mało realistycznych w prawdziwych
badaniach. Naruszenie założeń skutkuje wynikami, które wprowadzają
w błąd, a w skrajnym przypadku są zupełnie nieodpowiednie
Typowe założenia co do danych to:
– Normalność – dane powinny mieć rozkład normalny lub zbliżony do
normalnego (bez silnej asymetrii)
– Jednorodność wariancji w grupach – równa wariancja we wszystkich
analizowanych grupach, dla wielu testów istnieją warianty dla grup
niespełniających tego założenia, ale ich moc jest mniejsza
– Liniowość – liniowe zależności między zmiennymi
– Niezależność – obserwacje powinny być niezależne od siebie (chyba że
testujemy dane zależne – schemat!)
Minimalna liczebność każdej grupy – ok. 16-20 obserwacji, rzadko mniej
45
46. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Błędy I-go i II-go rodzaju
Hipoteza zerowa
Prawdziwa
Brak podstaw do
odrzucenia H0
Odrzucono H0,
błędnie
przyjmując H1
błąd I rodzaju
Fałszywa
Błędnie uznano,
że brak podstaw
do odrzucenia H0
błąd II rodzaju
Odrzucono H0,
przyjmując H1
46
47. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Typowa procedura weryfikacji hipotez stat.
Sformułowanie hipotezy zerowej i alternatywnej
Wybór statystyki testowej
Określenie poziomu istotności α
Wyznaczenie obszaru krytycznego testu
Obliczenie statystyki na podstawie próby
Podjęcie decyzji weryfikacyjnej
47
48. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Typowa interpretacja wyników testów
Narzędzia obliczeniowe i pakiety statystyczne podają poziom
prawdopodobieństwa P-value (krytyczny poziom istotności;
prawdopodobieństwo testowe).
Jest to najmniejszy poziom istotności przy którym dla
zaobserwowanej wartości statystyki testowej odrzucilibyśmy
hipotezę zerową.
Hipotezę zerową odrzucamy, gdy wyliczone prawdopodobieństwo
testowe (𝑝) okaże się nie większe od przyjętego przez nas poziomu
istotności (zwykle 0,05) 𝑝 ≤ 𝑃𝑣𝑎𝑙𝑢𝑒
Posługiwanie się unormowaną wielkością, w przeciwieństwie do
różnorodnych statystyk testowych (Z, F, t, itd.) pozwala bezpośrednio
ocenić wynik weryfikacji hipotezy poprzez proste porównanie
wartości 𝑝 z poziomem istotności, np. 0,05; 0,1 czy też 0,001
48
49. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Testy jednostronne i dwustronne
Test dwustronny:
𝐻 𝑜: 𝜃 = 𝜃0
𝐻 𝑜: 𝜃 ≠ 𝜃0
Test lewostronny:
𝐻 𝑜: 𝜃 ≥ 𝜃0
𝐻 𝑜: 𝜃 < 𝜃0
Test prawostronny:
𝐻 𝑜: 𝜃 ≤ 𝜃0
𝐻 𝑜: 𝜃 > 𝜃0
49
Obszarykrytyczne
51. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Schemat wyboru testu
Sytuacja
Cel testowania
Testy
Związek
między
zmiennymi
Ten sam
poziom
pomiaru
Różne
poziomy
pomiaru
Porównania
między-
grupowe
Grupy
niezależne
Grupy
zależne
51
52. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Schemat wyboru testu – testowanie związku
Typ testu
Poziom pomiaru
Sytuacja
Cel testowania
Związek
między
zmiennymi
Ten sam
poziom
pomiaru
nominalny
Chi-kwadrat
niezależności
porządkowy
Rho Spearmana,
Tau Kendalla
ilościowy
r Pearsona
Różne
poziomy
pomiaru
nominalny x
porządkowy
Gdy mało grup:
chi-kwadrat,
porównania
międzygrupowe
nominalny x
ilościowy
Porównania
międzygrupowe
porządkowy
x ilościowy
Rho Spearmana,
Tau Kendalla
52
W większości dzień 2 współzmienność
53. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Porównania międzygrupowe – grupy niezależne
Typ testu
Rozkład
Poziom pomiaru
Liczba grup
Cel testowania
Grupy
niezależne
2 grupy
Nomi-
nalny
Chi-
kwadrat
Porząd-
kowy
U
Manna-
Whitneya
Ilościo-
wy
Odbiegający
od
normalnego
U
Manna-
Whitneya
Normalny
lub
zbliżony
t dla prób
niezależ-
nych
3 lub
więcej
grup
Nomi-
nalny
Chi-
kwadrat,
Porząd-
kowy
H
Kruskala
-Wallisa
Ilościo-
wy
Odbiegający
od
normalnego
H
Kruskala
-Wallisa
Normalny
lub
zbliżony
F
ANOVA
53
54. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Porównania międzygrupowe – grupy zależne
Typ testu
Rozkład
Poziom pomiaru
Liczba grup
Cel testowania
Grupy
zależne
2 grupy
Nomi-
nalny
Q
Cochrana
Porząd-
kowy
Test
rango-
wanych
znaków
Ilościo-
wy
Odbiegający
od
normalnego
Test
rango-
wanych
znaków
Normalny
lub
zbliżony
t dla prób
zależ-
nych
3 lub
więcej
grup
Nomi-
nalny
Q
Cochrana
Porząd-
kowy
Test
Friedma-
na
Ilościo-
wy
Odbiegający
od
normalnego
Test
Friedma-
na
Normalny
lub
zbliżony
Powta-
rzane
pomiary
ANOVA
54
55. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Porównanie
3+ grup
niezależnych
55
56. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Ćwiczenie 5
Porównania 2 grup
– Plik danych: http://marketing.umcs.Lublin.pl/rmacik/dane2.sav
– 2 grupy niezależne i 2 grupy zależne – testy parametryczne i
nieparametryczne schemat!
Ćwiczenie samodzielne do wysłania na maila:
– Plik danych j.w.
– Analiza porównania częstości dokonywania zakupów w różnych
formatów sklepów (itemy P2) względem płci (grupy niezależne)
– Analiza porównania częstości dokonywania zakupów w różnych
formatach sklepów względem siebie u tych samych osób (grupy
zależne)
– Wybieramy po 4 dowolne itemy z P2
56
57. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Testy - ćwiczenia
Plik http://marketing.umcs.Lublin.pl/rmacik/dane2_v3.sav
Sprawdzamy losowość i normalność rozkładu wyciągamy wnioski
Przygotowujemy roboczy arkusz ze zmiennymi według grup
Zaczynamy od porównań międzygrupowych
– Porównajmy różnice w częstości kupowania w różnych formatach
sklepów wg płci respondenta (jakie testy?)
– J.w. ale według kategorii miejsca zamieszkania – uwaga na liczebność
grup! (jakie testy)
– Czy częstość kupowania w jednym formacie sklepu wiąże się z
częstością kupowania w innym formacie (dla tych samych osób) – jakie
testy
– Czy można porównać testami dla prób zależnych częstość kupowania w
określonym formacie sklepów z jego lubieniem? (dlaczego tak/nie???)
57
58. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Test serii
Test serii (test serii Walda-Wolfowitza) to nieparametryczny test
losowości próby.
Hipotezę zerową i alternatywną formułujemy w sposób następujący:
– H0: dobór jednostek do próby jest losowy.
– H1: dobór jednostek do próby nie jest losowy.
Seria to każdy ciąg identycznych elementów w zbiorze
uporządkowanym według przyjętego kryterium
– Np. ciąg danych wg płci ma 8 serii: M M Ż Ż M Ż Ż Ż M M Ż M Ż Ż Ż.
– Dane ilościowe należy zdychotomizować w oparciu o medianę.
Ogólna liczba serii w ciągu n-elementowym jest zmienną losową K o
znanym i ujętym w tablice rozkładzie.
– Zliczoną w próbie liczbę serii 𝑘 porównujemy z wartościami krytycznymi testu.
– Jeżeli i 𝑘 ≤ 𝑘1 lub 𝑘 ≥ 𝑘2, odrzucamy H0 na rzecz H1 próba nie jest losowa
58
60. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Główne cele stosowania metod
wielowymiarowych
Redukcja liczby wymiarów
– Dla 2-3 wymiarów możliwa interpretacja graficzna
Odkrycie ukrytych struktur
– Określenie (nie)podobieństwa zmiennych lub
obiektów
– Wskazanie naturalnych skupień obiektów
60
61. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rzetelność i trafność pomiaru
Rzetelność -
powtórzenie
pomiaru w tych
samych
warunkach daje
ten sam rezultat
Trafność -
instrument mierzy
tę cechę, którą
chcemy zmierzyć
Wysoka rzetelność
= mały błąd
przypadkowy
Wysoka trafność =
mały błąd
systematyczny
61
Pomiar
mało
trafny
i mało
rzetelny
Pomiar
trafny
ale mało
rzetelny
Pomiar
mało
trafny
ale
rzetelny
Pomiar
trafny
rzetelny
62. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Praktyka ustalania trafności i rzetelności
Ustalenie trafności czynnikowej EFA
Określenie rzetelności dla każdego czynnika
Cronbacha lub CR
Modyfikacje na podstawie analizy pozycji i
sugestii z EFA
Potwierdzenie istnienia wymiarów
Konfirmacyjna analiza czynnikowa (CFA)
62
64. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Analizy czynnikowe
Jedna z metod redukcji wymiarów – celem analizy czynnikowej jest
zredukowanie dużej liczby zmiennych do mniejszego zbioru, co
uzyskujemy przez założenie, że pewne grupy zmiennych reprezentują
zmienność tych samych czynników.
Główne zastosowania to odnajdywanie ukrytych wymiarów lub struktur
w zbiorze zmiennych.
Dwa podejścia:
– eksploracyjna analiza czynnikowa (EFA - Exploratory Factor Analysis) - czynniki
są początkowo nieznane i zostają wyodrębnione dzięki analizie posiadanych
danych, to podejście jest bardziej rozpowszechnione,
– konfirmacyjna analiza czynnikowa (CFA - Confirmatory Factor Analysis) -
zakładamy istnienie pewnego określonego zbioru czynników i
przyporządkowania zmiennych do tych czynników - badamy zasadność naszego
przypuszczenia poprzez modelowanie równań strukturalnych np. w AMOS
64
65. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Eksploracyjne analizy czynnikowe - procedura
Sprawdzenie własności macierzy korelacji
– miara KMO > 0,7;
– test sferyczności Bartletta – p<0,05 (odrzucamy H0 że macierz
współczynników korelacji jest macierzą jednostkową, co oznacza, że nie ma
istotnych korelacji między zmiennymi; odrzucenie H0 jest potwierdzeniem, że
analiza przyniesie sensowny rezultat.
Wybór metody wyodrębniania czynników – typowo: PCA – analiza
głównych składowych i rotacji czynników – zwykle Varimax (czynniki
ortogonalne) lub Oblimin (czynniki ukośne)
Kryteria wyboru liczby czynników:
– Skumulowany procent wariancji – czynniki mają wyjaśnić > 60% wariancji
– Wartość własna czynnika > 1 (Kryterium Kaisera) – czynnik ma zastąpić więcej
niż jedną zmienną wejściową (czasem po rotacji)
– Test osypiska (kryterium Cattella) – wybrać tyle czynników ile nie leży w
osypisku
65
66. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Wykres osypiska
66
Osypisko się wypłaszcza
przy 3-4 czynnikach
Ponieważ wartość własna
4 czynnika (bez rotacji)
jest bliska 1,
prawdopodobnie 4
czynniki są lepszym
wyborem
67. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
EFA – procedura (2)
Dla wybranej liczby czynników analizujemy macierz
rotowanych składowych
Zmienne z ładunkami czynnikowymi >0,7 pasują dobrze
do danej składowej, między 0,58 a 0,7 słabiej, ale jeśli nie
ma ładunków krzyżowych (podobnej wartości ładunków
w różnych składowych) można je zaliczyć do danej
składowej.
Nazywamy wyodrębnione składowe – trudność nazwania
– trudność interpretacji czynnika
67
68. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
EFA – przykładowe wyniki
Macierz danych - OK
2 czynniki, wybór na
podstawie testu
osypiska, wyjaśniają
prawie 81% wariancji
Przyporządkowanie
zmiennych do
składowych
zaznaczono
68
Uwaga:
Ładunek
krzyżowy,
jeszcze nie
przeszkadza
bardzo, ale
jest
70. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Obliczenie rzetelności skali
Sposób:
– Dawniej: Test – retest lub metoda połówkowa
– Dzisiaj: Poprzez zgodność wewnętrzną: współczynnik Cronbacha
lub wzór KR-20, lepiej też użyć współczynnika CR (Composite
Reliability – tzw. rzetelność łączna)
Pożądana wartość współczynników i CR to:
0,7<<0,95
>0,95 sugeruje współliniowość pozycji skali – pytamy
respondentów „w kółko” o to samo – zazwyczaj niepotrzebnie
Dla skali krótkiej - o 2-3 stwierdzeniach dopuszcza się >0,6
Wykonaj analizę pozycji – być może trzeba jeszcze coś
poprawić, usunąć, dodać – to jest już podejście empiryczne!
71. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rzetelność i analiza pozycji - przykład
71
Chętnie
zmieniam
marki, które
kupuję
73. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Analiza skupień - klasteryzacja
Analiza skupień (cluster analysis) - jest to metoda
grupowania elementów we względnie jednorodne klasy.
Podstawą grupowania w większości algorytmów jest
podobieństwo/niepodobieństwo pomiędzy elementami –
wyrażone przy pomocy funkcji (metryki) podobieństwa –
zwykle określonej miary odległości między elementami
grupowanego zbioru
Jest to metoda eksploracyjna, generalnie służąca
klasyfikacji, odkrywaniu nieznanej struktury
analizowanych danych (która „ukrywa” się w wielu
wymiarach
73
74. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Typowe miary odległości
Euklidesowa 𝑑 𝑒 = 𝑖=1
𝑘
𝑏𝑖 − 𝑎𝑖
2
tutaj: 𝑑 𝑒 = 5 − 1 2 + 4 − 1 2 = 16 + 9 = 5
Kwadrat odległości euklidesowej 𝑑 𝑒2 = 𝑑 𝑒
2
tu: 𝑑 𝑒2 = 52 = 25
Miejska (Manhattan) 𝑑 𝑚 = 𝑖=1
𝑘
𝑏𝑖 − 𝑎𝑖
tu: 𝑑 𝑚 = 4 + 3 = 7
Czebyszewa 𝑑 𝑐 = 𝑚𝑎𝑥 𝑏𝑖 − 𝑎𝑖
tu: 𝑑 𝑐 = 4
Użycie odległości euklidesowej przy wielu wymiarach „spłaszcza”
różnice, jej kwadratu lub odległości miejskiej – uwypukla,
dla odległości Czebyszewa znaczenie ma tylko jeden wymiar z
największą różnicą, inne są pomijane.
74
0
1
2
3
4
5
0 1 2 3 4 5 6
75. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Odległość euklidesowa a miejska
75
Ile wynosi odległość euklidesowa,
a ile miejska w tym przypadku?
76. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Algorytmy skupiania
metody hierarchiczne – algorytm tworzy dla zbioru obiektów hierarchię
klasyfikacji, istnieją dwa rodzaje metod hierarchicznych:
– procedury aglomeracyjne (ang. agglomerative) – tworzą macierz podobieństw
klasyfikowanych obiektów, a następnie w kolejnych krokach łączą w skupienia
obiekty najbardziej do siebie podobne,
– procedury deglomeracyjne (ang. divisive) – odwrotnie, tj. zaczynają od skupienia
obejmującego wszystkie obiekty, a następnie w kolejnych krokach dzielą je na
mniejsze grupy.
metoda k-średnich (ang. k-means) - grupowanie polega na wstępnym
podzieleniu populacji na z góry założoną liczbę klas. Następnie uzyskany
podział jest poprawiany przez iteracyjne przenoszenie niektórych elementów
do innych klas, tak, aby uzyskać minimalną wariancję wewnątrz skupień.
metody rozmytej analizy skupień (ang. fuzzy clustering), wśród których
najbardziej znaną jest metoda c-średnich (c-means). Metody rozmytej analizy
skupień mogą przydzielać element do więcej niż jednej kategorii z określonym
prawdopodobieństwem.
76
77. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Metody hierarchiczne
Skupiamy:
– Zmienne – redukcja wymiarów
– Obserwacje – segmentacja, poszukiwanie ukrytych struktur
Typowe algorytmy skupiania:
– Średniej odległości między skupieniami – maksymalizuje ją
– Warda – minimalizuje wariancję wewnątrz skupienia
Wizualny efekt – dendrogram
Przykłady:
– Zmienne –
http://marketing.umcs.lublin.pl/rmacik/a6_sklepy.sav
– Obserwacje -
http://marketing.umcs.lublin.pl/rmacik/a6_powiaty.sav
77
78. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Dendrogram: Podobieństwo rynku pracy woj. lubelskiego do innychwojewództw
Według
wskaźników
charakteryzujących
aktywność
zawodową, poziom
zatrudnienia i
bezrobocie (łącznie
13 zmiennych – po
odrzuceniu
zmiennych wysoko
ze sobą
skorelowanych
Źródło: Opracowanie własne na podstawie danych Banku Danych Lokalnych, GUS.
78
79. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Dendrogram: Podobieństwo rynku pracy woj. lubelskiego do innychwojewództw
Według udziałów
sektorów
gospodarczych
w zatrudnieniu
(łącznie 5
zmiennych)
Źródło: Opracowanie własne na podstawie danych Banku Danych Lokalnych, GUS.
79
80. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Dendrogram: podobieństwo formatów sklepów
Skupiane zmienne,
Odległość euklidesowa
Wiązanie Warda
80
81. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Porady
Jak dobrać zmienne?
– Unikamy bardzo wysokich dodatnich korelacji – współliniowość
jest niepożądana
Co jeśli wartości zmiennych mają różne rzędy wielkości?
– Standaryzujemy dane
Ile wybrać skupień?
– Szukamy rozwiązania stabilnego – kiedy przez dłuższy czas „nic
się nie dzieje”
Trudności w interpretacji?
– Zmieniamy miarę odległości i/lub algorytm skupiania – wolno
nam, bo analiza skupień jest metodą eksploracyjną
81
82. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Metoda k-średnich (Quick Cluster)
Grupowanie po wstępnym podzieleniu populacji na z góry
założoną liczbę klas iteracyjnie jest poprawiane tak, by
uzyskać minimalną wariancję wewnątrz klas.
Podstawowy algorytm:
– losowy wybór środków (centroidów) klas (skupień),
– przypisanie punktów do najbliższych centroidów,
– wyliczenie nowych środków skupień,
– powtarzanie algorytmu aż do osiągnięcia kryterium zbieżności (do
kroku, w którym nie zmieniła się przynależność punktów do klas).
Nadaje się do klasyfikacji nowych obiektów do istniejących klas
Tabela ANOVA jako wskaźnik efektywności grupowania
82
83. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rozrzut w 3 wymiarach
83
84. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Wyniki k-średnich
84
85. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Segmentacja za pomocą analizy skupień
Hierarchiczna analiza – przegląd dendrogramu –
wybór orientacyjnej liczby skupień
Lub: powtórzenie analizy za pomocą k-średnich
dla wybranej liczby skupień (przy dodawaniu nowych
obiektów do istniejących skupień tylko klasyfikacja po wczytaniu z
pliku centrów skupień)
Profilowanie skupień/segmentów [wykres
profilowy]
85
86. Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Profile segmentów
86
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
1
2
3
4
5