Grundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse

Paul Marx | Grundlagen der Umfrageforschung
Grundlagen der Umfrageforschung
Kapitel 5: Datenanalyse
1
Einführungskurs

5. Datenanalyse: Übersicht über statistische Techniken
5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.1 Zusammenfassung qualitativer Daten
5.1.2 Zusammenfassung quantitativer Daten
5.1.3 Numerische Zusammenfassung von Daten
5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit übertragen?
5.2.1 Hypothesentest
5.2.2 Stärke des Zusammenhangs in Kreuztabellen
5.2.3 Beziehung zwischen zwei (metrischen) Variablen
2

Typen von statistischen Analysemethoden
3
Deskriptive
• Deskriptive Statistik fasst die Beobachtungen
aus der Stichprobe zusammen und stellt sie
übersichtlich dar.
• Nutzt Kennzahlen, Tabellen, Grafiken und
Diagrammen, zur Beschreibung,
Systematisierung, Organisation und
Darstellung von erhobenen Daten.
Induktive
• Induktive Statistik macht Aussagen über die
Generalisierbarkeit bzw. Übertragbarkeit von
Beobachtungen und Schlussfolgerungen aus
Zufallsstichproben auf die Grundgesamtheit.
• Beurteilt wechselseitige Beziehungen
zwischen Variablen und quantifiziert sie. D.h.
gibt Stärke und Signifikanz von Beziehungen
an, ermöglich Vorhersagen und Schätzungen.

5.1.4 Kreuztabellen
4

5.1.4 Kreuztabellen
5

Relative Häufigkeit zeigt den Anteil (bzw. Prozent)
von Beobachtungen eines Wertes.
Verteilung der relativen Häufigkeiten listet alle
Datenwerte zusammen mit ihren relativen
Häufigkeiten auf.
blau rot blau orange blau gelb grün rot rosa
blau grün blau lila blau blau grün gelb rosa
blau rot rosa grün blau gelb grün blau
Tabellen: Häufigkeiten und relative Häufigkeiten
6
Erhobene Daten
𝑅𝑒𝑙𝑎𝑡𝑖𝑣𝑒 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡 =
𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡
𝑆𝑢𝑚𝑚𝑒 𝑎𝑙𝑙𝑒𝑟 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡𝑒𝑛
Häufigkeitsverteilung gibt zu jedem
gemessenen Wert an, wie häufig dieser Wert
in den Daten vorkommt.
Lieblingsfarbe Häufigkeit
blau 10
rot 3
orange 1
gelb 3
grün 5
rosa 3
lila 1
Lieblingsfarbe Relative Häufigkeit
blau 10/26≈0,38
rot 3/26≈0,12
orange 1/26≈0,04
gelb 3/26≈0,12
grün 5/26≈0,19
rosa 3/26≈0,12
lila 1/26≈0,04

Lieblingsfarbe Relative Häufigkeit
blau 10/26≈ 0,38
rot 3/26≈ 0,12
orange 1/26≈ 0,04
gelb 3/26≈ 0,12
grün 5/26≈ 0,19
rosa 3/26≈ 0,12
lila 1/26≈ 0,04
Lieblingsfarbe Häufigkeit
blau 10
rot 3
orange 1
gelb 3
grün 5
rosa 3
lila 1
Säulendiagramm
7
0
2
4
6
8
10
12
blau rot orange gelb grün rosa lila
HÄUFIGKEIT
Lieblingsfarbe
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
blau rot orange gelb gr[n rosa lila
RELATIVEHÄUFIGKEIT
Lieblingsfarbe
Säulendiagramm
1. Höhen von Säulen können
Häufigkeiten oder relative
Häufigkeiten sein
2. Säulen dürfen sich nicht berühren

Kreisdiagramm
8
blau
38%
rot
11%
orange
4%
gelb
12%
grün
19%
rosa
12%
lila
4%
Lieblingsfarbe
Kreisdiagramm
1. Sollte immer relative Häufigkeiten
angeben
2. Auch sollte Beschriftungen enthalten –
entweder direkt auf dem Diagramm oder
in der Legende

5.1.4 Kreuztabellen
9

Punkte in
der Prüfung Häufigkeit
50–59 2
60–69 5
70–79 7
80–89 7
90–99 4
Anzahl der
Kinder Häufigkeit
Relative
Häufigkeit
1 3 3/26≈0,12
2 8 8/26≈0,31
3 10 10/26≈0,38
4 2 2/26≈0,08
5 3 3/26≈0,12
Tabellen
10
Erhobene Daten
Erhobene Daten
Manchmal gibt es zu viele Werte, um für
jeden Wert eine Zeile zu erstellen. In diesem
Fall müssen wir mehrere Werte zu Gruppen
zusammenfassen.
Diskrete Variable ist eine quantitative
Variable, die entweder eine endliche Anzahl
von Werten (z.B. rot, grün, gelb) oder eine
unendliche Anzahl von abzählbaren Werten
(z.B. 0, 1, 2, 3, ...) hat
2 2 2 4 5 3 3 3 3
2 1 2 3 5 3 4 3 1
2 3 5 3 2 1 3 2
62 87 67 58 95 94 91 69 52
76 82 85 91 60 77 72 83 79
63 88 79 88 70 75 75
Untere Klassengrenze
Obere Klassengrenze
Klassenbreite = 90-80 = 10

∅ Zeit
unterwegs Häufigkeit
Relative
Häufigkeit
16–17,9 1 1/15≈0,07
18–19,9 2 2/15≈0,13
20–21,9 1 1/15≈0,07
22–23,9 6 6/15≈0,40
24–25,9 2 2/15≈0,13
26–27,9 1 1/15≈0,07
28–29,9 1 1/15≈0,07
30–31,9 1 1/15≈ 0,07
Anzahl der
Kinder Häufigkeit
Relative
Häufigkeit
1 3 3/26≈0,12
2 8 8/26≈0,31
3 10 10/26≈0,38
4 2 2/26≈0,08
5 3 3/26≈0,12
Tabellen und Histogrammen
11
0
2
4
6
8
10
12
1 2 3 4 5
HÄUFIGKEIT
ANZAHL DER KINDER IN DER FAMILIE
0.00
0.10
0.20
0.30
0.40
0.50
1 2 3 4 5
RELATIVEHÄUFIGKEIT
0
1
2
3
4
5
6
7
16 18 20 22 24 26 28 30 32
HÄUFIGKEIT
ZEIT (MINUTEN)
Durchschnittliche Zeit unterwegs

Histogramm
1. Höhen von Säulen sind Häufigkeiten
oder relative Häufigkeiten der
entsprechenden Klassen
2. Breiten von Säulen sind gleich und sie
berühren einander 0
2
4
6
8
10
12
1 2 3 4 5
HÄUFIGKEIT
0.00
0.10
0.20
0.30
0.40
0.50
1 2 3 4 5
RELATIVEHÄUFIGKEIT
0
1
2
3
4
5
6
7
16 18 20 22 24 26 28 30 32
HÄUFIGKEIT
ZEIT (MINUTEN)
Durchschnittliche Zeit Unterwegs
Histogramm
12
∅ Zeit
Relative
Häufigkeit
16–17,9 1 1/15≈0,07
18–19,9 2 2/15≈0,13
20–21,9 1 1/15≈0,07
22–23,9 6 6/15≈0,40
24–25,9 2 2/15≈0,13
26–27,9 1 1/15≈0,07
28–29,9 1 1/15≈0,07
30–31,9 1 1/15≈ 0,07

Frequenz-Polygonzug
13
0
1
2
3
4
5
6
7
16 18 20 22 24 26 28 30 32
HÄUFIGKEIT
ZEIT (MINUTEN)
Frequenz-Polygonzug
ist eine Linie, die die Klassenmittelpunkte
miteinander verbindet.
(Die Klassenmittelpunkte werden als
Durchschnittswerte von Ober- und
Untergrenzen der jeweiligen Klasse gebildet.)
16 21 26 31
0
1
2
3
4
5
6
7
16 18 20 22 24 26 28 30 32
HÄUFIGKEIT
ZEIT (MINUTEN)
0
1
2
3
4
5
6
7
15 17 19 21 23 25 27 29 31 33
HÄUFIGKEIT
ZEIT (MINUTEN)
∅ Zeit
Relative
Häufigkeit
16–17,9 1 1/15≈0,07
18–19,9 2 2/15≈0,13
20–21,9 1 1/15≈0,07
22–23,9 6 6/15≈0,40
24–25,9 2 2/15≈0,13
26–27,9 1 1/15≈0,07
28–29,9 1 1/15≈0,07
30–31,9 1 1/15≈ 0,07

Kumulative Tabellen und Ogiven
14
∅ Zeit
unterwegs Relative Häufigkeit
Kumulierte
relative Häufigkeit
16–17,9 1/15≈ 0,07 1/15≈ 0,07
18–19,9 2/15≈ 0,13 2/15≈ 0,20
20–21,9 1/15≈ 0,07 1/15≈ 0,27
22–23,9 6/15≈ 0,40 6/15≈ 0,67
24–25,9 2/15≈ 0,13 2/15≈ 0,80
26–27,9 1/15≈ 0,07 1/15≈ 0,87
28–29,9 1/15≈ 0,07 1/15≈ 0,94
30–31,9 1/15≈ 0,07 1/15≈ 1,00
Kumulative Tabellen
zeigen die Summe von Häufigkeiten bis hin
und einschließlich Häufigkeit des Wertes in
der jeweiligen Zeile.
Ogive
ist ein Graph, der die kumulierte Häufigkeit
bzw. kumulierte relative Häufigkeit für alle
Klassen repräsentiert.
∅ Zeit
Relative
Häufigkeit
16–17,9 1 1
18–19,9 2 3
20–21,9 1 4
22–23,9 6 10
24–25,9 2 12
26–27,9 1 13
28–29,9 1 14
30–31,9 1 15
0
0.2
0.4
0.6
0.8
1
1.2
17 19 21 23 25 27 29 31 33
KumulierterelativeHäufigkeit
Zeit (Minuten)

5.1.4 Kreuztabellen
15

Lagemaße
16
Mittelwert
𝑥 =
𝑥1 + 𝑥2 + ⋯ + 𝑥3
𝑛
=
𝑥𝑖
𝑛 Summe von einzelnen Elementen Summe von durchschnittlichen
Elementen
Mittelwert ist der „Schwerpunkt“ –
ganz wie der Gleichgewichtspunkt
Vorteile:
• Einfach zu berechnen: nur aufsummieren und teilen.
• Intuitiv – eine Zahl „in der Mitte“; wird von großen Zahlen
nach oben und von kleinen Zahlen nach unten gezogen.
Nachteile:
• Der Mittelwert kann durch Ausreißer verzogen werden – er
funktioniert nicht gut für Stichproben mit stark variierenden
Daten.
• Der Mittelwert von 100, 200 und -300 ist 0. Das ist
verwirrend.
Jahre
Jahre

Lagemaße
17
Median
Median ist das Element in der Mitte
einer sortierten Liste
Vorteile:
• Kann gut mit Ausreißern umgehen – oft die genaueste
Abbildung einer Gruppe.
• Teilt die Daten in zwei Gruppen auf, jede mit der gleichen
Anzahl an Elementen.
Nachteile:
• Ist schwieriger zu berechnen: Daten müssen zuvor sortiert
werden.
• Nicht so bekannt; wenn man „Median“ sagt, denken viele,
dass man „Durchschnitt“ meint.
50% unterhalb 50% oberhalb
𝑥 =
𝑥(𝑛+1)/2
1
2
𝑥 𝑛/2 + 𝑥 𝑛/2+1
für ungerade n
für gerade n
Jahre
Jahre

Lagemaße
18
Modalwert
Anzahl
Werte
Modalwert ist der häufigste Wert
unter allen Beobachtungen der Variable
Vorteile:
• Gut geeignet für exklusive Auswahlsituationen (diese Wahl
oder andere; keine Kompromisse), d.h. funktioniert gut mit
nominalen Daten.
• Zeig die Wahl, die die meisten wollten (während der
Mittelwert oft zur Wahl führen kann, die keiner wollte).
• Einfach zu verstehen.
Nachteile:
• Erfordert mehr Aufwand für die Berechnung (man muss die
Stimmen zählen).
• “Der Sieger nimmt alles” — es gibt keinen Mittelweg.
Modalwert von
ist

Lagemaße:
Mittelwert und Median bestimmen die Form der Verteilung
19
symmetrisch
Mittelwert und Median
sind ungefähr gleich
linksschief
Median
Mittelwert ist
nach unten verzogen
rechtsschief
Median
Mittelwert ist
nach oben verzogen

Streuungsmaße
20
𝜎2
=
𝑥𝑖 − 𝜇 2
𝑛
Empirische
Varianz
(Varianz der Grundgesamtheit)
Stichproben-
Varianz 𝑠2 =
𝑥𝑖 − 𝑥 2
𝑛 − 1
Varianz ist der Durchschnitt von quadrierten
Abständen vom Mittelwert
Körpergrößen des US-Amerikanischen olympischen Basketballmannschaft 2008

Der Mittelwert funktioniert wie Gleichgewichtspunkt. Deshalb ist die
durchschnittliche Abweichung vom Mittelwert immer gleich Null.
Bei der Berechnung von Varianz werden alle Abweichungen
quadriert, damit negative Abweichungen positive Abweichungen
nicht kompensieren.
Streuungsmaße
21
Stichproben-
Varianz 𝑠2 =
𝑥𝑖 − 𝑥 2
𝑛 − 1
Körpergrößen des US-Amerikanischen olympischen Basketballmannschaft 2008
𝑥 =
1,5 + 2,5 + 3,5 − 0,5 + 4,5 + 1,5 − 2,5 − 6,5 + 2,5 − 0,5 − 2,5 − 3,5
12
= 0
𝑠2 =
117
12 − 1
≈ 10,6
Warum Varianz?

Welcher Datensatz hat eine höhere Standardabweichung?
Streuungsmaße
22
Standardabweichung 𝑠 = 𝑠2
Standardabweichung
Behält die Messeinheiten von Originaldaten
𝜎 = 𝜎2
𝑠 = 10,6 ≈ 3,3
𝑠2
=
117
12 − 1
≈ 10,6 Quadratzoll
Zoll

Beziehung zwischen Standardabweichung und Normalverteilung
23
99,7% der Daten liegen innerhalb 3
Standardabweichungen vom Mittelwert
95% innerhalb
2 Standardabweichungen
68% innerhalb
1 Standard-
abweichung
© Dan Kernler

5.1.4 Kreuztabellen
24

Kreuztabellen
25
Kreuztabellen
Kreuztabellen fassen die gemeinsame Verteilung von zwei (oder mehr)
diskreten Variablen tabellarisch zusammen.
• Helfen den Zusammenhang einer Variablen (z.B. Markentreue) mit
einer anderen Variable (z.B. Geschlecht) zu analysieren und zu
verstehen.
• Eine Kreuztabelle enthält jeweils eine Zelle für jede Kombination von
zwei (oder mehr) Variablen.
Beispiele:
• Wie viele markentreue Konsumenten sind
Männer?
• Hängt die Nutzungshäufigkeit (hoch, mittel,
niedrig) eines Produkts mit Outdoor-Aktivitäten
(oft, manchmal, selten, nie) zusammen?
• Hängt die Vertrautheit mit dem neuen Produkt
mit Alter und Bildungsniveau zusammen?
• Hängt der Besitz eines Produkts mit dem
Einkommen (hoch, mittel, niedrig)zusammen?

Kreuztabellen
26
Bildungsgrad
Besitz eines teuren Autos Hochschulabschluss Kein Hochschulabschluss
ja 32 % 21 %
nein 68 % 79 %
Gesamt 100 % 100 %
Anzahl der Fälle 250 750
Hängt der Besitz von teuren Automarken vom Bildungsgrad ab?
Besitz von teuren Automarken nach Bildungsgrad

Kreuztabellen
27
Manchmal kann die Einführung einer dritten
Variable
scheinbare Beziehungen,
verdeckte Zusammenhänge,
keine Veränderung in ursprünglicher Beziehung
aufdecken.

Kreuztabellen
28
Hängt der Besitz von teuren Automarken vom Bildungsgrad ab?
Besitz von teuren Automarken nach Bildungsgrad und Einkommensniveau
Hohes Einkommen Geringes Einkommen
Besitz eines teuren Autos Hochschulabschluss Kein Hochschulabschluss Hochschulabschluss Kein Hochschulabschluss
ja 20 % 20 % 40 % 40 %
nein 80 % 80 % 60 % 60 %
Gesamt 100 % 100 % 100 % 100 %
Anzahl der Fälle 100 700 150 50
Ist die Beziehung noch da?

Kreuztabellen
29
Hat Alter Einfluss auf Reise- und Abenteuerlust?
Verlangen nach Auslandsreisen nach Alter
Verlangen nach
Auslandsreisen
Alter
Unter 45 45 und mehr
ja 50 % 50 %
nein 50 % 50 %
Gesamt 100 % 100 %
Verlangen nach
Auslandsreisen
Männlich Weiblich
< 45 ≥ 45 < 45 ≥ 45
ja 60 % 40 % 35 % 65 %
nein 40 % 60 % 65 % 35 %
Gesamt 100 % 100 % 100 % 100 %
Verlangen nach Auslandsreisen nach Alter und Geschlecht

Kreuztabellen
30
Hängt die Besuchshäufigkeit von Fast-Food-Restaurants mit der Familiengröße zusammen?
Besuchshäufigkeit von Fast-Food-Restaurants nach Familiengröße
Gehen häufig in Fast-Food-
Restaurants
Familiengröße
Small Large
ja 50 % 50 %
nein 50 % 50 %
Gesamt 100 % 100 %
Gehen häufig in Fast-Food-
Restaurants
Geringes Einkommen Hohes Einkommen
Small Large Small Large
ja 50 % 50 % 50 % 50 %
nein 50 % 50 % 50 % 50 %
Gesamt 100 % 100 % 100 % 100 %
Besuchshäufigkeit von Fast-Food-Restaurants nach Familiengröße und Einkommen

5.1.4 Kreuztabellen
5.2 Induktive Statistik: Kann man die Ergebnisse auf die Grundgesamtheit
übertragen?
31

5.1.4 Kreuztabellen
32

Hypothesentest
33
Hypothesentest
Hypothesentest ist ein fünfstufiges Verfahren, in dem basierend auf den
Daten einer Stichprobe und unter Einsatz von Wahrscheinlichkeitstheorie
es bestimmt wird, ob eine Hypothese hinreichend begründet ist.
M.a.W. ist dies eine Methode zu prüfen, ob die auf einer Zufallsstichprobe
erhaltenen Ergebnisse sich verallgemeinern bzw. auf die
Grundgesamtheit übertragen lassen.
Vorgehensweise:
1. Formulierung einer Nullhypothese und ihrer
Alternativhypothese
2. Festlegen vom Signifikanzniveau
3. Wahl der geeigneten Teststatistik
4. Formulierung der Entscheidungsregel
5. Berechnung von Kennzahlen aus der
Stichprobe, Treffen der Entscheidung
„Menschen sind sich irrtümlicherweise zuversichtlich in ihrem Wissen und
unterschätzen die Wahrscheinlichkeit, dass ihre Informationen und ihre
Überzeugungen sich als falsch erweisen können. Sie neigen dazu solche
zusätzliche Informationen zu suchen, die nur bestätigen, was sie schon
immer gewusst haben.“
Max Bazerman

Hypothesentest
34
Geschlecht
Internetnutzung Männlich Weiblich Gesamt (Zeile)
selten 5 10 15
häufig 10 5 15
Gesamt (Spalte) 15 15 n=30
Internetnutzung und Geschlecht
Ausgehend von dieser Stichprobe:
Nutzen Männer wirklich das Internet häufiger als Frauen in
der Bevölkerung?

Hypothesentest
35
Schritt 1: Formulierung einer Nullhypothese
und ihrer Alternativhypothese
Nullhypothese (𝑯 𝟎) ist eine Behauptung des Status-
Quo, dass es keinen Unterschied bzw. keinen Effekt
gibt.
Alternativhypothese (𝑯 𝟏) behauptet das Gegenteil –
dass es einen Unterschied bzw. einen Effekt gibt.
𝑯 𝟎: Es gibt keinen Unterschied zwischen Männern und Frauen
im Hinblick auf die Häufigkeit der Internetnutzung.
𝑯 𝟏: Männer und Frauen zeigen unterschiedliches
Internetnutzungsverhalten.
𝐼𝑁 𝑚 = 𝐼𝑁𝑓
𝐼𝑁 𝑚 ≠ 𝐼𝑁𝑓

Hypothesentest
36
Schritt 2: Festlegen vom Signifikanzniveau
Signifikanz (𝜶) – Wahrscheinlichkeit, dass eine
wahre Nullhypothese zurückgewiesen wird.
𝜷 – Wahrscheinlichkeit, dass eine falsche
Nullhypothese angenommen wird.
Nullhypothese (𝐻0)
ist wahr
ist falsch
Nullhypothese
zurückweisen
Fehler 1. Art
False positive
Richtige Entscheidung
True positive
Nullhypothese NICHT
zurückweisen
True negative
Fehler 2. Art
False negative
𝛽
(1 − 𝛽) – Power
𝛼 – Signifikanz

ist wahr
ist falsch
Nullhypothese
zurückweisen
Fehler 1. Art
False positive
True positive
Nullhypothese NICHT
zurückweisen
True negative
Fehler 2. Art
False negative
Hypothesentest
37
Freilassen eines Verbrechers
Verurteilung eines Unschuldigen
Analogie: Unschuld in einem Strafprozess
𝐻0: Der Angeklagte ist unschuldig

ist wahr
ist falsch
Nullhypothese
zurückweisen
Fehler 1. Art
False positive
True positive
Nullhypothese NICHT
zurückweisen
True negative
Fehler 2. Art
False negative
Hypothesentest
38
Sie bleiben unbesorgt neben dem
Gebüsch, der Löwe ist auf der Jagt
Es gibt keinen Löwen, aber Sie laufen weg
Analogie: Rascheln im Gebüsch – ist das ein Löwe?
𝐻0: Es gibt keinen Löwen im Gebüsch

Hypothesentest
39
Signifikanzniveaus in der Marktforschung
𝛼 – Signifikanzniveau (1 − 𝛼) – Vertrauenswahrscheinlichkeit
0,01 (1%)
0,05 (5%)
0,99 (99%)
0,95 (95%)

Hypothesentest
40
Schritt 3: Wahl der geeigneten Teststatistik
Stichprobe Anwendung auf Skalenniveaus Teststatistiken / Kommentare
Eine Stichprobe
Verteilungen Nicht-metrisch
Kolmogorow-Smirnow- und χ2
-Test auf Anpassungsgüte; Runs-Test auf Zufälligkeit;
Binomialtest auf Anpassungsgüte von dichotomen Variablen
Mittelwerte Metrisch
t-Test, wenn Varianz ist unbekannt
z-Test, wenn Varianz ist bekannt
Proportionen Metrisch z-Test
Zwei unabhängige
Stichproben
Kolmogorow-Smirnow-Test auf Übereinstimmung von Verteilungen für zwei
Stichproben
Zweistichproben t-Test
F-Test für Gleichheit von Varianzen
Proportionen
Metrisch, Nicht-
metrisch
z-Test
χ2
-Test
Rangplätze / Mediane Nicht-metrisch Mann-Whitney-U-Test ist sensibler als Median-Test
Gepaarte Stichproben
Mittelwerte Metrisch Paardifferenz-t-Test
Proportionen Nicht-metrisch
McNemar-Test für binäre Variablen,
χ2
-Test
Rangplätze / Mediane Nicht-metrisch Wilcoxon-Vorzeichen-Rang-Test ist sensibler als Vorzeichentest

Stichprobe Anwendung auf Skalenniveaus Teststatistiken / Kommentare
Eine Stichprobe
Kolmogorow-Smirnow- und χ2
-Test auf Anpassungsgüte; Runs-Test auf Zufälligkeit;
Binomialtest auf Anpassungsgüte von dichotomen Variablen
t-Test, wenn Varianz ist unbekannt
z-Test, wenn Varianz ist bekannt
Proportionen Metrisch z-Test
Zwei unabhängige
Stichproben
Kolmogorow-Smirnow-Test auf Übereinstimmung von Verteilungen für zwei
Stichproben
Zweistichproben t-Test
F-Test für Gleichheit von Varianzen
Proportionen
Metrisch, Nicht-
metrisch
z-Test
χ2
-Test
Rangplätze / Mediane Nicht-metrisch Mann-Whitney-U-Test ist sensibler als Median-Test
Gepaarte Stichproben
Mittelwerte Metrisch Paardifferenz-t-Test
Proportionen Nicht-metrisch
McNemar-Test für binäre Variablen,
χ2
-Test
Rangplätze / Mediane Nicht-metrisch Wilcoxon-Vorzeichen-Rang-Test ist sensibler als Vorzeichentest
Hypothesentest
41
!
In unserem Beispiel haben wir es mit der Verteilung von nicht-metrischen Variablen
(seltene oder häufige Internetnutzung; Männer oder Frauen) in einer Stichprobe zu tun.

Hypothesentest
42
χ2 (Chi-quadrat) Teststatistik auf Anpassungsgüte wird zum Test statistischer
Signifikanz von dem in Kreuztabellen beobachteten Zusammenhang verwendet.
𝐻0: Es gibt keinen Zusammenhang zwischen den Variablen
χ2 prüft dabei die Gleichheit von Häufigkeitsverteilungen.
Welche Verteilungen / Häufigkeiten müssen wir vergleichen?
𝑓 𝑒 – Häufigkeiten, die wir in den Zellen der Kreuztabelle erwarten würden,
wenn es keinen Zusammenhang zwischen den Variablen gäbe.
𝑓 𝑜 – Tatsächlich beobachteten Häufigkeiten.

Hypothesentest
43
𝑓𝑒 =
𝑛 𝑟 𝑛 𝑐
𝑛
𝑛 𝑟 – Gesamtsumme in einer Zeile
𝑛 𝑐 – Gesamtsumme in einer Spalte
𝑛 – Umfang der Stichprobe
𝑓𝑒1,1
=
15 ∙ 15
30
= 7,5 𝑓𝑒1,2
=
15 ∙ 15
30
= 7,5
𝑓𝑒2,1
=
15 ∙ 15
30
= 7,5 𝑓𝑒2,2
=
15 ∙ 15
30
= 7,5

Hypothesentest
44
In unserem Beispiel:
𝜒2 =
(5−7,5)2
7,5
+
(10−7,5)2
7,5
+
(10−7,5)2
7,5
+
(5−7,5)2
7,5
= 0,833 + 0,833 + 0,833 + 0,833 = 3,333
𝜒2
=
(𝑓𝑜 − 𝑓𝑒)2
𝑓𝑒Alle Zellen

Hypothesentest
45
Schritt 4: Formulierung der Entscheidungsregel
𝑻𝑺 𝒄𝒂𝒍 – beobachteter (berechneter) Wert der
Teststatistik.
𝑻𝑺 𝒄𝒓 – kritischer Wert der Teststatistik für
gewähltes Signifikanzniveau.
Wenn Wahrscheinlichkeit von 𝑻𝑺 𝒄𝒂𝒍 < Signifikanzniveau (𝜶), dann lehne 𝑯 𝟎 ab.
oder
Wenn 𝑻𝑺 𝒄𝒂𝒍 > 𝑻𝑺 𝒄𝒓 , dann weise 𝑯 𝟎 zurück.

Hypothesentest
46
Wenn Wahrscheinlichkeit von 𝑻𝑺 𝒄𝒂𝒍 < Signifikanzniveau
(𝜶), dann lehne 𝑯 𝟎 ab.
oder
Wenn 𝑻𝑺 𝒄𝒂𝒍 > 𝑻𝑺 𝒄𝒓 , dann weise 𝑯 𝟎 zurück.
𝑑𝑓
Tabelle der kritischen Werten von χ2 für verschiedene Signifikanzniveaus 𝛼
𝑑𝑓 – Freiheitsgrade
𝑟 – Anzahl von Zeilen
𝑐 – Anzahl von Spalten
𝑑𝑓 = 𝑟 − 1 𝑐 − 1
𝑑𝑓 = 2 − 1 2 − 1 = 1
𝜒 𝑐𝑎𝑙
2
= 3,333
𝜒 𝑐𝑟
2 = 3,841
3,333 < 3,841
𝜒 𝑐𝑎𝑙
2
< 𝜒 𝑐𝑟
2
𝐻0 kann NICHT zurückgewiesen werden
Schritt 4: Formulierung der Entscheidungsregel

Hypothesentest
47
Schritt 5: Treffen der Entscheidung Ist der Beweis da?
Was sind die Konsequenzen?
• 𝑯 𝟎, dass es keinen Zusammenhang gibt, kann nicht zurückgewiesen werden
• Zusammenhang ist statistisch nicht signifikant auf dem Signifikanzniveau von 0,05
• Die aus der Stichprobe beobachtete Ergebnisse können auf die Grundgesamtheit
nicht verallgemeinert werden

Ausgehend von dieser Stichprobe:
Nutzen Männer wirklich das Internet häufiger als Frauen in der
Bevölkerung?
Antwort: Die Stichprobe erbringt dafür keine Beweise.
Wenn die Stichprobe sorgfältig ausgewählt und gezogen wurde, dann
können wir behaupten, dass es mit 95%igen Vertrauenswahrscheinlichkeit
keinen solchen Zusammenhang gibt.
Ansonsten – wir wissen es nicht.
Internetnutzung und Geschlecht
Geschlecht
selten 5 10 15
häufig 10 5 15
Hypothesentest
48

5.1.4 Kreuztabellen
49

Prüfung der Stärke des Zusammenhangs
50
𝜒2 prüft nur die Signifikanz eines Zusammenhangs und trifft keine
Aussagen über seine Stärke.
Einfacher Nachweis: Verdoppelung aller Werte in der Kreuztabelle
führt zur Verdoppelung von 𝜒2.
Maßen für die Stärke des Zusammenhangs sind:
• Phi-Koeffizient (𝜑)
• Kontingenzkoeffizient (𝐶)
• Cramers 𝑉
• Lambda Koeffizient (𝜆)

Phi-Koeffizient
51
𝜑 =
𝜒2
𝑛
𝜑 =
3,333
30
= 0,333
Je höher 𝜑, desto stärker ist der Zusammenhang zwischen Variablen.
Werte > 0,30 werden als substantiell angesehen.
Probleme:
• 𝜑 ist nicht standardisiert und hat eine Obergrenze von 1 nur für
2x2-Tabellen; hängt von Tabellendimensionen ab.
• 𝜑-Werte aus verschiedenen Studien können nicht miteinander
verglichen werden.
Der Zusammenhang ist nicht besonders stark

Kontingenzkoeffizient
52
𝐶 =
𝜒2
𝜒2 + 𝑛
𝐶 =
3,333
3,333 + 30
= 0,316
Je höher 𝐶, desto stärker ist der Zusammenhang zwischen Variablen.
Obwohl 𝐶 -Werte die Obergrenze von 1 haben, sie können diese
Grenze faktisch nicht erreichen.
Probleme:
• 𝐶 ist nicht standardisiert und häng von Tabellendimensionen ab.
• 𝐶 -Werte aus verschiedenen Studien können nicht miteinander
verglichen werden.

Cramers V
53
𝑉 =
𝜒2
𝑛 ∙ (min(𝑟, 𝑐) − 1)
𝑉 =
3.333
30 ∙ (2 − 1)
= 0.333
Je höher 𝑉, desto stärker ist der Zusammenhang zwischen den Variablen.
𝑉 -Werte haben die Obergrenze von 1, können sie aber ebenfalls faktisch
nur bei 2x2-Tabellen erreichen.
Probleme:
• 𝑉 ist nicht standardisiert und hängt von Tabellendimensionen ab.
• 𝑉-Werte aus verschiedenen Studien können nicht miteinander
verglichen werden.
𝑟 – Anzahl von Zeilen
𝑐 – Anzahl von Spalten

Lambda Koeffizient
54
𝜆 =
10 + 10 − 15
30 − 15
= 0.333
Gibt Aufschluss darüber, in wieweit die Kenntnis der Ausprägung
einer Variable bei der Prognose der anderen Variable hilft.
Ist standardisiert zwischen 0 und 1
(1 – fehlerfreie Prognose, 0 – keine Verbesserung der Vorhersage).
𝜆-Werte aus verschiedenen Studien können miteinander verglichen
werden.
Kenntnis vom Geschlecht erhöht die Prognosegenauigkeit um den
Faktor 0,333, d.h. 33,3% Verbesserung.
𝑟 – Zeilenindex
𝑐 – Spaltenindex
l =
max
r
(nrc )- max
r
(nr )
c
å
n - max
r
(nr )

𝑟 – Zeilenindex
𝑐 – Spaltenindex
Lambda Koeffizient
55
𝜆 =
10 + 10 − 15
30 − 15
= 0,333
Kenntnis vom Geschlecht erhöht die Prognosegenauigkeit um den
Faktor 0,333, d.h. 33,3% Verbesserung.
l =
max
r
(nrc )- max
r
(nr )
c
å
n - max
r
(nr )
Geschlecht
selten 5 10 15
häufig 10 5 15
Summe von max. Häufigkeiten
aller Spalten
max. Gesamtwert einer Zeile
𝑟 = 1
𝑟 = 2
𝑐 = 1 c = 2

5.1.4 Kreuztabellen
56

Typen vom Zusammengang zweier Variablen
57
Linear Linear
Nicht-linear Kein Zusammenhang
Soweit die Daten nicht aus einem kontrollierten
Experiment stammen, können wir nur die Existenz
einer Beziehung zwischen den Variablen behaupten,
nicht jedoch die kausale Richtung dieser Beziehung.

Lineare Korrelation
58
Zwei Variablen korrelieren positiv, wenn höhere Werte einer
Variable höheren Werten der anderen Variable entsprechen.
Zwei Variablen korrelieren negativ, wenn höhere Werte einer
Variable niedrigeren Werten der anderen Variable entsprechen.
Positive Korrelation
Negative Korrelation

Linearer Korrelationskoeffizient
59
(Pearsons) Linearer Korrelationskoeffizient misst die Stärke
der linearen Beziehung zwischen zwei Variablen.
𝑟 =
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
(𝑥𝑖 − 𝑥)2 (𝑦𝑖 − 𝑦)2
Eigenschaften:
• Werte des linearen Korrelationskoeffizienten
liegen immer zwischen −1 und 1.
• Bei 𝑟 = +1 besteht ein vollständig positiver
linearer Zusammenhang zwischen den Variablen.
• Bei 𝑟 = −1 besteht ein vollständig negativer
linearer Zusammenhang zwischen den.
• Je näher ist 𝑟 zu +1, desto stärker der positive
Zusammenhang.
• Je näher ist 𝑟 zu −1, desto stärker der negative
Zusammenhang.
• Wenn 𝑟 ist nah an die 0, gibt es wenig oder gar
kein Nachweis für die Existent einer linearen
Beziehung zwischen zwei Variablen. Das bedeutet
aber nicht, dass es keine Beziehung zwischen den
Variablen gibt – eben nur keine lineare.

60
𝒓-Wert Interpretation
0 bis 0,3 Sehr schwach
0,3 bis 0,5 Schwach
0,5 bis 0,7 Mittel
0,7 bis 0,9 Hoch
0,9 bis 1 Sehr hoch
Stärke der Beziehung zwischen Variablen
86 98 12,5 13,5 168,75 156,25 182,25
62 70 -11,5 -14,5 166,75 132,25 210,25
52 56 -21,5 -28,5 612,75 462,25 812,25
90 110 16,5 25,5 420,75 272,25 650,25
66 76 -7,5 -8,5 63,75 56,25 72,25
80 96 6,5 11,5 74,75 42,25 132,25
78 86 4,5 1,5 6,75 20,25 2,25
74 84 0,5 -0,5 -0,25 0,25 0,25
Mittelwert 73,5 84,5
Summe 1514 1142 2062
𝑟 =
1514
1142 2062
≈ 0,987
𝑥 𝑦 (𝑥𝑖 − 𝑥) (𝑦𝑖 − 𝑦) (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) (𝑥𝑖 − 𝑥)2
(𝑦𝑖 − 𝑦)2
𝑥
𝑦
𝑟 =
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
(𝑥𝑖 − 𝑥)2 (𝑦𝑖 − 𝑦)2

Regressionsanalyse
61
Regressionsanalyse
Regressionsanalyse ist ein mächtiges und flexibles Instrument
zur Analyse von assoziativen Beziehungen zwischen einer
metrischen abhängigen Variabel und einer oder mehreren
unabhängigen Variablen.
Ermöglicht
• Existenz der Beziehung zu bestimmen
• Stärke der Beziehung zu quantifizieren
• Mathematisches Modell (Formel) der Beziehung abzuleiten
• Werte der abhängigen Variable vorherzusagen
• Bei der Analyse des Beitrags einer oder mehreren Variablen von
Interesse, den Einfluss anderer unabhängiger Variablen zu
berücksichtigen
Beispiele:
• Können Werbeausgaben die Absatzänderungen
erklären?
• Kann der Marktanteil auf die Größe der
Verkaufsabteilung zurückgeführt werden?
• Wird die Qualitätswahrnehmung von
Konsumenten von ihrer Wahrnehmung vom
Preis beeinflusst?

Regressionsanalyse
62
Werbe-
ausgaben,
€1.000
Absatz,
€1.000
40 377
60 507
70 555
110 779
150 869
160 818
190 862
200 817
y = 2.8239x + 352.07
R² = 0.8364
0
100
200
300
400
500
600
700
800
900
1000
0 50 100 150 200 250
Absatz,€1.000
Werbeausgaben, €1.000
Zusammenhang zwischen Absatz und Werbeausgaben
Wie viele Produkteinheiten werden wir absetzten, wenn wir €85.000 für die Werbung ausgeben?
Erhobene Daten
• Werbeausgaben erklären 83,6% der Varianz vom Absazu.
• Jeder zusätzliche in die Werbung investierte Euro bringt €2,82 vom
zusätzlichen Absatz.
• €85.000 Werbeausgaben resultieren in
2,824 ∙ 85.000 + 325,07 = 240.383,57 Absatz.

Paul Marx | Grundlagen der Umfrageforschung 63
Referenzen:
Backhaus, Klaus, Bernd Erichson, Wulff Plinke, Rolf Weiber (2015), „Multivariate Analysemethoden: Eine
anwendungsorientierte Einführung“, Springer Gabler, 14. Auflage.
Malhotra, Naresh K. (2009), „Marketing Research: An Applied Orientation“, Prentice Hall, 6th edition.
Myers, James H. (1996), „Segmentation & Positioning for Strategic Marketing Decisions“, South Western Educ Pub .
Sulivan III, Michael (2010), „Statistics: Informed Decisions Using Data“, Pearson, 3rd edition.
Course “Statistics I” of Elgin Community College.
Haftungsausschluss: Diese Präsentation enthält das Bildmaterial, welches nur für die Verbreitung innerhalb dieser Präsentation und ihrer Teile in unveränderter Form lizensiert ist. Die Autoren von
abgeleiteten Werken sind angehalten, die für die Verbreitung ihrer Werke notwendige Lizenzen selbst zu beschaffen. Der Autor sowie die mit ihm affilierten Personen und/oder Organisationen können für die
Verletzung jeglicher Lizenzbedingungen in keiner Form verantwortlich gemacht werden, sofern diese Verletzungen nicht durch ihr aktives Tun verursacht worden sind – also insbesondere nicht in Fällen der
durch sie unkontrollierten Verbreitung dieser Präsentation, ihrer Teile und/oder von dieser Präsentation abgeleiteter Werke. Markennamen und geschützte Warenzeichen sind Eigentum ihrer jeweiligen
Inhaber. Die Nennung von Markennamen und geschützter Warenzeichen hat lediglich beschreibenden Charakter. Irrtümer vorbehalten.
Diese Präsentation unterliegt der CreativeCommons-Attribution-NonCommercial-ShareAlike-Lizenz1, soweit Anderes
nicht explizit angegeben ist. Jede Nutzung oder Verbreitung dieser Präsentation, ihrer Teile und/oder abgeleiteter
Werke erfordert einen Verweis auf diese Präsentation und explizite Nennung von Paul Marx und questionStar™.
©2016 Paul Marx, questionStar™. All rights reserved.
1https://creativecommons.org/licenses/by-nc-sa/3.0/deed.de. Die Lizenz gilt nicht für das Bildmaterial.

Grundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse

Recommended

Recommended

More Related Content

More from Paul Marx

More from Paul Marx (20)

Grundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse

Editor's Notes