Your SlideShare is downloading. ×
0
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Multiple Regression

14,176

Published on

Foliensatz meiner Statistik-Vorlesung aus dem Sommersemester 2006 an der HS Harz

Foliensatz meiner Statistik-Vorlesung aus dem Sommersemester 2006 an der HS Harz

Published in: Education
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
14,176
On Slideshare
0
From Embeds
0
Number of Embeds
9
Actions
Shares
0
Downloads
188
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Vertiefungsrichtung Marktforschung Sommersemester 2006 Dipl.-WiInf.(FH) Christian Reinboth Multiple Regression Erkennen Darstellen Beschreiben Testen Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 2. Multiple Regression Vielseitiges, strukturprüfendes und am häufigsten eingesetztes multivariates Analyseverfahren ● Ziel: Analyse von Beziehungen zwischen einer abhängigen Variablen und einer (univariater Fall) ● oder mehreren (multivariater Fall) unabhängigen Variablen Anwendung: Beschreibung und Erklärung von Zusammenhängen und Durchführung von Prognosen ● Beispiel: Hängt die Absatzmenge eines bestimmten Produktes von den Ausgaben für die Qualitätssicherung, ● den Ausgaben für die Werbung oder bzw. und der Anzahl der Verkaufsstellen ab? Wenn ja, wie stark fallen die jeweiligen Zusammenhänge aus? Wie wird sich die Absatzmenge entwickeln, ● wenn bestimmte Ausgaben erhöht oder gesenkt werden? Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 3. Inhalte: Multiple Regression Die Multiple Regression Prüfung der Modellprämissen ● ● Exkurs: Korrelation und Kausalität Tests an den Residualgrößen ● ● Formulierung des Regressionsmodells Test auf Normalverteilung ● ● Analysevoraussetzungen Histogramm & P-P-Diagramm ● ● Transformation nichtlinearer Variablen Kolmogoroff-Smirnov-Anpassungstest ● ● Berechnung des Regressionsmodells Test auf Homoskedastizität ● ● Schätzung der Regressionsfunktion Streudiagramm & Box-Plot ● ● Auswahl einer Geraden Levene-Test auf Homoskedastizität ● ● Methode der kleinsten Quadrate Test auf Autokorrelation ● ● Aufstellung der Regressionsgleichung Test an den Variablen ● ● Regressions- und Beta-Koeffizienten Test auf Multikollinearität ● ● Messung der Anpassungsgüte Korrelationsmatrix ● ● R² und korrigiertes R² Toleranz & Varianzinflationsfaktor ● ● Standardfehler der Schätzung Zerlegung der Varianzanteile ● ● F-Statistik Test auf linearen Zusammenhang ● ● Prüfung der Regressionskoeffizienten ● t-Test der Regressionskoeffizienten ● Konfidenzintervalle um die Koeffizienten ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 4. Die Multiple Regression Die Regressionsanalyse ist das flexibelste und am häufigsten eingesetzte multivariate Analyseverfahren ● Untersucht wird die Beziehung zwischen einer abhängigen und einer oder mehrerer unabhängigen Variablen ● Sie wird verwendet um: ● Zusammenhänge quantitativ darzustellen und zu erklären (Ursachenanalyse) ● Werte der abhängigen Variablen zu prognostizieren (Wirkungsprognose) ● Beispiel: Wie verändert sich die Absatzmenge (abhängige Variable) bei Veränderungen am Produktpreis, den ● Werbeausgaben oder der Anzahl der öffentlichen Verkaufsveranstaltungen (unabhängige Variablen)? Ergebnis des Verfahrens ist die Regressionsfunktion: ● Y = f(X) > einfache Regression (eine abhängige und eine unabhängige Variable) ● Y = f(X1, X2, X3...Xn) > multiple Regression (eine abhängige und mehrere unabhängige Variablen) ● Problemfall interdependente Beziehungen: ● Beeinflusst der Bekanntheitsgrad die Absatzmenge oder beeinflusst die Absatzmenge den Bekanntheitsgrad? ● Dieses System ist nicht in einer einzelnen Gleichung erfassbar, sondern nur im Mehrgleichungsmodell ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 5. Exkurs: Korrelation und Kausalität Drei Formen der Korrelation: 1 2 3 Variable A Variable A Variable A Gemeinsame Hintergrund- variable C Variable B Variable B Variable B Variable A beeinflusst Variable B Variable B beeinflusst Variable A Beeinflussung beider Variablen durch C Durch die Regressionsanalyse lassen sich keine Kausalitäten nachweisen! Korrelation ist eine notwendige aber keine hinreichende Bedingung für Kausalität! Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 6. Ablauf der Multiplen Regressionanalyse Zunächst werden die abhängige sowie die unabhängigen Variablen Schritt 1 bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen Formulierung des Modells müssen. Außerdem sind die Grundvorraussetzungen bezüglich des Prüfung der Grundvoraussetzungen Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen. Im zweiten Schritt werden die Regressionskoeffizienten anhand der Schritt 2 Methode der kleinsten Quadrate berechnet und anschließend die Schätzung der Regressionsfunktion Regressionsfunktion aufgestellt. Aufstellung der Regressionsfunktion Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen Schritt 3 ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut Prüfung der Regressionsfunktion und erklären kann und (b) welchen Beitrag die einzelnen unabhängigen Prüfung der Regressionskoeffizienten Variablen zur Erklärung von Y leisten. Schritt 4 Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen eingehalten wurden, d.h. ob keine Autokorrelation der Residuen Prüfung der Modellvoraussetzungen vorliegt und sich diese näherungsweise normal verteilen etc. Ist Interpretation der Ergebnisse das gefundene Modell valide, kann es inhaltlich interpretiert werden. Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 7. Formulierung des Modells Die Regressionsanalyse ist ein struktur- ● prüfendes Verfahren und dient nicht der Entdeckung unbekannter Zusammenhänge Das zu untersuchende Regressionsmodell ● muss vor Beginn der Analyse auf Basis von Sachinformationen gebildet werden Das Modell sollte so konstruiert werden, ● dass eine möglichst vollständige Abbildung der Ursache-Wirkungs- Beziehungen vermutet werden kann Zur Hilfe beim Auffinden der für das ● Modell geeigneten Variablen eignen sich Streudiagramme (univariate Fälle) und Matrixdiagramme (multivariate Fälle) Ein linearer Zusammenhang zwischen ● zwei Variablen ist immer dann zu vermuten, wenn die Punkte im Diagramm eng um eine gedachte Gerade streuen Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 8. Analysevoraussetzungen Grundvoraussetzungen: ● Das Kausalgeflecht (abhängige und unabhängige Variable(n)) muss bekannt sein oder vermutet werden ● Der Zusammenhang zwischen abhängiger und unabhängigen Variablen muss linear sein ● Ein quadratischer, logarithmischer, monotoner oder anders gerarteter Zusammenhang wird nicht aufgedeckt ● Alle verwendeten Variablen müssen metrisch skaliert sein (Verfahren arbeitet mit dem Standardmittelwert) ● Für die unabhängigen Variablen lassen sich auch nominalskalierte Dummy-Variablen einsetzen ● Die Grundvoraussetzungen sind stets vor Beginn der Regressionsanalyse zu überprüfen! Weitere Modellvoraussetzungen: ● Die unabhängigen Variablen dürfen nicht untereinander korrelieren (Multikollinearität) ● Die standardisierten Residuen (durch das Modell nicht erklärte Abweichungen) müssen: ● näherungsweise normalverteilt sein ● die gleiche Varianz besitzen (Homoskedastizität) ● und dürfen nicht untereinander korrelieren (Autokorrelation) ● Die übrigen Modellvoraussetzungen sind stets im Anschluss an die Regressionsanalyse zu überprüfen! Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 9. Transformation nichtlinearer Variablen Das lineare Regressionsmodell dient nicht der Bestimmung der optimalen Kurvenanpassung in allen Fällen ● Es setzt einen linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen voraus ● Liegen nichtlineare Zusammenhänge vor, ist die Transformation einzelner Variablen möglich ● Beispiel: Bei Wachstumsprozessen kommt es häufig vor, dass sich die unabhängige Variable ● linear, die abhängige Variable aber exponentiell verändert (z.b. bei der Schadstoffkonzentration) Bei einer solchen zeitgebundenen exponentiellen Entwicklung, lässt sich der Zusammenhang ● zwischen der Schadstoffkonzentration (abhängige Variable) und der Zeit (unabhängige Variable) darstellen als: Dieser Zusammenhang ist nichtlinear und damit für die Regressionsanalyse ungeeignet ● Wird die Gleichung logarithmiert ergibt sich dagegen folgendes Bild: ● Dieser Zusammenhang ist linear und lässt eine Regressionsanalyse zu ● Als abhängige Variable sind die logarithmierten Werte von Y zu verwenden ● Y =a∗e b∗t  ln Y =ln  ab∗t > Transformation (ln) > Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 10. Ablauf der Multiplen Regressionanalyse Zunächst werden die abhängige sowie die unabhängigen Variablen Schritt 1 bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen Formulierung des Modells müssen. Außerdem sind die Grundvorraussetzungen bezüglich des Prüfung der Grundvoraussetzungen Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen. Im zweiten Schritt werden die Regressionskoeffizienten anhand der Schritt 2 Methode der kleinsten Quadrate berechnet und anschließend die Schätzung der Regressionsfunktion Regressionsfunktion aufgestellt. Aufstellung der Regressionsfunktion Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen Schritt 3 ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut Prüfung der Regressionsfunktion und erklären kann und (b) welchen Beitrag die einzelnen unabhängigen Prüfung der Regressionskoeffizienten Variablen zur Erklärung von Y leisten. Schritt 4 Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen eingehalten wurden, d.h. ob keine Autokorrelation der Residuen Prüfung der Modellvoraussetzungen vorliegt und sich diese näherungsweise normal verteilen etc. Ist Interpretation der Ergebnisse das gefundene Modell valide, kann es inhaltlich interpretiert werden. Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 11. Schätzung der Regressionsfunktion Grundprinzip am Beispiel einer einfachen linearen Regression: ● Der Zusammenhang zwischen den beiden Variablen im Streudiagramm ist nicht perfekt ● Beide Variablen bewegen sich jedoch tendenziell in die gleiche Richtung, ein linearer Trend ist erkennbar ● Es kommen theoretisch mehrere Geraden in Frage um den Verlauf der Punkte nachzuzeichnen ● Entscheidende Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten? ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 12. Auswahl einer Geraden Welche der möglichen Geraden liefert die „besten“ Schätzwerte? ● Ermittlung der senkrechten Abstände zwischen geschätzten und beobachteten „wahren“ Punkten ● Da die Punkte auf beiden Seiten der Geraden liegen, ergeben sich positive wie negative Abstände ● Auswahl derjenigen Geraden, bei der sich positive und negative Abstände gegenseitig aufheben ● Bei dieser Geraden beträgt der durchschnittliche Schätzfehler Null, die Punkte sind gleichmäßig verteilt ● Welches Problem ergibt sich bei diesem Auswahlverfahren? ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 13. Auswahl einer Geraden Beispielrechnung: ● Der senkrechte Abstand des Punktes i zur Geraden Y =ab∗X berechnet sich als: e i=Y i−ab∗X i ● Für eine Untersuchung mit 100 Fällen kann i die Werte 1 bis 100 annehmen ● ∑ e i =∑ Y i−ab∗X i=∑ Y i −100∗a−b∗∑ X i Die Summe aller Abstände berechnet sich daher als: ● Sollen die Summen der Abstände Null sein gilt: ∑ Y i−100∗a−b∗∑ X i=0 ● Dividiert durch die Zahl der Beobachtungen:  ∑ Y i −a−b∗ ∑ X i  Y −a−b∗ X =0 ●   100 100   Diese Rechnung führt zu dem Schluss, dass die Summe der Abstände stets Null beträgt, wenn: Y =ab∗ X ● Diese Bedingung trifft aber auf alle Geraden zu, die ● durch den Punkt aus den beiden Mittelwerten laufen, wobei ● die Steigung der Geraden vollkommen irrelevant wäre ● Diese Vorgehensweise ist daher zur Ermittlung der optimalen Regressionsgerade ungeeignet ● Besser geeignet ist die sogenannte „Methode der kleinsten Quadrate“ (Statistik I) ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 14. Methode der kleinsten Quadrate Minimierung der Summe der Abweichungsquadrate = Methode der kleinsten Quadrate ● Auch die Methode der kleinsten Quadrate arbeitet mit den senkrechten Abständen der realen Werte von der Gerade ● Die Abstände werden jedoch quadriert, so dass sämtliche negativen Vorzeichen wegfallen ● Eine Kompensation der positiven und negativen Abstände wird dadurch vermieden ● Es wird diejenige Gerade selektiert, bei der die Summe der quadrierten Abstände minimal ist ● K k Durch Umformung der Zielfunktion ∑ e k =∑ [ y k −ab∗x k ]  min ! erhält man die Parameter der Regressionsfunktion: 2 2 ● k =1 k=1 I  ∑ x I ∗yk −∑ x I ∗∑ yI  Regressionskoeffizient: b= ● 2  I ∑ xk −∑ x k  2 Konstantes Glied/Konstante: a=  −b∗ y x ● Die Gleichung der Regressionsgeraden im Einfaktoren-Fall lautet: Y =a∗b X ● Die Gleichung der Regressionsgeraden im Mehrfaktoren-Fall lautet dagegen: Y =b0 b1∗X 1b 2∗X 2b j∗X j b J ∗X J ● Die Berechnung der Regressionsparameter erfolgt analog zur Berechnung im Einfaktoren-Fall ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 15. Aufstellung der Regressionsgleichung Einfaktoren-Fall: ● Y =1928,211,91∗X Gehalt mit 40 in Abhängigkeit vom ● Anfangsgehalt bei Berufseinstieg Jeder Euro Mehrverdienst bei Berufseinstieg ● führt zu zwei Euro mehr Gehalt mit 40? Mehrfaktoren-Fall: ● Y =1928,211,91∗X 11020,40∗X 2 Gehalt mit 40 in Abhängigkeit vom ● Anfangsgehalt bei Berufseinstieg und der Ausbildungsdauer (in Jahren) Jedes zusätzliche Ausbildungsjahr führt ● zu über 1000 Euro mehr Gehalt mit 40? Wie lässt sich dies vermutlich erklären? ● Was zeigen die standardisierten Koeffizienten? ● Vorsicht: Mit SPSS lässt sich IMMER eine Regressionsfunktion berechnen! Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 16. Regressions- und Beta-Koeffizienten Häufig ist es interessant festzustellen, welchen Einfluß die einzelnen unabhängigen Variablen auf Y ausüben ● Welche der Variablen liefert den höchsten, welche den niedrigsten Erklärungsbeitrag für Y? ● Zur Beantwortung dieser Frage ist ein einfacher Vergleich der Koeffizienten nicht ausreichend ● Grund: Die erklärenden Variablen können unterschiedliche Dimensionen aufweisen ● Wenn dies der Fall ist, werden auch die Koeffizienten in unterschiedlichen Dimensionen geschätzt ● Eine Änderung der Dimension (z.B. Prozent- statt Absolutwerte) hat unmittelbaren Einfluss auf den Koeffizienten ● Eine solche Änderung hat jedoch keinen Einfluß auf den Erklärungsgehalt der Variablen ● Darum dürfen die Koeffizienten bezüglich des Erklärungsgehalts nicht direkt miteinander verglichen werden ● Die Lösung besteht in der Berechnung der standardisierten Beta-Koeffizienten ● Diese ergeben sich durch die Z-Transformation aller Variablen vor Beginn der Regressionsanalyse ● sxi Alternativ lassen sie sich auch direkt aus den Koeffizienten berechnen: beta i =bi∗ s  ● y betai = Beta-Koeffizient der unabhängigen Variablen i b1 = Regressionskoeffizient der unabhängigen Variablen i sxi = Standardabweichung der unabhängigen Variablen i sy = Standardabweichung der abhängigen Variablen Y Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 17. Ablauf der Multiplen Regressionanalyse Zunächst werden die abhängige sowie die unabhängigen Variablen Schritt 1 bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen Formulierung des Modells müssen. Außerdem sind die Grundvorraussetzungen bezüglich des Prüfung der Grundvoraussetzungen Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen. Im zweiten Schritt werden die Regressionskoeffizienten anhand der Schritt 2 Methode der kleinsten Quadrate berechnet und anschließend die Schätzung der Regressionsfunktion Regressionsfunktion aufgestellt. Aufstellung der Regressionsfunktion Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen Schritt 3 ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut Prüfung der Regressionsfunktion und erklären kann und (b) welchen Beitrag die einzelnen unabhängigen Prüfung der Regressionskoeffizienten Variablen zur Erklärung von Y leisten. Schritt 4 Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen eingehalten wurden, d.h. ob keine Autokorrelation der Residuen Prüfung der Modellvoraussetzungen vorliegt und sich diese näherungsweise normal verteilen etc. Ist Interpretation der Ergebnisse das gefundene Modell valide, kann es inhaltlich interpretiert werden. Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 18. Messung der Anpassungsgüte Da sich mit SPSS immer eine Regressionsfunktion berechnen lässt, stellt sich die Frage nach deren Güte ● Wie gut wird die abhängige Variable Y durch das gefundene Regressionsmodell erklärt? ● Zur Feststellung der Anpassungsgüte existieren drei Kennwerte: ● Bestimmtheitsmaß R² und korrigiertes R² (bei multivariaten Verfahren) ● Standardfehler der Schätzung ● F-Statistik ● Wie aussagekräftig ist das Regressionsmodell insgesamt? Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 19. R² und korrigiertes R² Y Xi/Yi Yi {} Regressionsgerade Nicht erklärte Residuum Abweichung ei Gesamte Abweichung Y* Erklärte { Abweichung _ Y X _ Xi X Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 20. R² und korrigiertes R² Die Regressionsgerade gibt Zusammenhänge, die nicht perfekt linear sind, nicht perfekt wieder ● Es ist daher mit der Regressionsfunktion nur selten möglich, alle Veränderungen in Y durch die Koeffizienten zu erklären ● In der Regel wird ein Teil der Veränderungen erklärt werden können, ein anderer Teil wird unaufgeklärt bleiben ● Das Verhältnis von erklärter Streuung zur Gesamtstreuung ist ein gutes Maß für die Güte des Regressionsmodells ● Residuen werden quadriert, damit sich positive und negative Abweichungen nicht aufheben ● Berechnung des Güßtemaßes R² mit: ● TSS = Total Sum of Squares = Summe aller quadrierten Abweichungen ● ESS = Explained Sum of Squares = Summe aller erklärten quadrierten Abweichungen ● RSS = Residual Sum of Squares = Summe aller nicht erklärten quadrierten Abweichungen ● ESS 2 Die Relation zwischen erklärter Streuung und Gesamtstreuung wird mit R² bezeichnet: R = ● TSS Der Wert von R² gibt den Anteil der erklärten Streuung an der Gesamtstreuung wieder > Güte der Anpassung ● R² ist als prozentualer Wert zu verstehen und liegt daher stets zwischen 0 und 1 ● R² = 1 > Gesamte Streuung wird erklärt, es besteht ein perfekter linearer Zusammenhang ● Je kleiner R² ausfällt, desto mehr weicht der vorliegende Fall vom linearen Zusammenhang ab ● Beachte: R² ist lediglich ein Maß für den linearen Zusammenhang, nicht für andere Zusammenhänge ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 21. R² und korrigiertes R² Zusätzlich zu R² wird von SPSS für multivariate Regressionsanalysen noch das korrigierte R² berechnet ● Warum ist ein zusätzliches Gütemaß neben R² erforderlich? ● Die Aufnahme zusätzlicher erklärender Variablen führt nie zu einer Verschlechterung von R² ● Besteht gar kein Zusammenhang mit Y bleibt R² unverändert ● Besteht ein minimaler Zusammenhang mit Y steigt R² dagegen leicht an ● Ergebnis: wahllos viele Variablen werden ins Regressionsmodell aufgenommen ● Dadurch ergibt sich ein hohes R² und ein vermeintlich gutes Regressionsmodell ● Aber: die prognostizierten Werte werden mit steigender Variablenzahl unzuverlässiger ● Daher: keine Variablen zur Minimalsteigerung von R² ins Regressionsmodell aufnehmen ● Rechtfertigt der Erklärungsanteil einer Variablen die Zunahme an Unsicherheit? > korrigiertes R² ● ESS 2 Herleitung der Berechnungsvorschrift erfolgt aus R²: R = TSS ● TSS− RSS  TSS RSS RSS Da sich TSS aus ESS und RSS zusammensetzt, lässt sich R² auch berechnen als: R2= = − =1− ● TSS TSS TSS TSS  RSS / n−k  2 Das korrigierte R² berechnet sich dann als: Rkorr =1− TSS /n−1 ● Wird eine erklärende Variable hinzugefügt, ergeben sich zwei gegenläufige Effekte: ● RSS verringert sich, wodurch sich das korrigierte R² erhöht ● Der Wert für k erhöht sich, wodurch sich das korrigierte R² verringert ● Je nachdem, welcher Effekt überwiegt, sollte die erklärende Variable ins Modell aufgenommen werden oder nicht ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 22. Standardfehler der Schätzung Residuen können sowohl positiv als auch negativ ausfallen, liegen im Durchschnitt der Beobachtungen aber bei Null ● Dies impliziert, dass die prognostizierten Werte falsch sein können, im Durchschnitt aber korrekt ausfallen ● Es stellt sich die Frage, ob die prognostizierten Werte in der Nähe der wahren Werte liegen oder stark abweichen ● Theoretisch denkbar sind gewaltige Abweichungen in beide Richtungen, die sich im Durchschnitt neutralisieren ● Um den positiv-negativ-Effekt zu neutralisieren, werden die Residuen zunächst quadriert ● Die Summe der quadrierten Residuen wird anschließend durch die Anzahl der Beobachtungswerte geteilt ● ∑ e 2i Dadurch wird die sich ergebende Kennzahl von der Stichprobengröße unabhängig (Vergleichbarkeit): ● n ∑ e 2i = ∑ e 2i −  (Varianz der Residuen) e Da der Mittelwert der Residuen gleich Null ist, gilt ebenfalls: ● n n Aus methodischen Gründen wird oft nicht durch n sondern durch n abzüglich der erklärenden Variablen dividiert ● ∑ e 2i Es ergibt sich folgender Term: (Beachte: auch die Konstante gehört zu den erklärenden Variablen) ●  n−k  ∑ e 2i  Die Quadratwurzel dieses Terms ergibt die Standardabweichung der Residuen (=Standardfehler der Schätzung):  ● n−k  Der Standardfehler der Schätzung ist ein Maß für die Anpassungsgüte der Regressionsgleichung ● Er ist vergleichbar mit R² und korrigiertem R² und inhaltlich ähnlich zu interpretieren ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 23. F-Statistik R² und korrigiertes R² zeigen die Anpassung der Regressionsgeraden an die beobachteten Werte ● Es stellt sich die Frage, ob das Regressionsmodell auch über die Stichprobenwerte hinaus Gültigkeit besitzt ● Ein geeignetes Prüfkriterium bildet die F-Statistik, in welche eingehen: ● die Streuungszerlegung ● der Umfang der Stichprobe ● Die Regressionsfunktion der Stichprobe lässt sich darstellen als: Y =b0 b1∗X 1b 2∗X 2b j∗X j b J ∗X J ● Sie ist die Realisation der „wahren“ Regressionsfunktion: Y =01∗X 12∗X 2 j∗X j J ∗X J u ● Die neue Variable u wird als Störgröße bezeichnet ● Sie repräsentiert alle zufälligen Einflüsse außerhalb der betrachteten Variablen ● Die Störgröße selbst kann nicht beobachtet werden, zeigt sich aber in den Residuen ● Durch den Einfluss von u wird Y zu einer Zufallsvariablen, ebenso wie die Schätzwerte der Regressionsparameter ● Würde man die Stichprobe wiederholen würden sich andere Regressionsparameter ergeben ● Bei wiederholten Stichproben würden diese Parameter um die „wahren“ Parameter schwanken ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 24. F-Statistik Annahme der Regressionsanalyse: kausaler Zusammenhang zwischen abhängiger und unabhängigen Variablen ● Besteht ein solche Zusammenhang tatsächlich, können die „wahren“ Regressionsparameter unmöglich Null sein ● Zur Überprüfung dieser Annahme wird das Regressionsmodell mit Hilfe eines F-Tests varianzanalytisch untersucht ● Die Nullhypothese H0 dieses Tests lautet: H 0 : 1=2== J =0 ● Es besteht kein wirklicher Zusammenhang zwischen abhängigen und unabhängigen Variablen ● Alle „wahren“ Regressionskoeffizienten in der Grundgesamtheit sind daher gleich Null ● Vorgehensweise des F-Tests: ● Berechnung eines empirischen Werts aus der F-Statistik ● 2 Ausdruck der F-Verteilung m Vergleich dieses Werts mit einem kritischen Wert m ● F-verteilte Größe mit m und n 2 n Bei Gültigkeit von H0 ist ein F-Wert von Eins zu erwarten F  m ,n = ● Freiheitsgraden n Abweichungen von Null machen H0 unwahrscheinlich ● Bei deutlichen Abweichungen kann H0 verworfen werden ● Schlußfolgerung: Zusammenhang in der Grundgesamtheit ● Vorsicht: Es kann nichts darüber gesagt werden, zwischen ● welchen Variablen Zusammenhänge bestehen, nur dass nicht alle wahren Parameter bei Null liegen (!) Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 25. Dichtefunktionen der F-Verteilung Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 26. Prüfung der Regressionskoeffizienten Wenn die Validität des Modells feststeht, stellt sich die Frage nach der Validität der einzelnen Koeffizienten ● Gehören alle im Regressionsmodell untergebrachten Variablen auch in dieses Modell? ● Zur Feststellung der Güte der Koeffizienten existieren zwei Kriterien: ● t-Test der Regressionskoeffizienten ● Konfidenzintervalle um die Regressionskoeffizienten ● Wie aussagekräftig sind die einzelnen Regressionskoeffizienten? Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 27. t-Test der Regressionskoeffizienten Wird die Nullhypothese im F-Test verworfen, bedeutet dies dass es mindestens einen Zusammenhang geben muss ● Es bedeutet hingegen nicht, dass alle unabhängigen Variablen ins Regressionsmodell gehören ● Es erscheint daher logisch, einen identischen Test für jeden einzelen Regressionskoeffizienten durchzuführen ● Ein geeignetes Prüfkriterium für diesen Test ist die t-Statistik ● b j− j  Der T-Wert einer unabhängigen Variable wird berechnet, indem deren ● t emp= s bj Regressionskoeffizient durch dessen Standardfehler dividiert wird: Nullhypothese H0: die t-Statistik folgt der bekannten t-Verteilung (Student-Verteilung) um den Mittelwert Null ● Bei Gültigkeit der Nullhypothese ist für die t-Statistik ein Wert von Null zu erwarten ● Weicht der empirische t-Wert stark von Null ab, so ist es unwahrscheinlich, dass H0 korrekt ist ● In diesem Fall ist diese zu verwerfen ● Daraus ist zu folgern, dass der „wahre“ Regressionskoeffizient ungleich Null sein muss ● Dies wiederum bedeutet, dass in der Grundgesamtheit ein Zusammenhang zwischen Y und der X-Variablen besteht ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 28. Konfidenzintervalle um die Koeffizienten Mit einem Konfidenzintervall (Vertrauensbereich) lässt sich die ● Lage eines Parameters mit einer bestimmten Wahrscheinlichkeit abschätzen Ist das Konfidenzintervall um einen Regressionskoeffizienten zu breit, ● muss die geschätzte Regressionsgerade als unsicher betrachtet werden Dies gilt insbesondere dann, wenn innerhalb des Konfidenzintervalls ● ein Vorzeichenwechsel vorliegt, sich der Einfluss also umkehren kann b j −t∗s bj  ß jb j t∗sbj ßj = wahrer Regressionskoeffizient (unbekannt) bj = geschätzter Regressionskoeffizient t = t-Wert aus der Student-Verteilung sbj = Standardfehler des Regressionskoeffizienten Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 29. Ablauf der Multiplen Regressionanalyse Zunächst werden die abhängige sowie die unabhängigen Variablen Schritt 1 bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen Formulierung des Modells müssen. Außerdem sind die Grundvorraussetzungen bezüglich des Prüfung der Grundvoraussetzungen Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen. Im zweiten Schritt werden die Regressionskoeffizienten anhand der Schritt 2 Methode der kleinsten Quadrate berechnet und anschließend die Schätzung der Regressionsfunktion Regressionsfunktion aufgestellt. Aufstellung der Regressionsfunktion Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen Schritt 3 ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut Prüfung der Regressionsfunktion und erklären kann und (b) welchen Beitrag die einzelnen unabhängigen Prüfung der Regressionskoeffizienten Variablen zur Erklärung von Y leisten. Schritt 4 Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen eingehalten wurden, d.h. ob keine Autokorrelation der Residuen Prüfung der Modellvoraussetzungen vorliegt und sich diese näherungsweise normal verteilen etc. Ist Interpretation der Ergebnisse das gefundene Modell valide, kann es inhaltlich interpretiert werden. Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 30. Übersicht der Modellprämissen J y k = ß 0∑  ß j∗x jk u k A1. mit k = 1, 2, ..., K und K > J+1 j =1 Das Modell ist richtig spezifiziert, d.h. Alle entscheidenden unabhängigen Variablen sind im Modell erfasst ● Es besteht ein linearer Zusammenhang zwischen abhängigen und unabhängigen Variablen ● Die Zahl der zu schätzenden Parameter (J+1) ist kleiner als die Zahl der Beobachtungen (K) ● Erw u k =0 A2. Die Störgrößen haben den Erwartungswert Null Diese Annahme wird verletzt, wenn Y mit einem konstanten Fehler gemessen wird ● Dies wird durch die Methode der kleinsten Quadrate erzwungen ● Der dadurch entstehende Fehler geht in das konstante Glied der Regressionsgleichung ein ● A3. Unabhängige Variablen und Residuen korrelieren nicht Cov u k , x jk =0 2 Var u k = A4. Die Residuen haben eine konstante Varianz (Homoskedastizität) Cov u k ,u kr =0 A5. Die Residuen sind unkorreliert (keine Autokorrelation) A6. Zwischen den unabhängigen Variablen besteht kein linearer Zusammenhang (keine Multikollinearität) A7. Die Residuen uk sind normalverteilt Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 31. Tests zur Prüfung der Modellprämissen Tests an den Residualgrößen ● Test auf Normalverteilung der Residualgrößen (Histogramm, P-P-Diagramm, Kolmogoroff-Smirnov) ● Test auf Varianzgleichheit/Homoskedastizität der Residualgrößen (Streudiagramm, Box-Plot, Levene-Test) ● Test auf Autokorrelation der Residualgrößen (Durbin-Watson-Test) ● Tests an den abhängigen und unabhängigen Variablen ● Test auf Multikollinearität der unabhängigen Variablen (Korrelationsmatrix, Toleranz & VIF, Varianzanteile) ● Test auf linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen (Streudiagramm, Scatterplot) ● Sind alle Modellprämissen erfüllt? Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 32. Prüfung der Residualgrößen Residuen = Differenzen zwischen empirischen und durch die Regressionsfunktion geschätzten Variablenwerten ● Zentrale Forderung des Regressionsmodells: Residuen müssen zufällig verteilt sein ● Bei der Untersuchung der Residuen dürfen keine erkennbaren Muster gefunden werden ● Gibt es Muster so ist zu vermuten, dass das geschätzte Regressionsmodell fehlerhaft ist ● Ein Fehler der zu einem Muster in den Residuen führt, kann verschiedene Ursachen haben: ● Es wurden wichtige Variablen nicht in die Analyse mit einbezogen ● Der Zusammenhang ist nicht linear, sondern quadratisch, monoton, etc. ● Residuen sollten daher zufällig auftreten und normalverteilt sein ● Normalverteilung ist keine Voraussetzung für die Schätzung der Regressionsgraden ● Sie ist aber ausschlaggebend für die Aussagekraft von F-Test und t-Test ● Grafischer Test auf Normalverteilung mit Histogramm und P-P-Diagramm ● Statistischer Test auf Normalverteilung (Levene-Test) ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 33. Normalverteilungsprüfung: Einführung 2 −1  x−   1  2 Die Gauß- oder Normalverteilung ist die wichtigste kontinuierliche Wahrscheinlichkeitsverteilung f  x = e ●   2 Die zugehörige Dichtefunktion ist ● als Gaußsche Glockenkurve bekannt Eigenschaften: ● Dichtefunktion ist ● glockenförmig und symmetrisch Erwartungswert, Median ● und Modus sind gleich Zufallsvariable hat eine ● unendliche Spannweite Viele statistische Verfahren setzen ● die Normalverteilung der Daten in der Grundgesamtheit voraus Es ist daher häufig zu prüfen, ● ob von einer solchen Verteilung µ ausgegangen werden kann Erwartungswert (auch näherungsweise) Median Modus Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 34. Normalverteilungsprüfung: Dichtefunktion Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 35. Normalverteilungsprüfung: Histogramm Grafische Analyse mit Histogramm und überlagerter Normalverteilungskurve ● Die Balken des Histogramms spiegeln die Breite ● der Wertebereiche wieder – da zudem für leere Wertebereiche ein Freiraum ausgegeben wird, kommt im Histogramm die gesamte empirische Verteilung der Variablen zum Ausdruck Dies ermöglicht den direkten Vergleich mit einer ● eingezeichneten theoretischen Verteilung, wie beispielsweise der Normalverteilung Der Grad der Abweichung einer Normalverteilung ● lässt sich auch anhand verschiedener Maßzahlen wie Exzeß (Kurtosis) und Schiefe bestimmen Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 36. Normalverteilungsprüfung: Q-Q Grafische Analyse mit Q-Q-Diagramm und trendbereinigtem Q-Q-Diagramm ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 37. Normalverteilungsprüfung: K-S-A Die Prüfung auf Vorliegen einer Normalverteilung kann auch mit einem Anpassungstests erfolgen ● In SPSS lässt sich dazu beispielsweise der Kolmogorov-Smirnov-Anpassungstest nutzen ● Der Test arbeitet mit der kumulierten empirischen und der kumulierten erwarteten Referenzverteilung ● Die maximale Differenz zwischen beiden Verteilungen wird zur Berechnung der Prüfgröße Z nach Kolmogorov-Smirnov ● verwendet, mit der dann aus einer Tabelle der für einen Stichprobenumfang n kritische Wert für die maximale Differenz bei einem gegebenen Signifikanzniveau abgelesen werden kann Nullhypothese H0 des SPSS-Tests: die Werte der untersuchten Variablen sind normalverteilt ● Berechnet wird die Wahrscheinlichkeit, mit der das Zurückweisen dieser Hypothese falsch ist (Signifikanzwert) ● Je größer diese Wahrscheinlichkeit ausfällt, desto eher ist von einer Normalverteilung der Werte auszugehen ● Im nebenstehenden Beispiel eines ● Kolmogorov-Smirnov-Tests fällt der Signifikanzwert mit 0,00 so niedrig aus, dass die Annahme der Normalverteilung zurückzuweisen ist Bei der Interpretation ist zu beachten, ● dass es sich um einen Test auf perfekte Normalverteilung handelt Anzuraten ist daher die Kombination ● mit einem der grafischen Prüfverfahren Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 38. Homoskedastizitätsprüfung: Levene-Test Viele statistische Verfahren setzen voraus, dass die Varianzen innerhalb verschiedener Fallgruppen gleich sind ● (beispielsweise Signifikanztests und Mittelwertvergleiche) Gleichheit der Varianzen = Homoskedastizität ● Ungleichheit der Varianzen = Hetroskedastizität ● Mit dem Signifikanztest nach Levene wird die Nullhypothese H0 überprüft, dass die Varianzen in der ● Grundgesamtheit in allen Gruppen homogen (gleich) sind Der Test arbeitet mit dem F-Wert als statistischem Prüfmaß mit bekannter Verteilung ● Es wird getestet, mit welcher Wahrscheinlichkeit die beobachteten Abweichungen in den Varianzen ● auftreten können, wenn in der Grundgesamtheit absolute Varianzgleichheit herrscht Diese Wahrscheinlichkeit wird als Testergebnis ausgewiesen ● Eine geringe Wahrscheinlichkeit weist auf eine Varianzungleichheit hin ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 39. Grafische Homoskedastizitätsprüfung Eine grafische Prüfung auf Homoskedastizität kann mit Streudiagrammen oder Boxplots durchgeführt werden ● Hierbei ist auf die unterschiedlichen Streuungen und die Höhe des Medians zu achten ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 40. Test auf Autokorrelation der Residuen Was ist unter Autokorrelation zu verstehen? ● Frage: Bestehen zwischen den Residuen nebeneinanderliegender Fälle systematische Zusammenhänge? ● Beispiel: Auf große positive Residuen folgen regelmäßig große negative Residuen ● Eine derartige Systematik wird als Autokorrelation der Residuen bezeichnet ● Wie kann es zu Autokorrelation kommen? ● Die Möglichkeit einer Autokorrelation besteht immer, wenn die Fälle nicht zufällig angeordnet sind ● Dies ist beispielsweise bei Zeitreihenanalysen der Fall, wo die Fälle zeitlich geordnet vorliegen ● Worauf deutet eine Autokorrelation hin? ● Erklärungsrelevante Variablen wurden nicht in das Regressionsmodell aufgenommen ● Falscher funktionaler Zusammenhang (z.B. quadratisch statt linear) wurde vorausgesetzt ● Autokorrelation führt dazu, dass die Standardfehler zu gering geschätzt werden ● Die Ergebnisse der Signifikanztests sind damit nicht mehr zuverlässig ● Koeffizienten werden als signifikanter eingestuft als sie es tatsächlich sind ● Zur Suche nach Autokorrelationen wird der Durbin-Watson-Test durchgeführt ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 41. Durbin-Watson-Test auf Autokorrelation Der Durbin-Watson-Koeffizient kann Werte zwischen 0 und 4 annehmen ● Je näher der Koeffizient am Wert von 2 liegt, desto geringer ist das Ausmaß der Autokorrelation ● Werte deutlich unter 2 weisen auf eine positive Autokorrelation hin, Werte deutlich über 2 auf eine negative ● Faustregel: Werte zwischen 1,5 und 2,5 sind akzeptabel, Werte unter 1 oder über 3 deuten auf Autokorrelation hin ● Einschränkung: Der Durbin-Watson-Test misst lediglich Autokorrelationen der 1. Ordnung ● Eine Autokorrelation der 1. Ordnung liegt vor, wenn direkt benachbarte Fälle miteinander verknüpft sind ● Bei quartalsweise erhobenen Daten ist jedoch auch eine Autokorrelation der 4. Ordnung denkbar ● In diesem Fall sollte auf den Wallis-Test auf Autokorrelationen 4. Ordnung zurückgegriffen werden ● Der Durbin-Watson-Test kann nur unter zwei Voraussetzungen korrekt interpretiert werden: ● Die Regressionsgleichung muss einen konstanten Term enthalten ● Die abhängige Variable darf nicht zeitverzögert als erklärende Variable verwendet werden (Zeitreihenanalysen!) ● Beispiel: Erklärende Variable für aktuelle Schadstoffbelastung ist die Belastung des Vormonats ● 4 2 3 1 0 Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 42. Kollinearitätsdiagnostik Was ist Kollinearität? ● Kollinearität liegt vor, wenn zwei oder mehr unabhängige Variablen untereinander korrelieren ● Beispiel: Ernteertäge (Y) sollen durch Sonnenscheindauer (X1) und Durchschnittstemperatur (X2) erklärt werden ● Annahme: Eine lange Sonnenscheindauer sorgt für steigende Durschnittstemperaturen ● Es liegt also ein Korrelation zwischen den beiden erklärenden Variablen vor ● Es ist nicht festzustellen, zu welchen Teilen eine Veränderung in Y auf X1 und X2 zurückzuführen ist ● Bei perfekter Kollinearität lässt sich eine erklärende Variable über eine andere erklärende Variable berechnen ● Liegt eine perfekte Kollinearität vor, kann eine der betroffenen Variablen leicht erkannt und ausgeschlossen werden ● Bei einer imperfekten Kollinearität lässt sich die Regressionsgleichung mathematisch wie bisher durchführen ● Es ergibt sich ein unverzerrtes R², die Schätzung der Parameter liefert jedoch unzuverlässige Ergebnisse ● Zu befürchten ist, dass der Koeffizient einer Variablen über- und einer korrelierten Variablen unterschätzt wird ● Der gemeinsame Einfluss beider Variablen wird korrekt ausgewiesen, die Verteilung des Einflusses aber nicht ● Es gibt drei Möglichkeiten, um die unabhängigen Variablen auf Kollinearität zu prüfen ● Erstellung einer Korrelationsmatrix für alle unabhängigen Variablen ● Berechnung von Toleranz und Varianzinflationsfaktor ● Berechnung der Varianzanteile ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 43. Kollinearität: Korrelationsmatrix Vor der Durchführung der Regressionsanalyse kann eine Korrelationsmatrix der erklärenden Variablen erstellt werden ● Ergibt sich ein hoher Korrelationskoeffizient (Bravais-Pearson) zwischen zwei Variablen, kann Kollinearität vorliegen ● In solchen Fällen sollte eine der Variablen aus dem Modell ausgeschlossen und ggf. ersetzt werden ● Denkbar sind beispielsweise Korrelationen zwischen Variablenkombinationen anstatt zwischen zwei Einzelvariablen ● Aus diesem Grund müssen auch Toleranz und Varianzinflationsfaktor berechnet werden ● Im vorliegenden Beispiel fällt die deutliche negative Korrelation auf ● Die Möglichkeit einer Korrelation der beiden Variablen sollte näher untersucht werden (inhaltlich wahrscheinlich) ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 44. Kollinearität: Toleranz & VIF 2 Die Tolerenz ist definiert als: Toleranz i=1− Ri ● Ri ist dabei definiert als der multiple Korrelationskoeffizient ● Fällt der Toleranzwert sehr klein aus, deutet dies auf eine Kollinearität hin ● Faustregel: Toleranzen unter 0,1 sind verdächtig, Toleranzen unter 0,01 eindeutig zu niedrig ● Der Varianzinflationsfaktor (VIF) wird als Kehrwert der Toleranz berechnet ● Entsprechend wird interpretiert: VIF-Werte über 10 sind verdächtig, VIF-Werte über 100 eindeutig zu hoch ● Im vorliegenden Beispiel sprechen die Ergebnisse nicht gegen die Verwertbarkeit des Regressionsmodells ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 45. Kollinearität: Varianzanteile Die Varianzen der Regressionskoeffizienten lassen sich in Komponenten zerlegen und den Eigenwerten zuordnen ● Die Summe aller Komponenten beträgt für jeden Regressionskoeffizienten genau Eins ● Wenn derselbe Eigenwert die Varianz mehrerer Regressionskoeffizienten in hohem Maße erklärt, deutet dies auf eine ● Abhängigkeit der betreffenden Variablen hin Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 46. Linearitätsprüfung Die Prüfung auf Linearität kann sowohl grafisch als auch statistisch erfolgen ● Grafische Prüfung: Auswertung von Streudiagrammen oder Scatterplots ● Statistische Prüfung: Analyse der Residuen oder Regressionsanalyse ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 47. Gibt es noch Fragen? Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth

×