Regressionsdiagnostik
In der Statistik ist die Regressionsdiagnostik die Überprüfung, ob die klassischen Annahmen eines Regressionsmodells mit den vorliegenden Daten konsistent sind. Falls die Annahmen nicht zutreffen, sind die berechneten Standardfehler der Parameterschätzungen und p-Werte nicht korrekt. Die Problematik bei der Regressionsdiagnostik ist, dass sich die klassischen Annahmen nur auf die Störgrößen, nicht aber auf die Residuen beziehen.
Überprüfung der Regressionsmodellannahmen
BearbeitenIm Rahmen der Regressionsdiagnostik sollen die Voraussetzungen des Regressionsmodells, soweit möglich, geprüft werden. Dazu zählen die Überprüfung, ob die Fehlerterme keine Struktur (die dann nicht zufällig wäre) haben. Dazu gehört, ob
- die Fehlerterme unabhängig sind,
- Analyse der Varianz der Fehlerterme (Homoskedastizität und Heteroskedastizität),
- die Fehlerterme normal-verteilt und
- keine weitere regressierbare Struktur in den Fehlertermen existiert.
Kennzahlen und Tests
BearbeitenZur Analyse werden Streudiagramme, Kennzahlen und Tests eingesetzt:
- Unabhängigkeit der Fehlerterme
-
- Streudiagramme der Residuen ( -Achse) gegen die unabhängige Variable, die abhängige Variable und/oder die geschätzten Regresswerten
- Durbin-Watson-Test auf autokorrelierte Fehlerterme
- Heteroskedastizität der Fehlerterme
-
- Streudiagramme der Residuen ( -Achse) gegen die unabhängige Variable, die abhängige Variable und/oder die geschätzten Regresswerten
- Breusch-Pagan-Test
- Goldfeld-Quandt-Test
- Normalverteilung der Fehlerterme
-
- Abweichungen von der Normalverteilungsannahme der Fehlerterme lassen sich mithilfe eines Normal-Quantil-Diagramms oder Quantil-Quantil-Diagramms für die Residuen überprüfen
- Schiefe und Kurtosis als Maße für die Asymmetrie und Wölbung der Fehlerverteilung. Für normalverteilte Größen ist die Schiefe gleich 0 und die Kurtosis gleich 3. Bei Abweichung von diesen Werten liegt wahrscheinlich keine Normalverteilung vor.
- Tests auf Normalverteilung der Residuen: Shapiro-Wilk-Test, Lilliefors-Test (Kolmogorow-Smirnow-Test), Anderson-Darling-Test oder Cramér-von-Mises-Test
- Regressierbare Struktur der Fehlerterme
-
- Streudiagramm der (quadrierten) Residuen ( -Achse) inklusive einer nichtparametrischen Regression gegen die unabhängige Variable, die abhängige Variable, den geschätzten Regresswerten und/oder die nicht in der Regression benutzten Variablen
Therapie
Bearbeiten- Vorliegen von Autokorrelation
-
- Die verallgemeinerte Methode der kleinsten Quadrate ist eine Lösung bei Vorliegen von Autokorrelation
Ausreißer
BearbeitenAls Ausreißer sind Datenwerte definiert, die „nicht in eine Messreihe passen“. Diese Werte haben einen starken Einfluss auf die Regressiongleichung und verfälschen das Ergebnis. Um dies zu vermeiden, müssen die Daten auf fehlerhafte Beobachtungen untersucht werden. Die entdeckten Ausreißer können beispielsweise aus der Messreihe ausgeschieden werden oder es sind alternative ausreißerresistente Berechnungsverfahren wie die gewichtete Regression oder das Drei-Gruppen-Verfahren anzuwenden.
Im ersten Fall wird nach der ersten Berechnung der Schätzwerte durch statistische Tests geprüft, ob Ausreißer in einzelnen Messwerten vorliegen. Diese Messwerte werden dann ausgeschieden und die Schätzwerte erneut berechnet. Dieses Verfahren eignet sich dann, wenn nur wenige Ausreißer vorliegen.
Bei der gewichteten Regression werden die abhängigen Variablen in Abhängigkeit von ihren Residuen gewichtet. Ausreißer, d. h. Beobachtungen mit großen Residuen, erhalten ein geringes Gewicht, das je nach Größe des Residuums abgestuft sein kann. Beim Algorithmus nach Mosteller und Tukey (1977), der als „biweighting“ bezeichnet wird, werden unproblematische Werte mit 1 und Ausreißer mit 0 gewichtet, was die Unterdrückung des Ausreißers bedingt. Bei der gewichteten Regression sind in der Regel mehrere Iterationsschritte erforderlich, bis sich die Menge der erkannten Ausreißer nicht mehr ändert. Führt das Weglassen einer oder weniger Beobachtungen zu starken Änderungen bei der Regressionsgeraden, so stellt sich die Frage, ob das Regressionsmodell angemessen ist.
- Diagnose: Cook-Abstand: Der Cook-Abstand misst den Einfluss der -ten Beobachtung auf die Schätzung des Regressionsmodells.