Regressionsdiagnostik

In der Statistik ist die Regressionsdiagnostik die Überprüfung, ob die klassischen Annahmen eines Regressionsmodells mit den vorliegenden Daten konsistent sind. Falls die Annahmen nicht zutreffen, sind die berechneten Standardfehler der Parameterschätzungen und p-Werte nicht korrekt. Die Problematik bei der Regressionsdiagnostik ist, dass sich die klassischen Annahmen nur auf die Störgrößen, nicht aber auf die Residuen beziehen.

Überprüfung der Regressionsmodellannahmen

Im Rahmen der Regressionsdiagnostik sollen die Voraussetzungen des Regressionsmodells, soweit möglich, geprüft werden. Dazu zählen die Überprüfung, ob die Fehlerterme keine Struktur (die dann nicht zufällig wäre) haben. Dazu gehört, ob

Erwünschte (links oben) und unerwünschte (alle anderen) Streudiagramme der Residuen.

die Fehlerterme unabhängig sind,
Analyse der Varianz der Fehlerterme (Homoskedastizität und Heteroskedastizität),
die Fehlerterme normal-verteilt und
keine weitere regressierbare Struktur in den Fehlertermen existiert.

Kennzahlen und Tests

Zur Analyse werden Streudiagramme, Kennzahlen und Tests eingesetzt:

Unabhängigkeit der Fehlerterme

Streudiagramme der Residuen ( $Y$ -Achse) gegen die unabhängige Variable, die abhängige Variable und/oder die geschätzten Regresswerten
Durbin-Watson-Test auf autokorrelierte Fehlerterme

Heteroskedastizität der Fehlerterme

Streudiagramme der Residuen ( $Y$ -Achse) gegen die unabhängige Variable, die abhängige Variable und/oder die geschätzten Regresswerten
Breusch-Pagan-Test
Goldfeld-Quandt-Test

Normalverteilung der Fehlerterme

Abweichungen von der Normalverteilungsannahme der Fehlerterme lassen sich mithilfe eines Normal-Quantil-Diagramms oder Quantil-Quantil-Diagramms für die Residuen überprüfen
Schiefe und Kurtosis als Maße für die Asymmetrie und Wölbung der Fehlerverteilung. Für normalverteilte Größen ist die Schiefe gleich 0 und die Kurtosis gleich 3. Bei Abweichung von diesen Werten liegt wahrscheinlich keine Normalverteilung vor.
Tests auf Normalverteilung der Residuen: Shapiro-Wilk-Test, Lilliefors-Test (Kolmogorow-Smirnow-Test), Anderson-Darling-Test oder Cramér-von-Mises-Test

Regressierbare Struktur der Fehlerterme

Streudiagramm der (quadrierten) Residuen ( $Y$ -Achse) inklusive einer nichtparametrischen Regression gegen die unabhängige Variable, die abhängige Variable, den geschätzten Regresswerten und/oder die nicht in der Regression benutzten Variablen

Therapie

Vorliegen von Autokorrelation

Die verallgemeinerte Methode der kleinsten Quadrate ist eine Lösung bei Vorliegen von Autokorrelation

Ausreißer

Ein Ausreißer-Messwert. Die blaue Regressionsgerade wurde ohne Einbeziehung des Ausreißers erstellt, die violette mit.

Als Ausreißer sind Datenwerte definiert, die „nicht in eine Messreihe passen“. Diese Werte haben einen starken Einfluss auf die Regressiongleichung und verfälschen das Ergebnis. Um dies zu vermeiden, müssen die Daten auf fehlerhafte Beobachtungen untersucht werden. Die entdeckten Ausreißer können beispielsweise aus der Messreihe ausgeschieden werden oder es sind alternative ausreißerresistente Berechnungsverfahren wie die gewichtete Regression oder das Drei-Gruppen-Verfahren anzuwenden.

Im ersten Fall wird nach der ersten Berechnung der Schätzwerte durch statistische Tests geprüft, ob Ausreißer in einzelnen Messwerten vorliegen. Diese Messwerte werden dann ausgeschieden und die Schätzwerte erneut berechnet. Dieses Verfahren eignet sich dann, wenn nur wenige Ausreißer vorliegen.

Bei der gewichteten Regression werden die abhängigen Variablen $y$ in Abhängigkeit von ihren Residuen gewichtet. Ausreißer, d. h. Beobachtungen mit großen Residuen, erhalten ein geringes Gewicht, das je nach Größe des Residuums abgestuft sein kann. Beim Algorithmus nach Mosteller und Tukey (1977), der als „biweighting“ bezeichnet wird, werden unproblematische Werte mit 1 und Ausreißer mit 0 gewichtet, was die Unterdrückung des Ausreißers bedingt. Bei der gewichteten Regression sind in der Regel mehrere Iterationsschritte erforderlich, bis sich die Menge der erkannten Ausreißer nicht mehr ändert. Führt das Weglassen einer oder weniger Beobachtungen zu starken Änderungen bei der Regressionsgeraden, so stellt sich die Frage, ob das Regressionsmodell angemessen ist.

Diagnose: Cook-Abstand: Der Cook-Abstand misst den Einfluss der $i$ -ten Beobachtung auf die Schätzung des Regressionsmodells.