Verallgemeinerte Kleinste-Quadrate-Schätzung

In der Statistik ist die Verallgemeinerte Kleinste-Quadrate-Schätzung (kurz VKQ-Schätzung) oder verallgemeinerte Methode der kleinsten Quadrate, kurz VMKQ, (englisch generalized least squares, kurz GLS) eine Prozedur, um unbekannte wahre Regressionsparameter in einer linearen Regressionsgleichung, unter problematischen Voraussetzungen (vorliegen von Autokorrelation und Heteroskedastizität), effizient zu schätzen. Die VKQ-Methode kann benutzt werden, um bei einem Modell mit einer allgemeinen Störgrößenstruktur zielführend eine lineare Regression durchzuführen. Eine verallgemeinerte Störgrößenstruktur liegt vor, wenn ein bestimmter Grad an Korrelation zwischen den Residuen und eine nicht konstante Störgrößenvarianz zulässig sind. In diesen Fällen können die gewöhnliche Kleinste-Quadrate-Schätzung und die gewichtete Kleinste-Quadrate-Schätzung statistisch ineffizient sein oder sogar zu falschen Resultaten der statistischen Inferenz führen. Aus diesem Grund wird, um valide Resultate der statistischen Inferenz zu erhalten, eine Transformation des klassischen linearen Modells durchgeführt, durch welche die benötigten Annahmen für die statistische Inferenz weiterhin erfüllt sind. Die VKQ-Methode minimiert im Gegensatz zur gewöhnlichen Methode der kleinsten Quadrate eine gewichtete Residuenquadratsumme. Sie wurde von Alexander Aitken entwickelt und 1934 veröffentlicht und wird daher auch Aitken-Schätzung genannt.

Geschichte

Carl Friedrich Gauß

Alexander Aitken

Am Neujahrstag 1801 entdeckte der italienische Astronom Giuseppe Piazzi den Zwergplaneten Ceres. 40 Tage lang konnte er die Bahn verfolgen, dann verschwand Ceres hinter der Sonne. Im Laufe des Jahres versuchten viele Wissenschaftler erfolglos, anhand von Piazzis Beobachtungen die Bahn zu berechnen – unter der Annahme einer Kreisbahn, denn nur für solche konnten damals die Bahnelemente aus beobachteten Himmelspositionen mathematisch ermittelt werden. Der 24-jährige Gauß hingegen konnte auch elliptische Bahnen aus drei Einzelbeobachtungen berechnen. Da aber deutlich mehr Bahnpunkte vorlagen, wandte er seine Methode der kleinsten Quadrate an, um so die Genauigkeit zu erhöhen. Als Franz Xaver von Zach und Heinrich Wilhelm Olbers im Dezember 1801 den Kleinplaneten genau an dem von Gauß vorhergesagten Ort wiederfanden, war das nicht nur ein großer Erfolg für Gauß’ Methode: Piazzis Ruf, der aufgrund seiner nicht zu einer Kreisbahn passen wollenden Bahnpunkte stark gelitten hatte, war ebenfalls wiederhergestellt.^[1]

Den Grundstein der verallgemeinerten Methode der kleinsten Quadrate legte Gauß schon 1795 im Alter von 18 Jahren. Basis war eine Idee von Pierre-Simon Laplace, die Beträge von Fehlern aufzusummieren, so dass sich die Fehler zu Null addieren. Gauß nahm stattdessen die Fehlerquadrate und konnte die Nullsummen-Anforderung an die Fehler weglassen. Unabhängig davon entwickelte der Franzose Adrien-Marie Legendre dieselbe Methode erstmals im Jahr 1805 am Schluss eines kleinen Werkes über die Berechnung der Kometenbahnen^[2] und veröffentlichte eine zweite Abhandlung darüber im Jahr 1810. Von ihm stammt der Name Méthode des moindres carrés (Methode der kleinsten Quadrate).

1809 publizierte Gauß dann im zweiten Band seines himmelsmechanischen Werkes Theoria motus corporum coelestium in sectionibus conicis solem ambientium (Theorie der Bewegung der Himmelskörper, welche in Kegelschnitten die Sonne umlaufen) sein Verfahren,^[3] inklusive der Normalgleichungen und des Gaußschen Eliminationsverfahrens.^[4] Dabei erwähnte er, dass er es schon vor Legendre entdeckt und benutzt habe, was zu einem Prioritätsstreit zwischen den beiden führte. Die Methode der kleinsten Quadrate wurde nun schnell das Standardverfahren zur Behandlung von astronomischen oder geodätischen Datensätzen.

Gauß benutzte dann das Verfahren intensiv bei seiner Vermessung des Königreichs Hannover durch Triangulation. 1821 und 1823 erschien die zweiteilige Arbeit sowie 1826 eine Ergänzung zur Theoria combinationis observationum erroribus minimis obnoxiae (Theorie der den kleinsten Fehlern unterworfenen Kombination der Beobachtungen),^[5] in denen Gauß eine Begründung liefern konnte, weshalb sein Verfahren im Vergleich zu den anderen so erfolgreich war: Die Methode der kleinsten Quadrate ist in einer breiten Hinsicht optimal, also besser als andere Methoden. Die genaue Aussage ist als der Satz von Gauß-Markow bekannt, da die Arbeit von Gauß wenig Beachtung fand und schließlich im 20. Jahrhundert von Andrei Andrejewitsch Markow wiederentdeckt und bekannt gemacht wurde. Die Theoria Combinationis enthält ferner wesentliche Fortschritte beim effizienten Lösen der auftretenden linearen Gleichungssysteme, wie das Gauß-Seidel-Verfahren und die LR-Zerlegung.^[6]

Schließlich veröffentlichte Alexander Aitken 1935 eine Arbeit, in der er das Konzept der verallgemeinerten kleinsten Quadrate und den viel verwendeten verallgemeinerten kleinsten Quadrate-Schätzer einführte.^[7] Ebenso bewies er dort, dass dieser von ihm eingeführte Schätzer Beste Lineare Erwartungstreue Schätzfunktion, kurz BLES (englisch Best Linear Unbiased Estimator, kurz: BLUE) ist, d. h. in der Klasse der linearen erwartungstreuen Schätzern derjenige mit der kleinsten Kovarianzmatrix ist. Aitken wendete außerdem die statistischen Methoden auf die Theorie der linearen Modelle an und entwickelte die Notation, die man heutzutage als Standard-Vektor-Matrix-Notation betrachtet.^[8] Aitken veröffentlichte zusammen mit einem seiner Studenten namens Harold Silverstone eine Arbeit, in der sie die untere Grenze der Varianz eines Schätzers einführten,^[9] auch bekannt als Cramér-Rao-Ungleichung. Im Gegensatz zu Vorgängern fand er einen effizienten Weg, um das Problem einer nicht konstanten Varianz und korrelierten Störtermen zu lösen. Die verallgemeinerte Kleinste-Quadrate-Schätzung baut auf der Gauß-Markov-Theorie auf und spielt immer noch eine große Rolle in theoretischen und praktischen Aspekten der statistischen Inferenz in verallgemeinerten linearen (multiplen) Regressionsmodellen.^[10]

Ausgangslage

Da viele Variablen des Interesses nicht nur von einer unabhängigen Variablen abhängen, betrachten wir eine abhängige Variable, die durch mehrere unabhängige Variablen erklärt werden soll. Zum Beispiel ist die Gesamtproduktion einer Volkswirtschaft von dessen Kapitaleinsatz, Arbeitseinsatz und dessen Fläche abhängig. Solch eine multiple Abhängigkeit kommt der Realität viel näher und man gibt die Annahme der einfachen linearen Regression auf, bei der die Variable des Interesses nur von einer Variablen abhängt. Um solch eine multiple Abhängigkeit zu modellieren, betrachten wir als Ausgangslage ein typisches multiples lineares Regressionsmodell mit gegebenen Daten $\{y_{t},x_{tk}\}_{t=1,\dots ,T,k=1,\dots ,K}$ für $T$ statistische Einheiten. Hierbei ist zu beachten, dass wir zusätzlich zur Dimension der unabhängigen Variablen auch eine zeitliche Dimension integrieren, wodurch sich ein lineares Gleichungssystem ergibt was sich auch matriziell darstellen lässt. Der Zusammenhang zwischen der abhängigen Variablen und den unabhängigen Variablen kann wie folgt dargestellt werden

y_{t}=x_{t1}\beta _{1}+x_{t2}\beta _{2}+\ldots +x_{tK}\beta _{K}+\varepsilon _{t}=\mathbf {x} _{t}^{\top }{\boldsymbol {\beta }}+\varepsilon _{t},\quad t=1,2,\dotsc ,T

.

In Vektor-Matrix-Form auch

{\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{T}\end{pmatrix}}_{(T\times 1)}\;=\;{\begin{pmatrix}x_{11}&x_{12}&\cdots &x_{1k}&\cdots &x_{1K}\\x_{21}&x_{22}&\cdots &x_{2k}&\cdots &x_{2K}\\\vdots &\vdots &\ddots &\vdots &\ddots &\vdots \\x_{T1}&x_{T2}&\cdots &x_{Tk}&\cdots &x_{TK}\end{pmatrix}}_{(T\times K)}\;\cdot \;{\begin{pmatrix}\beta _{1}\\\beta _{2}\\\vdots \\\beta _{K}\end{pmatrix}}_{(K\times 1)}\;+\;{\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{T}\end{pmatrix}}_{(T\times 1)}

oder in kompakter Schreibweise

\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}

Hier stellt ${\boldsymbol {\beta }}$ einen Vektor von unbekannten Regressionsparametern dar, die mithilfe der Daten geschätzt werden müssen. Des Weiteren wird angenommen, dass die Störgrößen im Mittel null sind: $\mathbb {E} ({\boldsymbol {\boldsymbol {\varepsilon }}})=\mathbf {0}$ , was bedeutet, dass wir davon ausgehen können, dass unser Modell im Mittel korrekt ist. Für gewöhnlich stellt man an ein solches Modell die Anforderung, dass die Gauß-Markow-Annahmen gelten sollen. Dies soll hier aber nicht der Fall sein, da man nicht opportunistisch von problematischen Voraussetzungen ausgeht. Aus diesem Grund wird ein Modell betrachtet, bei dem eine allgemeine Störgrößenstruktur zulässig ist.

Das verallgemeinerte lineare Regressionsmodell (VLR)

Weiterhin wird für das Modell angenommen, dass der Erwartungswert von $\mathbf {y}$ linear in ${\boldsymbol {\beta }}$ ist. Die Matrix $\mathbf {\Phi }$ stellt die Kovarianzmatrix der Störgrößen dar, wobei $\mathbf {\Psi }$ als eine beliebige bekannte reelle nichtsinguläre positiv definite $T\times T$ Matrix angenommen wird und $\sigma ^{2}$ ein noch unbekannter Skalar darstellt. Die Besonderheit im Gegensatz zur gewöhnlichen Methode der kleinsten Quadrate ist, dass Heteroskedastizität (d. h., dass die Varianz der Störterme bedingt auf die erklärenden Variablen nicht konstant ist) und Autokorrelation (d. h. ein Korrelieren der Störterme) erlaubt ist:

Die Varianz der Störgrößen könnte heteroskedastisch sein:
$\operatorname {Cov} [{\boldsymbol {\varepsilon }}]=\mathbb {E} ({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top })=\sigma ^{2}\mathbf {\Psi } =\mathbf {\Phi } \neq \sigma ^{2}\mathbf {I} _{T}$

Wenn die Varianz der Residuen (und somit die Varianz der erklärten Variablen selbst) für alle Ausprägungen der Regressoren nicht unterschiedlich ist, liegt Homoskedastizität ((Residuen-)Varianzhomogenität) vor. Falls diese Annahme verletzt ist spricht man von Heteroskedastizität.
Die Störgrößen könnten voneinander nicht unabhängige Zufallsvariablen sein, d. h. autokorreliert sein:
$\forall \;t\neq s:\mathbb {E} (\varepsilon _{t}\varepsilon _{s})\neq 0$ .

D. h., die Annahme der Abwesenheit von Autokorrelation könnte verletzt sein.

Für die Matrix ${\boldsymbol {\Phi }}$ gibt es je nach Kontext unterschiedliche Definitionen. Bei Vorliegen von Heteroskedastizität nimmt sie folgende Form an^[11]

{\boldsymbol {\Phi }}=\sigma ^{2}{\boldsymbol {\Psi }}=\sigma ^{2}{\begin{pmatrix}w_{11}&0&\cdots &0\\0&w_{22}&\cdots &0\\\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &w_{TT}\end{pmatrix}}={\begin{pmatrix}\sigma _{11}^{2}&0&\cdots &0\\0&\sigma _{22}^{2}&\cdots &0\\\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &\sigma _{TT}^{2}\end{pmatrix}}

und bei Vorliegen von Autokorrelation die Form

{\boldsymbol {\Phi }}=\sigma ^{2}{\boldsymbol {\Psi }}=\sigma ^{2}{\begin{pmatrix}1&a_{1}&\cdots &a_{T-1}\\a_{1}&1&\cdots &a_{T-2}\\\vdots &\vdots &\ddots &\vdots \\a_{T-1}&a_{T-2}&\cdots &1\end{pmatrix}}

.

Ein Modell der Form $\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ mit ${\boldsymbol {\varepsilon }}\sim (\mathbf {0} ,\sigma ^{2}{\boldsymbol {\Psi }})$ , wobei $\operatorname {Rang} ({\boldsymbol {\Psi }})=T$ , heißt verallgemeinertes (multiples) lineares Regressionsmodell (mit fixen Regressoren), kurz VLR.^[12] Es ist dabei zu beachten, dass sich $\sigma ^{2}$ immer als konstanter Faktor aus der Matrix ziehen lässt. Das Skalar $\sigma ^{2}$ stellt einen beliebigen konstanten Proportionalitätsfaktor^[13] dar. Manchmal ist es nützlich – insbesondere bei Heteroskedastizität – anzunehmen, dass $\sigma ^{2}=1$ . Die Annahme ist äquivalent zur Aussage, dass die Kovarianzmatrix $\mathbf {\Psi }$ vollständig bekannt ist. Wenn man $\mathbf {\Phi } =\sigma ^{2}\mathbf {\Psi }$ schreibt, wobei $\mathbf {\Psi }$ bekannt ist und $\sigma ^{2}$ unbekannt ist dann sagt man damit, dass es nicht notwendig ist anzunehmen, dass die Kovarianzmatrix $\mathbf {\Phi }$ vollständig bekannt sein muss; es ist ausreichend anzunehmen, dass $\mathbf {\Psi }$ bekannt ist (die Matrix, die man erhält, nachdem man einen beliebigen unbekannten Skalierungsparameter $\sigma ^{2}$ herauszieht).^[14] Man kann das verallgemeinerte lineare Regressionsmodell mit heteroskedastischer Störgrößenkovarianzmatrix $\mathbf {\Phi } :=\sigma ^{2}\mathbf {\Psi }$ durch geeignete Wahl von $\mathbf {\Psi }$ auf das gewöhnliche multiple Regressionsmodell mit homoskedastischer Störgrößenkovarianzmatrix $\mathbf {\Sigma } :=\sigma ^{2}\mathbf {I}$ zurückführen.

Die Auswirkungen der Anwendung der gewöhnlichen Methode der kleinsten Quadrate (KQ)

Auswirkungen auf Eigenschaften der Punktschätzer

Als einen ersten naiven Ansatz nehmen wir an, der Kleinste-Quadrate-Schätzer $\mathbf {b}$ , der durch die Minimierung der Residuenquadratsumme gewonnen wird, wäre ein zielführender Kandidat für den Punktschätzer für ${\boldsymbol {\beta }}$ bei einem Modell mit einer allgemeinen Störgrößenstruktur; dann ist der Residualvektor gegeben durch ${\boldsymbol {\varepsilon }}=\mathbf {y} -\mathbf {X} \mathbf {b}$ . Es wird jedoch ersichtlich, dass der Punktschätzer ${\boldsymbol {\beta }}$ für bei einem Modell mit allgemeiner Störgrößenstruktur zwar erwartungstreu, aber nicht mehr effizient ist. Beim naiven Ansatz ist die Kovarianzmatrix nicht mehr gleich $\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}$ , sondern sie ist gegeben durch

{\begin{aligned}\operatorname {Cov} ({\hat {\boldsymbol {\beta }}})&=\mathbb {E} \left((\mathbf {b} -\mathbb {E} (\mathbf {b} ))(\mathbf {b} -\mathbb {E} (\mathbf {b} ))^{\top }\right)=\mathbb {E} \left((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top }\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\right)=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbb {E} (\mathbf {\boldsymbol {\varepsilon }} {\boldsymbol {\varepsilon }}^{\top })\mathbf {\mathbf {X} } (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\\&=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\Phi }}\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }(\sigma ^{2}{\boldsymbol {\Psi }})\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } \mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\\&\neq \sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}.\end{aligned}}

Dies resultiert vor allem daraus, dass eine nichtkonstante Störgrößenvarianz (Heteroskedastizität) zulässig ist. Wenn man nämlich davon ausgeht, dass keine Heteroskedastizität gegeben ist ( ${\boldsymbol {\Psi }}=\mathbf {I}$ ), dann ergibt sich wieder die Kovarianzmatrix der gewöhnlichen Methode der kleinsten Quadrate ( $\operatorname {Cov} (\mathbf {b} )=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}$ ).

Bei Vorliegen einer nichtskalaren Einheits-Kovarianzmatrix lässt sich zeigen, dass die Eigenschaft der Erwartungstreue des Kleinste-Quadrate-Schätzers weiterhin erfüllt ist, jedoch ist sie nicht mehr für die Varianz der Störgrößen erfüllt. Für die Varianz der Störgrößen gilt nämlich, dass sie keine Erwartungstreue Schätzung der Varianz der Störgrößen ist^[15]

\mathbb {E} ({\hat {\sigma }}^{2})=\sigma ^{2}{\frac {\operatorname {Spur} ({\boldsymbol {\Psi }}(\mathbf {I} -(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }))}{T-K}}\neq \sigma ^{2}

.

Sie ist somit ein verzerrter Schätzer für die wahre Varianz $\sigma ^{2}$ .^[16]

Auswirkungen auf Hypothesentests

Eine wichtige Auswirkung ergibt sich für die Intervallschätzung und Prozeduren der Hypothesentests. Die Resultate der statistischen Inferenz sind nicht länger gültig, da die oben dargestellten Resultate für die Kovarianzmatrix von $\mathbf {b}$ implizieren, dass wir fälschlicherweise ${\hat {\sigma }}^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}$ benutzen, um $\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\Psi }}\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}$ zu schätzen. Da dies ein verzerrter Schätzer ist, führt dies zu nicht validen Resultaten der statistischen Inferenz. Eine weitere Konsequenz für die Inferenz ist, dass die benötigte Teststatistik für allgemeine lineare Hypothesen nicht mehr F-verteilt ist. Aus diesem Grund sollte man die Intervallschätzung auf dem verallgemeinerten Kleinste-Quadrate-Schätzer aufbauen^[17] oder robuste Standardfehler à la Eicker-Huber-White Standardfehler benutzen.

Herleitung des verallgemeinerten Kleinste-Quadrate-Schätzers (VKQ)

Aus obigen ersten naiven Ansatz wird deutlich, dass die Methode der kleinsten Quadrate bei einer allgemeinen Störgrößenstruktur nicht zielführend ist, da sie zu Ineffizienzen führt. Aus diesem Grund besteht die Notwendigkeit diese Ineffizienzen zu beseitigen, indem das Verfahren der verallgemeinerten Methode der kleinsten Quadrate angewandt wird. Die verallgemeinerte Methode der kleinsten Quadrate schätzt ${\boldsymbol {\beta }}$ , indem der quadrierte Mahalanobis-Abstand des Residualvektors minimiert wird:

{\boldsymbol {\hat {\beta }}}={\underset {\mathbf {b} }{\rm {arg\,min}}}\,(\mathbf {y} -\mathbf {X} \mathbf {b} )^{\top }\,\mathbf {\Psi } ^{-1}(\mathbf {y} -\mathbf {X} \mathbf {b} )

.^[18]^[19]

Da der Ausdruck eine quadratische Form in $\mathbf {b}$ ist, ist das Resultat der Minimierung:

{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}=\left(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {y}

.

Der Schätzer ${\hat {\boldsymbol {\beta }}}_{\text{VKQ}}$ heißt verallgemeinerter Kleinste-Quadrate-Schätzer, kurz VKQ-Schätzer oder Aitken-Schätzer (englisch generalized least squares estimator, kurz: GLSE). Die Kovarianzmatrix des verallgemeinerten Kleinste-Quadrate-Schätzers ist gegeben durch:

\mathbf {\Sigma } _{{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}}=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}

.

Der durch das Minimierungsproblem gegebene Punktschätzer für ${\boldsymbol {\beta }}$ ist Beste Lineare Erwartungstreue Schätzfunktion (Best Linear Unbiased Estimator). Ein anderer Ansatz um den VKQ-Schätzer zu bekommen ist durch eine Transformation des multiplen linearen Modells.

Transformation des multiplen linearen Modells

Die VKQ-Methode ist äquivalent zu der Anwendung einer linearen Transformation auf die gewöhnliche Methode der kleinsten Quadrate (englisch ordinary least squares, kurz OLS), ähnlich zu Whitening (Statistik). Der Transformationsfaktor der Varianz der Störgrößen $\mathbf {\Psi } ={\boldsymbol {P^{-1}}}{\boldsymbol {P^{-1}}}^{\top }$ kann durch die Cholesky-Zerlegung gewonnen werden. Anschließend werden beide Seiten des Modells $\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ mit ${\boldsymbol {P}}$ multipliziert. Das verallgemeinerte lineare Modell lässt sich über die Transformationen $\mathbf {y} ^{*}={\boldsymbol {P}}\mathbf {y}$ , $\mathbf {X} ^{*}={\boldsymbol {P}}\mathbf {X}$ , und ${\boldsymbol {\varepsilon }}^{*}={\boldsymbol {P}}{\boldsymbol {\varepsilon }}$ in ein klassisches lineares Modell überführen

\mathbf {y} ^{*}=\mathbf {X} ^{*}{\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}^{*}

.

Eigenschaften der transformierten Störgrößen

Weiterhin stellt sich die Frage, was die transformierten Störgrößen im Mittel ergeben. In diesem Modell gilt für die transformierten Störgrößen ${\boldsymbol {\varepsilon }}^{*}$ ebenfalls, dass sie im Mittel Null ergeben, da

\mathbb {E} ({\boldsymbol {\varepsilon }}^{*})=\mathbb {E} ({\boldsymbol {P}}{\boldsymbol {\varepsilon }})={\boldsymbol {P}}\mathbb {E} ({\boldsymbol {\varepsilon }})=\mathbf {0}

.

Die Eigenschaft gewährleistet, dass man im Mittel das wahre Modell schätzt und nicht eine verzerrte Form. Für die Kovarianzmatrix der transformierten Störgrößen gilt

\operatorname {Cov} ({\boldsymbol {\varepsilon }}^{*})=\operatorname {Cov} ({\boldsymbol {P}}{\boldsymbol {\varepsilon }})={\boldsymbol {P}}\operatorname {Cov} ({\boldsymbol {\varepsilon }}){\boldsymbol {P}}^{\top }=\sigma ^{2}{\boldsymbol {P}}\mathbf {\Psi } {\boldsymbol {P}}^{\top }

.

Damit die Homoskedastizitätsannahme erfüllt ist, wird ${\boldsymbol {P}}\mathbf {\Psi } {\boldsymbol {P}}^{\top }$ so bestimmt, dass ${\boldsymbol {P}}\mathbf {\Psi } {\boldsymbol {P}}^{\top }=\mathbf {I}$ , wobei $\mathbf {I}$ die Einheitsmatrix darstellt (weil $\mathbf {\Psi }$ eine positiv definite Matrix ist existiert immer eine Matrix mit der Eigenschaft ${\boldsymbol {P}}\mathbf {\Psi } {\boldsymbol {P}}^{\top }=\mathbf {I}$ ). Also ist für das transformierte Modell bei dieser Festlegung die Homoskedastizitätsannahme $\operatorname {Cov} [{\boldsymbol {\varepsilon }}^{*}]=\sigma ^{2}\mathbf {I}$ und auch alle anderen Gauß-Markov-Annahmen erfüllt. Dadurch, dass man ${\boldsymbol {P}}\mathbf {\Psi } {\boldsymbol {P}}^{\top }=\mathbf {I}$ setzt folgt^[20]

\mathbf {\Psi } =({\boldsymbol {P}}^{-1})(({\boldsymbol {P}}^{\top })^{-1})\Leftrightarrow \mathbf {\Psi } ^{-1}={\boldsymbol {P}}^{\top }{\boldsymbol {P}}

.

Dieses Resultat wird später noch für die Berechnung des VKQ-Schätzers benötigt. Da das transformierte Modell die Gauß-Markow-Annahmen erfüllt, muss der Kleinste-Quadrate-Schätzer dieses Modells gegeben sein durch

{\hat {\boldsymbol {\beta }}}=(({\boldsymbol {P}}\mathbf {X} )^{\top }{\boldsymbol {P}}\mathbf {X} )^{-1}({\boldsymbol {P}}\mathbf {X} )^{\top }({\boldsymbol {P}}\mathbf {y} )=(\mathbf {X^{*}} ^{\top }\mathbf {X} ^{*})^{-1}\mathbf {X^{*}} ^{\top }\mathbf {y} ^{*}

und beste lineare erwartungstreue Schätzfunktion (BLES) sein. Anders ausgedrückt

{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\top }{\boldsymbol {P}}^{\top }{\boldsymbol {P}}\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {P}}^{\top }{\boldsymbol {P}}\mathbf {y}

.

Mithilfe des obigen Resultates für $\mathbf {\Psi } ^{-1}$ ergibt sich schließlich bei diesem Ansatz ebenfalls der VKQ-Schätzer

{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}=\left(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {y}

.

Man kann zeigen, dass multiplizieren der Störgrößenkovarianzmatrix mit einem Skalar den Wert des VKQ-Schätzer nicht ändert:

{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}=\left(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {y} =\left(\mathbf {X} ^{\top }\mathbf {\Phi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Phi } ^{-1}\mathbf {y}

.

gilt.

Eigenschaften

Störgrößen-Kovarianzmatrix

Die Kovarianzmatrix der Störgrößen entspricht bei der verallgemeinerten Kleinste-Quadrate-Schätzung

{\hat {\sigma }}_{\text{VKQ}}^{2}={\frac {(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}_{\text{VKQ}})^{\top }\mathbf {\Psi } ^{-1}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}_{\text{VKQ}})}{T-K}}

.

Maximum-Likelihood-Schätzung (MLS)

Im Falle einer nichtskalaren Kovarianzmatrix, wie sie bei der verallgemeinerten Methode der kleinsten Quadrate zum Einsatz kommt, lässt sich die gemeinsame Wahrscheinlichkeitsdichte aus einer Maximum-Likelihood-Schätzung eines klassischen linearen Modells der Normalregression schreiben als:

\prod _{t=1}^{T}f_{t}(y_{t}\mid \mathbf {x} _{t},{\boldsymbol {\beta }},\sigma ^{2})=f(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})=(2\pi \sigma ^{2})^{-{\frac {T}{2}}}|\mathbf {\Psi } |^{-{\frac {1}{2}}}\operatorname {exp} \left\{-{\frac {\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)^{\top }\mathbf {\Psi } ^{-1}\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)}{2\sigma ^{2}}}\right\}

,

wobei $|\mathbf {\Psi } |$ die Determinante von $\mathbf {\Psi }$ darstellt.

Erwartungstreue

Der VKQ-Schätzer ist erwartungstreu, d. h., er trifft im Mittel den wahren Parametervektor, da sein Erwartungswert gleich dem wahren Wert entspricht

{\begin{aligned}\mathbb {E} ({\hat {\boldsymbol {\beta }}}_{\text{VKQ}})&=\mathbb {E} ((\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {y} )\\&=\mathbb {E} ((\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}(\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}))\\&={\boldsymbol {\beta }}+\mathbb {E} ((\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}{\boldsymbol {\varepsilon }})\\&={\boldsymbol {\beta }}.\end{aligned}}

Dies impliziert, dass keine Verzerrung vorhanden ist. Somit ist die Verteilung des VKQ-Schätzers gegeben durch

{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}\sim {\mathcal {N}}({\boldsymbol {\beta }},\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1})

.

Beste lineare erwartungstreue Schätzfunktion (BLES)

Es lässt sich zeigen, dass der VKQ-Schätzer eine beste lineare erwartungstreue Schätzfunktion ist. Ein Schätzer ist „besser“ als ein anderer, wenn er eine kleinere Varianz aufweist, da die Varianz ein Maß für die Unsicherheit ist. Somit ist der beste Schätzer dadurch gekennzeichnet, dass er eine minimale Varianz und somit die geringste Unsicherheit aufweist. Für alle anderen linearen erwartungstreuen Schätzer ${\hat {\beta }}_{j}$ gilt somit

\operatorname {Var} ({{\hat {\beta }}_{\text{VKQ}}}_{i})\leq \operatorname {Var} ({\hat {\beta }}_{j})

.

Da der VKQ-Schätzer BLES ist, bedeutet dies, dass er mindestens so gut wie der gewöhnliche KQ-Schätzer sein muss. Die Effizienz dieses Ansatzes wird ersichtlich, weil die Differenz

D=\operatorname {Cov} (\mathbf {b} )-\operatorname {Cov} ({\hat {\boldsymbol {\beta }}})=\sigma ^{2}((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } \mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}-(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1})=\sigma ^{2}\mathbf {A} \mathbf {\Psi } \mathbf {A} ^{\top }

positiv semidefinit ist, was bedeutet, dass die Kovarianzmatrix des KQ-Ansatzes (bei Vorliegen von Heteroskedastizität ( $\mathbf {\Phi } =\sigma ^{2}\mathbf {\Psi }$ )) die Variation überschätzt und somit „größer“ als die durch die verallgemeinerte Kleinste-Quadrate-Schätzung gewonnene Kovarianzmatrix ist (siehe auch Kovarianzmatrix). Der KQ-Schätzer entspricht dem VKQ-Schätzer wenn die Differenz $D$ gleich die Nullmatrix ist, also wenn:

A:=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }-(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}=\mathbf {0}

.^[21]

Asymptotische Eigenschaften

Eine asymptotische Eigenschaft ist, dass die über $T$ Summanden gemittelte Produktsummenmatrix in Wahrscheinlichkeit zu einer positiv definiten, endlichen, nichtsingulären Matrix ${\boldsymbol {V}}$ konvergiert:

\operatorname {plim} \left({\frac {\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} }{T}}\right)={\boldsymbol {V}}

.

Aus dieser Eigenschaft folgt die Konsistenz des VKQ-Schätzers und der Varianz des VKQ-Schätzers und die Eigenschaft, dass der Schätzer in Verteilung gegen eine Normalverteilung konvergiert. Die letzte Eigenschaft ist für die statistische Inferenz von Bedeutung.

Konsistenz

Der VKQ-Schätzer ist unter den bisherigen Annahmen erwartungstreu $\mathbb {E} ({\hat {\boldsymbol {\beta }}}_{\text{VKQ}})={\boldsymbol {\beta }}$ , wobei die Stichprobengröße $T$ keinen Einfluss auf die Unverzerrtheit hat (schwaches Gesetz der großen Zahlen). Ein Schätzer ist genau dann konsistent für den unbekannten Parameter, wenn er in Wahrscheinlichkeit gegen den wahren Wert konvergiert. Die Eigenschaft der Konsistenz bezieht also das Verhalten des Schätzers mit ein, wenn die Anzahl der Beobachtungen größer wird.

Für die Folge $({{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}}_{t})_{t\in \mathbb {N} }$ gilt unter oben genanntem asymptotischem Resultat, dass sie in Wahrscheinlichkeit gegen den wahren Parametervektor konvergiert

\forall \epsilon >0\colon \lim _{t\to \infty }\mathbb {P} (|{{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}}_{t}-{\boldsymbol {\beta }}|\geq \epsilon )={\boldsymbol {0}}\Leftrightarrow {\hat {\boldsymbol {\beta }}}_{\text{VKQ}}\;{\stackrel {p}{\longrightarrow }}\;\mathbf {\boldsymbol {\beta }}

,

oder vereinfacht ausgedrückt:

\operatorname {plim} ({\hat {\boldsymbol {\beta }}}_{\text{VKQ}})={\boldsymbol {\beta }}

Der VKQ-Schätzer ist konsistent für ${\boldsymbol {\beta }}$ . Die Eigenschaft besagt, dass mit steigender Stichprobengröße die Wahrscheinlichkeit, dass der Schätzer ${\hat {\boldsymbol {\beta }}}_{\text{VKQ}}$ vom wahren Parameter ${\boldsymbol {\beta }}$ abweicht, sinkt. Für die Varianz der VKQ-Schätzers gilt ebenfalls, dass sie konsistent für $\sigma ^{2}$ ist:

\operatorname {plim} ({\hat {\sigma }}_{\text{VKQ}}^{2})=\sigma ^{2}

.

Konvergenz gegen Normalverteilung

Eine weitere Eigenschaft der VKQ-Schätzers ist, dass ${\sqrt {T}}({\hat {\boldsymbol {\beta }}}_{\text{VKQ}}-{\boldsymbol {\beta }})$ in Verteilung gegen eine Normalverteilung konvergiert

{\sqrt {T}}({\hat {\boldsymbol {\beta }}}_{\text{VKQ}}-{\boldsymbol {\beta }})\ {\xrightarrow {d}}\ {\mathcal {N}}\!\left({\boldsymbol {0}},{\sigma }^{2}{\boldsymbol {V}}^{-1}\right)

.

Diese asymptotische Normalität ist vor allem für die statistische Inferenz von Bedeutung.

Prädiktionsmatrix

Die Prädiktionsmatrix des VKQ-Schätzers ist gegeben durch

P=\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}

Es kann gezeigt werden, dass $P^{2}=P\cdot P=P$ , nicht mehr symmetrisch ist.

Durchführbare verallgemeinerte KQ-Schätzung (GVKQ)

In der Praxis ist die Kovarianzmatrix der Störgrößen $\mathbf {\Psi } ^{-1}$ oft unbekannt, sodass die verallgemeinerte Methode der kleinsten Quadrate nicht durchführbar ist. Ein konsistenter Schätzer für $\mathbf {\Psi } ^{-1}$ ist gegeben durch ${\hat {\mathbf {\Psi } }}^{-1}$ .^[22] In diesem Fall, bei dem die Matrix $\mathbf {\Psi } ^{-1}$ geschätzt werden muss, spricht man auch von der anwendbaren bzw. durchführbaren verallgemeinerten KQ-Schätzung (englisch Feasible Generalized Least Squares, kurz FGLS) oder auch von der geschätzten verallgemeinerten KQ-Schätzung bzw. GVKQ-Schätzung (englisch Estimated Generalised Least Squares, kurz EGLS); dessen Schätzer wird der geschätzte VKQ-Schätzer, kurz GVKQ-Schätzer genannt. Er ist gegeben durch:

{\boldsymbol {\hat {\hat {\beta }}}}_{\text{GVKQ}}=\left(\mathbf {X} ^{\top }{\hat {\mathbf {\Psi } }}^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }{\hat {\mathbf {\Psi } }}^{-1}\mathbf {y}

.

Es ist wichtig zu erwähnen, dass die Kovarianzmatrix $\mathbf {\Psi }$ $(T(T+1))/2$ Elemente besitzt und somit nicht durch nur $T$ geschätzte Störgrößenvektoren ${\boldsymbol {\hat {\varepsilon }}}$ geschätzt werden kann. Aus diesem Grund wird angenommen, dass die Elemente in $\mathbf {\Psi }$ Funktionen einer kleinen Anzahl von unbekannten Parametern sind.

Gewichtete kleinste Quadrate (GKQ)

Einen Spezialfall der VKQ-Methode stellt die sogenannte gewichtete Methode der kleinsten Quadrate (englisch weighted least squares, kurz WLS) dar. Sie wird angewendet, wenn alle Elemente neben der Hauptdiagonalen von $\mathbf {\Psi }$ Null sind. Diese Methode wird angewendet, wenn die Varianzen der beobachteten Werte nicht konstant sind (d. h., es liegt Heteroskedastizität vor) und keine Korrelation zwischen den beobachteten Störgrößen vorliegt. Das Gewicht der Einheit $i$ ( $w_{i}$ ) ist proportional zum Reziproken der Varianz der endogenen Variablen der Einheit $i$ .^[23] Das Optimalitätskriterium ist die gewichtete Residuenquadratsumme

GKQ({\boldsymbol {\beta }})={\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\sum _{i=1}^{n}{\frac {1}{w_{i}}}(y_{i}-\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }})^{2}=(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\top }\,\mathbf {W} ^{-1}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\quad {\text{mit}}\quad \mathbf {W} =\operatorname {diag} (w_{1},\ldots ,w_{n})

.

Anwendungen

Multiplikative Heteroskedastizität

Falls die Annahme der Homoskedastizität nicht erfüllt ist, d. h. die Diagonalelemente der Kovarianzmatrix nicht identisch sind, ergibt sich folgendes Modell:

y_{t}=\mathbf {x} _{t}^{\top }{\boldsymbol {\beta }}+\varepsilon _{t}\quad t=1,\dotsc ,T

mit

\mathbb {E} ({\boldsymbol {\varepsilon }})=\mathbf {0} \;

und

\;\operatorname {Cov} ({\boldsymbol {\varepsilon }})=\mathbb {E} ({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top })=\sigma ^{2}\mathbf {\Psi } =\mathbf {\Phi }

Allgemeine Kovarianzmatrix bei Heteroskedastizität:

\mathbb {E} ({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top })={\begin{pmatrix}\sigma _{1}^{2}&0&\cdots &0\\0&\sigma _{2}^{2}&\ddots &\vdots \\\vdots &\ddots &\ddots &0\\0&\cdots &0&\sigma _{T}^{2}\end{pmatrix}}=\sigma ^{2}\mathbf {\Psi } =\mathbf {\Phi }

Hierbei wird angenommen, dass $\mathbf {\Psi }$ eine bekannte, reelle, positiv definite und symmetrische Matrix der Dimension $T\times T$ ist.

Falls die spezielle Form der multiplikativen Heteroskedastizität vorliegt, nimmt die allgemeine Kovarianzmatrix folgende Form an:

\mathbb {E} ({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top })={\begin{pmatrix}\operatorname {exp} (\mathbf {z} _{1}^{\top }\mathbf {\alpha } )&0&\cdots &0\\0&\operatorname {exp} (\mathbf {z} _{2}^{\top }\mathbf {\alpha } )&\ddots &\vdots \\\vdots &\ddots &\ddots &0\\0&\cdots &0&\operatorname {exp} (\mathbf {z} _{T}^{\top }\mathbf {\alpha } )\end{pmatrix}}=\sigma ^{2}\mathbf {\Psi } =\mathbf {\Phi }

^[24]

Bei Vorliegen dieser Form der Heteroskedastizität lässt sich die verallgemeinerte Kleinste-Quadrate-Schätzung.

Scheinbar unverbundene Regression

Die scheinbar unverbundene Regression (englisch: seemingly unrelated regression, kurz SUR), welche eine Verallgemeinerung des linearen Regressionsmodells ist, beinhaltet eine Vielzahl von Regressionsgleichungen, die jede ihre eigene abhängige Variable und potentiell verschiedene erklärende Variablen hat. Jede Gleichung selbst ist eine valide lineare Regression und kann separat von den anderen geschätzt werden. Dadurch ergibt sich ein System von Gleichungen, welches scheinbar unverbunden genannt wird. Da die Störgrößenkovarianzmatrix der scheinbar unverbundenen Regression die Struktur:

{\begin{aligned}\operatorname {Cov} (\mathbf {e} )=\mathbb {E} (\mathbf {e} \mathbf {e} ^{\top })&={\begin{pmatrix}\operatorname {E} ({\boldsymbol {e}}_{1}{\boldsymbol {e}}_{1}^{\top })&\cdots &\operatorname {E} ({\boldsymbol {e}}_{1}{\boldsymbol {e}}_{N}^{\top })\\\\\vdots &\ddots &\vdots \\\\\operatorname {E} ({\boldsymbol {e}}_{N}{\boldsymbol {e}}_{1}^{\top })&\cdots &\operatorname {E} ({\boldsymbol {e}}_{N}{\boldsymbol {e}}_{N}^{\top })\end{pmatrix}}={\begin{pmatrix}\sigma _{11}\mathbf {I} _{T}&\cdots &\sigma _{1N}\mathbf {I} _{T}\\\\\vdots &\ddots &\vdots \\\\\sigma _{N1}\mathbf {I} _{T}&\cdots &\sigma _{NN}\mathbf {I} _{T}\end{pmatrix}}={\begin{pmatrix}\sigma _{11}&\cdots &\sigma _{1N}\\\\\vdots &\ddots &\vdots \\\\\sigma _{N1}&\cdots &\sigma _{NN}\end{pmatrix}}\otimes \mathbf {I} _{T}\\\\&=\mathbf {\Sigma } \otimes \mathbf {I} _{T}=\mathbf {\Phi } \end{aligned}}

hat, ergibt sich bei der scheinbar unverbundenen Regression folgender VKQ-Schätzer:

{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}=\left(\mathbf {X} ^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )\mathbf {y}

.

Es kann gezeigt werden, dass dieser VKQ-Schätzer äquivalent zum KQ-Schätzer ist, wenn man in obige Formel den Querschnitt ${\overline {\mathbf {X} }}$ der Daten einsetzt.

Beweis
${\begin{aligned}{\hat {\boldsymbol {\beta }}}_{\text{VKQ}}&=\left(\mathbf {X} ^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )\mathbf {y} =\left((\mathbf {I} \otimes {\overline {\mathbf {X} }})^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )(\mathbf {I} \otimes {\overline {\mathbf {X} }})\right)^{-1}(\mathbf {I} \otimes {\overline {\mathbf {X} }})^{\top }(\mathbf {\Sigma } ^{-1}\otimes \mathbf {I} )\mathbf {y} \\&=\left(\mathbf {\Sigma } ^{-1}\otimes {\overline {\mathbf {X} }}^{\top }{\overline {\mathbf {X} }}\right)^{-1}\left(\mathbf {\Sigma } ^{-1}\otimes {\overline {\mathbf {X} }}^{\top }\right)\mathbf {y} =\left(\mathbf {\Sigma } \otimes ({\overline {\mathbf {X} }}^{\top }{\overline {\mathbf {X} }})^{-1}\right)\left(\mathbf {\Sigma } ^{-1}\otimes {\overline {\mathbf {X} }}^{\top }\right)\mathbf {y} \\&=\left(\mathbf {I} \otimes ({\overline {\mathbf {X} }}^{\top }{\overline {\mathbf {X} }})^{-1}{\overline {\mathbf {X} }}^{\top }\right)\mathbf {y} =\left((\mathbf {I} \otimes {\overline {\mathbf {X} }})^{\top }(\mathbf {I} \otimes {\overline {\mathbf {X} }})\right)^{-1}(\mathbf {I} \otimes {\overline {\mathbf {X} }})^{\top }\mathbf {y} \\&=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {y} \\&=\mathbf {b} \end{aligned}}$ .

Siehe auch

Cochrane-Orcutt-Schätzung

Literatur

George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4
Takeshi Amemiya: Advanced Econometrics. Harvard University Press, 1985, ISBN 0-674-00560-0, Generalized Least Squares Theory (google.com).
John Johnston: Econometric Methods. Second Auflage. McGraw-Hill, New York 1972, Generalized Least-squares, S. 208–242 (google.com).
Jan Kmenta: Elements of Econometrics. Second Auflage. Macmillan, New York 1986, ISBN 0-472-10886-7, Generalized Linear Regression Model and Its Applications, S. 607–650 (google.com).

Einzelnachweise und Anmerkungen

↑ Moritz Cantor: Gauß: Karl Friedrich G. In: Allgemeine Deutsche Biographie (ADB). Band 8, Duncker & Humblot, Leipzig 1878, S. 430–445., S. 436.
↑ Adrien-Marie Legendre: Nouvelles méthodes pour la détermination des orbites des comètes. Paris 1805, S. 72–80 (Anhang): Sur la Méthode des moindres quarrés.
↑ Carl Friedrich Gauß: Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. Göttingen 1809; Carl Haase (Übers.): Theorie der Bewegung der Himmelskörper, welche in Kegelschnitten die Sonne umlaufen. Hannover 1865.
↑ Matrices and determinants
↑ Carl Friedrich Gauß: Theoria combinationis observationum erroribus minimis obnoxiae. 2 Tle. Göttingen 1821–1823 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, Bd. 5.); Supplementum Theoria combinationis observationum erroribus minimis obnoxiae. Göttingen 1826/28 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, Bd. 6.); Anton Börsch Paul Simon (Hrsg.): Abhandlungen zur Methode der kleinsten Quadrate von Carl Friedrich Gauss. In deutscher Sprache. Berlin 1887.
↑ Pete Stewart, 21. Juni 1991: Maybe We Should Call It “Lagrangian Elimination”, NA Digest Sunday, June 30, 1991 Volume 91, Issue 26.
↑ A. C. Aitken: On Least-squares and Linear Combinations of Observations. In: Proceedings of the Royal Society of Edinburgh. 55. Jahrgang, 1934, S. 42–48.
↑ Robertnowlan: Alexander Aitken@1@2Vorlage:Toter Link/www.robertnowlan.com (Seite nicht mehr abrufbar, festgestellt im Mai 2019. Suche in Webarchiven)
↑ A. C. Aitken, H. Silverstone: On the Estimation of Statistical Parameters. In: Proceedings of the Royal Society of Edinburgh, 1942, 61, S. 186–194.
↑ Takeaki Kariya, Hiroshi Kurata: Generalized Least Squares
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 328.
↑ Fritz Pokropp: Lineare Regression und Varianzanalyse 2015, ISBN 978-3-486-78668-2, S. 108 (abgerufen über De Gruyter Online).
↑ Fritz Pokropp: Lineare Regression und Varianzanalyse 2015, ISBN 978-3-486-78668-2, S. 107 (abgerufen über De Gruyter Online).
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 328.
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 330.
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 341.
↑ G. Judge, R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1998, S. 342.
↑ $\arg \min(\cdot )$ bezeichnet analog zu $\arg \max(\cdot )$ (Argument des Maximums) das Argument des Minimums
↑ Bei der gewöhnlichen Methode der kleinsten Quadrate wird im Gegensatz zur verallgemeinerten Methode der kleinsten Quadrate eine ungewichtete Fehlerquadratsumme $(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\top }(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})$ minimiert
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 330.
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 331.
↑ B. H. Baltagi: Econometrics. 4th ed. Springer, New York 2008.
↑ T. Strutz: Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). Springer Vieweg, 2016, ISBN 978-3-658-11455-8. , chapter 3
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 366.

[1] Moritz Cantor: Gauß: Karl Friedrich G. In: Allgemeine Deutsche Biographie (ADB). Band 8, Duncker & Humblot, Leipzig 1878, S. 430–445., S. 436.

[2] Adrien-Marie Legendre: Nouvelles méthodes pour la détermination des orbites des comètes. Paris 1805, S. 72–80 (Anhang): Sur la Méthode des moindres quarrés.

[3] Carl Friedrich Gauß: Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. Göttingen 1809; Carl Haase (Übers.): Theorie der Bewegung der Himmelskörper, welche in Kegelschnitten die Sonne umlaufen. Hannover 1865.

[4] Matrices and determinants

[5] Carl Friedrich Gauß: Theoria combinationis observationum erroribus minimis obnoxiae. 2 Tle. Göttingen 1821–1823 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, Bd. 5.); Supplementum Theoria combinationis observationum erroribus minimis obnoxiae. Göttingen 1826/28 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, Bd. 6.); Anton Börsch Paul Simon (Hrsg.): Abhandlungen zur Methode der kleinsten Quadrate von Carl Friedrich Gauss. In deutscher Sprache. Berlin 1887.

[6] Pete Stewart, 21. Juni 1991: Maybe We Should Call It “Lagrangian Elimination”, NA Digest Sunday, June 30, 1991 Volume 91, Issue 26.

[7] A. C. Aitken: On Least-squares and Linear Combinations of Observations. In: Proceedings of the Royal Society of Edinburgh. 55. Jahrgang, 1934, S. 42–48.

[8] Robertnowlan: Alexander Aitken@1@2Vorlage:Toter Link/www.robertnowlan.com (Seite nicht mehr abrufbar, festgestellt im Mai 2019. Suche in Webarchiven)

[9] A. C. Aitken, H. Silverstone: On the Estimation of Statistical Parameters. In: Proceedings of the Royal Society of Edinburgh, 1942, 61, S. 186–194.

[10] Takeaki Kariya, Hiroshi Kurata: Generalized Least Squares

[11] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 328.

[12] Fritz Pokropp: Lineare Regression und Varianzanalyse 2015, ISBN 978-3-486-78668-2, S. 108 (abgerufen über De Gruyter Online).

[13] Fritz Pokropp: Lineare Regression und Varianzanalyse 2015, ISBN 978-3-486-78668-2, S. 107 (abgerufen über De Gruyter Online).

[14] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 328.

[15] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 330.

[16] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 341.

[17] G. Judge, R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1998, S. 342.

[18] $\arg \min(\cdot )$ bezeichnet analog zu $\arg \max(\cdot )$ (Argument des Maximums) das Argument des Minimums

[19] Bei der gewöhnlichen Methode der kleinsten Quadrate wird im Gegensatz zur verallgemeinerten Methode der kleinsten Quadrate eine ungewichtete Fehlerquadratsumme $(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\top }(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})$ minimiert

[20] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 330.

[21] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 331.

[Baltagi2008-22] B. H. Baltagi: Econometrics. 4th ed. Springer, New York 2008.

[23] T. Strutz: Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). Springer Vieweg, 2016, ISBN 978-3-658-11455-8. , chapter 3

[24] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 366.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]