Schätztheorie

Die Schätztheorie ist neben der Testtheorie ein zentrales Gebiet der induktiven Statistik. Sie befasst sich zum einen mit der Frage Schätzfunktionen für unbekannte Parameter einer Grundgesamtheit zu entwickeln. Zum anderen möchte sie aber auch Qualitätsaussagen über die entwickelten Schätzfunktionen machen. Siehe auch statistische Inferenz.

Grundlegende Modellierung

Zugrunde liegt der Schätztheorie ein statistisches Modell $({\mathcal {X}},{\mathcal {A}},(P_{\vartheta })_{\vartheta \in \Theta })$ . Dabei enthält

${\mathcal {X}}$ alle möglichen Werte, welche die Stichprobe annehmen kann,
${\mathcal {A}}$ alle Mengen, denen man eine Wahrscheinlichkeit zuordnen will,
$(P_{\vartheta })_{\vartheta \in \Theta }$ alle Wahrscheinlichkeitsmaße auf $({\mathcal {X}},{\mathcal {A}})$ , die man für möglich oder relevant erachtet.

Des Weiteren ist eine Funktion

g\colon \Theta \to E

gegeben, die jedem Wahrscheinlichkeitsmaß $P_{\vartheta }$ aufgrund seines Index $\vartheta$ den zu schätzenden Wert, beispielsweise einen Verteilungsparameter oder eine Größe aus der ein solcher berechnet werden kann, zuweist. Meist handelt es sich hier um Erwartungswert, Varianz oder Median, dann ist $E=\mathbb {R}$ . Im Falle eines parametrischen statistischen Modells heißt diese Funktion Parameterfunktion

Ein Punktschätzer oder einfach Schätzer ist dann eine Funktion

T\colon ({\mathcal {X}},{\mathcal {A}})\to (E,{\mathcal {E}})

für einen Entscheidungsraum $(E,{\mathcal {E}})$ . Sie ordnet jeder Stichprobe $x\in {\mathcal {X}}$ einen geschätzten Wert für den zu schätzenden Wert zu. Hier ist wieder am häufigsten $(E,{\mathcal {E}})=(\mathbb {R} ,{\mathcal {B}}(\mathbb {R} ))$ oder entsprechende Teilmengen oder höherdimensionale Äquivalente.

Bei dieser Schätzung ist das zugrunde liegende Wahrscheinlichkeitsmaß $P_{\vartheta }$ unbekannt. Allerdings sind die Stichproben gemäß diesem Wahrscheinlichkeitsmaß verteilt und erlauben daher einen Rückschluss auf gewisse Eigenschaften des Wahrscheinlichkeitsmaßes.

Die Verteilung der Stichproben gemäß einem Wahrscheinlichkeitsmaß wird dadurch formalisiert, das man sie als Realisierung einer Zufallsvariable $X$ mit Verteilung $P_{\vartheta }$ schreibt. So bezeichnet $T(X)$ die Zufallsvariable, die entsteht, wenn die Stichprobe selbst als Zufallsvariable angesehen wird. Analog bezeichnet dann $T(x)$ die Auswertung der Realisierung $x$ der Zufallsvariable $X$ . $T(X)$ ist eine Funktion, $T(x)$ eine Auswertung dieser Funktion an der Stelle $x$ .

Methoden der Schätzfunktionengewinnung

Man geht aus von Stichprobenvariablen $X_{i}$ , also von Zufallsvariablen, deren Verteilung die Wahrscheinlichkeit angibt, welche Merkmalsausprägung (für diskrete Daten) bzw. welcher Bereich von Merkmalsausprägungen (für stetige Daten), für die $i$ -te Beobachtung einer Stichprobe auftreten. In der Verteilung der Stichprobenvariablen treten die gesuchten Parameter der Grundgesamtheit auf.

Im Laufe der Zeit sind verschiedene Methoden zur Gewinnung von Schätzfunktionen entwickelt worden, z. B.

Die Schätzfunktionen und deren Verteilung sind dann Grundlage von Punktschätzern und Intervallschätzern (Konfidenzintervalle).

Qualitätskriterien für Schätzer

Die Qualität bzw. Güte eines Punktschätzers wird nach unterschiedlichen Kriterien bemessen. Dabei lassen sich zwei verschiedene Klassen von Gütekriterien unterscheiden:

Kriterien, die einen direkten Vergleich im Sinne von besser / schlechter zwischen Schätzern zulassen.
Einschränkungen auf Klassen von Schätzern, die gewisse wünschenswerte strukturelle Eigenschaften aufweisen.

Zu den ersteren gehören beispielsweise die Effizienz und der mittlere quadratische Fehler, zu den zweiten die Suffizienz.

Die klassischen Gütekriterien der Schätztheorie sind Effizienz, Erwartungstreue, Konsistenz und Suffizienz.

Effizienz

Die Güte eines Schätzers wird meist über seinen mittleren quadratischen Fehler

\operatorname {MSE} (T,\vartheta ):=\operatorname {E} _{\vartheta }\left(\left(T-g(\vartheta )\right)^{2}\right)

definiert. Dabei werden größere Abweichungen von der zu schätzenden Funktion durch das Quadrat stärker gewichtet. Ein Schätzer $T$ heißt dann effizienter als $S$ , wenn

\operatorname {MSE} (T,\vartheta )\leq \operatorname {MSE} (S,\vartheta )\quad \mathrm {f{\ddot {u}}r\;alle\;} \vartheta \in \Theta

.

Im erwartungstreuen Fall reduziert sich dies zu

\operatorname {Var} _{\vartheta }(T)\leq \operatorname {Var} _{\vartheta }(S)\quad \mathrm {f{\ddot {u}}r\;alle\;} \vartheta \in \Theta

.

Gesucht werden meist „absolut“ effiziente Schätzer, also solche, die effizienter sind als jeder weitere Schätzer in einer vorgegebenen Menge. Unter relativ milden Annahmen an eine Schätzfunktion sichert die Cramér-Rao-Ungleichung eine untere Schranke für die Varianz von erwartungstreuen Schätzfunktionen für ein Schätzproblem zu. Hat man eine Schätzfunktion mit dieser Varianz gefunden, kann es keine effizientere Schätzfunktion mehr geben.

Erwartungstreue

Ein erwartungstreuer Schätzer trifft „im Mittel“ immer den zu schätzenden Wert, es gilt also

\operatorname {E} _{\vartheta }(T)=g(\vartheta )\quad \mathrm {f{\ddot {u}}r\;alle\;} \vartheta \in \Theta

.

Ist ein Schätzer nicht erwartungstreu, so nennt man ihn verzerrt. Eine Abschwächung der Erwartungstreue ist die asymptotische Erwartungstreue. Bei ihr gilt die Erwartungstreue erst im Grenzwert. Eine Verallgemeinerung der Erwartungstreue ist die L-Unverfälschtheit, sie enthält neben der Erwartungstreue auch noch die Median-Unverfälschtheit als Spezialfall.

Konsistenz

Die Konsistenz ist ein asymptotisches Gütekriterium und formalisiert, dass für große Stichproben die Wahrscheinlichkeit, dass der geschätzte Wert von dem zu schätzenden Wert abweicht, sehr klein werden soll. Es soll also gelten

\lim _{n\to \infty }P(|T_{n}-g(\vartheta )|>\varepsilon )=0

.

Es existieren unterschiedliche Versionen des Konsistenzbegriffes, welche sich durch die verwendeten Konvergenzarten unterscheiden.

Suffizienz

Die Suffizienz formalisiert, dass alle für die Schätzung relevanten Informationen beachtet werden. Man unterscheidet in suffiziente Statistiken, die alle Daten von Relevanz übertragen, und suffiziente σ-Algebren, die alle relevanten Daten enthalten. Eine Verschärfung der Suffizienz ist die Minimalsuffizienz, sie beschäftigt sich mit der Frage, wie sehr Daten komprimiert werden können, ohne dass Informationsverlust auftritt. Ihre Bedeutung erlangt die Suffizienz unter anderem durch den Satz von Rao-Blackwell. Dieser besagt, dass optimale Schätzer immer in der Klasse der suffizienten Schätzer zu finden sind.

Zentrale Aussagen

Illustration der Cramer-Rao Schranke: es gibt keinen unberührten Schätzer, welcher den (2-dimensionalen) Parameter mit niedrigerer Varianz schätzt als die Cramer-Rao Schranke, welche als Standardabweichungs-Ellipse dargestellt ist

Zu den zentralen Aussagen der Schätztheorie gehören:

Der Satz von Rao-Blackwell: Er liefert zu einem vorgegebenen Punktschätzer eine Modifikation dieses Schätzers mit geringerer Varianz.
Der Satz von Lehmann-Scheffé: Er beschreibt aufbauend auf dem Satz von Rao-Backwell die Struktur gleichmäßig bester erwartungstreuer Schätzer. Analog dazu beschreibt der Satz von Barankin und Stein die Struktur lokal minimaler Schätzer.
Die Cramér-Rao-Ungleichung: Sie liefert in regulären statistischen Modellen eine untere Schranke für die Varianz von erwartungstreuen Schätzern. Eine Spezialisierung ist die Chapman-Robbins-Ungleichung, sie liefert bei Grenzübergang eine punktweise Version der Cramér-Rao-Ungleichung.

Punktschätzung als Entscheidungsproblem

Viele Optimalitäts- und Reduktionsprinzipien der Schätztheorie lassen sich im Rahmen der Entscheidungstheorie sinnvoll in ein statistisches Entscheidungsproblem einordnen und miteinander vergleichen.

Grundlage des statistischen Entscheidungsproblems ist wie in der Schätztheorie ein statistisches Modell ${\mathcal {E}}=({\mathcal {X}},{\mathcal {A}},(P_{\vartheta })_{\vartheta \in \Theta })$ sowie ein Entscheidungsraum $(E,{\mathcal {E}})$ . Entscheidungsfunktionen sind dann genau die Punktschätzer

S:({\mathcal {X}},{\mathcal {A}})\to (E,{\mathcal {E}})

.

Ist nun

g:\Theta \to E

eine zu schätzende Funktion (im parametrischen Fall Parameterfunktion genannt),

so lassen sich verschiedene Verlustfunktionen

L:\Theta \times E\to [0,+\infty ]

definieren. Typische Verlustfunktionen sind

der Gauß-Verlust $L_{2}(\vartheta ,e):=\Vert e-g(\vartheta )\Vert ^{2}$
der Laplace-Verlust $L_{1}(\vartheta ,e):=\Vert e-g(\vartheta )\Vert$
eine Einschränkung auf konvexe Verlustfunktionen $L(e-g(\vartheta ))$ .

Die zum Gauß-Verlust zugehörige Risikofunktion ist dann der mittlere quadratische Fehler, die zum Laplace-Verlust gehörende Risikofunktion der mittlere betragliche Fehler. Statistisches Modell, zu schätzende Funktion, Entscheidungsraum und Verlustfunktion werden dann zu einem Schätzproblem zusammengefasst.

Typische Reduktionskriterien sind:

Suffizienz: Der Satz von Rao-Blackwell liefert nun, dass für alle konvexen Verlustfunktionen (und somit auch für den Laplace- und Gauß-Verlust) die Bedingung auf suffiziente Schätzer immer mit einer gleichmäßigen Verminderung des Risikos einhergeht und begründet somit die Einschränkung der Suche von Elementen minimalen Risikos auf suffiziente Schätzer.
L-Unverfälschtheit: Pragmatisch motiviert ist die Einschränkung auf L-unverfälschte Schätzer. Diese weisen keinen systematischen Fehler auf. Spezialfällen sind Erwartungstreue (Gauß-Verlust) und Median-Unverfälschtheit (Laplace-Verlust). Für die Erwartungstreue reduziert sich dann das Risiko eines Schätzers auf seine Varianz.

So sind dann beispielsweise die zulässigen Entscheidungsfunktionen bezüglich des Gauß-Verlustes in der Menge der erwartungstreuen Schätzer genau die gleichmäßig besten erwartungstreuen Schätzer und ein Schätzer ist genau dann relativ effizienter als ein weiterer Schätzer, wenn sein Risiko stets kleiner ist als das des zweiten Schätzers.

Literatur

Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin/ Heidelberg 2014, ISBN 978-3-642-41996-6, doi:10.1007/978-3-642-41997-3.
Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin/ Heidelberg 2011, ISBN 978-3-642-17260-1, doi:10.1007/978-3-642-17261-8.
J. Hartung, B. Elpelt, K-H. Klösener: Statistik. Oldenbourg, München/ Wien 1995, ISBN 3-486-23387-4.
H. Pruscha: Vorlesungen über Mathematische Statistik. B. G. Teubner, Stuttgart 2000, ISBN 3-519-02393-8.