Testtheorie (Statistik)

Die Testtheorie ist neben der Schätztheorie ein zentrales Teilgebiet der mathematischen Statistik und beschäftigt sich mit der Konstruktion und Untersuchung von statistischen Tests. Solche Tests versuchen, aufgrund vorliegender Daten Fragen wie

Wirkt ein neues Medikament wirklich besser als das ältere, gut untersuchte Präparat?
Ist der Klimawandel anthropogen verursacht oder nicht?
Wird sich der Bau einer Fabrik an einem neuen Standort innerhalb von zehn Jahren rechnen oder nicht?

zu beantworten. Dabei spielt einerseits die Modellierung und Konstruktion eines Tests eine Rolle, andererseits auch die Frage, welchen Qualitätsansprüchen ein Test genügen sollte und ob ein solcher Test überhaupt existiert.

Im Allgemeinen werden mögliche Fehler bei der Entscheidung für oder gegen eine Hypothese asymmetrisch bewertet. Beispielsweise hätte im Falle des genannten Medikamententests die Entscheidung für das neue Medikament, wenn es schlechter als das bereits vorhandene ist, wesentlich dramatischere Folgen (schwere Schädigungen von Patienten, hohe Kosten für mögliche Entschädigungsansprüche, vergeblicher Kostenaufwand für die Neueinführung, Imageverlust, …) als die umgekehrte Fehlentscheidung, bei der das neue Medikament verworfen wird, obwohl es eine Verbesserung darstellt (verpasste Marktchance). In der Regel ist es weitaus wichtiger, einen Fehler der ersten Art zu vermeiden als einen Fehler der zweiten Art. Diese Asymmetrie spiegelt sich in der Modellierung wider, indem vorrangig die Wahrscheinlichkeit eines Fehlers der ersten Art beschränkt wird. Das motiviert die folgenden Begriffsbildungen.

Grundbegriffe

Nullhypothese und Alternative

Gegeben ist ein (nicht notwendigerweise parametrisches) statistisches Modell $(X,{\mathcal {A}},(P_{\vartheta })_{\vartheta \in \Theta })$ . Dabei formalisiert $X$ die Werte, welche die Daten annehmen können, ${\mathcal {A}}$ ist eine σ-Algebra, die beschreibt, welchen Teilmengen von $X$ eine Wahrscheinlichkeit zugeordnet wird. $(P_{\vartheta })_{\vartheta \in \Theta }$ ist eine Familie von Wahrscheinlichkeitsmaßen. Die Indexmenge $\Theta$ wird dann disjunkt in zwei Mengen $\Theta _{0}$ und $\Theta _{1}$ zerlegt. Dabei bedeutet

$\Theta _{0}$ die Nullhypothese und steht für die Menge aller günstigen Testfälle
$\Theta _{1}$ die Alternativhypothese oder kurz Alternative und vereint alle ungünstigen Testfälle.

Die zentrale Frage der Testtheorie lautet nun: Angenommen, es liegt irgendeine unbekannte Wahrscheinlichkeitsverteilung $P_{\vartheta }$ mit $\vartheta \in \Theta$ vor und Daten $x\in X$ sind gegeben. Wie kann man eine möglichst gute Aussage darüber treffen, ob $\vartheta \in \Theta _{0}$ ist oder $\vartheta \in \Theta _{1}$ ist?

Zu beachten ist, dass sich die Rolle der Nullhypothese und die der Alternative auch umkehren kann, wenn sich die Fragestellung ändert.

Statistischer Test

Der statistische Test formalisiert die zu treffende Entscheidung. Dabei wird 0="Annahme der Nullhypothese" und 1="Annahme der Alternative" gesetzt. Werte zwischen 0 und 1 entsprechen dann der Wahrscheinlichkeit, sich für die Alternative zu entscheiden. Mathematisch ist ein Test eine messbare Funktion

\Phi :(X,{\mathcal {A}})\to ([0,1],{\mathcal {B}}|_{[0,1]})

die bei Vorliegen der Daten $x$ eine Entscheidung $\Phi (x)$ liefert. Man spricht dann auch von einem Test von $\Theta _{0}$ gegen $\Theta _{1}$ . Die Menge

\{x\in X\,\mid \,\Phi (x)=1\}

heißt der Ablehnungsbereich des Tests und enthält alle Daten, bei deren Vorliegen man sich für die Alternative entscheidet.

Ein Test heißt ein nichtrandomisierter Test, wenn $\Phi (x)\in \{0,1\}\quad \mathrm {f{\ddot {u}}r\;\;alle\;\;} x\in X$ . Ansonsten heißt der Test ein randomisierter Test. Nichtrandomisierte Tests liefern also immer eine eindeutige Entscheidung.

Fehler 1. und 2. Art

Ist ein $\vartheta \in \Theta$ gegeben, so kann man auf zwei verschiedene Arten einen Fehler begehen. Als Fehler 1. Art bezeichnet man die Entscheidung für $\Theta _{1}$ , obwohl $\vartheta \in \Theta _{0}$ ist. Mit Rückgriff auf die Notation der bedingten Wahrscheinlichkeit ist dann

\alpha =P(\mathrm {Entscheidung\;\;f{\ddot {u}}r\;\;} \Theta _{1}\mid \vartheta \in \Theta _{0})

die Wahrscheinlichkeit für einen Fehler 1. Art. Analog spricht man von einem Fehler 2. Art, wenn man sich für $\Theta _{0}$ entscheidet, aber $\vartheta \in \Theta _{1}$ ist. Die Wahrscheinlichkeit für einen Fehler 2. Art ist somit

\beta =P(\mathrm {Entscheidung\;\;f{\ddot {u}}r\;\;} \Theta _{0}\mid \vartheta \in \Theta _{1})

Gütefunktion, Niveau und Trennschärfe

Für einen vorliegenden Test heißt die Funktion

G_{\Phi }(\vartheta )=\operatorname {E} _{\vartheta }(\Phi )

die Gütefunktion des Tests. Dabei bezeichnet $\operatorname {E} _{\vartheta }$ den Erwartungswert bezüglich des Wahrscheinlichkeitsmaßes $P_{\vartheta }$ .

Ist ein $\alpha \in [0,1]$ gegeben, so dass

G_{\Phi }(\vartheta )\leq \alpha \quad \mathrm {f{\ddot {u}}r\;alle\;} \vartheta \in \Theta _{0}

,

so nennt man $\alpha$ das Niveau des Tests. Gilt sogar

\sup _{\vartheta \in \Theta _{0}}G_{\Phi }(\vartheta )=\alpha

,

so heißt $\alpha$ das effektive Niveau des Tests. Das effektive Niveau des Tests ist somit eine obere Schranke für einen Fehler 1. Art.

Für ein $\vartheta \in \Theta _{1}$ heißt $G_{\Phi }(\vartheta )$ die Trennschärfe des Tests an der Stelle $\vartheta$ . Sie entspricht der Wahrscheinlichkeit, einen Fehler 2. Art nicht zu machen, wenn der Parameter $\vartheta$ vorliegt.

Optimalitätsbegriffe für Tests

Für Tests lassen sich verschiedene Optimalitätsbegriffe formulieren, die sich in ihrer Stärke unterscheiden. Je stärker der Optimalitätsbegriff, umso stärker die Voraussetzungen, unter denen ein optimaler Test existiert. Neben Optimalitätsbegriffen formuliert man oft auch Reduktionsprinzipien (siehe unten), um optimale Tests nur innerhalb kleinerer Mengen von Tests suchen zu müssen.

Gleichmäßig beste Tests

Ein gleichmäßig bester Test ist ein Test, dessen Trennschärfe immer größer als die aller anderen Tests zu einem vorgegebenen Niveau. Somit ist die Wahrscheinlichkeit für einen Fehler 2. Art bei gleichmäßig besten Tests immer kleiner als für einen beliebigen weiteren Test.

Zentrale Existenzaussage für gleichmäßig beste Tests ist das Neyman-Pearson-Lemma. Es besagt, dass der Neyman-Pearson-Test ein gleichmäßig bester Test ist. Dieses Resultat kann unter geeigneten Voraussetzungen (z. B. bei monotonen Dichtequotienten) auf allgemeinere Testprobleme ausgeweitet werden.

Maximin-Tests

Maximin-Tests sind Tests, bei denen die Worst-Case-Wahrscheinlichkeit für einen Fehler 2. Art kleiner ist als bei allen anderen Tests zu einem vorgegebenen Niveau. Großer Vorteil von Maximin-Tests ist, dass sie unter weitaus allgemeineren Voraussetzungen existieren als gleichmäßig beste Tests.

Strenge Tests

Strenge Tests sind Tests, bei denen die maximale Abweichung der Trennschärfe von der Trennschärfe des lokal besten Tests (bzw. der envelope power function) kleiner ist als bei allen anderen Tests zum vorgegebenen Niveau. Wie auch Maximin-Tests existieren strenge Tests bereits unter schwachen Voraussetzungen.

Reduktionsprinzipien

Als Reduktionsprinzipien bezeichnet man Vorgehensweisen, die es erlauben, in kleinere Klassen von Tests nach optimalen Elementen zu suchen. Ein wichtiges Reduktionsprinzip ist die Einschränkung auf unverfälschte Tests. Dies sind diejenigen Tests zu einem vorgegebenen Niveau, bei denen die Trennschärfe des Tests immer über dem Niveau liegt. Somit sind unverfälschte Tests immer besser als der „naive“ Test, der eine rein zufällige Entscheidung auslost. Ein wichtiges Hilfsmittel zum Auffinden von gleichmäßig besten unverfälschten Tests sind die ähnlichen Tests. Bei diesen nimmt die Gütefunktion auf dem Übergang von Nullhypothese zu Alternative genau den Wert des Niveaus an.

Testtheorie als Entscheidungsproblem

Viele Optimalitäts- und Reduktionsprinzipien der Testtheorie lassen sich im Rahmen der Entscheidungstheorie in ein statistisches Entscheidungsproblem einordnen und miteinander vergleichen.

Grundlage des statistischen Entscheidungsproblems ist wie in der Testtheorie ein statistisches Modell ${\mathcal {E}}=(X,{\mathcal {A}},(P_{\vartheta })_{\vartheta \in \Theta })$ sowie ein Entscheidungsraum, der in der Testtheorie stets $([0,1],{\mathcal {B}}([0,1]))$ ist. Entscheidungsfunktionen sind dann genau die statistischen Tests, wobei die randomisierten Tests den randomisierten Entscheidungsfunktionen entsprechen, die nichtrandomisierten Tests entsprechend den nichtrandomisierten Entscheidungsfunktionen.

Typische Wahl für die Verlustfunktion ist die Neyman-Pearson-Verlustfunktion, die bei gleicher Gewichtung für den Fehler 1. und 2. Wahl die Risikofunktion

R(\vartheta ,\Phi )={\begin{cases}\alpha (\vartheta )&{\text{ falls }}\quad \vartheta \in \Theta _{0}\\\beta (\vartheta )&{\text{ falls }}\quad \vartheta \in \Theta _{1}\end{cases}}

für einen statistischen Test $\Phi$ liefert. Hierbei bezeichnen $\alpha$ bzw. $\beta$ die Wahrscheinlichkeit für einen Fehler 1. bzw. 2. Art, wenn $\vartheta$ vorliegt.

Schränkt man die Menge der Tests nun auf die Menge der Tests zum Niveau $\alpha$ ein und verwendet obige Risikofunktion, so sind

die gleichmäßig besten Tests genau die zulässigen Entscheidungsfunktionen
die Maximin-Tests genau die Minimax-Entscheidungsfunktionen.

Literatur

Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, doi:10.1515/9783110215274.
Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, doi:10.1007/978-3-642-41997-3.
Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, doi:10.1007/978-3-642-17261-8.