Defizit (Statistik)
Das Defizit (französisch déficience, englisch deficiency) ist in der Statistik eine Norm zur Beurteilung eines statistischen Modells in Relation zu einem anderen statistischen Modell . Der Begriff wurde in den 1960er von dem französischen Mathematiker Lucien Le Cam eingeführt, um den Satz von Blackwell-Sherman-Stein neu zu formulieren.[1] Eng verwandt ist die Le-Cam-Distanz, eine Pseudometrik, welche das maximale Defizit zweier statistischen Modelle misst. Wenn das Defizit des Modells zu Null ist, dann nennt man besser oder informativer oder stärker als .
Einführung in die Problemstellung
BearbeitenDavid Blackwell definierte das statistische Modell als einen Wahrscheinlichkeitsraum mit einer Familie von Wahrscheinlichkeitsmaßen . Eine natürliche Frage ist nun, wann besser oder informativer als ein anderes statistisches Modell ist, welches dasselbe Experiment modelliert.
Mathematiker versuchten das Problem zu lösen, darunter Frederic Bohnenblust, Lloyd S. Shapley, Seymour Sherman sowie David Blackwell und Elias Stein. Aus deren Arbeiten resultierte der Satz von Blackwell-Sherman-Stein, welcher mit Hilfe von Markow-Kernen formuliert werden kann. Kurzgesagt, sagt der Satz, dass besser als ist, wenn durch eine Randomisierung von über den Markow-Kern entstehen kann. Das Problem an dem Satz war, dass viele Modelle nicht miteinander vergleichbar waren. Le Cam führte den Begriff des Defizits ein, notiert als , und formulierte eine neue, approximative Variante des Satzes von Blackwell-Sherman-Stein. Die Existenz einer Randomisierung wird durch die Aussage ersetzt. Modellen, welche nicht miteinander vergleichbar sind, kann somit über das Defizit trotzdem eine Zahl zugeordnet werden.[2][3]
Le-Cam-Theorie
BearbeitenLe Cam definierte das statistische Modell abstrakter als Blackwell, das heißt nicht in Form eines Wahrscheinlichkeitsraumes mit einer Familie von Wahrscheinlichkeitsmaßen, sondern über Banachverbände. Le Cam verwendete auch den Begriff des Experiments statt des Modells.
In seiner 1964 veröffentlichten Arbeit definierte er das statistische Modell als Tripel mit Indexmenge , bestehend aus Menge , einem Vektor-Verband mit Einheit und einer Familie von positiven normierten Funktionalen auf .[4] Die ersetzen somit die Wahrscheinlichkeitsmaße. In seinem 1986 veröffentlichten Buch verzichtete er dann ganz auf und .[5] Im Artikel wird die Definition und Terminologie seines 1986 veröffentlichten Buch verwendet, das heißt wir verwenden den Begriff des Experiments.
Defizit
BearbeitenWir folgen dem Vokabular aus der Einleitung und werden zuerst ein paar weitere Grundbegriffe definieren.
Abstrakte L1-Räume, Experimente, M-Räume und Übergänge
BearbeitenZuerst definieren wir den abstrakten L1-Raum.
- Einen Banachverband nennt man einen abstrakten L1-Raum oder kurz L-Raum, falls für alle positiven Elemente auch gilt.
Für einen L-Raum definieren wir nun den Begriff des Experiments.
- Sei eine Indexmenge und ein L-Raum bestehend aus positiven linearen Funktionalen . Ein Experiment ist eine Abbildung der Form , so dass . Der Raum ist das durch erzeugte Band und wird auch L-Raum von genannt, deshalb notieren wir ihn mit . Für ein definiert man außerdem den nicht-negativen Teil als .
Für einen L-Raum definieren wir seinen abstrakten M-Raum.
- Den topologischen Dualraum eines L-Raumes , ausgestattet mit der konjugierten Norm , nennt man abstrakten M-Raum oder M-Raum. Der M-Raum ist ein Vektorverband und besitzt eine Einheit definiert durch für .
Für zwei L-Räume und zu zwei Experimenten und definieren wir den Übergang, das ist eine positive, normerhaltende, lineare Abbildung zwischen den L-Räumen.
- Eine Übergang ist eine lineare Abbildung, so dass für jedes gilt.
Die Adjungierte des Übergangs ist eine positive lineare Abbildung vom Dualraum von in den Dualraum von , so dass die Einheit von das Bild von der Einheit von ist.[5] Ein Markow-Kern induziert einen Übergang , jedoch muss nicht jeder Übergang ein Markow-Kern sein.
Definition
BearbeitenSeien eine Indexmenge und und zwei Experimente, welche durch indiziert werden. Seien und die dazugehörigen L-Räume und die Menge aller Übergänge von zu .
Das Defizit von zu ist die Zahl
wobei die Totalvariationsnorm bezeichnet. Der Faktor hat nur rechnerische Gründe und wird manchmal auch weggelassen.
Erläuterungen
Bearbeiten- bedeutet, es existiert ein Übergang , so dass für alle gilt.
- Das Defizit misst, wie gut von durch im Sinne der totalen Variation approximiert werden kann.
- Das Defizit ist eine Norm für .
Le-Cam-Distanz
BearbeitenDie Le-Cam-Distanz ist folgende Pseudometrik
- .
Dies induziert eine Äquivalenzrelation und wenn ist, dann sagt man und sind äquivalent. Die Äquivalenzklasse von nennt man auch Typ von .
Seien eine Indexmenge und die Menge aller Typen aller Experimente, welche durch indiziert sind, dann ist die Le-Cam-Distanz vollständig bezüglich . Die Defizit-Bedingung definiert eine Ordnungsrelation auf , man sagt ist besser oder informativer oder stärker als .[6] Dies kann nun verwendet werden, um statistische Modelle zu vergleichen.
Häufig interessiert man sich für Familien von Experimenten mit und mit . Falls wenn , dann sagt man und sind asymptotisch äquivalent.
Literatur
Bearbeiten- Lucien Le Cam: Asymptotic methods in statistical decision theory. Hrsg.: Springer, New York (= Springer Series in Statistics). 1986, doi:10.1007/978-1-4612-4946-7.
- Lucien Le Cam: Sufficiency and Approximate Sufficiency. In: Institute of Mathematical Statistics (Hrsg.): The Annals of Mathematical Statistics. Band 35, Nr. 4, 1964, S. 1419 - 1455, doi:10.1214/aoms/1177700372.
- Erik Torgersen: Comparison of Statistical Experiments. Hrsg.: Cambridge University Press, Vereinigtes Königreich. 1991, doi:10.1017/CBO9780511666353.
Einzelnachweise
Bearbeiten- ↑ Lucien Le Cam: Sufficiency and Approximate Sufficiency. In: Institute of Mathematical Statistics (Hrsg.): Annals of Mathematical Statistics. Band 35, Nr. 4, 1964, S. 1429, doi:10.1214/aoms/1177700372 (projecteuclid.org – Definition 9).
- ↑ Lucien Le Cam: Sufficiency and Approximate Sufficiency. In: Institute of Mathematical Statistics (Hrsg.): Annals of Mathematical Statistics. Band 35, Nr. 4, 1964, S. 1419 - 1455, doi:10.1214/aoms/1177700372 (projecteuclid.org).
- ↑ Aad van der Vaart: The Statistical Work of Lucien Le Cam. In: The Annals of Statistics. Band 30, Nr. 3, 2002, S. 631–82, JSTOR:2699973.
- ↑ Lucien Le Cam: Sufficiency and Approximate Sufficiency. In: Institute of Mathematical Statistics (Hrsg.): Annals of Mathematical Statistics. Band 35, Nr. 4, 1964, S. 1421, doi:10.1214/aoms/1177700372 (projecteuclid.org).
- ↑ a b Lucien Le Cam: Asymptotic methods in statistical decision theory. Hrsg.: Springer, New York (= Springer Series in Statistics). 1986, S. 1–5, doi:10.1007/978-1-4612-4946-7.
- ↑ a b Lucien Le Cam: Asymptotic methods in statistical decision theory. Hrsg.: Springer, New York (= Springer Series in Statistics). 1986, S. 18–19, doi:10.1007/978-1-4612-4946-7.