Defizit (Statistik)

Norm zur Beurteilung eines statistischen Modells

Das Defizit (französisch déficience, englisch deficiency) ist in der Statistik eine Norm zur Beurteilung eines statistischen Modells in Relation zu einem anderen statistischen Modell . Der Begriff wurde in den 1960er von dem französischen Mathematiker Lucien Le Cam eingeführt, um den Satz von Blackwell-Sherman-Stein neu zu formulieren.[1] Eng verwandt ist die Le-Cam-Distanz, eine Pseudometrik, welche das maximale Defizit zweier statistischen Modelle misst. Wenn das Defizit des Modells zu Null ist, dann nennt man besser oder informativer oder stärker als .

Einführung in die Problemstellung

Bearbeiten

David Blackwell definierte das statistische Modell als einen Wahrscheinlichkeitsraum   mit einer Familie von Wahrscheinlichkeitsmaßen  . Eine natürliche Frage ist nun, wann   besser oder informativer als ein anderes statistisches Modell   ist, welches dasselbe Experiment modelliert.

Mathematiker versuchten das Problem zu lösen, darunter Frederic Bohnenblust, Lloyd S. Shapley, Seymour Sherman sowie David Blackwell und Elias Stein. Aus deren Arbeiten resultierte der Satz von Blackwell-Sherman-Stein, welcher mit Hilfe von Markow-Kernen formuliert werden kann. Kurzgesagt, sagt der Satz, dass   besser als   ist, wenn   durch eine Randomisierung von   über den Markow-Kern entstehen kann. Das Problem an dem Satz war, dass viele Modelle nicht miteinander vergleichbar waren. Le Cam führte den Begriff des Defizits ein, notiert als  , und formulierte eine neue, approximative Variante des Satzes von Blackwell-Sherman-Stein. Die Existenz einer Randomisierung wird durch die Aussage   ersetzt. Modellen, welche nicht miteinander vergleichbar sind, kann somit über das Defizit trotzdem eine Zahl zugeordnet werden.[2][3]

Le-Cam-Theorie

Bearbeiten

Le Cam definierte das statistische Modell abstrakter als Blackwell, das heißt nicht in Form eines Wahrscheinlichkeitsraumes mit einer Familie von Wahrscheinlichkeitsmaßen, sondern über Banachverbände. Le Cam verwendete auch den Begriff des Experiments statt des Modells.

In seiner 1964 veröffentlichten Arbeit definierte er das statistische Modell als Tripel   mit Indexmenge  , bestehend aus Menge  , einem Vektor-Verband   mit Einheit   und einer Familie von positiven normierten Funktionalen   auf  .[4] Die   ersetzen somit die Wahrscheinlichkeitsmaße. In seinem 1986 veröffentlichten Buch verzichtete er dann ganz auf   und  .[5] Im Artikel wird die Definition und Terminologie seines 1986 veröffentlichten Buch verwendet, das heißt wir verwenden den Begriff des Experiments.

Wir folgen dem Vokabular aus der Einleitung und werden zuerst ein paar weitere Grundbegriffe definieren.

Abstrakte L1-Räume, Experimente, M-Räume und Übergänge

Bearbeiten

Zuerst definieren wir den abstrakten L1-Raum.

  • Einen Banachverband   nennt man einen abstrakten L1-Raum oder kurz L-Raum, falls für alle positiven Elemente   auch   gilt.

Für einen L-Raum definieren wir nun den Begriff des Experiments.

  • Sei   eine Indexmenge und   ein L-Raum bestehend aus positiven linearen Funktionalen  . Ein Experiment   ist eine Abbildung   der Form  , so dass  . Der Raum   ist das durch   erzeugte Band und wird auch L-Raum von   genannt, deshalb notieren wir ihn mit  . Für ein   definiert man außerdem den nicht-negativen Teil als  .

Für einen L-Raum definieren wir seinen abstrakten M-Raum.

  • Den topologischen Dualraum   eines L-Raumes  , ausgestattet mit der konjugierten Norm  , nennt man abstrakten M-Raum oder M-Raum. Der M-Raum ist ein Vektorverband und besitzt eine Einheit   definiert durch   für  .

Für zwei L-Räume   und   zu zwei Experimenten   und   definieren wir den Übergang, das ist eine positive, normerhaltende, lineare Abbildung zwischen den L-Räumen.

  • Eine Übergang   ist eine lineare Abbildung, so dass   für jedes   gilt.

Die Adjungierte des Übergangs ist eine positive lineare Abbildung vom Dualraum   von   in den Dualraum   von  , so dass die Einheit von   das Bild von der Einheit von   ist.[5] Ein Markow-Kern   induziert einen Übergang  , jedoch muss nicht jeder Übergang ein Markow-Kern sein.

Definition

Bearbeiten

Seien   eine Indexmenge und   und   zwei Experimente, welche durch   indiziert werden. Seien   und   die dazugehörigen L-Räume und   die Menge aller Übergänge von   zu  .

Das Defizit   von   zu   ist die Zahl

 [6]

wobei   die Totalvariationsnorm   bezeichnet. Der Faktor   hat nur rechnerische Gründe und wird manchmal auch weggelassen.

Erläuterungen

Bearbeiten
  •   bedeutet, es existiert ein Übergang  , so dass   für alle   gilt.
  • Das Defizit misst, wie gut   von   durch   im Sinne der totalen Variation approximiert werden kann.
  • Das Defizit ist eine Norm für  .

Le-Cam-Distanz

Bearbeiten

Die Le-Cam-Distanz ist folgende Pseudometrik

 .

Dies induziert eine Äquivalenzrelation und wenn   ist, dann sagt man   und   sind äquivalent. Die Äquivalenzklasse   von   nennt man auch Typ von  .

Seien   eine Indexmenge und   die Menge aller Typen aller Experimente, welche durch   indiziert sind, dann ist die Le-Cam-Distanz   vollständig bezüglich  . Die Defizit-Bedingung   definiert eine Ordnungsrelation auf  , man sagt   ist besser oder informativer oder stärker als  .[6] Dies kann nun verwendet werden, um statistische Modelle zu vergleichen.

Häufig interessiert man sich für Familien von Experimenten   mit   und   mit  . Falls   wenn  , dann sagt man   und   sind asymptotisch äquivalent.

Literatur

Bearbeiten

Einzelnachweise

Bearbeiten
  1. Lucien Le Cam: Sufficiency and Approximate Sufficiency. In: Institute of Mathematical Statistics (Hrsg.): Annals of Mathematical Statistics. Band 35, Nr. 4, 1964, S. 1429, doi:10.1214/aoms/1177700372 (projecteuclid.org – Definition 9).
  2. Lucien Le Cam: Sufficiency and Approximate Sufficiency. In: Institute of Mathematical Statistics (Hrsg.): Annals of Mathematical Statistics. Band 35, Nr. 4, 1964, S. 1419 - 1455, doi:10.1214/aoms/1177700372 (projecteuclid.org).
  3. Aad van der Vaart: The Statistical Work of Lucien Le Cam. In: The Annals of Statistics. Band 30, Nr. 3, 2002, S. 631–82, JSTOR:2699973.
  4. Lucien Le Cam: Sufficiency and Approximate Sufficiency. In: Institute of Mathematical Statistics (Hrsg.): Annals of Mathematical Statistics. Band 35, Nr. 4, 1964, S. 1421, doi:10.1214/aoms/1177700372 (projecteuclid.org).
  5. a b Lucien Le Cam: Asymptotic methods in statistical decision theory. Hrsg.: Springer, New York (= Springer Series in Statistics). 1986, S. 1–5, doi:10.1007/978-1-4612-4946-7.
  6. a b Lucien Le Cam: Asymptotic methods in statistical decision theory. Hrsg.: Springer, New York (= Springer Series in Statistics). 1986, S. 18–19, doi:10.1007/978-1-4612-4946-7.