Likelihood-Funktion

Die Likelihood-Funktion (oft einfach nur Likelihood), gelegentlich auch Plausibilitätsfunktion oder Mutmaßlichkeitsfunktion genannt,^[1] ist eine spezielle reellwertige Funktion in der mathematischen Statistik, die aus einer Wahrscheinlichkeitsdichtefunktion oder einer Zähldichte gewonnen wird, indem man einen Parameter der Dichte als Variable behandelt. Zentrale Verwendung der Likelihood-Funktion ist die Konstruktion von Schätzfunktionen durch die Maximum-Likelihood-Methode. Zudem werden aus ihr weitere Funktionen wie die Log-Likelihood-Funktion und die Score-Funktion abgeleitet, die beispielsweise als Hilfsfunktionen bei der Maximum-Likelihood-Methode oder zur Konstruktion von Optimalitätskriterien in der Schätztheorie verwendet werden.

Das Konzept stammt aus den 1920er Jahren von Ronald Aylmer Fisher,^[2]^[3] der glaubte, es sei ein in sich geschlossenes Rahmenwerk für statistische Modellierung und Inferenz. Später führten George Alfred Barnard und Allan Birnbaum eine wissenschaftliche Schule an, die das Plausibilitätsprinzip vertrat, das postulierte, dass alle relevanten Informationen für die statistische Inferenz in der Likelihood-Funktion enthalten sind.

Definition

Gegeben sei eine Wahrscheinlichkeitsdichtefunktion oder eine Zähldichte

f\colon \mathbb {R} ^{n}\to \mathbb {R}

,

welche noch zusätzlich von einem oder mehreren Parametern $\vartheta$ aus einer Parametermenge $\Theta$ abhängt. Es ist also $f=f_{\vartheta }(x)$ . Dann heißt die Funktion

L\colon \Theta \to \mathbb {R}

,

die durch

L_{x}(\vartheta )=f_{\vartheta }(x)

definiert wird, die Likelihood-Funktion.^[4]^[5] Die Dichtefunktion wird somit zur Likelihood-Funktion, indem man den Parameter $\vartheta$ als Variable auffasst und die Variable $x$ als Parameter behandelt. Wird ein konkretes ${\tilde {x}}\in \mathbb {R} ^{n}$ fixiert, so nennt man auch $L_{\tilde {x}}(\vartheta )$ die Likelihood-Funktion zum Beobachtungswert ${\tilde {x}}$ .^[1] Im Falle einer Zähldichte gibt $L_{\tilde {x}}(\vartheta )$ somit die Wahrscheinlichkeit von ${\tilde {x}}$ bei gegebenem Parameter $\vartheta$ an.

Beispiele

Wahrscheinlichkeitsdichte

Betrachtet man $n$ unabhängig und identisch normalverteilte Zufallsvariablen $X_{1},X_{2},\dots ,X_{n}$ mit unbekanntem Erwartungswert $\mu \in (-\infty ,\infty )$ und unbekannter Varianz $\sigma ^{2}>0$ , so besitzt $X=(X_{1},X_{2},\dots ,X_{n})$ aufgrund der Unabhängigkeitsannahme die Wahrscheinlichkeitsdichtefunktion

f_{\mu ;\sigma ^{2}}(x_{1},x_{2},\dots ,x_{n})=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp {\left(-{\frac {(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)}=\left(2\pi \sigma ^{2}\right)^{-n/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}\right)

Somit ist der Parameter gegeben als $\vartheta =(\mu ,\sigma ^{2})$ und stammt aus der Parametermenge $\Theta =\mathbb {R} \times (0,\infty )$ . Folglich ist die Likelihood-Funktion

L_{x}(\mu ,\sigma ^{2})=\left(2\pi \sigma ^{2}\right)^{-n/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}\right)

,

sie stimmt also mit der Dichtefunktion überein, mit dem Unterschied, dass $\mu$ und $\sigma ^{2}$ die Variablen sind und $x=(x_{1},x_{2},\dots ,x_{n})$ als Parameter behandelt wird. Für korrelierte Zufallsvariablen erhält man die Likelihood-Funktion nicht als einfaches Produkt und sie muss anders als oben dargestellt berechnet werden^[6].

Setzt man $n=2$ und ${\tilde {x}}=(1,2)$ , so ist die Likelihood-Funktion unter Annahme von Unabhängigkeit zum Beobachtungswert ${\tilde {x}}$

L_{\tilde {x}}(\mu ,\sigma ^{2})=\left(2\pi \sigma ^{2}\right)^{-1}\exp \left(-{\frac {1}{2\sigma ^{2}}}\left((1-\mu )^{2}+(2-\mu )^{2}\right)\right)

.

Zähldichte

Ist $X$ eine zum Parameter $p$ binomialverteilte Zufallsvariable bei fixiertem $n$ , also

X\sim \operatorname {Bin} _{n,p}

,

so besitzt sie die Zähldichte

f_{p}(k)={\binom {n}{k}}p^{k}(1-p)^{n-k}

für $k=0,1,\dots ,n$ . Folglich ist die Likelihood-Funktion von der Form

L_{k}(p)={\binom {n}{k}}p^{k}(1-p)^{n-k}

mit $\vartheta =p$ und $\Theta =(0,1)$ . Die Likelihood-Funktion zum Beobachtungswert $k=2$ ist dann gegeben durch

L_{2}(p)={\binom {n}{2}}p^{2}(1-p)^{n-2}

.

Verwendung

Hauptverwendung findet die Likelihood-Funktion bei der Maximum-Likelihood-Methode, einer intuitiv gut zugänglichen Schätzmethode zur Schätzung eines unbekannten Parameters $\vartheta$ . Dabei geht man bei einem Beobachtungsergebnis ${\tilde {x}}=(x_{1},x_{2},\dots ,x_{n})$ davon aus, dass dieses ein „typisches“ Beobachtungsergebnis ist in dem Sinne, dass es sehr wahrscheinlich ist, solch ein Ergebnis zu erhalten. Die Wahrscheinlichkeit dafür, ${\tilde {x}}$ zu erhalten hängt von der Wahrscheinlichkeitsdichtefunktion $f_{\vartheta }$ und damit auch von $\vartheta$ ab. Daher gibt man als Schätzung für den unbekannten Parameter denjenigen Parameter $\vartheta$ an, für den die Wahrscheinlichkeit des Eintretens von ${\tilde {x}}$ maximal ist. Dafür betrachtet man die Likelihood-Funktion zum Beobachtungswert ${\tilde {x}}$ und sucht ein ${\tilde {\vartheta }}$ , so dass

L_{\tilde {x}}({\tilde {\vartheta }})\geq L_{\tilde {x}}(\vartheta )\quad \mathrm {f{\ddot {u}}r\;alle\;} \vartheta \in \Theta

.

Dies entspricht der Bestimmung einer Maximalstelle der Likelihood-Funktion, welche meist durch Nullsetzen der Ableitung bestimmt wird:

{\frac {\rm {d}}{{\rm {d}}\vartheta }}L_{\tilde {x}}(\vartheta )=0

.

Ist diese Gleichung schwer zu lösen, bietet sich die Log-Likelihood-Funktion als Hilfsmittel an.

Aufbauende Begriffe

Log-Likelihood-Funktion

Definition

Die Log-Likelihood-Funktion (auch logarithmische Plausibilitätsfunktion genannt^[7]) ${\mathcal {L}}_{x}$ ist definiert als der (natürliche) Logarithmus aus der Likelihood-Funktion,^[5] also (beachte Kalligrafie in der Formel)

{\mathcal {L}}_{x}(\vartheta )=\ln \left(L_{x}(\vartheta )\right)

.

Teils wird die Log-Likelihood-Funktion auch mit $\ell$ oder $l$ bezeichnet.^[8]

Beispiele

Aufbauend auf den obigen beiden Beispielen für die Likelihood-Funktion gilt im Falle der unabhängig und identisch normalverteilten Zufallsvariablen für die Log-Likelihood-Funktion

{\mathcal {L}}_{x}(\mu ,\sigma ^{2})=-{\frac {n}{2}}\ln \left(2\pi \sigma ^{2}\right)-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}

.

Im Falle der Binomialverteilung gilt für die Log-Likelihood-Funktion

{\mathcal {L}}_{k}(p)=\ln \left({\binom {n}{k}}\right)+k\ln(p)+(n-k)\ln(1-p)

.

Beides folgt aus den Rechenregeln für den Logarithmus (siehe Logarithmengesetze).

Eigenschaften

Da der Logarithmus eine streng monoton wachsende Funktion ist, ist jedes Minimum der Log-Likelihood-Funktion auch ein Minimum der Likelihood-Funktion. Ebenso ist jedes Maximum der Log-Likelihood-Funktion auch ein Maximum der Likelihood-Funktion.

Außerdem ist die Log-Likelihood-Funktion bei unabhängig und identisch verteilten Zufallsvariablen additiv. Das bedeutet, dass wenn $X_{1},X_{2},\dots ,X_{n}$ unabhängig und identisch verteilte Zufallsvariablen mit Dichte $f_{\vartheta }(x_{i})$ und Log-Likelihood-Funktion ${\mathcal {L}}_{x_{i}}(\vartheta )$ sind, so besitzt $X=(X_{1},X_{2},\dots ,X_{n})$ die Log-Likelihood-Funktion

{\mathcal {L}}_{x}^{X}(\vartheta )=\sum _{i=1}^{n}{\mathcal {L}}_{x_{i}}(\vartheta )

.

Dies folgt direkt aus der Tatsache, dass die Dichten von $X$ als Produkt gebildet werden, und den Rechenregeln des Logarithmus.

Verwendung

Da die Log-Likelihood-Funktion dieselben Maximalstellen besitzt wie die Likelihood-Funktion, ist sie ein gängiges Hilfsmittel zur Lösung der Gleichung

{\frac {\rm {d}}{{\rm {d}}\vartheta }}L_{\tilde {x}}(\vartheta )=0

,

welche bei der Maximum-Likelihood-Methode anfällt. Anstelle dieser Gleichung wird dann die Gleichung

{\frac {\rm {d}}{{\rm {d}}\vartheta }}{\mathcal {L}}_{\tilde {x}}(\vartheta )=0

gelöst. Insbesondere die Additivität der Log-Likelihood-Funktion bei unabhängig und identisch verteilten Zufallsvariablen erleichtert das Lösen der Gleichung in vielen Fällen.

Score-Funktion

Definition

In einparametrigen Modellen definiert man die Score-Funktion als erste Ableitung der Log-Likelihood-Funktion^[9]

S_{\vartheta }(x):={\frac {\partial }{\partial \vartheta }}\ln(L_{x}(\vartheta ))={\frac {1}{L_{x}(\vartheta )}}\cdot {\frac {\rm {d}}{{\rm {d}}\vartheta }}L_{x}(\vartheta )

Sie ist also die logarithmische Ableitung der Likelihood-Funktion. Die Score-Funktion gibt die Steigung der Log-Likelihood-Funktion an der jeweiligen Stelle an und muss nicht immer existieren. Sie taucht ebenfalls bei der Fisher-Information auf.

Beispiel

Für die Binomialverteilung wurde oben bereits gezeigt, dass die Likelihood-Funktion von der Form

L_{k}(p)={\binom {n}{k}}p^{k}(1-p)^{n-k}

ist. Daher ist

\ln \left(L_{k}(p)\right)={\mathcal {L}}_{x}(p)=\ln \left({\binom {n}{k}}\right)+k\ln(p)+(n-k)\ln(1-p)

.

Leitet man diese Funktion nach $p$ ab, so fällt der erste Term als Konstante weg und mit den Ableiteregeln für den Logarithmus (siehe Ableitung und Integral) folgt

S(k)=k\cdot {\frac {1}{p}}+(n-k)\cdot {\frac {-1}{1-p}}={\frac {k-np}{p(1-p)}}

für die Score-Funktion.

Verteilung

Die Score-Funktion ist asymptotisch normalverteilt mit Erwartungswert Null und Varianz als Erwartungswert der Fisher-Information $F(\vartheta )$ (auch Erwartete Fisher-Information genannt):^[10]

{\frac {S(\vartheta )}{\sqrt {\operatorname {E} (F(\vartheta ))}}}\;{\stackrel {a}{\sim }}\;{\mathcal {N}}(0,1)\quad

bzw.

\quad S(\vartheta )\;{\stackrel {a}{\sim }}\;{\mathcal {N}}(0,\operatorname {E} (F(\vartheta )))

.

Pseudo-Likelihood-Funktion

Für die Lösung des Maximum-Likelihood-Problems ist nur das Auffinden des Maximums der Likelihood-Funktion von Belang. Dies ist einer der Gründe, warum die Maximum-Likelihood-Methode oft auch funktioniert, obwohl die Voraussetzungen nicht erfüllt sind. In den folgenden Fällen spricht man von einer Pseudo-Likelihood-Funktion:

die Verteilungsvoraussetzungen für die Maximum-Likelihood-Methode sind nicht erfüllt: Man nennt dann die Likelihood-Funktion eine Pseudo-Likelihood-Funktion und
die eigentliche Likelihood-Funktion oder Log-Likelihood-Funktion ist zu schwierig zu maximieren und wird z. B. durch eine geglättete Version ersetzt und diese Pseudo-Likelihood-Funktion wird dann maximiert.

Kern der Likelihood-Funktion

Den Kern der Likelihood-Funktion (Kern der Plausibilitätsfunktion) erhält man aus der Likelihood-Funktion, indem man alle multiplikativen Konstanten vernachlässigt. Für gewöhnlich wird mit $L_{x}(\vartheta )$ sowohl die Likelihood-Funktion als auch deren Kern bezeichnet. Die Verwendung der Log-Likelihood-Funktion ${\mathcal {L}}_{x}(\vartheta )$ ist häufig numerisch sinnvoll. Multiplikative Konstanten in $L_{x}(\vartheta )$ wandeln sich dann in additive Konstanten in ${\mathcal {L}}_{x}(\vartheta )$ , die wiederum häufig ignoriert werden können. Eine Log-Likelihood-Funktion ohne additive Konstanten wird Kern der Log-Likelihood-Funktion genannt. Auch hier wird gewöhnlich mit ${\mathcal {L}}_{x}(\vartheta )$ sowohl die Log-Likelihood-Funktion als auch deren Kern bezeichnet.^[11] Beispielsweise wäre der Kern der Log-Likelihood-Funktion einer Normalverteilung mit unbekanntem Erwartungswert $\mu$ und bekannter Varianz $\sigma ^{2}$ :^[12]

{\mathcal {L}}_{x}(\mu )=-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}

.

Siehe auch

Pseudo-R-squared

Einzelnachweise

↑ ^a ^b Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 203, doi:10.1515/9783110215274.
↑ Fisher, On the "probable error" of a coefficient of correlation deduced from a small sample, Metron, Band 1, 1921, S. 3–32.
↑ Fisher, On the mathematical foundations of theoretical statistics, Philosophical Transactions of the Royal Society A, Band 222, 1922, S. 309–368.
↑ Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 162, doi:10.1007/978-3-642-41997-3.
↑ ^a ^b Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Für Studium, Berufspraxis und Lehramt. 8. Auflage. Vieweg, Wiesbaden 2005, ISBN 3-8348-0063-5, S. 62, doi:10.1007/978-3-663-09885-0.
↑ Joseph L. Neuringer, Alan Kaplan: Maximum likelihood equations for a correlated multivariate normal distribution. In: International Journal of Mathematical Education in Science and Technology. Band 14, Nr. 4, 1. Juli 1983, ISSN 0020-739X, S. 441–444, doi:10.1080/0020739830140408.
↑ Reinhard Viertl: "Einführung in die Stochastik: mit Elementen der Bayes-Statistik und Ansätzen für die Analyse unscharfer Daten." Springer-Verlag, 2013, S. 110.
↑ Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, S. 85, doi:10.1007/978-3-642-17261-8.
↑ Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 201, doi:10.1515/9783110215274.
↑ Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 87.
↑ Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 15.
↑ Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 27. ff.

[Georgii203-1] Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 203, doi:10.1515/9783110215274.

[2] Fisher, On the "probable error" of a coefficient of correlation deduced from a small sample, Metron, Band 1, 1921, S. 3–32.

[3] Fisher, On the mathematical foundations of theoretical statistics, Philosophical Transactions of the Royal Society A, Band 222, 1922, S. 309–368.

[Rüschendorf162-4] Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 162, doi:10.1007/978-3-642-41997-3.

[Krengel62-5] Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Für Studium, Berufspraxis und Lehramt. 8. Auflage. Vieweg, Wiesbaden 2005, ISBN 3-8348-0063-5, S. 62, doi:10.1007/978-3-663-09885-0.

[6] Joseph L. Neuringer, Alan Kaplan: Maximum likelihood equations for a correlated multivariate normal distribution. In: International Journal of Mathematical Education in Science and Technology. Band 14, Nr. 4, 1. Juli 1983, ISSN 0020-739X, S. 441–444, doi:10.1080/0020739830140408.

[7] Reinhard Viertl: "Einführung in die Stochastik: mit Elementen der Bayes-Statistik und Ansätzen für die Analyse unscharfer Daten." Springer-Verlag, 2013, S. 110.

[Czado85-8] Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, S. 85, doi:10.1007/978-3-642-17261-8.

[Georgii210-9] Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 201, doi:10.1515/9783110215274.

[10] Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 87.

[11] Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 15.

[12] Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 27. ff.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]