Probit-Modell

Das Probit-Modell ist in der Statistik die Spezifikation eines verallgemeinerten linearen Modells. Probit ist ein Kofferwort für prob(ability un)it, das aus den zwei englischen, überlappenden Wörtern für Wahrscheinlichkeit und Einheit (0 oder 1) entstanden ist.

Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen.

Bitte hilf mit, die Mängel dieses Artikels zu beseitigen, und beteilige dich bitte an der Diskussion! (Artikel eintragen)

Die statistische Spezifikation bezeichnet denjenigen Prozess der Modellentwicklung, in dem ein statistisch schätzbares Modell (Schätzmodell) festgelegt wird. Verallgemeinerte lineare Modelle sind nichtlineare Erweiterungen der klassischen linearen Regression. Das Probit-Modell verwendet die Probit-Funktion als Kopplungsfunktion, die den Erwartungswert der Zielgröße in Beziehung zum linearen Prädiktor des Modells setzt. Probit-Modelle wurden von Chester Ittner Bliss eingeführt, der diese willkürlichen Wahrscheinlichkeitseinheiten als 'Probits' bezeichnete (These arbitrary probability units have been called ‘probits’).^[1]

Anwendung

Die Probit-Modelle werden wie die Logit-Modelle dazu verwendet, binäre Zielgrößen in binären diskreten Entscheidungsmodellen abzubilden. Sie verwenden Zielgrößen $Y$ , die nur zwei Werte annehmen können. Beispiele:

„Lässt sich scheiden“ → Ja/Nein,

„Kunde

i

hat Produkt A gekauft“ → Ja/Nein,

X

→

Y

.

Als Stichprobe werden Kunden beim Ausgang befragt, ob sie das Produkt A gekauft haben. Das Probit-Modell kann erstens – analog zur Regression – berechnen, ob die gleichzeitig erhobenen Merkmale $X$ das Kaufverhalten $Y$ „gut“ erklären. Im positiven Fall ist eine Schätzung möglich, wie groß der Absatz ist, wenn $X$ den ganzen Markt beschreibt.

Diese Modelle haben in der Anwendung eine sehr weite Verbreitung. Innerhalb der verallgemeinerten linearen Modelle liefert das Logit-Modell bessere Resultate bei extrem unabhängigen Variablenebenen. Umgekehrt ist das Probit-Modell im Allgemeinen besser bei Zufallseffekten mit Datensätzen mittlerer Größe.

Definition

Probit-Modelle sind nichtlineare Modelle, die zur Erklärung binärer Zielgrößen dienen, wobei 0 das Nicht-Eintreten und 1 das Eintreten eines Ereignisses kodiert. Der Vektor der erklärenden Variablen, dargestellt als $x_{i}$ , repräsentiert die verschiedenen Beobachtungen, die durch den Index $i$ unterscheidbar sind, und beeinflusst die Wahrscheinlichkeit des Eintretens von Ereignis 0 oder 1.

Wenn $Y$ die Zielgröße und $X_{1},\ldots ,X_{p}$ die Einflussgrößen sind, dann lautet das Probit-Modell als Formel:

{\begin{aligned}\Pr(Y_{i}=1|X=x_{i})&=\Phi (\mathbf {x_{i}} '{\boldsymbol {\beta }})=\Phi (\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+\ldots +\beta _{p}x_{ip})\\&{\stackrel {\mathrm {def} }{=}}\;{\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{\mathbf {x_{i}} '{\boldsymbol {\beta }}}\operatorname {exp} \left(-{\frac {1}{2}}t^{2}\right)\mathrm {d} \,t\end{aligned}}

,

Notation:

$\Phi (x)$ , gesprochen „Phi von x“, bezeichnet die Verteilungsfunktion einer Standardnormalverteilung mit der Wahrscheinlichkeit, dass die zugehörige Zufallsvariable $X$ einen Wert kleiner oder gleich $x$ annimmt.
Die Normierungskonstante ${\tfrac {1}{\sqrt {2\pi }}}$ gehört zum Integral von minus unendlich bis $x$ , geschrieben $\textstyle \int _{-\infty }^{x}\mathrm {d} \,t$ über die Exponentialfunktion $\operatorname {exp} ()$ , und $t$ ist eine gebundene Variable.
Das nichtelementare Integral ist notwendig, um die Normalverteilungsdichte an der Wahrscheinlichkeitsdichte zu normieren. Es wurde 1782 von Pierre-Simon Laplace entwickelt.

Die Formel zum Probit-Modell heißt: Die auf die erklärenden Variablen $X$ bedingte Wahrscheinlichkeit „ $\Pr$ “, dass die Antwortvariable $Y$ gleich $1$ ist, entspricht einer Funktion $\Phi (x)$ mit der Linearkombination der erklärenden Variablen $\mathbf {x} '{\boldsymbol {\beta }}$ . Der Parametervektor ${\boldsymbol {\beta }}$ wird typischerweise mit der Maximum-Likelihood-Methode geschätzt. Bei dieser Methode der größten Dichte wird derjenige Vektor ${\boldsymbol {\beta }}$ als Schätzung ausgewählt, gemäß dessen Verteilung die Realisierung der beobachteten Daten $Y$ am plausibelsten erscheint.

Modell

Generalisiertes lineares Modell

In vielen praktischen Szenarien sind die grundlegenden Annahmen des klassischen linearen Modells, insbesondere in Bezug auf eine normalverteilte Zielgröße $Y$ , nicht erfüllt. Das generalisierte lineare Modell bietet eine Erweiterung, die es ermöglicht, solche Situationen angemessen zu modellieren.

Das generalisierte lineare Modell wird durch folgende Gleichung definiert

\mu _{i}=E(Y_{i})

wobei $\mu _{i}$ den erwarteten Wert der Zufallsvariablen $Y_{i}$ bei einem bestimmten Wert von $X=x_{i}$ beschreibt. Der lineare Prädiktor wird durch die Gleichung:

g(\mu _{i})=\underbrace {\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+\ldots +\beta _{p}x_{ip}} _{\text{linearer Prädiktor}}

oder äquivalent durch:

E(Y_{i})=\mu _{i}=g^{-1}(\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+\ldots +\beta _{p}x_{ip})

repräsentiert. Hierbei sind $Y_{i}$ die Zufallsvariablen, die die Zielgröße an der Stelle $X=x_{i}$ beschreiben, $g$ die Responsefunktion oder $g^{-1}$ die Linkfunktion und $\beta _{i}$ die Regressionskoeffizienten des linearen Prädiktors.

Die Linkfunktion $g^{-1}$ hat die Aufgabe, den Wertebereich des linearen Prädiktors, der die reelle Zahlen umfasst, auf den Wertebereich von $Y$ abzubilden. Das bedeutet $g^{-1}:\mathbb {R} \rightarrow W(Y)$ , wobei $W(Y)$ der Wertebereich von $Y$ darstellt. Der Fehlerterm wird in einem generalisierten linearen Modell nicht explizit aufgeschrieben, sondern ist in der Verteilung von $Y_{i}$ enthalten.

Das Probit-Modell ist ein spezielles generalisiertes Modell, bei dem die

Y_{i}\sim B(p=\mu _{i})

.

Bernoulli verteilt sind. Hierbei ist $\mu _{i}$ die Wahrscheinlichkeit dafür, dass $Y_{i}=1$ ist. Um die Wahrscheinlichkeit $\mu _{i}$ mit dem linearen Prädiktor zu verbinden, gibt es verschiedene Möglichkeiten, da eine Funktion gesucht wird mit $g^{-1}:\mathbb {R} \rightarrow [0,1]$ .

Im Probit-Modell wird die Linkfunktion als die Verteilungsfunktion der Standardnormalverteilung definiert:

g^{-1}(x)=\Phi (x)

und es ergibt sich

E(Y_{i})=\mu _{i}=\Phi (\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+\ldots +\beta _{p}x_{ip})

.

Im Probit-Modell wird also die Wahrscheinlichkeit $\mu _{i}$ für $Y_{i}=1$ geschätzt in Abhängigkeit der erklärenden Variablen $X_{1},\ldots ,X_{p}$ .

Grundsätzlich könnte man auch die Verteilungsfunktion einer beliebigen Normalverteilung als Linkfunktion wählen, jedoch würden sich nur die Regressionskoeffizienten ändern, während die grundlegende Struktur des Modells erhalten bliebe.

Eine Alternative zum Probit-Modell ist das Logit-Modell mit einer anderen Linkfunktion. Ein Vorteil des Logit-Modells ist, dass es robuster gegenüber Ausreißern ist als das Probit-Modell. Jedoch wurde das Probit-Modell in den 1930er Jahren von Chester Ittner Bliss eingeführt^[1], einem Statistiker, der für seine Arbeit in der Agrarstatistik und Biometrie bekannt ist. Das Logit-Modell wurde erst später von Joseph Berkson in den 1940er Jahren entwickelt.^[2] Die Verwendung des Probit-Modells vor der Einführung des Logit-Modells war nicht auf eine bewusste Präferenz für das Probit-Modell zurückzuführen, sondern auf die begrenzten statistischen Methoden und das Verständnis zu dieser Zeit.

Eine weitere Alternative zum Probitmodell ist das komplementäre Log-Log-Modell (cloglog), dessen Linkfunktion eine spezielle Transformation der kumulativen Verteilungsfunktion der Weibull-Verteilung verwendet. Es wurde erstmals von dem Statistikerin Gertrude Mary Cox in den 1950er Jahren eingeführt. Cox ist bekannt für ihre Arbeiten auf dem Gebiet der statistischen Analyse und Modellierung, insbesondere im Bereich der Überlebenszeitanalyse. Das komplementäre Log-Log-Mog-Modell wird typischerweise in Überlebenszeitanalysen eingesetzt, wo das Interesse darin besteht, die Zeit bis zum Eintreten eines Ereignisses zu modellieren.

Latentes Variablenmodell

Das Probit-Modell kann auch als latentes Variablenmodell interpretiert werden.^[3] Eine latente Variable ist eine Variable, deren Wert nicht direkt beobachtbar ist. Man kann lediglich bestimmte Eigenschaften der Variable erkennen, wie zum Beispiel, ob ihr Wert größer oder kleiner gleich Null ist. Man startet mit einem normalen linearen Regressionsmodell für die latente Variable $Z$ , was bedeutet, dass:

Z_{i}=\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+\ldots +\beta _{p}x_{ip}+E_{i}

Für die Fehler $E_{i}$ nimmt man an, dass sie unabhängig und identisch verteilt (i.i.d.) sind und symmetrisch um Null verteilt sind, jedoch nicht unbedingt normalverteilt sein müssen.

Kann man den tatsächlichen Wert von $Z_{i}$ nicht beobachten, sondern nur feststellen, ob er größer als Null ist oder nicht, erhält man als beobachtbare Zielgröße eine andere Variable, bezeichnet als $Y_{i}$ mit

Y_{i}={\begin{cases}1&{\text{ falls }}Z_{i}>0\\0&{\text{ falls }}Z_{i}\leq 0\end{cases}}

Ein Beispiel ist das Gehen lernen bei einem Kleinkind. Man kann die neuro-motorischen Fähigkeiten nicht direkt messen, aber man sieht, ob das Kleinkind bereits in der Lage ist zu laufen oder nicht.

Da $Y_{i}$ einer Bernoulliverteilung folgt, kann der Zusammenhang zwischen $X$ und $Y$ mit einem Probit- oder Logit-Modell modelliert werden.

Mit der Symmetrie der Verteilung von $E_{i}$ folgt

{\begin{aligned}Pr(Y_{i}=1)&=Pr(\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+\ldots +\beta _{p}x_{ip}+E_{i}>0)\\&=Pr(E_{i}<\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+\ldots +\beta _{p}x_{ip})\end{aligned}}

Folgt $E_{i}$ einer Standardnormalverteilung mit der Verteilungsfunktion $\Phi (e)$ , dann gilt:

Pr(Y_{i}=1)=\Phi (\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+\ldots +\beta _{p}x_{ip})

und man erhält das Probit-Modell. Setzt man eine logistische Fehlerverteilung an, dann bekommt man das Logit-Modell.

Modellschätzung

Maximum-Likelihood-Schätzung

Die Maximum-Likelihood-Schätzung ist eine statistische Methode die Parameter eines Modells (hier: $\beta _{0},\ldots ,\beta _{p}$ ) so zu wählen, dass die Wahrscheinlichkeit, die beobachteten Daten zu erhalten, maximiert wird.

Die Wahrscheinlichkeit mit der eine Beobachtung $(x_{i1},\ldots ,x_{ip},y_{i})=(\mathbf {x} _{i},y_{i})$ im Probit-Modell auftritt ist

Pr(Y_{i}=y_{i}|X=x_{i})=\Phi (\mathbf {x} _{i}'\beta )^{y_{i}}\cdot (1-\Phi (\mathbf {x} _{i}'\beta ))^{1-y_{i}}={\begin{cases}\Phi (\mathbf {x} _{i}'\beta )&{\text{ wenn }}y_{i}=1\\1-\Phi (\mathbf {x} _{i}'\beta )&{\text{ wenn }}y_{i}=0\end{cases}}

mit $\mathbf {x} _{i}'\beta =\beta _{0}+\beta _{1}x_{i1}+\ldots +\beta _{p}x_{ip}$ .

Da die Zufallsvariablen $Y_{i}$ als unabhängig und identisch verteilt angenommen werden, ist die Wahrscheinlichkeit der gesamten Stichprobe gleich dem Produkt der Wahrscheinlichkeiten der einzelnen Beobachtungen:

\prod _{i=1}^{n}Pr(Y_{i}=y_{i}|X=x_{i})=\prod _{i=1}^{n}\Phi (\mathbf {x} _{i}'\beta )^{y_{i}}\cdot (1-\Phi (\mathbf {x} _{i}'\beta ))^{1-y_{i}}

Da die $(\mathbf {x} _{i},y_{i})$ aus Stichprobe bekannt sind, hängt die Wahrscheinlichkeit nur von den unbekannten $\beta$ 's ab. Die Likelihood-Funktion ist daher

{\mathcal {L}}(\beta ,Y,X)=\prod _{i=1}^{n}\Phi (\mathbf {x} _{i}'\beta )^{y_{i}}\cdot (1-\Phi (\mathbf {x} _{i}'\beta ))^{1-y_{i}}

und die Loglikelihood-Funktion ergibt sich zu

\log({\mathcal {L}}(\beta ,Y,X))=\sum _{i=1}^{n}y_{i}\cdot \Phi (\mathbf {x} _{i}'\beta )+(1-y_{i})\cdot (1-\Phi (\mathbf {x} _{i}'\beta ))

.

Die Schätzwerte für die $\beta _{i}$ sind die Werte, bei denen die Wahrscheinlichkeit des Auftretens der Stichprobe am größten ist

{\hat {\beta }}=\operatorname {arg\,max} _{\beta }L(\beta ,Y,X)

.

Die Wahrscheinlichkeitsdichtefunktion $\Phi (z)$ der Standardnormalverteilung führt zu einer nichtlinearen Likelihood-Funktion bzw. Loglikelihood-Funktion. Daher sind numerische Optimierungsmethoden erforderlich, um die Maximum-Likelihood-Schätzer für die Parameter $\beta _{i}$ zu finden. Typischerweise werden iterative Methoden wie das Newton-Raphson-Verfahren oder das Gradientenabstiegsverfahren verwendet, um numerische Näherungslösungen zu finden.

Der Schätzer ${\hat {\beta }}$ der die Likelihood-Funktion maximiert, ist konsistent, asymptotisch normal und effizient, vorausgesetzt, dass $E(XX')$ existiert und nicht singulär ist. Es kann gezeigt werden, dass die Loglikelihood-Funktion global konkav ist in $\beta$ und daher standardmäßige numerische Algorithmen für die Optimierung schnell zum eindeutigen Maximum konvergieren werden.

Die asymptotische Verteilung für ${\hat {\beta }}$ ist gegeben durch

{\sqrt {n}}({\hat {\beta }}-\beta )\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}),

wobei $\Omega$ die Inverse der Fisher-Informationsmatrix ist.

Geschichte

Das Probit-Modell wird meist Chester Bliss und John Gaddum zugeschrieben, die das Modell in den 1930er Jahren formalisierten. Chester Bliss ist bekannt für seine grundlegende Arbeit zur formalen Einführung und Entwicklung des Probit-Modells.^[1] Insbesondere prägte er den Begriff „Probit“ im Jahr 1934, der fortan zur Beschreibung dieses statistischen Modells verwendet wurde. Sein Beitrag zur Systematisierung früherer Arbeiten auf diesem Gebiet war wichtig. Bliss trug dazu bei, das Probit-Modell in den 1930er Jahren als eigenständiges statistisches Werkzeug zu etablieren, indem er die mathematischen Grundlagen des Modells klärte und seine Anwendbarkeit auf verschiedene Forschungsbereiche demonstrierte. John Gaddums Beitrag zur Systematisierung früherer Arbeiten auf diesem Gebiet war ebenfalls wichtig. Durch die Zusammenstellung und Strukturierung vorhandener Erkenntnisse trug Gaddum dazu bei, das Probit-Modell in den 1930er Jahren als eigenständiges statistisches Werkzeug zu etablieren.

Die Ursprungsidee geht auf das Weber-Fechner-Gesetz von Gustav Fechner aus dem Jahr 1860 zurück^[4], das die Beziehung zwischen Reizintensität und Wahrnehmung beschrieb. Bis 1930 wurde der Probit-Ansatz verschiedentlich wiederentdeckt, siehe Finney (1971, Kapitel 3.6)^[5] und Aitchson & Brown (1957, Kapitel 1.2)^[6], sowie Cramer (2004)^[7].

Vor der formalen Etablierung des Probit-Modells wurden verschiedene Ansätze zur Analyse binärer Daten von Forschern wie Francis Galton und Karl Pearson erforscht. Die Vorarbeit von Francis Galton zur Regression und Korrelation sowie seine Forschung zur Messung von Variationen in Populationen trug zur Entwicklung statistischer Konzepte bei, die später in der Modellierung von binären Daten verwendet wurden.^[8] Karl Pearsons Vorarbeit zur Entwicklung statistischer Methoden und zur Formalisierung statistischer Modelle, insbesondere im Bereich der multivariaten Statistik und der Korrelationsanalyse, trug ebenfalls zur Entwicklung des Probit-Modells bei.^[9]

Ronald Fisher trug zur Verbreitung des Probit-Modells bei, indem er eine schnelle Methode zur Berechnung des Maximum-Likelihood-Schätzers vorschlug.^[10] Sein Beitrag stärkte das Probit-Modell als eines der grundlegenden Werkzeuge der statistischen Analyse von binären Daten.

Weblinks

Which Link Function — Logit, Probit, or Cloglog? 12.04.2023

Einzelnachweise

↑ ^a ^b ^c Bliss, C. I. (1934). The method of probits. Science, 79, 38–39. https://doi.org/10.1126/science.79.2037.38
↑ Berkson, J. (1944), Application of the Logistic Function to Bio-Assay, in: Journal of the American Statistical Association 39, 357-365. https://doi.org/10.2307/2280041
↑ Kalisch, M., Meier, L. (2021). Das logistische Regressionsmodell. In: Logistische Regression. essentials. Springer Spektrum, Wiesbaden. https://doi.org/10.1007/978-3-658-34225-8_3
↑ Fechner, G. T. (1860). Elemente der Psychophysik. Leipzig: Breitkopf und Härtel.
↑ Finney, D. J. (1971). Probit analysis (3rd ed.). Cambridge, UK: Cambridge University Press.
↑ Aitchison, J., & Brown, J. A. (1957). Lognormal distribution. Cambridge, UK: Cambridge University Press.
↑ Cramer, J. S. (2004). The early origins of the logit model. Studies in History and Philosophy of Science Part C: Studies in History and Philosophy of Biological and Biomedical Sciences, 35(4), 613-626.
↑ Galton, F. (1886). Regression towards mediocrity in hereditary stature. The Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246-263.
↑ Pearson, K. (1904). On the Theory of Contingency and Its Relation to Association and Normal Correlation. Drapers' Company Research Memoirs: Biometric Series, 1(6), 1-88.
↑ Fisher, R. A. (1935). The Case of Zero Survivors in Probit Assays. Annals of Applied Biology, 22, 164–165. doi:10.1111/j.1744-7348.1935.tb07713.x

[bliss-1] Bliss, C. I. (1934). The method of probits. Science, 79, 38–39. https://doi.org/10.1126/science.79.2037.38

[2] Berkson, J. (1944), Application of the Logistic Function to Bio-Assay, in: Journal of the American Statistical Association 39, 357-365. https://doi.org/10.2307/2280041

[3] Kalisch, M., Meier, L. (2021). Das logistische Regressionsmodell. In: Logistische Regression. essentials. Springer Spektrum, Wiesbaden. https://doi.org/10.1007/978-3-658-34225-8_3

[4] Fechner, G. T. (1860). Elemente der Psychophysik. Leipzig: Breitkopf und Härtel.

[5] Finney, D. J. (1971). Probit analysis (3rd ed.). Cambridge, UK: Cambridge University Press.

[6] Aitchison, J., & Brown, J. A. (1957). Lognormal distribution. Cambridge, UK: Cambridge University Press.

[7] Cramer, J. S. (2004). The early origins of the logit model. Studies in History and Philosophy of Science Part C: Studies in History and Philosophy of Biological and Biomedical Sciences, 35(4), 613-626.

[8] Galton, F. (1886). Regression towards mediocrity in hereditary stature. The Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246-263.

[9] Pearson, K. (1904). On the Theory of Contingency and Its Relation to Association and Normal Correlation. Drapers' Company Research Memoirs: Biometric Series, 1(6), 1-88.

[10] Fisher, R. A. (1935). The Case of Zero Survivors in Probit Assays. Annals of Applied Biology, 22, 164–165. doi:10.1111/j.1744-7348.1935.tb07713.x

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]