Der Mann-Whitney-Effekt beschreibt das Ausmaß des Unterschieds zwischen zwei unabhängigen Stichproben in Bezug auf die Wahrscheinlichkeit, dass eine zufällige Beobachtung aus der einen Gruppe größer oder kleiner ist als eine zufällige Beobachtung aus der anderen Gruppe. In der Literatur wird er auch als relativer Effekt[1], Probabilistic Index[2] oder Stress-Strength Index[3] bezeichnet.

Der Wilcoxon-Mann-Whitney-Effekt ist besonders nützlich, um Unterschiede zwischen zwei Stichproben zu quantifizieren, wenn keine spezifischen Annahmen über die Verteilung der Daten gemacht werden können. Der Effekt kann als eine Wahrscheinlichkeit interpretiert werden und ist der unterliegende Effekt des Wilcoxon-Mann-Whitney und des Brunner-Munzel-Tests.

Definition des Effekts

Bearbeiten

Formal wird der Mann-Whitney-Effekt als die Wahrscheinlichkeit

 

beschrieben, wobei

  • X eine zufällige Beobachtung aus der ersten Gruppe ist,
  • Y eine zufällige Beobachtung aus der zweiten Gruppe ist.

Der Term   ist eine Bindungskorrektur bei Bindungen (Ties).[4] Liegen Bindungen in den Daten vor, z. B. bei diskreten Verteilungen, kann ohne die Bindungskorrektur das Komplement nicht sinnvoll berechnet werden:

 .

Mit der Bindungskorrektur gilt allerdings

 .

Im Fall stetiger Verteilungen gilt  .

Interpretation

Bearbeiten

Wenn der Wilcoxon-Mann-Whitney-Effekt 0,5 beträgt, tendieren weder die Daten der einen noch der anderen Gruppe zu größeren oder kleineren Werten. Dies bedeutet, dass eine zufällige Beobachtung aus der ersten Gruppe mit gleicher Wahrscheinlichkeit größer oder kleiner ist als eine Beobachtung aus der zweiten Gruppe. Werte deutlich über oder unter 0,5 deuten auf Unterschiede zwischen den Gruppen hin. Zum Beispiel:

  • Ein Wert von 0,7 bedeutet, dass es eine 70%ige Wahrscheinlichkeit gibt, dass eine zufällig gezogene Beobachtung aus der ersten Gruppe kleiner ist als eine aus der zweiten Gruppe.
  • Ein Wert von 0,3 würde hingegen darauf hindeuten, dass die zweite Gruppe tendenziell größere Beobachtungen aufweist.

Dieser Effekt ist auch als Maß der stochastischen Dominanz bekannt, da er angibt, inwiefern die Beobachtungen der einen Gruppe tendenziell größer oder kleiner sind als die der anderen.

Berechnung des Mann-Whitney Effektes bei bekannten Verteilungen

Bearbeiten

Der Wilcoxon-Mann-Whitney-Effekt θ lässt sich allgemein berechnen, wenn die Verteilungen   und   der beiden Variablen bekannt sind.

Unter der Annahme normalisierter Verteilungsfunktionen   gilt folgende Integraldarstellung mit Hilfe des Lebesgue-Stieltjes Integrals:

 .

Falls die Verteilungen stetig sind, kann der Effekt somit immer mit Hilfe der Dichtefunktionen   und   berechnet werden:

 .

Im Allgemeinen Fall gilt diese Vereinfachung nicht.

1. Normalverteilungen

Bearbeiten

Wenn   und   dann folgt die Differenz  . Die Wahrscheinlichkeit θ entspricht der Wahrscheinlichkeit, dass D>0, und wird durch die kumulative Verteilungsfunktion der Standardnormalverteilung Φ berechnet:

 .

Falls die beiden Varianzen gleich sind,  , dann gilt

 .

2. Exponentialverteilungen

Bearbeiten

Wenn   und  , ergibt sich P(X<Y) direkt aus den Parametern der Verteilungen:

 

Diese Beziehung zeigt, dass die Wahrscheinlichkeit von den Ratenparametern   und   der Exponentialverteilungen abhängt.

Beziehung zur Area under the ROC curve

Bearbeiten

Der Wilcoxon-Mann-Whitney-Effekt   steht in direkter Beziehung zur Fläche unter der ROC-Kurve (AUC)[5], die häufig zur Bewertung der Leistungsfähigkeit von Modellen oder der Güte diagnostischer Tests verwendet wird. Die ROC-Kurve selbst wird durch die Sensitivität (True Positive Rate) und den Komplementärwert zur Spezifität (1 - Spezifität, also die False Positive Rate) bei verschiedenen Schwellenwerten des Klassifikators definiert. Die Fläche unter dieser Kurve (AUC) ist somit ein aggregiertes Maß für die Modellleistung oder diagnostischen Güte über alle möglichen Schwellenwerte hinweg. Die AUC misst die Wahrscheinlichkeit, dass ein zufällig ausgewählter positiver Fall einen höheren Score erhält als ein zufällig ausgewählter negativer Fall. Sie ist direkt mit dem Mann-Whitney-Effekt verbunden,

 

Schätzung des Effekts

Bearbeiten

Der Wilcoxon-Mann-Whitney-Effekt kann durch eine U-Statistik geschätzt werden. Gegeben seien zwei unabhängige Stichproben   und  , die aus zwei Verteilungen stammen. Die U-Statistik zur Schätzung des Effekts lautet:

 .

Hierbei ist   eine Indikatorfunktion (Zählfunktion), die die Werte 1, 1/2, oder 0 annimmt, wenn  , oder   gilt.

Eine äquivalente Methode zur Schätzung von θ verwendet die Ränge der gepoolten Stichproben. Dazu werden die Stichproben  und   zusammengeführt und die Ränge  und   (Mid-Ranks) innerhalb der kombinierten Stichprobe bestimmt. Der Schätzer kann dann als normierte Differenz der Rangmittelwerte angegeben werden:

  wobei   das Mittel der Ränge der X-Stichprobe,   das Mittel der Ränge der Y-Stichprobe darstellt und   die Gesamtanzahl an Beobachtungen (Fallzahl der kombinierten Stichprobe) darstellt. Diese Formel zeigt, dass der Unterschied in den Rangmittelwerten zwischen den beiden Gruppen die stochastische Dominanz der Verteilungen reflektiert. Dieser Schätzer ist erwartungstreu und konsistent[1].

Anwendungsgebiete

Bearbeiten

Der Wilcoxon-Mann-Whitney-Effekt wird verwendet, um Unterschiede zwischen zwei Gruppen zu quantifizieren, ohne dass dabei eine Normalverteilung der Daten angenommen werden muss. Typische Anwendungsgebiete umfassen:

  • Medizin: Vergleich der Wirksamkeit von Medikamenten wenn die Resultate nicht normalverteilt sind und in Diagnosestudien zur Bewertung der diagnostischen Güte[6].
  • Sozialwissenschaften: Analyse von Umfragedaten, die auf ordinalen Skalen erhoben werden (z. B. Zufriedenheitsbewertungen).
  • Wirtschaft: Untersuchung von Einkommensverteilungen zwischen verschiedenen Bevölkerungsgruppen.

Vorteile

Bearbeiten
  • Intuitive Interpretation: Da der Effekt als Wahrscheinlichkeit angegeben wird, ist er leicht verständlich.
  • Robustheit: Der Effekt ist robust gegenüber Ausreißern und nicht auf eine bestimmte Verteilungsform angewiesen.
  • Keine Annahmen über Verteilung: Der Test ist nicht-parametrisch und daher bei ordinalen oder nicht normalverteilten Daten anwendbar.

Einschränkungen

Bearbeiten
  • Schwache Effekte schwer zu interpretieren: Wenn der Effektwert nahe 0,5 liegt, kann es schwierig sein, daraus eine klare Schlussfolgerung zu ziehen, insbesondere bei kleinen Stichproben.
  • Keine Aussagen über Varianzen: Der Test sagt nichts über die Streuung oder Form der Verteilung, sondern nur über die mittleren Tendenzen.

Mehrstichprobenfall

Bearbeiten

Im Mehrstichprobenfall wird der Mann-Whitney-Effekt erweitert, um Unterschiede zwischen mehreren Gruppen oder Stichproben zu bewerten. Sei a die Anzahl der Gruppen, und   die Stichproben der i-ten Gruppe mit   Beobachtungen in der i-ten Gruppe. Der relative Effekt  für die i-te Gruppe gibt die Wahrscheinlichkeit an, dass eine zufällig gezogene Beobachtung aus einer mittleren Stichprobe kleiner oder gleich einer zufällig gezogenen Beobachtung aus der i-ten Gruppe ist. Im Mehrstichprobenfall kann der Effekt auf unterschiedliche Art und Weise mit verschiedenen Gewichtungen definiert werden. Am bekanntesten sind der gewichtete und der ungewichtete relative Effekt.

Der gewichtete relative Effekt

Bearbeiten

Der gewichtete relative Effekt wird für die i-te Gruppe folgendermaßen definiert[7]:

 

Hierbei ist   die Gesamtzahl der Beobachtungen über alle Gruppen ist. Im Grunde genommen liegt der gewichtete relative Effekt allen klassischen Rangtests zu Grunde, z. B. dem Kruskal-Wallis Test. Der Effekt selbst hängt von den Stichprobenumfängen ab. Die Formulierung von Hypothesen in den gewichteten Effekten eignet sich daher nur bedingt.[4]

Der gewichtete relative Effekt kann leicht mit den Rängen der Daten geschätzt werden: Es sei   den Rang (Mid-Rank) von   unter allen N Beobachtungen. Ein erwartungstreuer und konsistenter Schätzer von   ist

 

wobei   den Mittelwert der Ränge in der i-ten Stichprobe bezeichnet.

Der ungewichtete relative Effekt

Bearbeiten

Der ungewichtete relative Effekt wird für die i-te Gruppe folgendermaßen definiert:[8]

 

Im Gegensatz zum gewichteten relativen Effekt hängt der ungewichtete relative Effekt nicht von den Stichprobenumfängen ab und eignet sich zum Testen von Hypothesen.[9] Der ungewichtete relative Effekt kann leicht mit den Pseudo-Rängen der Daten geschätzt werden: Es sei   der Pseudo-Rang von   unter allen N Beobachtungen. Ein erwartungstreuer und konsistenter Schätzer für   ist

 

wobei   den Mittelwert der Pseudo-Ränge in der i-ten Stichprobe bezeichnet.[9]

Software

Bearbeiten

Wahre Mann-Whitney Effekte können leicht numerisch mit einer Vielzahl verschiedener Software Programme berechnet werden, wenn die unterliegenden Verteilungen bekannt sind. Falls die Verteilungen stetig sind, können die Effekte mit der Funktion integrate berechnet werden. Beispielsweise kann der Mann-Whitney Effekt von   und   leicht in R berechnet werden:

integrand <- function(x) {pnorm(x,0,1)*dchisq(x,0.5)}
integrate(integrand, lower = -Inf, upper = Inf)

Sind die Verteilungen nicht stetig, z. B. im Fall von diskreten Daten, können die Effekte simulationsbasiert berechnet werden. Der Mann-Whitney Effekt von   und   kann aus einer sehr hohen Zahl zufälliger Werte aus den entsprechenden Verteilungen berechnet werden:

x<-rpois(1e6,1)
y<-rpois(1e6,3)
N<-1e6 +1e6
rxy <- rank(c(x,y))
theta <- 1/N*(mean(rxy[(1e6+1):N]) - mean(rxy[1:1e6]))+1/2
theta

Des Weiteren werden die Effekte beispielsweise in den Paketen nparcomp[10] und rankFD[11] geschätzt.

Referenzen

Bearbeiten
  1. a b Edgar Brunner, Ullrich Munzel: The Nonparametric Behrens-Fisher Problem: Asymptotic Theory and a Small-Sample Approximation. In: Biometrical Journal. Band 42, Nr. 1, Januar 2000, ISSN 0323-3847, S. 17–25, doi:10.1002/(SICI)1521-4036(200001)42:1<17::AID-BIMJ17>3.0.CO;2-U (wiley.com [abgerufen am 13. September 2024]).
  2. Olivier Thas, Jan De Neve, Lieven Clement, Jean-Pierre Ottoy: Probabilistic Index Models. In: Journal of the Royal Statistical Society Series B: Statistical Methodology. Band 74, Nr. 4, 1. September 2012, ISSN 1369-7412, S. 623–671, doi:10.1111/j.1467-9868.2011.01020.x (oup.com [abgerufen am 13. September 2024]).
  3. Tulika Rudra Gupta, Markus Pauly, Somesh Kumar: Estimation of a New Stress Strength Index for One Parameter Exponential Family. In: IEEE Transactions on Reliability. Band 72, Nr. 4, Dezember 2023, ISSN 0018-9529, S. 1466–1477, doi:10.1109/TR.2022.3233897 (ieee.org [abgerufen am 13. September 2024]).
  4. a b Edgar Brunner, Frank Konietschke, Arne C. Bathke, Markus Pauly: Ranks and Pseudo‐ranks—Surprising Results of Certain Rank Tests in Unbalanced Designs. In: International Statistical Review. Band 89, Nr. 2, August 2021, ISSN 0306-7734, S. 349–366, doi:10.1111/insr.12418 (wiley.com [abgerufen am 13. September 2024]).
  5. Donald Bamber: The area above the ordinal dominance graph and the area below the receiver operating characteristic graph. In: Journal of Mathematical Psychology. Band 12, Nr. 4, 1. November 1975, ISSN 0022-2496, S. 387–415, doi:10.1016/0022-2496(75)90001-2 (elsevier.com [abgerufen am 13. September 2024]).
  6. Jorg Kaufmann, Carola Werner, Edgar Brunner: Nonparametric methods for analysing the accuracy of diagnostic tests with multiple readers. In: Statistical Methods in Medical Research. Band 14, Nr. 2, April 2005, ISSN 0962-2802, S. 129–146, doi:10.1191/0962280205sm392oa (sagepub.com [abgerufen am 13. September 2024]).
  7. Michael G. Akritas, Steven F. Arnold, Edgar Brunner: Nonparametric Hypotheses and Rank Statistics for Unbalanced Factorial Designs. In: Journal of the American Statistical Association. Band 92, Nr. 437, März 1997, ISSN 0162-1459, S. 258–265, doi:10.1080/01621459.1997.10473623 (tandfonline.com [abgerufen am 13. September 2024]).
  8. Rank and Pseudo-Rank Procedures for Independent Observations in Factorial Designs. doi:10.1007/978-3-030-02914-2 (springer.com [abgerufen am 13. September 2024]).
  9. a b Frank Konietschke, Ludwig A. Hothorn, Edgar Brunner: Rank-based multiple test procedures and simultaneous confidence intervals. In: Electronic Journal of Statistics. Band 6, none, Januar 2012, ISSN 1935-7524, S. 738–759, doi:10.1214/12-EJS691 (projecteuclid.org [abgerufen am 13. September 2024]).
  10. Frank Konietschke, Marius Placzek, Frank Schaarschmidt, Ludwig A. Hothorn: nparcomp : An R Software Package for Nonparametric Multiple Comparisons and Simultaneous Confidence Intervals. In: Journal of Statistical Software. Band 64, Nr. 9, 2015, ISSN 1548-7660, doi:10.18637/jss.v064.i09 (jstatsoft.org [abgerufen am 13. September 2024]).
  11. Frank Konietschke, Markus Pauly, Arne C. Bathke, Sarah Friedrich and Edgar Brunner: rankFD: An R Software Package for Nonparametric Analysis of General Factorial Designs. R-Project, abgerufen am 13. September 2024.