Diskussion:Kontingenzkoeffizient

Letzter Kommentar: vor 9 Monaten von Sigma^2 in Abschnitt Cramér's V
Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 7 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind.

Dabei ist n die Fallzahl...

Bearbeiten

Ja, und was ist eine Fallzahl? Wie kann die bestimmt werden?--141.113.86.94 10:44, 20. Okt. 2009 (CEST)Beantworten

Hallo, ich habe mal "Fallzahl" durch "Stichprobenumfang" ersetzt. Damit ist auch deine Frage hoffentlich beantwortet. Genauer wäre evtl. "Umfang der untersuchten Gesamtheit". Aber da diese in den meisten Fällen einer Stichprobe entspricht, denke ich, ist "Stichprobenumfang" der passendste und verständlichste Begriff. -- MM-Stat 14:12, 22. Okt. 2009 (CEST)Beantworten
Prima - Danke. --141.113.86.94 16:44, 26. Okt. 2009 (CET)Beantworten
»Stichprobenumfang« ist OK. Allerdings finde ich, dass das Wort »Fallzahl« auch nicht sonderlich schwer zu begreifen ist: die Anzahl der Fälle eben. Wenn Du 1358 Leute befragt hast, dann hast Du 1358 Fragebögen auf Deinem Schreibtisch liegen, jeder ein »Fall«. Das ist dann deine Fallzahl, das heißt Dein n = 1358. Wenn Du jetzt zwei Variablen kreuztabbellierst (die aus zwei Fragen des Fragebogens hervorgehen), dann kann es sein, dass einige Leute auf die eine oder die andere Frage (oder auf beide Fragen) nicht geantwortet haben. Diese Fälle fallen dann für die Kreuztabelle aus und Du hast dann evtl. eine kleinere Fallzahl in der Kreuztabelle (unten rechts in der Ecke) als Du Leute befragt hast. Zum Aufbau einer Kreuztabelle siehe hier: http://de.wiki.x.io/wiki/Kreuztabelle#Aufbau_und_Anwendung. Viele Grüße --Jake2042 (Diskussion) 04:54, 2. Aug. 2013 (CEST)Beantworten

Ende 2019 ist überhaupt nicht erkennbar was n_i sein soll. Checken Leute nicht, dass ein Text der Form "a b c d e"
sinnfrei ist ohne a=Du b=kannst c=dies d=nicht e=verstehen ? --Moritzgedig (Diskussion) 16:51, 11. Dez. 2019 (CET)Beantworten

Ich finde nicht, dass Stichprobenumfang eine Verbesserung ist. Die Maßzahl wird auch verwendet, um Zusammenhänge in der deskriptiven Statistik zu beschreiben. Da gibt es keine Stichprobe. --Sigma^2 (Diskussion) 23:37, 16. Jan. 2024 (CET)Beantworten
Es geht um die Anzahl der beobachteten Werte. In der Biometrie spricht man häufig von Fällen. Wenn man Fallzahl verwendet, muss es (richtig) verlinkt werden oder erklärt werden.--Sigma^2 (Diskussion) 23:40, 16. Jan. 2024 (CET)Beantworten

Cramér's V

Bearbeiten

Wenn Cramérs V eine eine symmetrische Maßzahl für die Stärke des Zusammenhangs zwischen zwei oder mehr nominalskalierten Variablen, wenn (mindestens) eine der beiden Variablen mehr als zwei Ausprägungen hat ist, warum darf man das dann offenbar trotzdem für 2x2 Tabellen rechnen? --Sineuve 10:02, 11. Mai 2010 (CEST)Beantworten

Der Satz ist vielleicht etwas missverständlich. Er heißt nur, dass Cramérs V bei Vierfeldertafeln identisch mit Phi ( ) ist. Das liegt an der Definition. Bei   gilt:
 
Also: selbstverständlich kannst Du Cramérs V auch auf Vierfeldertafeln anwenden. Nur ist V dann identisch mit  , und für   gibt es neben der Definitionsformel:
 
auch noch eine Formel, mit der sich   direkt aus den Zellenhäufigkeiten der vier Felder bestimmen lässt:
 
Das ist schlicht einfacher zu berechnen. Viele Grüße --Jake2042 (Diskussion) 04:18, 2. Aug. 2013 (CEST)Beantworten
So einfach ist es nicht. Nach der ersten Formel ist  , nach der zweiten Formel ist  . Es gilt  .--Sigma^2 (Diskussion) 19:33, 17. Jan. 2024 (CET)Beantworten

Cramérs V Interpretation

Bearbeiten

"Bereits ein Cramérs V größer 0,3 gilt in den Sozialwissenschaften als bedeutsamer Zusammenhang." kann so nicht stehenbleiben. Es ist nicht nachvollziehbar, was ein "bedeutsamer" Zusammenhang sein soll, es fehlt eine Quellenangabe, und diese wie die nachfolgenden Zahlen sind nur gültig für Vierfeldertafeln. Was wiederum nicht so spannend ist, da das mit Phi in eins fällt.--Kjalarr 10:27, 23. Sep. 2011 (CEST)Beantworten

Cohens w = Phi?

Bearbeiten

Nach der im Artikel angegeben Formel scheint Cohens Effektstärke   mit   identisch zu sein. Zunächst gilt:

 
 
 
 
 
 

Wenn jetzt (nach der Formel im Artikel)

 

ist, dann ergibt sich:

 

oder?   kann bei Kreuztabellen, die größer als 2-mal-2-Tabellen (Vierfeldertafeln) sind, aber größer als 1 werden. Was sagt mir also Cohens  ? Soll das heißen, dass   nur für Vierfeldertafeln definiert und in diesem Fall identisch mit   ist?

Eigentlich ist die Effektstärke so definiert:

 

Das lässt sich hier: http://de.wiki.x.io/wiki/Effektst%C3%A4rke nachlesen. Cohens   wird in demselben Wikipedia-Artikel auch erwähnt, nämlich hier: http://de.wiki.x.io/wiki/Effektst%C3%A4rke#Cramers_.2C_Cramers_V_und_Cohens. Allerdings wird nur gesagt, Cramérs V könne auch als Maß für die Effektstärke herangezogen werden und dann (nachdem auf die Identität von V und   bei Vierfeldertafeln hingewiesen worden ist) die Definitionsformel für Cohens   gebracht. Was uns das jetzt aber sagen will und was das mit der weiter oben in demselben Artikel erläuterten Effektstärke zu tun hat, wird nicht erklärt. Auch in diesem Artikel kommt Cohens   recht unvermittelt und es ist (jedenfalls mir) weder klar, was das eigentlich überhaupt sagen soll, noch, warum das jetzt in diesem Artikel an diesem Platz steht. Mit einigen Fragezeichen im Kopf grüßt --Jake2042 (Diskussion) 06:45, 2. Aug. 2013 (CEST)Beantworten

OK, das folgende Dokument schafft Klarheit: http://www.uni-saarland.de/fak5/excops/download/POWER.pdf. Cohens   wird hier im Zusammenhang mit dem Nutella-Beispiel auf Seite 6 eingeführt (Das Beispiel ist komplett erfunden und die Wahrscheinlichkeiten sind auch unrealistisch hoch). Wir gehen aufgrund der fiktiven XY-Studie davon aus, dass es in der Gesamtbevölkerung eine Wahrscheinlichkeit von 34 % gibt, Nutella zu kaufen (Das entspricht einer Gegenwahrscheinlichkeit von 66 % in der Gesamtbevölkerung, Nutella nicht zu kaufen). Zugleich gehen wir davon aus, dass es in der Gesamtbevölkerung 50 % Männer und 50 % Frauen gibt, das heißt, die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person männlich bzw. weiblich ist, bei jeweils 50 % liegt. Die Gesamtbevölkerung selbst ist 1 oder 100 % des ganzen Kuchens. Von diesen Randverteilungen ausgehend berechnen wir jetzt die erwarteten Wahrscheinlichkeiten in den einzelnen Zellen. Das führt dann zu der folgenden Indifferenztabelle:
Nutella-Konsum Geschlecht Gesamt
m w
Ja 0,17 0,17 0,34
Nein 0,33 0,33 0,66
Gesamt 0,50 0,50 1,00
Nun bringen wir (beispielsweise durch eine neue Studie) in Erfahrung, dass die Wahrscheinlichkeit bei Männern, Nutella zu kaufen, bei 40 % liegt (bedingte Wahrscheinlichkeit). Bei selbstverständlich gleichbleibenden Randverteilungen ergibt sich daraus zwingend (weil Vierfeldertafeln nur einen Freiheitsgrad haben) die folgende Kontingenztabelle:
Nutella-Konsum Geschlecht Gesamt
m w
Ja 0,20 0,14 0,34
Nein 0,30 0,36 0,66
Gesamt 0,50 0,50 1,00
Cohens   wird nun so berechnet, dass zunächst bezogen auf die erwarteten und beobachteten Wahrscheinlichkeiten   berechnet und dann aus diesem Wert die Wurzel gezogen wird:
 
Dabei ist   die Anzahl der Kategorien der Spaltenvariable,   die Anzahl der Kategorien der Zeilenvariable,   die beobachtete Wahrscheinlichkeit in der Zelle i.j und   die erwartete Wahrscheinlichkeit in der Zelle i.j. Zur Berechnung von   siehe auch Benninghaus 1989, ab Seite 100. Wichtig ist nun, dass es hier nicht um erwartete und beobachtete Häufigkeiten, sondern um erwartete und beobachtete Wahrscheinlichkeiten geht. Bei dieser Art von Kreuztabellen steht an der Stelle, an der normalerweise die Fallzahl zu finden ist, immer eine 1 (nämlich 100 % vom Ganzen).   ist jetzt definiert als:
 
Wird   auf Tabellen angewandt, die keine Häufigkeiten, sondern Wahrscheinlichkeiten enthaten, dann ist immer n = 1 und es ergibt sich:
 
Allerdings sind sowohl   als auch Cramérs V – anders als Cohens   – eigentlich als Zusammenhangsmaße für Tabellen gedacht, die absolute Häufigkeiten enthalten. Nur dann ist auch die Aussage sinnvoll, dass   bei Kreuztabellen, die größer als Vierfeldertafeln sind, größer als 1 werden kann. Viele Grüße --Jake2042 (Diskussion) 18:14, 2. Aug. 2013 (CEST)Beantworten

Literatur

Bearbeiten

Benninghaus, Hans, (6)1989: Statistik für Soziologen 1. Deskriptive Statistik. (= Teubner Studienskripten 22) Stuttgart: Teubner

Inkonsistenz beim chi^2-Koeffizient

Bearbeiten

In der Definition von chi^2 laufen die Summen bis I und J. Bei der Abschätzung von chi^2 werden dann aber k und m für die Anzahlen der Zeilen und Spalten der Kontingenztabelle verwendet. Sollte das nicht vereinheitlicht werden? (nicht signierter Beitrag von 77.5.189.12 (Diskussion) 11:34, 3. Okt. 2016 (CEST))Beantworten

Hab mal versucht, das zu vereinheitlichen. Danke für den Hinweis. -- HilberTraum (d, m) 12:35, 3. Okt. 2016 (CEST)Beantworten

Abschnitt 'Phi als Maß für die Effektstärke'

Bearbeiten

Im zweiten Teil des Abschnitts (nach der Formel) steht ein unvollständiger Satz („Zu Cohens w.[6] und[7]“). Was soll damit ausgedrückt werden? Direkt danach folgt ein Satz, der keinen Sinn ergibt („Ebenfalls numerisch identisch ist es, wenn in Bezug auf Kreuztabellen, die Wahrscheinlichkeiten enthalten, als v*√k-1 mit k=min(I,J) berechnet wird“). Kurz: Identisch ist es, wenn als Formel A mit Formel B berechnet wird. --> Was berechnet wird? Ich streiche die beiden Sätze mal. Gerne dürfen sie vervollständigt und wieder eingefügt werden.--Kernpanik (Diskussion) 09:03, 2. Mai 2022 (CEST)Beantworten

Maximalwert für Konfidenzkoeffzient

Bearbeiten

In der Diskussion zum Artikel Zusammenhangsmaße wurde der Maximalwert für den unkorrigierten Konfidenzkoeffizenten problematisiert. Ich habe die entsprechende Frage aus dem Jahr 2007 hierher kopiert.--Sigma^2 (Diskussion) 00:21, 17. Jan. 2024 (CET)Beantworten

Die maximale Größe des unkorrigierten Kontingenzkoeffizenten lässt sich meines Wissens nur für quadratische Tabellen exakt berechnen. Wenn mit   die Anzahl der Spalten bzw. Zeilen (das ist bei quadratischen Tabellen ja identisch) bezeichnet wird, dann ist:

 

Wenn mit r die Anzahl der Zeilen und mit c die Anzahl der Spalten angegeben wird, dann steht im Artikel als Höchstwert für nicht-quadratische Tabellen:

 

Dieselbe Formel habe ich auch anderswo im Web gefunden (Link-Text). In meinen Statistik-Büchern steht allerdings als Formel für den Höchstwert für nicht-quadratische Tabellen:

 

Quellen:

  • Hans Benninghaus, 1989: Statistik für Soziologen 1: Deskiptive Statistik. ( = Teubner Studienskipten zur Soziologie 22), Stuttgart: Teubner, Seiten 112 bis 116 (insbesondere 116)
  • Günther Claus und Ebner, Heinz, 1968: Grundlagen der Statistik für Psychologen, Pädagogen und Soziologen. Berlin (DDR): Volk und Wissen, Seiten 260 bis 264 (insbesondere 263)
  • Monka, Michael und Werner Voß,  2002: Statistik am PC. Lösungen mit Excel. München und Wien: Hanser, Seiten 197 bis 200 (insbesondere 200)

Die obere Formel führt bei nicht-quadratischen Tabellen grundsätzlich zu einem niedrigeren Wert für   als die untere Formel, während die Werte bei quadratischen Tabellen identisch sind. Da der korrigierte Kontingenzkoeffizient (im Prinzip auch nach dem Artikel) so berechnet wird:

 

ist er nach obiger Formel bei nicht-quadratischen Tabellen größer als nach der unteren. Dass beide Formeln den Maximalwert des Kontingenzkoeffizienten bei nicht-quadratischen Tabellen nur schätzen, ist schon klar. Welche sollte nun aber genommen werden? -- Jake2042 00:27, 4. Apr. 2007 (CEST)Beantworten

Nur eine der beiden angegebenen Formeln kann richtig sein. Hier [1] ist die Antwort. --Sigma^2 (Diskussion) 00:21, 17. Jan. 2024 (CET)Beantworten