Inhaltsvalidität

Inhaltsvalidität (engl. content validity) bezeichnet in der multivariaten Statistik einen Teilaspekt der Konstruktvalidität und liegt vor, wenn die Messungen eines Konstrukts dessen Inhalt in all seinen Aspekten vollständig erfassen. Inhaltsvalidität schließt somit die Lücke zwischen einem gedanklich-theoretischen Konstrukt und dessen Messung durch eine aus Indikatoren bestehende Skala.

Beispiel

Eine Lehrerin möchte die Intelligenz ihrer Schüler mithilfe eines Tests messen. Intelligenz stellt hierbei somit das zu messende Konstrukt dar, der Test die Skala. Hierzu sieht sie drei Rechenaufgaben vor, die jeweils einen Indikator für Intelligenz darstellen sollen. Offensichtlich liegt mit einem solchen Test keine Inhaltsvalidität vor, da die Rechenfertigkeit nur einen Aspekt von Intelligenz darstellt. Um die Inhaltsvalidität zu erhöhen, wäre stattdessen zunächst eine Definition dessen notwendig, was Intelligenz überhaupt ist. Durch Gespräche mit Experten (etwa Intelligenzforschern) und eine Recherche in der Literatur über Intelligenz ließen sich nun Indikatoren für die verschiedenen Aspekte von Intelligenz finden. Ohne die Ausgewogenheit der Aspekte läge eine Diskrepanz zwischen Konstrukt und Messskala vor.

Feststellung

Inhaltsvalidität ist nur ein Baustein, um die Konstruktvalidität eines Konstruktes festzustellen. Weitere Bausteine sind Diskriminanzvalidität, Konvergenzvalidität und nomologische Validität.

Inhaltsvalidität lässt sich typischerweise nicht objektiv mit einer statistischen Kenngröße feststellen. John G. Wacker (2004) unterstreicht die Bedeutung formaler konzeptioneller Definitionen als wichtigsten Schritt, bevor irgendein traditioneller statistischer Validitätstest durchgeführt wird.^[1] Ein Konstrukt muss somit – etwa auf Basis einer Literaturrecherche oder auf Basis von Interviews mit Fachkundigen – definiert werden. Aufbauend auf der Definition lassen sich – wieder auf Basis von Literatur und Fachkundigen – mögliche Indikatoren für das Konstrukt identifizieren. Es gibt verschiedene Verfahren, mit denen ermittelt werden kann, ob jeder einzelne Indikator für sich oder die Indikatoren gemeinsam den Inhalt des Konstrukts in all seinen Aspekten vollständig erfassen oder ob eine einseitige Abweichung vom Konstrukt durch nicht berücksichtigte Aspekte vorliegt.

Lawshe-Verfahren

Ein bekanntes Verfahren zur Abschätzung der Inhaltsvalidität stammt von Lawshe (1975). Hierbei geht es um die Frage, inwieweit eine Gruppe von Experten (Juroren) sich darin einig ist, ob das durch einen Indikator gemessene Wissen „wesentlich“, „nützlich, aber nicht wesentlich“ oder „nicht notwendig“ für die Messung des Konstrukts ist. Als Kriterium für die Inhaltsvalidität gilt, dass mindestens die Hälfte der Juroren darin übereinstimmen müssen, dass der Indikator als „wesentlich“ eingestuft wird.^[2]

Moore-Benbasat-Verfahren

Ein weiteres bekanntes subjektives Verfahren, das neben Inhaltsvalidität auch andere Teilaspekte von Konstruktvalidität erfasst, wurde von Moore und Benbasat (1991) entwickelt. Hierbei ordnen Juroren auf Karteikarten vermerkte Indikatoren einerseits in selbst zu wählende und selbst zu benennende Kategorien (mithin zu Konstrukten) und andererseits in vorgegebene Kategorien ein. Cohens Kappa und die Indikatoreinordnungsrate (engl. item-placement ratio) werden dabei zur Ermittlung der Urteilerübereinstimmung herangezogen.^[3] Eine Erweiterung des Verfahrens kann darin bestehen, die Juroren jeweils zu bitten, möglicherweise noch fehlende Aspekte des Konstrukts zu identifizieren und Indikatoren zur Abdeckung dieser Aspekte zu formulieren.

Kritik

Die bloße Betrachtung von Konvergenzvalidität und Diskriminanzvalidität zur Feststellung von Konstruktvalidität wird vor allem durch John R. Rossiter kritisiert, indem er anführt, dass die Konstruktvalidität unabhängig von anderen Konstrukten erzielt werden müsse. Er betont die Bedeutung der Inhaltsvalidität und setzt sie sogar mit Konstruktvalidität gleich. So können Maßnahmen zur Verbesserung von Diskriminanz- und Konvergenzvalidität dazu führen, dass Indikatoren entfernt werden und sich die statistisch messbaren Eigenschaften der Messmodelle dadurch verbessern, sich die Messmodelle gleichzeitig aber vom semantischen Inhalt ihrer Konstrukte entfernen.^[4]

Insgesamt lässt sich feststellen, dass in der Vergangenheit Maßnahmen zur Definition eines Konstrukt und insbesondere zur Verbesserung der Inhaltsvalidität häufig nicht die notwendige Beachtung geschenkt wurde, während zur Verbesserung rein objektiver statistischer Gütekriterien wie Cronbachs Alpha oder der Anpassungsgüte eines Strukturgleichungsmodells oftmals auf Kosten der Inhaltsvalidität vorschnell Indikatoren gelöscht wurden. Objektive und subjektive Kriterien zur Sicherstellung der Konstruktvalidität müssen stattdessen Hand in Hand gehen. Insbesondere die Inhaltsvalidität muss dabei immer und immer wieder im Auge behalten werden, da auch ein am Anfang des Skalenentwicklungsprozesses durchgeführtes Verfahren wie das von Moore und Benbasat nicht verhindert, dass ein am Ende stattfindendes leichtfertiges Löschen („scale purification“) von Indikatoren im Zuge der Prüfung auf Konvergenzvalidität und Diskriminanzvalidität die Inhaltsvalidität wieder zerstört. Wenn Indikatoren aufgrund anderer Validitätstests oder der Reliabilität (z. B. Cronbachs Alpha) gelöscht werden müssen, dann müssen ausreichend viele Indikatoren für jeden inhaltlichen Aspekt eines Konstrukts übrig bleiben. Die übriggebliebenen Indikatoren müssen in ihrem Zusammenwirken das Konstrukt weiterhin trefflich messen. Dem Entwickler einer Skala bleibt somit häufig nichts anderes übrig als sowohl am Anfang als auch am Ende des Skalenentwicklungsprozesses die Inhaltsvalidität zu überprüfen.

Quellen

↑ Wacker, John G. (2004): A theory of formal conceptual definitions: developing theory-building measurement instruments. Journal of Operations Management, Vol. 22, No. 6, pp. 629-650, doi:10.1016/j.jom.2004.08.002.
↑ Lawshe, C. H. (1975): A quantitative Approach to Content Validity. Personnel Psychology, Vol. 28, pp. 563-575, doi:10.1111/j.1744-6570.1975.tb01393.x.
↑ Moore, Gary C.; Benbasat, Izak (1991): Development of an Instrument to Measure the Perceptions of Adopting an Information Technology Innovation. Information Systems Research, Vol. 2, No. 3, pp. 192-222, doi:10.1287/isre.2.3.192.
↑ Rossiter, John R. (2008): Content Validity of Measures of Abstract Constructs in Management and Organizational Research. British Journal of Management, Vol. 19, pp. 380–388, doi:10.1287/isre.2.3.192.

[1] Wacker, John G. (2004): A theory of formal conceptual definitions: developing theory-building measurement instruments. Journal of Operations Management, Vol. 22, No. 6, pp. 629-650, doi:10.1016/j.jom.2004.08.002.

[2] Lawshe, C. H. (1975): A quantitative Approach to Content Validity. Personnel Psychology, Vol. 28, pp. 563-575, doi:10.1111/j.1744-6570.1975.tb01393.x.

[3] Moore, Gary C.; Benbasat, Izak (1991): Development of an Instrument to Measure the Perceptions of Adopting an Information Technology Innovation. Information Systems Research, Vol. 2, No. 3, pp. 192-222, doi:10.1287/isre.2.3.192.

[4] Rossiter, John R. (2008): Content Validity of Measures of Abstract Constructs in Management and Organizational Research. British Journal of Management, Vol. 19, pp. 380–388, doi:10.1287/isre.2.3.192.

[1]

[2]

[3]

[4]