Als Fehlende Werte, Fehlender Wert, Ausfall/Ausfälle, Fehlende Daten, Missing Data, Missing Value bezeichnet man in der Statistischen Datenanalyse das Fehlen von Werten einer Variablen. Siehe auch Antwortausfall, Schweigeverzerrung und Selbstselektion.
Typen
BearbeitenUnit Nonresponse und Item Nonresponse
Zufälligkeitsgrade fehlender Daten in Regressionsmodellen[1][2]
Bevölkerungsumfragen
BearbeitenStichprobenneutrale Ausfälle
- Adresse falsch, umbewohnt, niemanden angetroffen
Stichprobenspezifische Ausfälle
- Verweigerung
Ursachen
BearbeitenIn Bevölkerungsumfragen gibt es unterschiedliche Gründe für das Fehlen einer Antwort:
- Frage wurde nicht wahrgenommen
- Frage wurde nicht verstanden
- Beschaffung der benötigten Information zu aufwendig oder Information nicht bereitstellbat (Weiß nicht)
- Frage oder Antwortmöglichkeiten treffen nicht zu ("trifft nicht zu") (Missing Data/ Missing Values) im engeren Sinne, system definiert fehlend, gefilterte Fragen aufgrund von Filterführung
- Verweigerung der Antwort ("keine Angabe")
- bei der Datenerfassung: Erfassungsfehler, Übertragungsfehler, unleserlich geschrieben, beim automatischen Einlesen nicht erkannt
- gelöschte Daten (Datenbereinigung): Außreißer, Datenfehler (z.B. falsche Angaben, Messfehler), Filterführung (Fragefilter),
Weitere:
- Bei Zeitreihen Brüche (nicht erfasste Jahre)
Umgang mit fehlenden Werten
Bearbeiten- Listenweiser Ausschluss (listwise)
- Fallweiser Ausschluss (casewise)
- Imputation fehlender Werte
Unterscheidung in Statistik-Software systemdefinierte vs. benutzerdefinierte fehlende Werte
Folgen
BearbeitenSystematischer Fehler Zufällige Abweichung
Schweigeverzerrung (non-response bias), z.B. insbesondere bei Sensitiven Fragen, Selektivität siehe auch Störfaktor
Siehe auch
Bearbeiten- NaN: Weiterhin werden NaNs eingesetzt, um fehlende Werte in Berechnungen darzustellen.
- Zensierte Daten: die Datensätze werden weggelassen und als fehlende Werte behandelt
- SYSTAT: erlaubt Analyse fehlender Werte