Lesenswerte oder exzellente Artikel im Bereich Statistik in der Wikipedia
BearbeitenDas Benfordsche Gesetz, auch Newcomb-Benford's Law (NBL), zählt zu den universellen Verteilungsgesetzen der Stochastik. Es beschreibt eine fundamentale Gesetzmäßigkeit der Verteilung der Ziffernstrukturen der Zahlen in Datensätzen, zum Beispiel ihrer ersten Ziffern, seien es Datensätze über Einwohnerzahlen von Städten oder über Geldbeträge in der Buchhaltung, von Naturkonstanten oder Datensätze wissenschaftlicher Beobachtungen.
1881 wurde diese Gesetzmäßigkeit von dem Mathematiker Simon Newcomb entdeckt und im „American Journal of Mathematics“ publiziert. Er soll bemerkt haben, dass in den benutzten Büchern mit Logarithmentafeln die Seiten mit Tabellen mit Eins als erster Ziffer deutlich schmutziger waren als die anderen Seiten, weil sie offenbar öfter benutzt worden seien. Die Abhandlung Newcombs blieb unbeachtet und war schon in Vergessenheit geraten, als der Physiker Frank Benford (1883–1948) diese Gesetzmäßigkeit wiederentdeckte und darüber 1938 neu publizierte. ↪ zum Artikel
Das Bestimmtheitsmaß, auch Determinationskoeffizient (von lateinisch determinatio „Abgrenzung, Bestimmung“, bzw. determinare „eingrenzen“, „festlegen“, „bestimmen“ und coefficere „mitwirken“), ist in der Statistik eine wichtige Kennzahl zur formalen Beurteilung der Anpassungsgüte einer Regression. Das Bestimmtheitsmaß beruht auf der Streuungszerlegung, bei der die gesamte Variation der abhängigen Variablen in die (durch das Regressionsmodell) erklärte Variation und in die Variation der Residuen zerlegt wird. In der einfachen und multiplen linearen Regression ist das Bestimmtheitsmaß definiert als Verhältnis der „durch die Regression erklärten Variation“ zur „gesamten zu erklärenden Variation“ und zeigt, wie viel Variation in den Daten durch ein vorliegendes lineares Regressionsmodell „erklärt“ werden kann. ↪ zum Artikel
Die Methode der kleinsten Quadrate (bezeichnender auch: der kleinsten Fehlerquadrate; englisch: Least Squares Method) ist das mathematische Standardverfahren zur Ausgleichungsrechnung. Es ist eine Wolke aus Datenpunkten gegeben, die physikalische Messwerte, wirtschaftliche Größen usw. repräsentieren können. In diese Punktwolke soll eine möglichst genau passende, parameterabhängige Modellkurve gelegt werden. Dazu bestimmt man die Parameter dieser Kurve numerisch, indem die Summe der quadratischen Abweichungen der Kurve von den beobachteten Punkten minimiert wird. ↪ zum Artikel
Der RANSAC-Algorithmus (Random Sample Consensus, deutsch etwa „Übereinstimmung mit einer zufälligen Stichprobe“) ist ein Algorithmus zur Detektion von Ausreißern und groben Fehlern innerhalb einer Reihe von Messwerten. Er wurde 1981 von Martin A. Fischler und Robert C. Bolles vorgestellt. Oft liegen als Ergebnis einer Messung Datenpunkte vor, die physikalische Messwerte wie Druck, Entfernung oder Temperatur, wirtschaftliche Größen oder Ähnliches repräsentieren. In diese Punkte soll eine möglichst genau passende, parameterabhängige Modellkurve gelegt werden. Der RANSAC-Algorithmus erstellt mit Hilfe eines iterativen Verfahrens diese Modellkurve. ↪ zum Artikel
Die Varianz (lateinisch variantia für „Verschiedenheit“), veraltet auch Dispersion (lat. dispersio „Zerstreuung“, von dispergere „verteilen, ausbreiten, zerstreuen“) oder Streuung, ist die mittlere quadratische Abweichung einer reellen Zufallsvariablen von ihrem Erwartungswert. Sie ist das Quadrat der Standardabweichung, dem wichtigsten Streuungsmaß in der Stochastik. Die Varianz ist ein Maß für die Streuung der Wahrscheinlichkeitsdichte um ihren Schwerpunkt und kann physikalisch als Trägheitsmoment interpretiert werden. Mathematisch stellt die Varianz das zentrale Moment zweiter Ordnung einer Zufallsvariablen dar. ↪ zum Artikel