Diskussion:Multidimensionale Skalierung
Welche Bedeutung hat die MDS heute?
BearbeitenÜberarbeitung
BearbeitenDer Artikel braucht dringend eine Überarbeitung, es fehlen:
- Erklärung der Verfahren (insbesondere metrische Skalierung)
- Verständlichkeit (Beispiele), (x,y)-Koordinaten aus der MDS-Konfiguration stimmen nicht mit (x,y)-Koordinaten in der Stress-Berechnung überein
- Vereinheitlichung der Begriffe
- Formatierung
Jede Hilfe ist willkommen :) -- Sigbert 08:15, 6. Feb. 2010 (CET)
Defekter Link im Einzelnachweis 3
Bearbeitender Link 3 im Abschnitt Einzelnachweise verweist auf eine Viagra- und Cialis Werbeseite (nicht signierter Beitrag von 91.66.168.147 (Diskussion) 09:51, 6. Okt. 2012 (CEST))
Fehler in Formel
BearbeitenIch erhalte für (3.1866 + 1.9041 + 1.1428 + 1.4483 + 2.1096)/5 = 1.95828 und nicht 1.9447. (nicht signierter Beitrag von 82.220.1.196 (Diskussion) 08:43, 16. Jul 2013 (CEST))
Besseres Beispiel - mit WP Eintrag
BearbeitenWas bringt ein Beispiel, wenn es kein Wikipedia eintrag hat?? (nicht signierter Beitrag von 87.156.135.222 (Diskussion) 20:59, 19. Mär. 2016 (CET))
Bessere Beispielberechnung / Fehlerhaftes Beispiel !
BearbeitenIch habe grade versucht das Beispiel unter 2.2 per Hand (bez. Computer) zu berechnen, kriege aber völlig andere Werte...Habe den Algorithmus unter 2.1 benutzt. Dies ist auch nicht wirklich sinn der Sache... (nicht signierter Beitrag von 217.95.207.104 (Diskussion) 22:06, 21. Mär. 2016 (CET))
Bestätigung (--165.225.72.235 19:00, 26. Jun. 2019 (CEST)):
Sowohl in der Statistikumgebung R als auch in Matlab erhalte ich Werte die von der Tabelle auf Wikipedia abweichen. Eine Skalierung / Spiegelung führt ebenfalls zu keiner Übereinstimmung.
Meine Ergebnisse (die selbstverständlich skaliert und gespiegelt werden dürfen):
X | Y |
---|---|
-203,186 | 269,505 |
147,736 | -148,064 |
-353,996 | -32,031 |
15,786 | -265,942 |
393,660 | 176,531 |
Das Beispiel wird in Abschnitt 3.1.2 ad absurdum geführt, steht dort doch tatsächlich, dass Hamburg von Berlin weiter (3,0824) entfernt ist als München (1,4483) und Frankfurt noch sehr viel weiter (3,1866)... Wenn wenigstens bei Frankfurt irgendwas um 1,9 bis 2,4 stehen würde, dann könnte die Distanz als "Nähe" interpretiert werden, aber das trifft eben auch nicht zu. Die größte Entfernung im Beispiel (München-Hamburg) hat den Wert 2,1. Wie passt das zusammen?
Fazit: Ein Beispiel einzuführen das inhaltlich falsch ist und sich nicht durch den Artikel in korrekter Weise durchzieht wie ein roter Faden (selbe Zahlenwerte), ist sinnlos und keine Hilfe beim Verständnis des MDS-Verfahrens. Sollten Zwischenschritte des Verfahrens zu diesen "nicht nachvollziehbaren Werten" (Abschnitt 3.1.2) führen, dann sollten diese Zwischenschritte in einer zusammenklappbaren Box oder wenigstens hier in der Diskussion erklärt werden.
Eine Reaktion - egal welcher Art - wäre sehr hilfreich. Vielen Dank im voraus.
Erklärung für maximale Dimensionsanzahl gewünscht
Bearbeiten„Die Lösung der multidimensionalen Skalierung, die sogenannte Konfiguration, wird meist in zwei oder drei Dimensionen geschätzt, was die Interpretierbarkeit erleichtert. Prinzipiell kann die Konfiguration für n Objekte in einem bis zu (n-1)-dimensionalen Raum bestimmt werden“.
Auch wenn hier so ein Bisschen durch die Blume schon steht, dass das nicht ganz einfach ist, kann dennoch jemand versuchen zu erklären, wie man sich die Projektion von n Objekten auf n-1 Dimensionen vorstellen kann? Ich bin zunächst so weit gekommen: Unabhängig davon, wie viele Eigenschaften die Daten haben, werden nur die Ähnlichkeiten der einzelnen Beobachtungen zueinander betrachtet. Dadurch scheint sich die MDS beispielsweise von der Hauptkomponentenanalyse (PCA) zu unterscheiden. Wenn man also beispielsweise 20 Leitungswasserproben hat, bei denen die Na-, Cl- und Ca-Konzentration bestimmt wurde, dann kann man diese zunächst in einem 3-dimensionalen Koordinatensystem darstellen (jede Probe wäre dann ein Punkt mit den Koordinaten (Na-Konz./ Cl-Konz./ Ca-Konz.)).
Bei der PCA könnten diese dann (analog zu dem dort gegebenen Schiffsbeispiel) auf 3, 2 oder 1 Dimensionen dargestellt werden, wobei 3 Dimensionen dasselbe wäre wie ursprünglich, bei 2 Dimensionen die stark korrelierten Na- und Cl-Dimensionen zusammengefasst würden (die neue Koordinatenachse würde einfach 45° auf den beiden ursprünglichen stehen) und auf einem eindimensionalen Strahl könnten die Daten kaum noch aussagekräftig dargestellt werden.
Bei der MDS würden eben zunächst beispielsweise euklidische Abstände zwischen den Punkten bestimmt. Diese in eine quadratische Matrix geschrieben. Und nun werden Punkte, die diese Abstände zueinander haben, in einem Koordinatensystem mit maximal n-1 Dimensionen dargestellt. Wie kommt es zu n-1 Dimesionen? Da ist die Punkteverteilung doch nicht eindeutig, oder? Wir setzen definitorisch einen Punkt immer in den Ursprung und die restlichen n-1 Punkte je auf eine Koordinatenachse:
2 Punkte mit 3 Längeneinheiten Abstand in einem 1-D-Koordinatensystem:
3 Punkte, A(a1, a2), B(b1, b2), C(c1, c2), in ein 2-D-Koordinatensystem mit :
5 Gleichungen für 6 Unbekannte
4 Punkte, A(a1, a2, a3), B(analog), C, D, in ein 3-D-Koordinatensystem mit
9 Gleichungen für 12 Unbekannte.
Stimmen meine Überlegungen? Wie kann man sich dann n-1 Dimensionen bei n Beobachtungen vorstellen?--Nix schlecht (Diskussion) 12:52, 28. Sep. 2016 (CEST)
Erklärte Varianz
BearbeitenIch würde mir auch eine Passage wünschen, in der erklärt wird, wie man den Anteil an der Gesamtvarianz des urprünglichen Datensatzes, den eine der neuen gefundenen Dimensionen erklärt, berechnet. (Ich weiß nicht, ob das verständlich war, dehalb noch ein Anlauf: Wie Anteil der erklärten Varianz durch die neuen Dimensionen berechnen?)--Nix schlecht (Diskussion) 13:13, 1. Nov. 2016 (CET)
- Ich habe das wieder mit der Hauptkomponentenanalyse durcheinander gebracht. In der MDS wird ja immer betrachtet, welcher Anteil der ursprünglichen Disparitäten durch die sich ergebenden Distanzen erklärt wird, wenn ich das richtig verstanden habe (vgl. Abschnitt R2, englischer Artikel, 6. Punkt unter Procedure). Oder lässt sich dennoch der Anteil der durch die neuen Dimensionen erklärten Varianz an der Varianz des urpsrünglichen Datensatzes bestimmen? Stehen diese beiden Varianzanteile (Korrelation der Disparitäten mit den Distanzen und Varianz der neuen Dimensionen als Anteil an ursprünglicher Varianz) in irgendeinem Verhältnis zueinander? Ist der quadrierte Pearson-Korrelationskoeffizient hier gleich dem Bestimmtheitsmaß der Statistik? Wenn ja, warum? Im Artikel zum Bestimmtheitsmaß steht, dass es dann identisch zum quadrierten Pearson-Korrelationskoeffizienten ist, wenn man beide Maße auf ein lineares Modell anwendet, dass mit "Ordinary Least Squares" angepasst wurde - aber das ist ja hier nicht passiert.
- Um jedoch wenigstens die Frage zu beantworten, von der man zunächst vermutet, ich hätte sie gestellt: Die Korrelation zwischen einer jeden MDS-Dimension und der ursprünglichen Disparitätenmatrix erhält man, wenn man mehrere MDS durchführt: Erst eine, die auf eine Dimension projiziert, dann eine, die auf zwei Dimensionen projiziert, eine auf drei usw. Dann erhält man im ersten Durchgang meinetwegen R² 0.89, im zweiten: R² 0.94, im dritten: R² 0.97 usw. Damit ist (wenn die Vermutung: Korrelation² = Anteil durch die Distanzen erklärter Varianz der Disparitäten stimmt) die durch die erste MDS-Dimension erklärte Varianz der Disparitäten 89 %, durch die zweite MDS-Dimension 5 %, durch die dritte 3 % usw.--Nix schlecht (Diskussion) 14:05, 1. Nov. 2016 (CET)
- Vielleicht noch das Folgende: Ich bin bei meiner Suche nach Antworten auf obige Fragen auch auf diesen Blogeintrag gestoßen, der meine Fragen großteils beantwortet, nur weiß ich nicht, inwieweit dieser Blogeintrag vertrauenswürdig ist. Daher hüte ich mich, die dort genannten Sachverhalte hier als „Antwort“ wiederzugeben. Ein erster Anhaltspunkt sind sie selbstverständlich dennoch und jemand, der sich mit der Materie auskennt, der aber keine Zeit findet, gleich den Artikel in gegebener Weise zu überarbeiten, kann womöglich kurz sagen, ob die Informationen dort stimmen.--Nix schlecht (Diskussion) 16:50, 1. Nov. 2016 (CET)
Torgerson oder Kruskal Urheber (sonst wird oftmals Torgerson genannt)
BearbeitenIch verstehe den Satz „Die multidimensionale Skalierung geht zurück auf den Psychologen Warren S. Torgerson (Veröffentlichungen 1952–1968). Die wichtigsten statistischen Verfahren sind die metrische bzw. die nicht metrische multidimensionale Skalierung nach Kruskal“ nicht ganz. Was hat Torgerson entwickelt, wenn kein statistisches Verfahren? Vielleicht würde auch eine Entwirrung der oftmals verwendeten Begriffe „klassische“, „Torgerson-“, „einfachste“, „metrische“ MDS weiterhelfen.--Nix schlecht (Diskussion) 13:42, 11. Jan. 2017 (CET)